Les benchmarks NVIDIA Grace CPU Superchip montrent des performances 2,5x et un gain d’efficacité 3,5x par rapport aux processeurs AMD EPYC Milan

NVIDIA a récemment publié une analyse approfondie de sa nouvelle génération de processeurs Grace, qui offrirait jusqu’à 2,5 fois plus de performances que les processeurs AMD EPYC.

NVIDIA affiche jusqu’à 2,5 fois les performances et 3,5 fois le gain d’efficacité avec la superpuce Grace CPU par rapport à AMD EPYC Milan

NVIDIA a annoncé pour la première fois son processeur Grace et la conception respective de Superchip lors du GTC 2022. Le processeur Grace est le premier processeur de NVIDIA basé sur une architecture Arm personnalisée qui visera le segment serveur / HPC. Le processeur est disponible en deux configurations Superchip, un module Grace Superchip avec deux processeurs Grace et un Grace + Hopper Superchip avec un processeur Grace connecté à un GPU Hopper H100.

Certains des principaux points forts de Grace incluent:

  • Processeur haute performance pour HPC et cloud computing
  • Conception de super puce avec jusqu’à 144 cœurs de processeur Arm v9
  • Premier LPDDR5x au monde avec mémoire ECC, bande passante totale de 1 To/s
  • SPECrate2017_int_base sur 740 (estimation)
  • Interface cohérente de 900 Go/s, 7 fois plus rapide que PCIe Gen 5
  • 2 fois la densité de conditionnement des solutions DIMM
  • 2 fois les performances par watt des principaux processeurs actuels
  • Exécute toutes les piles et plates-formes logicielles NVIDIA, y compris RTX, HPC, AI et Omniverse
Caractéristiques de l’architecture NVIDIA Grace CPU Superchip
Architecture de baseCœurs Neoverse V2 : Armv9 avec 4x128b SVE2
Nombre de noyaux144
CacheL1 : 64 Ko I-cache + 64 Ko D-cache par cœur L2 : 1 Mo par cœur L3 : 234 Mo par superpuce
Technologie de mémoireLPDDR5X avec ECC, co-emballé
Mémoire brute BWJusqu’à 1 To/s
Taille mémoireJusqu’à 960 Go
Pic FP647.1 TFLOPS
PCI Express8 interfaces PCIe Gen 5 x16 ; possibilité de bifurquer la bande passante PCIe totale de 1 To/s. Connectivité PCIe basse vitesse supplémentaire pour la gestion.
Pouvoir500 W TDP avec mémoire, alimentation 12 V

En tant que premier processeur de serveur de NVIDIA, Grace comprend 72 cœurs Arm v9.0 qui prennent en charge SVE2 et diverses extensions de virtualisation telles que Nested Virtualization et S-EL2. Le processeur est fabriqué sur le nœud de processus 4N de TSMC, une version optimisée du nœud de processus 5 nm conçu exclusivement pour NVIDIA. La nouvelle architecture peut fournir jusqu’à 7,1 TFLOP de performances FP64 de pointe.

Grace est conçu pour être couplé et, à ce titre, l’un des aspects les plus cruciaux de la conception est son interconnexion C2C (Chip-To-Chip). Grace y parvient avec NVLINK qui est utilisé pour fabriquer les Superchips et supprime tous les goulots d’étranglement associés à une configuration typique entre sockets.

L’interconnexion C2C NVLINK fournit 900 Go/s de bande passante bidirectionnelle brute (même bande passante qu’un commutateur GPU à GPU NVLINK sur Hopper), tout en fonctionnant à une interface à très faible consommation de seulement 1,3 pJ/bit ou 5 fois plus efficace que le Protocole PCIe.

Le processeur NVIDIA Grace dispose d’une structure de cohérence évolutive avec une conception de cache distribué. La puce a jusqu’à 3,225 To/s de bande passante bi-section, est évolutive au-delà de 72 cœurs (144 sur Superchip), intègre 117 Mo de cache L3 par cœur ou 234 Mo par Superchip, et prend en charge le partitionnement et la surveillance de la mémoire Arm ( MPAM). Grace permet également une architecture de mémoire unifiée avec des tables de pages partagées. Deux Superchips NVIDIA Grace+Hopper peuvent être interconnectés via un NVSwitch et un processeur Grace sur un Superchip peut communiquer directement avec le GPU sur l’autre puce ou même accéder à sa VRAM à des vitesses NVLINK natives.

nvidia-grace-cpu-superchips-_-hot-chips-34-_9
nvidia-grace-cpu-superchips-_-hot-chips-34-_10

En examinant de plus près la conception de la mémoire de Grace, NVIDIA utilise jusqu’à 960 Go de LPDDR5X (ECC) sur 32 canaux, offrant jusqu’à 1 To/s de bande passante mémoire. NVIDIA déclare que LPDDR5X offre la meilleure valeur en gardant à l’esprit la bande passante globale, le coût et les besoins en énergie. Par exemple, par rapport à la DDR5, le sous-système LPDDR5X fournit 53 % de bande passante en plus à un huitième de la puissance par gigaoctet par seconde et à un coût similaire. De plus, la mémoire HBM2e aurait pu fournir plus de bande passante et d’efficacité, mais à un coût 3 fois supérieur.

Pour les E/S, vous disposez de 68 voies PCIe Gen 5.0, dont quatre peuvent être utilisées pour des liaisons x16 à 128 Go/s, et les deux autres sont utilisées pour MISC. Il existe également 12 voies de voies NVLINK cohérentes partagées avec deux liaisons Gen 5 PCIe x16.

En ce qui concerne le TDP, la super puce NVIDIA Grace (CPU uniquement) est optimisée pour les performances monocœur et offre jusqu’à 1 To/s de bande passante mémoire et un TDP de 500 W pour la configuration à double puce à 144 cœurs.

Les chiffres de performance présentés par NVIDIA placent le Grace CPU Superchip contre les processeurs AMD EPYC 7763 “Milan” à double socket (2P) sur diverses charges de travail HPC telles que OpenFOAM, WRF, NEMO et BWA. Dans OpenFOAM, le Grace CPU Superchip offre une augmentation incroyable des performances de 2,5x avec une efficacité jusqu’à 3,5x. En moyenne, la nouvelle puce Grace CPU Superchip de NVIDIA devrait être en mesure de fournir une augmentation des performances de 1,9x et une augmentation des performances par watt de 2,57x par rapport aux processeurs EPYC Milan d’AMD. Cela devrait également conduire à des performances compétitives par rapport aux dernières puces de serveur d’AMD et d’Intel.

NVIDIA Grace CPU Superchip vs processeurs AMD EPYC 7763 Milan :

Nous avons déjà mis les chiffres en perspective dans un précédent article que vous pouvez voir ci-dessous :

NVIDIA déclare que son Grace est un processeur hautement spécialisé ciblant des charges de travail telles que la formation de modèles NLP de nouvelle génération qui ont plus de 1 000 milliards de paramètres. Lorsqu’il est étroitement couplé aux GPU NVIDIA, un système basé sur le processeur Grace offrira des performances 10 fois plus rapides que les systèmes NVIDIA DGX à la pointe de la technologie, qui fonctionnent sur des processeurs x86.

Il sera certainement intéressant de voir comment les processeurs Grace se comparent aux puces x86, mais au moment de leur sortie, ils seront en concurrence avec les processeurs Genoa d’AMD et Sapphire Rapids d’Intel. Les processeurs NVIDIA Grace devraient être utilisés dans le supercalculateur ATOS, comme indiqué ici.

Nvidia aussi

Partagez cette histoire

Facebook

Twitter

Laisser un commentaire