21 248 processeurs Xeon et 63 744 GPU pour plus de 2 ExaFlops

Intel a enfin dévoilé les spécifications complètes du supercalculateur Aurora conçu pour le laboratoire national d’Argonne aux États-Unis.

Intel livre plus de 10 000 lames dotées de ses GPU Xeon et de centre de données de nouvelle génération pour alimenter le supercalculateur Aurora

Dans la dernière divulgation, Intel a révélé que le supercalculateur Aurora contiendrait un total de 10 624 nœuds, dont 21 248 processeurs Xeon gigantesques basés sur la famille Sapphire Rapids-SP et 63 744 GPU basés sur la conception Ponte Vecchio. Ce système sera une bête avec une interconnexion de tissu insensée qui offre une bande passante d’injection maximale de 2,12 PB/s et une bande passante de bissection maximale de 0,69 PB/s.

Argonne est le fer de lance d’une collaboration internationale pour faire avancer le projet, y compris Intel ; HPE ;
Laboratoires du Département de l’énergie ; universités américaines et internationales; les organismes à but non lucratif ; & international
partenaires, tels que RIKEN.

De plus, Intel et Argonne National Laboratory ont souligné la progression de l’installation, les spécifications du système et les premiers résultats de performances pour Aurora :

  • Intel a terminé la livraison physique de plus de 10 000 lames pour l’Aurora
    supercalculateur.
  • Le système complet d’Aurora, construit à l’aide de supercalculateurs HPE Cray EX, disposera de 63 744 GPU et de 21 248
    CPU et 1 024 nœuds de stockage DAOS. Et il utilisera le réseau Ethernet hautes performances HPE Slingshot.
  • Les premiers résultats montrent des performances de pointe sur les charges de travail scientifiques et techniques du monde réel, avec des performances jusqu’à 2 fois supérieures aux GPU AMD MI250, une amélioration de 20 % par rapport à H100 sur l’application de mécanique quantique QMPACK et une mise à l’échelle quasi linéaire jusqu’à des centaines de nœuds.

Aurora devrait offrir plus de 2 exaflops de performances de calcul à double précision de pointe lors de son lancement cette année.

par Intel

Pour la mémoire, le supercalculateur Aurora est équipé de 10,9 Po de DRAM système DDR5, de 1,36 Po de capacité HBM via les processeurs et de 8,16 Po de capacité HBM via les GPU. La DRAM système atteint une bande passante maximale de 5,95 Po/s, le CPU HBM atteint une bande passante maximale de 30,5 Po/s et le GPU HBM atteint une bande passante maximale de 208,9 Po/s. Pour le stockage, le système est équipé d’une capacité DAOS de 230 Po qui fonctionne à une bande passante maximale de 31 To/s et est configurée dans un total de 1024 nœuds.

Aurora exécutant le dernier processeur Intel Data Center GPU Max Series 1550 offre les performances SimpleFOMP les plus rapides, surclassant les accélérateurs NVIDIA A100 et AMD Instinct MI250X. Intel vante également des performances relatives impressionnantes par rapport à ces accélérateurs dans les prédictions du réacteur à fusion, les méthodes de Monte Carlo (maximisées) et QMCPACK (Computing Quantum Mechanical Properties).

Lors de la présentation spéciale d’Intel, McVeigh a souligné les derniers résultats de performance concurrentiels sur l’ensemble du matériel et a partagé une forte dynamique avec les clients.

  • La série Intel Data Center GPU Max surpasse la carte PCIe Nvidia H100 de 30 % en moyenne sur diverses charges de travail1, tandis que le fournisseur de logiciels indépendant Ansys affiche une accélération de 50 % pour le GPU Max Series par rapport à H100 sur les applications HPC accélérées par l’IA.
  • Le processeur Xeon Max Series, le seul processeur x86 doté d’une mémoire à bande passante élevée, présente une amélioration de 65 % par rapport au processeur Genoa d’AMD sur la référence HPCG (High Performance Conjugate Gradients)1, en utilisant moins d’énergie. Une bande passante mémoire élevée a été notée comme l’une des fonctionnalités les plus recherchées par les clients HPC.
  • Les processeurs Intel Xeon Scalable de 4e génération – les plus largement utilisés dans le HPC – offrent une accélération moyenne de 50 % par rapport au Milan4 d’AMD, et le tout dernier cluster Xeon HPC de 4e génération de la société d’énergie BP offre une augmentation de 8 fois les performances par rapport à ses processeurs de génération précédente avec une efficacité énergétique améliorée .
  • L’accélérateur d’apprentissage en profondeur Gaudi2 fonctionne de manière compétitive sur la formation et l’inférence d’apprentissage en profondeur, avec des performances jusqu’à 2,4 fois plus rapides que Nvidia A100.

par Intel

Partagez cette histoire

Facebook

Twitter

Laisser un commentaire