Lors de son exposition au CES, AMD a présenté son dernier accélérateur Instinct MI325X pour les charges de travail IA et HPC, qui se trouve également être le seul processeur au monde à intégrer 256 Go de mémoire HBM3E et promet d'être l'un des GPU les plus efficaces pour l'inférence.
Bien que le Consumer Electronics Show soit destiné à présenter les produits électroniques les plus récents et les plus performants conçus pour les consommateurs, les fabricants de semi-conducteurs utilisent depuis longtemps le CES pour présenter les technologies qu'ils jugent adaptées au salon. Alors que Nvidia a consacré la majeure partie de son discours à l'IA, AMD a en fait présenté une gamme de processeurs pour les PC clients, mais cela ne signifie certainement pas que la société n'avait rien à montrer. En fait, il a présenté son tout nouvel Instinct MI325X.
L'Instinct MI325X d'AMD est livré avec le même GPU à double puce qui alimente l'Instinct MI300X et dispose de 19 456 processeurs de flux (304 unités de calcul) cadencés jusqu'à 2,10 GHz. Cependant, le nouvel accélérateur est équipé de 256 Go de mémoire HBM3E avec 6 To/s de bande passante, contre 192 Go de mémoire HBM3 avec 5,3 To/s de bande passante.
Comme le H200 de Nvidia est livré avec « seulement » 141 Go de mémoire HBM3E avec 4,8 To/s de bande passante, l'Instinct MI325X d'AMD est en tête du secteur en termes de capacité de mémoire HBM3E intégrée. Fait intéressant, AMD avait précédemment annoncé que le MI325X serait livré avec 288 Go de HBM3E, mais a ensuite décidé de réduire la capacité utilisable à 256 Go de mémoire pour une raison inconnue.
Avoir plus de mémoire embarquée est crucial pour les accélérateurs d’IA, tant pour la formation que pour l’inférence, du moins en théorie.
Les modèles d’IA modernes comportent généralement des dizaines de milliards de paramètres et nécessitent des dizaines de milliers de GPU pour la formation. Le stockage de ces paramètres, ainsi que des données intermédiaires et des gradients, nécessite une quantité importante de mémoire. Puisqu'aucun modèle de ce type ne rentre dans la mémoire embarquée d'un GPU, les développeurs doivent utiliser des techniques telles que le parallélisme de modèle ou le découpage tensoriel, qui ajoutent une surcharge de calcul et de communication. Avec plus de mémoire GPU, moins de GPU sont nécessaires pour la formation en raison de frais généraux moindres.
De plus, les accélérateurs d’IA traitent les données par lots. Une plus grande capacité de mémoire intégrée permet de traiter des lots plus importants, ce qui peut conduire à un débit plus élevé et à une formation et une inférence plus rapides et plus efficaces. Une mémoire plus petite oblige le modèle à s'exécuter avec des tailles de lots plus petites, ce qui réduit l'efficacité.
Cependant, les choses semblent quelque peu différentes dans le monde réel. Un système équipé de huit GPU Nvidia H100 de 80 Go génère un nombre comparable de jetons par seconde à une machine équipée de huit GPU AMD Instinct MI300X de 192 Go dans le benchmark d'IA générative MLPerf 4.1 sur le modèle Llama 2 70B, selon les données soumises par AMD et Nvidia. dès fin août. En revanche, un serveur à 8 voies doté de GPU H200 de 141 Go génère plus de 30 % de jetons en plus par seconde par rapport à une machine à 8 voies MI300X de 192 Go.
Pour l'instant, il semble que l'Instinct MI300X n'ait pas été en mesure (au moins en août) d'utiliser pleinement ses capacités matérielles, probablement en raison des limitations de la pile logicielle. Il reste à voir si l'Instinct MI325X surmontera les mêmes limitations de la pile logicielle et réussira à surpasser ses rivaux.