Ennan Zhai, ingénieur et chercheur d'Alibaba Cloud, a partagé son document de recherche via GitHub, révélant la conception du fournisseur de Cloud pour ses centres de données utilisés pour la formation LLM. Le document PDF, intitulé « Alibaba HPN : A Data Center Network for Large Language Model Training », décrit comment Alibaba a utilisé Ethernet pour permettre à ses 15 000 GPU de communiquer entre eux.
Le cloud computing général génère des flux de données cohérents mais petits avec des vitesses inférieures à 10 Gbit/s. D'un autre côté, la formation LLM produit des rafales périodiques de données pouvant atteindre 400 Gbit/s. Selon le document, « cette caractéristique de la formation LLM prédispose l'Equal-Cost Multi-Path (ECMP), le système d'équilibrage de charge couramment utilisé dans les centres de données traditionnels, à hacher la polarisation, provoquant des problèmes tels qu'une répartition inégale du trafic. »
Pour éviter cela, Zhai et son équipe ont développé le réseau haute performance (HPN), qui utilisait une « architecture à deux niveaux et à double plan » qui réduit le nombre d'occurrences ECMP possibles tout en permettant au système de « sélectionner avec précision les chemins réseau capables de retenir les flux d’éléphants. Le HPN a également utilisé deux commutateurs ToR (Top-of-Rack), ce qui leur a permis de se sauvegarder mutuellement. Ces commutateurs constituent le point de défaillance unique le plus courant pour la formation LLM, nécessitant que les GPU effectuent des itérations de manière synchronisée.
Huit GPU par hôte, 1 875 hôtes par centre de données
Alibaba Cloud a divisé ses centres de données en hôtes, un hôte étant équipé de huit GPU. Chaque GPU possède sa carte d'interface réseau (NIC) avec deux ports, chaque système GPU-NIC étant appelé « rail ». L'hôte obtient également une carte réseau supplémentaire pour se connecter au réseau backend. Chaque rail se connecte ensuite à deux commutateurs ToR différents, garantissant que l'ensemble de l'hôte ne soit pas affecté même en cas de panne d'un commutateur.
Malgré l'abandon de NVlink pour la communication entre hôtes, Alibaba Cloud utilise toujours la technologie exclusive de Nvidia pour le réseau intra-hôte, car la communication entre les GPU à l'intérieur d'un hôte nécessite plus de bande passante. Cependant, comme la communication entre les rails est beaucoup plus lente, les « 400 Gbit/s de débit réseau RDMA dédiés, résultant en une bande passante totale de 3,2 Tbit/s » par hôte, sont plus que suffisants pour maximiser la bande passante des cartes graphiques PCIe Gen5x16.
Alibaba Cloud utilise également un commutateur Ethernet ToR monopuce de 51,2 Tb/s, car les solutions multipuces sont sujettes à une plus grande instabilité, avec un taux de défaillance quatre fois plus élevé que les commutateurs monopuce. Cependant, ces commutateurs chauffent et aucun dissipateur thermique facilement disponible sur le marché ne pourrait les empêcher de s'éteindre en raison d'une surchauffe. L'entreprise a donc créé sa nouvelle solution en créant un dissipateur thermique à chambre à vapeur avec plus de piliers au centre pour transporter l'énergie thermique beaucoup plus efficacement.
Ennan Zhai et son équipe présenteront leurs travaux lors de la conférence SIGCOMM (Special Interest Group on Data Communications) à Sydney, en Australie, en août prochain. De nombreuses entreprises, dont AMD, Intel, Google et Microsoft, seraient intéressées par ce projet, principalement parce qu'elles se sont regroupées pour créer Ultra Accelerator Link, un ensemble interconnecté à standard ouvert destiné à concurrencer NVlink. Cela est d'autant plus vrai qu'Alibaba Cloud utilise le HPN depuis plus de huit mois, ce qui signifie que cette technologie a déjà été essayée et testée.
Cependant, le HPN présente encore certains inconvénients, le plus important étant sa structure de câblage complexe. Chaque hôte disposant de neuf cartes réseau et chaque carte réseau étant connectée à deux commutateurs ToR différents, il y a de nombreuses chances de confondre quelle prise va à quel port. Néanmoins, cette technologie est probablement plus abordable que NVlink, permettant ainsi à toute institution mettant en place un centre de données d'économiser beaucoup d'argent sur les coûts d'installation (et peut-être même d'éviter la technologie Nvidia, surtout s'il s'agit d'une des sociétés sanctionnées. par les États-Unis dans la guerre des puces en cours avec la Chine).