Alibaba Cloud abandonne l'interconnexion de Nvidia au profit d'Ethernet — le géant de la technologie utilise son propre réseau haute performance pour connecter 15 000 GPU à l'intérieur d'un centre de données

Ennan Zhai, ingénieur et chercheur d'Alibaba Cloud, a partagé son document de recherche via GitHub, révélant la conception du fournisseur de Cloud pour ses centres de données utilisés pour la formation LLM. Le document PDF, intitulé « Alibaba HPN : A Data Center Network for Large Language Model Training », décrit comment Alibaba a utilisé Ethernet pour permettre à ses 15 000 GPU de communiquer entre eux.

Le cloud computing général génère des flux de données cohérents mais petits avec des vitesses inférieures à 10 Gbit/s. D'un autre côté, la formation LLM produit des rafales périodiques de données pouvant atteindre 400 Gbit/s. Selon le document, « cette caractéristique de la formation LLM prédispose l'Equal-Cost Multi-Path (ECMP), le système d'équilibrage de charge couramment utilisé dans les centres de données traditionnels, à hacher la polarisation, provoquant des problèmes tels qu'une répartition inégale du trafic. »

Laisser un commentaire