Cette semaine, la Fondation Linux a annoncé que le groupe supervisera la formation d’un nouveau consortium Ethernet, en mettant l’accent sur l’adaptation et le raffinement de la technologie pour les charges de travail de calcul haute performance. Soutenu par les membres fondateurs AMD, Arista, Broadcom, Cisco, Eviden, HPE, Intel, Meta et Microsoft, le nouveau consortium Ultra Ethernet travaillera à l’amélioration d’Ethernet pour répondre aux exigences de faible latence et d’évolutivité dont les systèmes HPC et IA ont besoin – et pour lesquelles le groupe affirme que la technologie Ethernet actuelle n’est pas tout à fait à la hauteur de la tâche.
La priorité absolue du nouveau groupe sera de définir et de développer ce qu’ils appellent le protocole UET (Ultra Ethernet Transport), un nouveau protocole de couche de transport pour Ethernet qui répondra mieux aux besoins de l’IA, puis des charges de travail HPC.
Ethernet est certainement l’une des technologies les plus omniprésentes, mais les demandes des clusters IA et HPC augmentent si rapidement que la technologie s’essoufflera à l’avenir. La taille des grands modèles d’IA augmente rapidement. Le GPT-3 a été formé avec 175 milliards de paramètres en 2020. Aujourd’hui, le GPT-4 accepte déjà un billion de paramètres. Les modèles avec le plus grand nombre de paramètres nécessitent des clusters plus grands, puis ces clusters envoient des messages plus volumineux sur le réseau. Par conséquent, plus la bande passante est élevée et la latence plus courte de ces réseaux, plus le cluster peut fonctionner efficacement.
« De nombreux utilisateurs de HPC et d’IA ont du mal à obtenir toutes les performances de leurs systèmes en raison des faiblesses des capacités d’interconnexion du système », a déclaré le Dr Earl Joseph, PDG d’Hyperion Research.
À un niveau élevé, le nouveau consortium Ultra Ethernet cherche à affiner Ethernet de manière chirurgicale, en améliorant et en modifiant uniquement les éléments nécessaires pour atteindre leurs objectifs. À ses débuts, le consortium cherche à améliorer à la fois les couches logicielles et physiques de la technologie Ethernet, mais sans modifier sa structure de base pour assurer la rentabilité et l’interopérabilité.
Les objectifs techniques du consortium comprennent le développement de spécifications, d’API et de code source pour définir des protocoles, des interfaces et des structures de données pour les communications Ultra Ethernet. En outre, le consortium vise à mettre à jour les protocoles de liaison et de transport existants et à créer de nouveaux mécanismes de télémétrie, de signalisation, de sécurité et de congestion pour mieux répondre aux besoins des grands clusters d’IA et de HPC. Pendant ce temps, étant donné que les charges de travail AI et HPC présentent un certain nombre de différences, UET aura des profils distincts pour les déploiements appropriés.
« Les charges de travail génératives de l’IA nous obligeront à concevoir nos réseaux pour l’échelle et les performances du supercalcul », a déclaré Justin Hotard, vice-président exécutif et directeur général, HPC et IA, chez Hewlett Packard Enterprise. « L’importance du consortium Ultra Ethernet est de développer une pile de communication Ethernet ouverte, évolutive et rentable qui peut prendre en charge ces charges de travail hautes performances pour s’exécuter efficacement. L’omniprésence et l’interopérabilité d’Ethernet offriront aux clients le choix et les performances nécessaires pour gérer une variété de charges de travail gourmandes en données, y compris les simulations, ainsi que la formation et le réglage des modèles d’IA.
Le Consortium Ultra Ethernet est hébergé par la Linux Foundation, bien que le vrai travail soit entrepris par ses membres. Entre AMD, Cisco, Intel et d’autres fondateurs, ces sociétés conçoivent toutes des CPU hautes performances, des GPU de calcul et une infrastructure réseau pour les charges de travail AI et HPC ou construisent des superordinateurs ou des clusters pour les applications AI et HPC, ont donc beaucoup d’expérience avec les technologies appropriées. Le travail de l’UEC devrait être mené par quatre groupes de travail qui travailleront sur la couche physique, la couche liaison, la couche transport et la couche logicielle.
Et bien que le groupe ne parle pas explicitement d’Ultra Ethernet par rapport à des technologies concurrentes, les membres du conseil fondateur – ou plutôt, qui est pas un membre fondateur – est révélateur. Les objectifs de performances et l’orientation HPC d’Ultra Ethernet le feraient entrer en concurrence directe avec InfiniBand, qui est depuis plus d’une décennie la technologie de réseautage de choix pour les réseaux de type HPC à faible latence. Bien que développé par sa propre association commerciale, NVIDIA aurait une influence démesurée sur le groupe vis-à-vis de son acquisition de Mellanox il y a quelques années, et ils sont visiblement l’homme étrange du nouveau groupe. La société utilise largement Ethernet et InfiniBand en interne, les utilisant tous les deux pour leurs systèmes DGX SuperPod évolutifs.
En ce qui concerne les normes Ultra Ethernet proposées, les membres de l’UEC élaborent déjà des plans pour intégrer la technologie UET à venir dans leurs produits.
“Nous sommes particulièrement encouragés par la couche de transport améliorée d’UEC et pensons que notre portefeuille est prêt à en tirer parti”, a déclaré Mark Papermaster, CTO d’AMD dans un article de blog. « L’UEC permet la diffusion par pulvérisation de paquets sur plusieurs chemins sans provoquer de congestion ou de blocage en tête de ligne, ce qui permettra à nos processeurs de partager avec succès des données entre les clusters avec un minimum de problèmes d’incast ou la nécessité d’un équilibrage de charge centralisé. Enfin, l’UEC prend en charge la sécurité intégrée pour les charges de travail d’IA et de HPC qui, à leur tour, aident AMD à tirer parti de nos solides capacités de sécurité et de chiffrement.
Pendant ce temps, pour l’instant UEC ne dit pas quand il prévoit de finaliser la spécification UET. On s’attend à ce que le groupe demande la certification de l’IEEE, qui maintient les différentes normes Ethernet, il y a donc un ensemble supplémentaire de cerceaux à franchir.
Enfin, l’UEC a noté qu’elle recherchait des membres supplémentaires pour compléter le groupe et commencerait à accepter de nouvelles candidatures de membres à partir du quatrième trimestre 2023. Outre NVIDIA, il existe plusieurs autres géants de la technologie impliqués dans les travaux d’IA ou de HPC qui ne font pas partie du groupe, ce serait donc leur prochaine meilleure chance de rejoindre le consortium.
Source : Fondation Linux, The Register