Will Bryk, directeur général d'ExaAILabs, a annoncé vendredi que sa société avait déployé son Exacluster, l'un des premiers clusters du secteur basé sur les GPU H200 de Nvidia pour l'IA et le HPC. Le cluster sera utilisé pour créer un moteur de recherche capable de mieux comprendre les utilisateurs que Google et de renvoyer de meilleurs résultats de recherche que ceux produits par Google.
À vrai dire, l'Exacluster n'a rien à voir avec les performances à l'échelle ExaFLOPS. Il est appelé Exacluster car il comprend 18 serveurs NVIDIA H200 à 8 voies (exa signifie quintillion, ou 10 ^ 18). Le cluster fournit 144 GPU H200 avec 20 To de mémoire HBM3E (141 Go de HBM3E par GPU), offrant des performances de calcul combinées de 569 958 TOPS (environ 570 PetaTOPS). Le cluster sera utilisé pour entraîner les réseaux de neurones d'ExaAI.
Le cluster s'appuie sur 192 processeurs 96 cœurs (pour 3 456 cœurs) et est équipé de 36 To de mémoire DDR5 et de 270 To de stockage SSD NVMe. Le supercalculateur consomme 100 kW d’énergie. Seules deux de ces machines sont installées par rack pour garantir que tous les serveurs bénéficient d'un refroidissement suffisant. Les machines utilisent un refroidissement par air standard, ce qui, selon Bryk, sera suffisant pour des opérations prolongées sous charge.
Nous venons de terminer la configuration de l'Exacluster : – 144 H200 – 3456 processeurs – SSD NVME de 270 To – RAM GPU de 20 To – RAM CPU de 36 To – Puissance de fonctionnement de 100 kW Préparez-vous à ce qui s'en vient… pic.twitter.com/Ulhp470Spz10 janvier 2025
Le coût du cluster est d'environ 5 millions de dollars (selon Bryk), ce qui signifie 277 777 dollars par machine, comparable à une seule carte mère H200 à 8 voies, et non au coût de l'ensemble du serveur. On ne sait pas exactement comment ExaAI a réussi à obtenir un prix aussi bas et des machines basées sur le H200 devant de nombreuses autres sociétés. Nvidia reste néanmoins l'un des principaux investisseurs de la société, aux côtés de Lightspeed et YCombinator.
En règle générale, les entreprises affiliées à Nvidia ont tendance, d’une manière ou d’une autre, à faire passer le matériel de l’entreprise avant les autres. Peut-être, compte tenu de ses exigences plutôt modestes, ExaAI a-t-elle réussi à sécuriser ses machines même sans utiliser ses connexions importantes, simplement parce que son utilisation de l'IA est unique et présente beaucoup d'intérêt pour diverses parties. Le but ultime d'ExaAI est de créer un moteur de recherche capable de comprendre et de traiter des requêtes complexes et de renvoyer des résultats décents. Si l’entreprise réussit, elle pourrait révolutionner complètement la recherche telle que nous la connaissons.