Comment fonctionne le LPU du Groq ?

L’intelligence artificielle progresse à un rythme effréné. Groq et son unité de traitement linguistique (LPU) révolutionnaire sont une entreprise qui tient cette promesse. Le LPU réinvente complètement l’informatique pour l’apprentissage automatique, libérant ainsi des gains de performances bien au-delà des GPU traditionnels.

Le Language Processing Unit (LPU) est un moteur d'inférence personnalisé développé par Groq, spécifiquement optimisé pour les grands modèles de langage. Alors que les modèles de langage tels que Llama2, Phi 2 et Mistral, etc. continuent de croître rapidement en taille, il existe un besoin en matériel spécialisé capable de fournir une inférence rapide et efficace. Le LPU de Groq vise à répondre à ce besoin et offre des améliorations de performances majeures par rapport aux solutions traditionnelles basées sur GPU.

Qu'est-ce que la LPU (unité de traitement du langage) ?

LPU est un type d'architecture de processeur conçu spécifiquement pour les opérations tensorielles, un composant essentiel des charges de travail d'apprentissage automatique et d'intelligence artificielle. Le LPU est un système hautement parallèle, à instruction unique, processeur de données multiples (SIMD) qui peut exécuter des milliers d’opérations simultanément. Ce niveau de parallélisme, combiné à une hiérarchie de mémoire hautement optimisée, permet au LPU d'offrir des performances et une efficacité énergétique sans précédent pour les charges de travail d'IA et de ML.

ATTRIBUTS CLÉS D'UN SYSTÈME LPU™ | Crédit image : Groq

Caractéristiques du LPU

Noyau de streaming Tensor: Le Tensor Streaming Core est l'unité de traitement principale au sein du LPU et est responsable de l'exécution des opérations tensorielles. Il se compose de milliers d’éléments de traitement (PE) pouvant fonctionner indépendamment et en parallèle. Le Tensor Streaming Core prend en charge diverses opérations tensorielles, notamment les fonctions de multiplication matricielle, de convolution et d'activation.
Hiérarchie de la mémoire: Une hiérarchie de mémoire optimisée est cruciale pour les opérations tensorielles hautes performances. Le LPU présente une hiérarchie de mémoire à plusieurs niveaux, comprenant une grande SRAM sur puce, un cache L2 et une mémoire DDR4 hors puce. Cette hiérarchie garantit que les données sont facilement disponibles pour les PE, minimisant ainsi la latence et maximisant le débit.
Unité de contrôle: L'unité de contrôle gère le fonctionnement global du LPU, y compris la récupération, le décodage et la planification des instructions. Il gère également la communication entre le Tensor Streaming Core, la hiérarchie de la mémoire et les interfaces externes.
Interfaces externes: Le LPU comprend des interfaces haut débit, telles que PCIe Gen4, CCIX et Ethernet, permettant une intégration transparente avec les systèmes hôtes et les plates-formes accélératrices.

Pourquoi les GPU sont-ils utilisés pour entraîner de grands modèles de langage ?

La formation de grands modèles de langage nécessite d’énormes quantités de puissance de calcul. Les GPU sont bien adaptés à cela car ils contiennent des milliers de cœurs parallèles capables de traiter efficacement d’énormes lots de données.

Les opérations matricielles et vectorielles impliquées dans la formation des réseaux neuronaux correspondent bien aux atouts des architectures GPU. Avec plusieurs mémoires à large bande passante, les GPU peuvent alimenter les cœurs en données d’entraînement. La capacité brute FLOPS des clusters de GPU permet aux chercheurs d’étendre les modèles de langage à des tailles auparavant insondables.

Comment fonctionne le LPU du Groq ?

Les ingénieurs de Groq ont développé un Processeur de streaming tensoriel (TSP) qui a fait des vagues dans les domaines du calcul haute performance, de l’intelligence artificielle et de l’apprentissage automatique. Au cœur du TSP se trouve l'unité de traitement sous licence (LPU) de Groq, une architecture de processeur innovante et hautement efficace qui la distingue des CPU et GPU conventionnels.

Le fonctionnement du LPU est basé sur un modèle SIMD (single instruction, multiple data), dans lequel des milliers de PE exécutent simultanément la même instruction sur différents points de données.

Photo de l'implémentation ASIC 14 nm du Groq TSP

Ce parallélisme est obtenu grâce à une combinaison de :

Traitement vectoriel: Chaque PE de Tensor Streaming Core prend en charge le traitement vectoriel, lui permettant d'effectuer plusieurs opérations sur un seul point de données en un seul cycle d'horloge.
Réutilisation des données: La hiérarchie de mémoire du LPU est conçue pour maximiser la réutilisation des données, réduisant ainsi le besoin d'accès fréquents à la mémoire et minimisant la consommation d'énergie.
Pipelinage: Le LPU utilise le pipeline pour maximiser le débit. Chaque étape du pipeline est responsable d'une tâche spécifique, permettant au LPU de traiter plusieurs opérations simultanément.
Planification des instructions: L'unité de contrôle planifie dynamiquement les instructions pour optimiser l'utilisation des PE et des ressources mémoire, garantissant une utilisation élevée et un temps d'inactivité minimal.

La puce LPU est conçue dès le départ pour être entièrement déterministe. Cela signifie que le comportement du matériel est totalement prévisible, contrairement aux GPU qui disposent de différents caches et hiérarchies de mémoire. Le LPU a une architecture simple dans l'ordre et le logiciel du compilateur peut planifier des opérations à la nanoseconde et au cycle d'horloge.

Processeur de streaming tensoriel (TSP) — Groq's **Architecture du processeur de streaming Tensor**

Le LPU a un accès direct à la mémoire sur puce avec une bande passante allant jusqu'à 80 To/s. Plutôt que d'avoir des caches à plusieurs niveaux, le mouvement des données est simplifié grâce à la SRAM fournissant une bande passante élevée aux unités de calcul. La nature déterministe et la planification logicielle donnent au compilateur une visibilité et un contrôle complets sur les ressources matérielles. Il peut allouer avec précision les calculs aux unités fonctionnelles disponibles pour une efficacité maximale.

Les LPU suivent un pipeline de traitement du langage naturel en plusieurs étapes :

Tokenisation: Le texte saisi est divisé en unités plus petites appelées jetons, tels que des mots, des phrases ou des caractères. Cette étape aide à organiser et à comprendre la structure du texte.
Analyse: Les jetons sont analysés pour déterminer leur structure grammaticale et leurs relations. Ce processus implique l'identification de parties du discours, de dépendances et de modèles syntaxiques dans le texte.
Analyse sémantique: Le sens du texte est déduit de l'analyse des relations entre les mots et les phrases. Cette étape implique des tâches telles que la reconnaissance d'entités nommées, l'étiquetage des rôles sémantiques et la résolution de coréférence.
Extraction de caractéristiques: les fonctionnalités pertinentes, telles que l'intégration de mots, sont extraites pour représenter le texte dans un format numérique que les algorithmes d'apprentissage automatique peuvent traiter.
Modèles d'apprentissage automatique: Les LPU utilisent divers modèles d'apprentissage automatique, tels que les réseaux de neurones récurrents (RNN), les transformateurs ou les réseaux de neurones profonds (DNN), pour traiter et comprendre le langage. Ces modèles sont formés sur de grands ensembles de données pour apprendre des modèles et des relations dans le langage.
Inférence et prédiction: Les LPU utilisent les modèles entraînés pour faire des prédictions ou générer des sorties basées sur le texte d'entrée. Cela peut inclure des tâches telles que l'analyse des sentiments, la traduction linguistique ou la génération de texte.

Architecture du système LPU

Pour évoluer vers des modèles de langage géants avec des milliards de paramètres, Groq synchronise plusieurs puces LPU ensemble dans un réseau déterministe. L'accouplement serré fournit accès à faible latence à de grands pools de mémoire répartis sur tout le système.

Un avantage unique est la planification du réseau contrôlée par logiciel. Au lieu que des blocs matériels individuels prennent des décisions localisées, le logiciel système dispose d'une connaissance globale de toutes les puces. Il peut coordonner les communications et les calculs à la nanoseconde près, orchestrant ainsi de manière optimale le mouvement des données.

Cela permet une utilisation de la bande passante très efficace par rapport aux GPU. Groq démontre une saturation presque parfaite de la bande passante réseau sur de petites tailles de tenseurs typiques des charges de travail d'inférence. La planification logicielle élimine les frais généraux tels que l'arbitrage des routeurs et la gestion de la congestion.

LPU contre GPU

Bien que les deux exploitent le traitement parallèle, le LPU adopte une approche très différente de celle des GPU. Le LPU est conçu pour les charges de travail séquentielles à faible latence telles que l'inférence. Sa conception permet au logiciel d'orchestrer entièrement les opérations à travers le système.

En revanche, les GPU s’appuient de manière incontrôlée sur des mécanismes matériels tels que la mise en cache et la mise en réseau. Cela entraîne des pénalités non déterministes qui limitent les performances d'inférence. Le LPU offre une efficacité énergétique 10 fois supérieure et une latence inférieure à celle des GPU.

Avantages des performances LPU de Groq

Efficacité énergétique 10 fois supérieure en joules par jeton
Latence globale beaucoup plus faible du début à la fin
Forte mise à l'échelle qui maintient l'efficacité à mesure que la taille du modèle augmente

Cas d'utilisation au-delà des modèles de langage

Bien que l'inférence de modèle de langage soit une application phare, le LPU accélère de nombreuses autres charges de travail. Dans des domaines tels que la découverte de médicaments, la cybersécurité et la finance, Groq a démontré des accélérations 100 fois supérieures ou supérieures à celles des performances du GPU. Le système est particulièrement adapté aux applications à faible latence nécessitant un traitement séquentiel complexe.

Bavarder — Groq Chat peut générer une sortie à une vitesse allant jusqu'à 529 jetons par seconde

Applications du LPU de Groq

Intelligence artificielle et apprentissage automatique: L'architecture hautement parallèle et la hiérarchie de mémoire optimisée du LPU en font un choix idéal pour les charges de travail d'IA et de ML, offrant des performances et une efficacité énergétique inégalées.
Calcul haute performance: L'architecture SIMD et le pipeline du LPU lui permettent d'exceller dans les applications de calcul haute performance, telles que les simulations scientifiques et l'analyse de données.
Réseautage et communications: Les interfaces haut débit du LPU et la prise en charge de divers protocoles réseau le rendent adapté aux applications de mise en réseau et de communication.

Groq prévoit d'activer des configurations LPU personnalisées adaptées à des charges de travail spécifiques. Leur outil d'exploration de l'espace de conception peut évaluer rapidement différentes configurations de chipsets, de mémoire, de calcul, etc. pour répondre aux exigences des clients. Ce cycle de conception agile, des modèles logiciels au déploiement matériel, maintiendra le LPU à la pointe de la technologie. Groq vise à garder une longueur d'avance sur les GPU.

Conclusion

Le LPU de Groq représente un bond en avant significatif dans l'architecture du processeur, conçu explicitement pour les opérations tensorielles et les charges de travail IA/ML. Sa conception innovante, sa hiérarchie de mémoire optimisée et son architecture hautement parallèle lui permettent d'offrir des performances et une efficacité énergétique inégalées.

Grâce à une optimisation complète de la pile verticale, du logiciel au silicium, il tient la promesse d'une architecture déterministe spécialisée. Et ce n'est que le début, car Groq s'attend à ce que le LPU progresse rapidement et élargisse son avance en termes de performances par rapport aux GPU.

rewrite this content and keep HTML tags