Intel présente les blocs d’accélérateurs matériels Sapphire Rapids en action à Innovation 2022

Avec l’événement annuel d’innovation d’Intel qui se déroule cette semaine à San Jose, la société cherche à retrouver une grande partie de l’élan technique qui s’est lentement perdu au cours des deux dernières années. Alors qu’Intel a continué à travailler dur pour publier de nouveaux produits au fil du temps, la combinaison de retards de calendrier et d’une incapacité à montrer leurs produits à un public en personne a terni une partie de l’éclat de l’entreprise et de ses produits. Ainsi, pour son plus grand événement technique en personne depuis avant la pandémie, l’entreprise montre autant de silicium que possible, pour convaincre la presse, les partenaires et les clients que les efforts du PDG Pat Gelsinger ont remis l’entreprise sur les rails.

De toutes les luttes d’Intel au cours des deux dernières années, il n’y a pas de meilleure affiche que leur processeur de serveur/poste de travail Sapphire Rapids. Un véritable produit de nouvelle génération d’Intel qui apporte tout, de PCIe 5 et DDR5 à CXL et une multitude d’accélérateurs matériels, il n’y a vraiment rien à écrire sur les retards de Sapphire Rapids qui n’a pas déjà été dit – ça va finir sur un an de retard.

Mais Sapphire Rapids arrive. Et Intel est enfin en mesure de voir la lumière au bout du tunnel sur ces efforts de développement. Avec une disponibilité générale prévue pour le premier trimestre de 2023, dans un peu plus d’un quart d’ici, Intel est enfin en mesure de montrer Sapphire Rapids à un public plus large – ou du moins, aux membres de la presse. Ou pour adopter une lecture plus pragmatique des choses, Intel doit maintenant commencer à promouvoir sérieusement Sapphire Rapids avant son lancement et celui de ses concurrents.

Pour le salon de cette année, Intel a invité les membres de la presse à voir une démonstration en direct du silicium de pré-production Sapphire Rapids en action. Le but des démos, outre de donner à la presse la possibilité de dire « on l’a vu ; ça existe!” est de commencer à montrer l’une des caractéristiques les plus uniques de Sapphire Rapids : sa collection de blocs accélérateurs dédiés.

En plus de fournir une mise à jour indispensable des cœurs de processeur du processeur, Sapphire Rapids ajoute / intègre également des blocs d’accélérateur dédiés pour plusieurs charges de travail courantes de serveur / poste de travail critiques pour le processeur. L’idée, en termes simples, est que le silicium à fonction fixe peut faire la tâche aussi rapidement ou mieux que les cœurs de processeur pour une fraction de la puissance, et pour seulement une augmentation fractionnaire de la taille de la puce. Et avec des hyperscalers et d’autres opérateurs de serveurs à la recherche d’importantes améliorations en matière de densité de calcul et d’efficacité énergétique, les accélérateurs spécifiques à un domaine tels que ceux-ci sont un bon moyen pour Intel d’offrir ce type d’avantage à ses clients. Et cela ne fait pas de mal non plus que son rival AMD ne devrait pas avoir de blocs accélérateurs similaires.

Un aperçu rapide de Sapphire Rapids Silicon

Avant d’aller plus loin, voici un aperçu très rapide du silicium Sapphire Rapids.

Pour leurs démonstrations (et l’utilisation éventuelle des examinateurs), Intel a assemblé des systèmes Sapphire Rapids à double socket en utilisant du silicium de pré-production. Et à des fins de photo, ils ont ouvert un système et sorti le processeur.

Il n’y a pas grand-chose que nous puissions dire sur le silicium à ce stade, à part le fait qu’il fonctionne. Puisqu’il s’agit encore de pré-production, Intel ne divulgue pas les vitesses d’horloge ou les numéros de modèle – ou quels errata ont fait qu’il s’agit de silicium non final. Mais ce que nous savons, c’est que ces puces ont 60 cœurs de processeur opérationnels, ainsi que les blocs accélérateurs qui ont fait l’objet des démonstrations d’aujourd’hui.

Accélérateurs de Sapphire Rapids : AMX, DLB, DSA, IAA et AMX

Sans compter les unités AVX-512 sur les cœurs de processeur Sapphire Rapids, les processeurs de serveur seront livrés avec 4 accélérateurs dédiés dans chaque tuile de processeur.

Il s’agit d’Intel Dynamic Load Balancer (DLB), Intel Data Streaming Accelerator (DSA), Intel In-Memory Analytics Accelerator (IAA) et Intel QuickAssist Technology (QAT). Tous ces éléments sont suspendus au maillage de la puce en tant que périphériques dédiés et fonctionnent essentiellement comme des accélérateurs PCIe qui ont été intégrés au silicium du processeur lui-même. Cela signifie que les accélérateurs ne consomment pas de ressources de cœur de processeur (la mémoire et les E/S sont une autre affaire), mais cela signifie également que le nombre de cœurs d’accélérateur disponibles n’évolue pas directement avec le nombre de cœurs de processeur.

Parmi ceux-ci, tout sauf QAT est nouveau pour Intel. QAT est l’exception car la génération précédente de cette technologie a été implémentée dans le PCH (chipset) utilisé pour 3rd processeurs de génération Xeon (Ice Lake-SP), et à partir de Sapphire Rapids est intégré dans le silicium du processeur lui-même. Par conséquent, bien qu’Intel implémentant des accélérateurs spécifiques à un domaine ne soit pas un phénomène nouveau, la société met tout en œuvre pour l’idée de Sapphire Rapids.

Tous ces blocs accélérateurs dédiés sont conçus pour décharger un ensemble spécifique de charges de travail à haut débit. DSA, par exemple, accélère les copies de données et les calculs simples tels que le calcul des CRC32. Pendant ce temps, QAT est un bloc d’accélération cryptographique ainsi qu’un bloc de compression/décompression de données. Et IAA est similaire, offrant une compression et une décompression de données à la volée pour permettre aux grandes bases de données (c’est-à-dire Big Data) d’être conservées en mémoire sous une forme compressée. Enfin, DLB, dont Intel n’a pas fait la démonstration aujourd’hui, est un bloc permettant d’accélérer l’équilibrage de charge entre les serveurs.

Enfin, il y a Advanced Matrix Extension (AMX), le bloc d’exécution mathématique matriciel annoncé précédemment par Intel. Semblables aux noyaux tensoriels et à d’autres types d’accélérateurs matriciels, ce sont des blocs ultra-haute densité pour exécuter efficacement les calculs matriciels. Et contrairement aux autres types d’accélérateurs, AMX n’est pas un accélérateur dédié, mais plutôt une partie des cœurs du processeur, chaque cœur recevant un bloc.

AMX est le jeu d’Intel pour le marché de l’apprentissage en profondeur, allant au-delà du débit qu’ils peuvent atteindre aujourd’hui avec AVX-512 en utilisant des structures de données encore plus denses. Alors qu’Intel aura des GPU qui vont même au-delà de cela, pour Sapphire Rapids, Intel cherche à s’adresser au segment de clientèle qui a besoin d’une inférence d’IA très proche des cœurs de processeur, plutôt que dans un accélérateur moins flexible et plus dédié.

Les démos

Pour la démo de presse d’aujourd’hui, Intel a fait venir son équipe de test pour configurer et présenter une série de démos réelles qui exploitent les nouveaux accélérateurs et peuvent être comparées pour montrer leurs performances. Pour cela, Intel cherchait à démontrer les avantages par rapport au fonctionnement non accéléré (CPU) sur son propre matériel Sapphire Rapids – c’est-à-dire pourquoi vous devriez utiliser leurs accélérateurs dans ce style de charges de travail – ainsi qu’à présenter l’avantage de performances par rapport à l’exécution des mêmes charges de travail sur les processeurs EPYC (Milan) d’AMD sont les principaux rivaux.

Intel, bien sûr, a déjà exécuté les données en interne. Ainsi, le but de ces démos était, en plus de révéler ces chiffres de performance, de montrer que les chiffres étaient réels et comment ils les obtenaient. Ne vous y trompez pas, c’est Intel qui veut mettre son meilleur pied en avant. Mais il le fait avec du vrai silicium et de vrais serveurs, dans des charges de travail qui (pour moi) semblent être des tâches raisonnables pour le test.

Démonstration de la technologie QuickAssist

Tout d’abord, une démonstration de l’accélérateur QuickAssist Technology (QAT). Intel a commencé avec une charge de travail NGINX, mesurant les performances de chiffrement OpenSSL.

Visant des performances à peu près iso, Intel a pu atteindre environ 66 000 connexions par seconde sur son serveur Sapphire Rapids, en utilisant uniquement l’accélérateur QAT et 11 des 120 cœurs de processeur (2×60) pour gérer les bits non accélérés de la démo. Cela se compare à la nécessité de 67 cœurs pour atteindre le même débit sur Sapphire Rapids sans aucune sorte d’accélération QAT, et de 67 cœurs sur un serveur EPYC 7763 à double socket.

La deuxième démo QAT mesurait les performances de compression/décompression sur le même matériel. Comme on pouvait s’y attendre pour un bloc accélérateur dédié, cette référence a été un coup de foudre. L’accélérateur matériel QAT a dépassé les processeurs, les devançant même lorsqu’ils utilisaient la bibliothèque ISA-L hautement optimisée d’Intel. Pendant ce temps, il s’agissait d’une tâche presque entièrement déchargée, elle consommait donc 4 cœurs de processeur par rapport aux 120/128 cœurs de processeur dans les charges de travail logicielles.

Démo de l’accélérateur d’analyse en mémoire

La deuxième démo concernait l’accélérateur d’analyse en mémoire. Ce qui, malgré son nom, n’accélère pas réellement la partie analyse réelle de la tâche. Il s’agit plutôt d’un accélérateur de compression/décompression conçu pour être utilisé avec des bases de données afin qu’elles puissent être utilisées en mémoire sans un coût de performance CPU massif.

En exécutant la démo sur une base de données ClickHouse, ce scénario a démontré que le système Sapphire Rapids voyait un avantage de 59 % en termes de performances de requêtes par seconde par rapport à un système AMD EPYC (Intel n’a pas exécuté de configuration Intel uniquement logicielle), ainsi qu’une bande passante mémoire réduite. l’utilisation et l’utilisation réduite de la mémoire dans l’ensemble.

La deuxième démo IAA était un set contre RocksDB avec les mêmes systèmes Intel et AMD. Une fois de plus, Intel a démontré que le système SPR accéléré par l’IAA était bien en avance, avec des performances 1,9 fois plus élevées et une latence presque moitié moins élevée.

Démo des extensions de matrice avancées

La station de démonstration finale qu’Intel avait configurée était configurée pour présenter les extensions de matrice avancées (AMX) et l’accélérateur de diffusion de données (DSA).

À partir d’AMX, Intel a exécuté un benchmark de classification d’images à l’aide de TensorFlow et du réseau de neurones ResNet50. Ce test a utilisé des opérations FP32 non accélérées sur les processeurs, AVX-512 accéléré INT8 sur Sapphire Rapids, et enfin INT8 accéléré par AMX également sur Sapphire Rapids.

Ce fut une autre éruption pour les accélérateurs. Grâce aux blocs AMX sur les cœurs du processeur, le système Sapphire Rapids a fourni un peu moins de 2 fois plus de performances par rapport au mode AVX-512 VNNI avec une taille de lot de 1, et plus de 2x avec une taille de lot de 16. Et, bien sûr, le Le scénario semble encore plus favorable pour Intel par rapport aux processeurs EPYC puisque les processeurs Milan actuels n’offrent pas l’AVX-512 VNNI. Les gains de performances globales ici ne sont pas aussi importants que de passer du processeur pur à l’AVX-512, mais l’AVX-512 était déjà sur le point d’être un bloc d’accélération matricielle à lui seul (entre autres).

Démo de l’accélérateur de flux de données

Enfin, Intel a présenté le bloc Data Streaming Accelerator (DSA), qui est de retour pour présenter des blocs accélérateurs dédiés sur Sapphire Rapids. Dans ce test, Intel a configuré une démonstration de transfert réseau à l’aide de FIO pour qu’un client lise les données d’un serveur Sapphire Rapids. DSA est utilisé ici pour décharger les calculs CRC32 utilisés pour les paquets TCP, une opération qui s’additionne rapidement en termes d’exigences CPU aux débits de données très élevés qu’Intel testait – une connexion 2x100GbE.

En utilisant un seul cœur de processeur ici pour montrer l’efficacité (et parce que quelques cœurs de processeur seraient suffisants pour saturer le lien), le bloc DSA a permis à Sapphire Rapids de fournir 76 % d’IOPS en plus sur une lecture séquentielle de 128 000 QD64 par rapport à la simple utilisation du processeur optimisé d’Intel. Bibliothèque ISA-L sur la même charge de travail. L’avance sur le système EPYC était encore plus grande, et la latence avec DSA a été ramenée bien en dessous de 2000us.

Un test similaire a également été effectué avec une lecture aléatoire QD256 16K plus petite, fonctionnant sur 2 cœurs de processeur. L’avantage en termes de performances pour DSA n’était pas aussi important ici – seulement 22 % par rapport au logiciel optimisé sur Sapphire Rapids – mais encore une fois, l’avantage par rapport à EPYC était plus important et les latences étaient plus faibles.

Premières pensées

Et voilà : la première démo presse des blocs accélérateurs dédiés (et AMX) sur Intel 4e Processeur de génération Xeon (Sapphire Rapids). Nous l’avons vu, il existe, et c’est la pointe de l’iceberg pour tout ce que Sapphire Rapids est censé apporter aux clients à partir de l’année prochaine.

Étant donné la nature et le but des accélérateurs spécifiques à un domaine, il n’y a rien ici qui, à mon avis, devrait surprendre les lecteurs techniques réguliers. Les DSA existent précisément pour accélérer les charges de travail spécialisées, en particulier celles qui seraient autrement gourmandes en CPU et/ou en énergie, et c’est ce qu’Intel a fait ici. Et avec la concurrence sur le marché des serveurs qui devrait être féroce pour les performances générales du processeur, ces blocs accélérateurs sont un moyen pour Intel d’ajouter de la valeur à leurs processeurs Xeon, ainsi que de se démarquer d’AMD et d’autres rivaux qui poussent même un plus grand nombre de cœurs de processeur.

Attendez-vous à en voir plus sur Sapphire Rapids au cours des prochains mois, alors qu’Intel se rapproche de la livraison finale de son processeur de serveur de nouvelle génération.

Laisser un commentaire