Intel oppose le nouveau moteur de formation Gaudi2 AI aux GPU Nvidia


Nvidia n’est pas la seule entreprise à avoir créé des unités de calcul spécialisées qui sont bonnes pour les mathématiques matricielles et le traitement des tenseurs qui sous-tendent la formation à l’IA et qui peuvent être réutilisées pour exécuter l’inférence de l’IA. Intel a acquis deux de ces sociétés – Nervana Systems et peu de temps après Habana Labs, et c’est cette dernière qui a été produite par Intel et mise sur les talons des accélérateurs GPU de Nvidia.

Intel est en bonne compagnie pour poursuivre ce que l’entreprise pense être une opportunité de calcul d’IA de 50 milliards de dollars (pour la formation et l’inférence) au cours des cinq prochaines années, avec une croissance à un taux de croissance annuel composé de 25 % d’ici 2027 pour atteindre ce niveau. Compte tenu de l’importance des mathématiques matricielles et vectorielles à venir dans l’accélérateur GPU Xe HPC “Ponte Vecchio”, et de la capacité d’inférence très probablement suffisante dans les unités mathématiques matricielles AMX dans les processeurs Xeon SP “Sapphire Rapids” imminents, il est raisonnable de se demander combien Formation Gaudi et puces d’inférence Goya qu’Intel compte vendre.

Nous avons compris qu’Intel recherchait la propriété intellectuelle et les personnes lorsqu’il a conclu l’accord de 350 millions de dollars avec Nervana Systems en août 2016 et l’acquisition de 2 milliards de dollars avec Habana Labs en décembre 2019, bien sûr, car c’est ainsi que se joue cette guerre informatique, mais nous nous sommes toujours demandé si ces appareils, ainsi que les conceptions très élégantes et intéressantes des concurrents GraphCore, Cerebras, SambaNova Systems et Groq, seraient jamais déployés dans quelque chose ressemblant au grand public. Les investisseurs en capital-investissement ont hâte de monter dans ce train de sauce à puces AI et ont investi massivement, les quatre sociétés mentionnées ci-dessus ayant levé un total de 2,87 milliards de dollars à ce jour.

Le jury est toujours sorti, tous ces produits commencent à peine à rouler, et c’est pourquoi Intel a couvert ses paris avec le Nervana puis Habana, tout comme il a paniqué à propos des FPGA dans le centre de données (grâce principalement à Microsoft Azure) et bombardé déboursé 16,7 milliards de dollars pour acquérir Altera en juin 2015. Entre 2015 et 2020, lorsqu’Intel a dominé le calcul des centres de données, il essayait d’éliminer toutes les menaces possibles à son hégémonie avec le calcul du processeur Xeon, et il pouvait se permettre d’acheter une partie de ses concurrents. .

Maintenant, depuis qu’il s’est rappelé qu’il doit redevenir une fonderie, il ne peut plus faire de manœuvres offensives aussi coûteuses qui relèvent en réalité autant de la défense que de l’attaque. Et maintenant, il est temps d’essayer de récupérer une partie de cet argent qu’il a payé pour Nervana et Habana. On ne sait pas si Intel pourra jamais récupérer tout son argent, même avec l’investissement de 2,35 milliards de dollars qu’il a fait, mais comme nous le disons, ce n’était peut-être pas le but. Peut-être que le but était d’avoir un contre-argument à GraphCore, Cerebras, SambaNova Systems et Groq alors qu’Intel a ajouté des fonctionnalités d’IA à ses processeurs Xeon SP et a sorti ses GPU discrets cette année. (Wave Computing, qui a levé 203,3 millions de dollars pour développer ses puces IA, a fait faillite en avril 2020 et est devenu un fournisseur de technologie de puce MIPS un an plus tard, nous ne le comptons donc plus parmi les prétendants aux puces IA.)

Lors de la conférence Intel Vision 2022 qui s’est tenue cette semaine, la puce d’entraînement Gaudi2 AI était le nouveau gros moteur de calcul que le fabricant de puces a présenté, et d’ailleurs, ce n’est pas une puce fabriquée par Intel mais plutôt, comme son prédécesseur, le Gaudi1, gravé par la fonderie rivale Taiwan Semiconductor Manufacturing Co.

La carte accélérateur de formation Gaudi2 AI

Comme Nervana Systems, Habana Labs est extrêmement sérieux quant à la création d’un ensemble de puces qui offrent le meilleur rapport qualité-prix et les meilleures performances pour les charges de travail d’IA. La puce d’inférence Habana Goya HL-1000 a été annoncée au début de 2019, et la puce d’entraînement Gaudi1 AI, également connue sous le nom de HL-2000, a fait ses débuts plus tard cet été-là. L’architecture Gaudi1 a un front-end de multiplication matricielle générale (GEMM) qui est back-end par dix cœurs de processeur Tensor, ou TPC, et la puce n’en a exposé que huit aux utilisateurs pour aider à augmenter le rendement du package. (Apparemment, les deux cœurs de tenseurs supplémentaires ont été exposés à un moment donné après l’acquisition de Habana Labs par Intel.)

Le Gaudi1 utilisait la deuxième génération de TPC tandis que la puce d’inférence Goya HL-1000 AI utilisait une conception TPC originale moins robuste et moins sophistiquée. Les TPC de la puce Gadui1 sont directement adressables à l’aide du langage de programmation C et disposent d’un adressage tenseur ainsi que de la prise en charge des formats à virgule flottante BF16 et FP32 et des formats entiers INT8, INT16 et INT32. Le jeu d’instructions TPC a des circuits pour accélérer Sigmoid, GeLU, Tanh et d’autres fonctions spéciales. Le Gaudi1 a été implémenté dans les processus 16 nanomètres de TSMC et disposait de 24 Mo de SRAM sur puce, de quatre banques de mémoire HBM2 pesant 32 Go de capacité et de 1 To/sec de bande passante. Le Gaudi1 s’est branché sur un slot PCI-Express 4.0 x16 et a consommé 350 watts de jus et l’a presque entièrement converti en chaleur, comme le font les puces. (Une petite quantité d’énergie est utilisée pour manipuler et stocker des informations.)

Un cluster de huit serveurs Gaudi2, chacun avec huit cartes Gaudi2.

Intel n’a pas encore révélé la plongée profonde sur l’architecture Gaudi2, mais voici ce que nous savons.

Avec le Gaudi2, Intel passe aux processus 7 nanomètres de TSMC, et avec cette réduction, il est capable d’augmenter le nombre de TPC sur la puce de 10 à 24, et a ajouté la prise en charge du nouveau format de données FP8 8 bits que Nvidia a également ajouté à ses moteurs de calcul GPU «Hopper» GH100, lancés en mars et livrés au troisième trimestre. Avec le format FP8, il sera désormais possible d’avoir des données d’inférence basse résolution et des données d’apprentissage haute résolution dans le même format, et de ne pas avoir à convertir les modèles entre virgule flottante et nombre entier lors du passage de l’apprentissage à l’inférence. C’est une véritable aubaine pour l’IA, bien que des formats d’entiers de précision inférieure puissent rester dans les moteurs de calcul matriciel et vectoriel pendant de nombreuses années pour prendre en charge le code hérité et d’autres types d’applications. La puce Gaudi2 dispose de 48 Mo de SRAM – vous vous attendriez à 2,4 fois et non 2 fois plus de SRAM, ou 57,6 Mo, si elle avait été mise à l’échelle de manière linéaire avec le nombre de TPC.

La puce Gaudi2 est suspendue à des banques de mémoire HBM2e, qui fournissent 2,45 To/sec de bande passante, soit un facteur de 2,45 fois supérieur à la puce Gaudi1. Le nombre de bancs de mémoire HBM2e n’a pas été révélé, mais six bancs de 16 Go HBM2e font l’affaire pour le Gaudi2 contre quatre bancs de 8 Go HBM2 pour le Gaudi1. Cette augmentation de deux contrôleurs de mémoire HBM2e à elle seule augmenterait la bande passante de 1,33X, et l’augmentation restante de la bande passante provient de l’accélération de la vitesse de la mémoire.

La puce Gaudi1 avait dix ports Ethernet de 100 Gb/sec qui prenaient en charge le protocole d’accès direct à la mémoire RoCE – un pour chaque TPC, en fait, mais nous ne le savions pas à l’époque car seuls huit étaient affichés. Mais le Gaudi2 dispose de 24 ports Ethernet fonctionnant à 100 Gb/sec, encore un pour chaque TPC. Il pèse 650 watts. Nous supposons que cet appareil se branche sur un slot PCI-Express 5.0, mais Intel ne l’a pas confirmé.

En supposant qu’aucun changement architectural majeur et une augmentation modeste de la vitesse d’horloge engendrée par le processus de réduction de 16 nanomètres à 7 nanomètres, nous nous attendons à ce que la puce Gaudi2 offre environ 2,5 fois les performances de la Gaudi2. (En supposant également le même niveau de précision pour le traitement dans une application donnée.) Mais Intel n’a pas réellement dit s’il y avait des changements architecturaux (autre qu’il a ajouté des fonctions de traitement multimédia) et comment les vitesses d’horloge ont changé, nous avons donc en déduire cela.

Ce que nous avons fait en regardant ce graphique sur les opérations de formation à la vision artificielle ResNet-50, qui oppose Gaudi1 et Gaudi2 aux deux dernières générations d’accélérateurs GPU Nvidia :

Sur la base de cette comparaison ResNet-50, le Gaudi2 offre 3,2 fois les performances du Gaudi1, mais il est difficile de déterminer dans quelle mesure les performances sont dues à la capacité accrue de la puce. Ce test particulier exécute le framework TensorFlow pour effectuer une formation à la reconnaissance d’images, et les données affichées correspondent au nombre d’images traitées par seconde.

La seule chose qui n’est pas montrée, et qui est importante, est la façon dont l’accélérateur Gaudi2 s’empilera sur le GPU Hopper, mais Nvidia n’a pas encore divulgué les résultats de performances d’un test spécifique. Mais avec la mémoire HBM3 du H100 fonctionnant 1,5 fois plus vite que la mémoire HBM2e utilisée dans l’accélérateur A100 et les FP16, TF32 et FP64 offrant 3 fois les performances des nouveaux cœurs Tensor, il est raisonnable de s’attendre à ce que le H100 offre quelque part entre 1,5 fois et 3 fois plus de performances sur les charges de travail d’entraînement à la vision ResNet-50, et par conséquent, le H100 fournira entre 4 395 et 8 790 images par seconde de performances sur le test ResNet-50. Notre hypothèse est qu’il sera plus proche de ce dernier que du premier, et une marge considérable au-delà de ce qu’Intel peut offrir avec Gaudi2.

La reconnaissance d’image et le traitement vidéo sont relativement faciles par rapport au traitement du langage naturel utilisant le modèle BERT. Voici comment Gaudi2 s’est comparé aux Nvidia V100 et A100, et notez que Gaudi1 est manquant :

Le modèle BERT s’exécute également sur le framework TensorFlow, et ces données montrent le nombre de séquences par seconde de débit dans deux phases de formation différentes. Lors d’un prébriefing, Eitan Medina, directeur commercial de la division Habana Labs, a déclaré que le Gaudi2 offrait un peu moins de 2 fois les performances de l’A100. Mais le H100, avec son propre format FP8 et son Transformer Engine qui modifie dynamiquement la précision des données et le traitement pour différentes parties du flux de travail de formation à l’IA, pourrait faire beaucoup mieux. Nous ne savons pas de combien, mais nous soupçonnons fortement que Nvidia peut au moins combler l’écart avec Gaudi2 et très probablement le dépasser.

Juste pour rendre les choses intéressantes, Intel a lancé des instances DL1 Gaudi1 sur Amazon Web Services, puis les instances p4d et p3 basées sur les GPU A100 et V100, respectivement, et a effectué une analyse prix/performance pour calculer le coût par image reconnu dans le ResNet. -50 référence. Jetez un coup d’oeil à ceci :

Ce graphique signifie que le Gaudi1 offre des performances légèrement meilleures que le V100 – 27,3% en utilisant les données de performances d’Intel dans le graphique ci-dessus pour ResNet-50 – et environ 60% de meilleur rapport qualité-prix, ce qui signifie que l’instance DL1 coûte considérablement moins cher que l’instance p3 à l’aide de la V100. Avec le passage à l’instance p4d basée sur A100, qui dispose de 40 Go de mémoire HBM2e, l’appareil Nvidia a 58,6 % de débit en plus sur ResNet-50 que le Gaudi1, mais le Gaudi1 a un coût par image traitée de 46 % inférieur. Ce qui signifie que l’instance A100 est en effet un peu plus chère. Et si notre supposition sur le prix de l’accélérateur GPU Hopper est correcte, et que Nvidia facture environ 2 fois plus pour environ 3 fois plus de performances, et Intel devra maintenir le prix des puces Gaudi2 vendues à AWS à un endroit où AWS peut encore montrer mieux prix/performances que les instances H100 exécutant la formation AI.

Et où est Trainium dans tout ça ? Hummm. . . .

Quoi qu’il en soit, Intel a plus de 1 000 de ses Gaudi2 dans ses laboratoires en cours d’exécution afin de pouvoir ajuster la pile logicielle SynapseAI, qui comprend les frameworks PyTorch et TensorFlow exécutés sur le compilateur de graphes, la bibliothèque du noyau et les bibliothèques de communication de Habana. La puce Gaudi2 est maintenant disponible.

En plus de la puce Gaudi2, Intel présente également en avant-première son moteur d’inférence Goya de suivi Greco, qui passe également aux processus de 7 nanomètres à 16 nanomètres au TSMC.

La carte d’inférence Greco dispose de 16 Go de mémoire principale LPDDR5, qui fournit 204 Go/sec de bande passante mémoire par rapport aux 40 Go/sec avec un bloc de 16 Go de mémoire DDR4 avec le moteur d’inférence Goya précédent. Cette variante Greco de l’architecture Habana prend en charge les formats INT4, BF16 et FP16 et consomme 75 watts, une baisse substantielle par rapport aux 200 watts de l’appareil HL-1000 annoncé début 2019. Et comme le montre l’image ci-dessus, il est compressé jusqu’à une carte PCI-Express mi-hauteur, mi-longueur plus compacte. Aucun mot sur les performances ou le prix de celui-ci pour le moment.