Comparaison des performances des GPU pour les grands modèles linguistiques

Gábor Bíró • 11 janvier 2025

2 min de lecture

Le développement rapide des grands modèles linguistiques (LLM) pose de nouveaux défis dans le domaine de l'informatique. Une question cruciale est de savoir comment les GPU fonctionnent lors de l'exécution de ces modèles. Dans cet article, nous allons examiner les performances de divers GPU à travers les concepts de TFLOPS (billions d'opérations en virgule flottante par seconde) et de TOPS (billions d'opérations par seconde). Nous présenterons les capacités de chaque modèle à l'aide d'un tableau clair, complété par de brèves explications.

Comparaison des performances des GPU pour les grands modèles linguistiques

Source: Création originale

Les TOPS (Tera Operations Per Second - Téra Opérations Par Seconde) et les FLOPS (Floating Point Operations Per Second - Opérations en Virgule Flottante Par Seconde) sont deux mesures importantes pour caractériser les performances des GPU, mais elles se rapportent à différents types d'opérations de calcul, en particulier lors de l'exécution et de l'entraînement des LLM (Grands Modèles Linguistiques).

TOPS (Tera Operations Per Second - Téra Opérations Par Seconde)

Les TOPS mesurent généralement les performances des opérations sur les entiers (INT8, INT16, INT32, etc.).
Ils sont généralement utilisés pour les accélérateurs d'IA (par exemple, Tensor Cores, NPU, TPU) car l'inférence (génération de sortie, prédiction) des LLM utilise souvent des opérations en virgule fixe, qui sont plus efficaces que les calculs en virgule flottante.
Pour l'inférence, les opérations INT8 ou INT4 sont utilisées car elles réduisent les besoins en calcul et en mémoire sans dégrader significativement les performances du modèle. Par conséquent, les performances annoncées des accélérateurs d'IA sont souvent spécifiées en TOPS.
Exemple : Un GPU peut avoir une performance de 200 TOPS pour les opérations INT8, ce qui signifie qu'il peut effectuer 200 billions d'opérations sur les entiers par seconde.

FLOPS (Floating Point Operations Per Second - Opérations en Virgule Flottante Par Seconde)

Les FLOPS mesurent la vitesse d'exécution des opérations en virgule flottante (FP16, FP32, FP64).
Ils sont cruciaux pour l'entraînement des LLM car les grands modèles nécessitent une précision FP16 ou FP32 pour des calculs précis des poids et des gradients.
Exemple : Un GPU moderne peut avoir une performance de 20 TFLOPS (TeraFLOPS) FP32, ce qui signifie qu'il peut effectuer 20 billions d'opérations en virgule flottante par seconde.
Pour les très grands modèles (par exemple, GPT-4 ou Gemini), les opérations FP16 (nombres à virgule flottante en demi-précision) et bfloat16 (BF16) sont également utilisées car elles sont plus rapides tout en restant suffisamment précises pour l'entraînement.

GPU	Cœurs Tensor/IA	FP32 (TFLOPS)	FP16 (TFLOPS)	BF16 (TFLOPS)	INT8 (TOPS)	VRAM (Go)	Bande passante mémoire (Go/s)	Consommation électrique (W)
NVIDIA H200 SXM	528	67	1,979	1,979	3,958	141 (HBM3e)	4,800	600-700
NVIDIA H100 SXM	576	67	1,979	1,979	3,958	80 (HBM3)	3,350	350-700
NVIDIA H100 PCIe	576	51	1,513	1,513	3,026	80 (HBM3)	2,000	350-700
NVIDIA A100 PCIe	432	19.5	312	312	624	80 (HBM2e)	1,935	250-400
RTX 6000 ADA	568	91.1				48 (GDDR6 ECC)	960	300
NVIDIA L40s	568	91.6				48 (GDDR6 ECC)	864	350
RTX A6000	336	38.7				48 (GDDR6)	768	250
NVIDIA RTX 5090	680	104.8	450		900	32 (GDDR7x)	1,790	575
NVIDIA RTX 4090	512	82.6	330		660	24 (GDDR6x)	1,008	450
NVIDIA RTX 3090	328	40	285			24	936	350
NVIDIA RTX 2080	544	14.2	108			11	616	260
AMD MI300X		61	654?	1,307	2,615	192 (HBM3)	5,200	750

Recommandé

Le piège de l'efficacité

Gábor Bíró • 5 mars 2025

Vous êtes-vous déjà demandé pourquoi la technologie moderne, censée nous faciliter la vie et nous faire gagner du temps, ne se traduit pas réellement par plus de temps libre ? Pourquoi travaillons-nous autant, voire plus, que nos grands-parents, alors que nous sommes entourés de machines à laver, de lave-vaisselle, d'ordinateurs et de smartphones ? La réponse réside dans un phénomène identifié dès la Révolution industrielle, connu sous le nom de Paradoxe de Jevons.

Informatique cognitive

Gábor Bíró • 17 septembre 2024

Le monde de la technologie introduit constamment de nouvelles avancées passionnantes qui transforment nos vies et notre façon de travailler. Parmi les plus prometteuses et fascinantes, on trouve l'informatique cognitive. Mais qu'est-ce que c'est exactement, et pourquoi est-ce si important ?

Les 86 milliards de neurones de notre cerveau : les LLM peuvent-ils les surpasser ?

Gábor Bíró • 22 décembre 2024

Le cerveau humain, un système biologique complexe perfectionné au cours de millions d'années d'évolution, contraste avec les Grands Modèles Linguistiques (LLM), les dernières avancées en matière d'intelligence artificielle. Bien que les LLM démontrent des capacités impressionnantes en traitement du langage, peuvent-ils un jour surpasser la complexité et les capacités du cerveau humain ?

Nouvelle usine de microprocesseurs de STMicroelectronics en Sicile

Gábor Bíró • 9 juin 2024

L'Union Européenne a approuvé 2 milliards d'euros d'aides gouvernementales italiennes pour que STMicroelectronics construise une usine de microprocesseurs de 5 milliards d'euros à Catane, sur l'île de Sicile. Cet investissement s'inscrit dans la stratégie de l'UE visant à réduire sa dépendance aux importations asiatiques et à renforcer sa chaîne d'approvisionnement en semi-conducteurs.

La feuille de route à cinq niveaux d'OpenAI vers l'intelligence artificielle générale (IAG)

Gábor Bíró • 10 juillet 2024

OpenAI a récemment dévoilé sa feuille de route interne à cinq niveaux pour atteindre l'Intelligence Artificielle Générale (IAG). Ce cadre jalonné décrit la vision de l'entreprise pour développer une IA qui pourrait potentiellement révolutionner le domaine et surpasser les capacités humaines dans divers secteurs. La journaliste de Bloomberg, Rachel Metz, a été la première à révéler ce plan, détaillant les étapes et les mesures potentielles qu'OpenAI pourrait utiliser pour suivre ses progrès en matière de développement de l'IAG.

Deepseek V3 : Une qualité proche de l'état de l'art sur votre propre serveur

Gábor Bíró • 9 janvier 2025

Jusqu'à récemment, le paysage de l'IA haut de gamme était dominé par des modèles propriétaires tels que GPT-4 et Claude Sonnet. L'accès à ces modèles implique souvent des coûts importants et des limitations. Cependant, l'arrivée de DeepSeek-V3 marque un tournant potentiel : ce modèle de langage open source offre non seulement des performances compétitives par rapport aux meilleurs modèles propriétaires, mais il donne également la possibilité de l'exécuter sur sa propre infrastructure.

Aperçu des robots humanoïdes

Gábor Bíró • 1 août 2024

La convergence de l'intelligence artificielle et de la robotique marque le début d'une nouvelle ère pour les machines humanoïdes. Ces dernières années, on observe une augmentation du nombre d'entreprises spécialisées dans le développement et la fabrication de robots humanoïdes.