Comparaison des performances des GPU pour les grands modèles linguistiques

Gábor Bíró 11 janvier 2025
2 min de lecture

Le développement rapide des grands modèles linguistiques (LLM) pose de nouveaux défis dans le domaine de l'informatique. Une question cruciale est de savoir comment les GPU fonctionnent lors de l'exécution de ces modèles. Dans cet article, nous allons examiner les performances de divers GPU à travers les concepts de TFLOPS (billions d'opérations en virgule flottante par seconde) et de TOPS (billions d'opérations par seconde). Nous présenterons les capacités de chaque modèle à l'aide d'un tableau clair, complété par de brèves explications.

Comparaison des performances des GPU pour les grands modèles linguistiques
Source: Création originale

Les TOPS (Tera Operations Per Second - Téra Opérations Par Seconde) et les FLOPS (Floating Point Operations Per Second - Opérations en Virgule Flottante Par Seconde) sont deux mesures importantes pour caractériser les performances des GPU, mais elles se rapportent à différents types d'opérations de calcul, en particulier lors de l'exécution et de l'entraînement des LLM (Grands Modèles Linguistiques).

TOPS (Tera Operations Per Second - Téra Opérations Par Seconde)

  • Les TOPS mesurent généralement les performances des opérations sur les entiers (INT8, INT16, INT32, etc.).
  • Ils sont généralement utilisés pour les accélérateurs d'IA (par exemple, Tensor Cores, NPU, TPU) car l'inférence (génération de sortie, prédiction) des LLM utilise souvent des opérations en virgule fixe, qui sont plus efficaces que les calculs en virgule flottante.
  • Pour l'inférence, les opérations INT8 ou INT4 sont utilisées car elles réduisent les besoins en calcul et en mémoire sans dégrader significativement les performances du modèle. Par conséquent, les performances annoncées des accélérateurs d'IA sont souvent spécifiées en TOPS.
  • Exemple : Un GPU peut avoir une performance de 200 TOPS pour les opérations INT8, ce qui signifie qu'il peut effectuer 200 billions d'opérations sur les entiers par seconde.

FLOPS (Floating Point Operations Per Second - Opérations en Virgule Flottante Par Seconde)

  • Les FLOPS mesurent la vitesse d'exécution des opérations en virgule flottante (FP16, FP32, FP64).
  • Ils sont cruciaux pour l'entraînement des LLM car les grands modèles nécessitent une précision FP16 ou FP32 pour des calculs précis des poids et des gradients.
  • Exemple : Un GPU moderne peut avoir une performance de 20 TFLOPS (TeraFLOPS) FP32, ce qui signifie qu'il peut effectuer 20 billions d'opérations en virgule flottante par seconde.
  • Pour les très grands modèles (par exemple, GPT-4 ou Gemini), les opérations FP16 (nombres à virgule flottante en demi-précision) et bfloat16 (BF16) sont également utilisées car elles sont plus rapides tout en restant suffisamment précises pour l'entraînement.

GPU Cœurs Tensor/IA FP32 (TFLOPS) FP16 (TFLOPS) BF16 (TFLOPS) INT8 (TOPS) VRAM (Go) Bande passante mémoire (Go/s) Consommation électrique (W)
NVIDIA H200 SXM 528 67 1,979 1,979 3,958 141 (HBM3e) 4,800 600-700
NVIDIA H100 SXM 576 67 1,979 1,979 3,958 80
(HBM3)
3,350 350-700
NVIDIA H100 PCIe 576 51 1,513 1,513 3,026 80
(HBM3)
2,000 350-700
NVIDIA A100 PCIe 432 19.5 312 312 624 80
(HBM2e)
1,935 250-400
RTX 6000 ADA 568 91.1 48
(GDDR6 ECC)
960 300
NVIDIA L40s 568 91.6 48
(GDDR6 ECC)
864 350
RTX A6000 336 38.7 48
(GDDR6)
768 250
NVIDIA RTX 5090 680 104.8 450 900 32
(GDDR7x)
1,790 575
NVIDIA RTX 4090 512 82.6 330 660 24
(GDDR6x)
1,008 450
NVIDIA RTX 3090 328 40 285 24 936 350
NVIDIA RTX 2080 544 14.2 108 11 616 260
AMD MI300X 61 654? 1,307 2,615 192 (HBM3) 5,200 750
Gábor Bíró 11 janvier 2025