Comparaison des performances des GPU pour les grands modèles linguistiques
Le développement rapide des grands modèles linguistiques (LLM) pose de nouveaux défis dans le domaine de l'informatique. Une question cruciale est de savoir comment les GPU fonctionnent lors de l'exécution de ces modèles. Dans cet article, nous allons examiner les performances de divers GPU à travers les concepts de TFLOPS (billions d'opérations en virgule flottante par seconde) et de TOPS (billions d'opérations par seconde). Nous présenterons les capacités de chaque modèle à l'aide d'un tableau clair, complété par de brèves explications.

Les TOPS (Tera Operations Per Second - Téra Opérations Par Seconde) et les FLOPS (Floating Point Operations Per Second - Opérations en Virgule Flottante Par Seconde) sont deux mesures importantes pour caractériser les performances des GPU, mais elles se rapportent à différents types d'opérations de calcul, en particulier lors de l'exécution et de l'entraînement des LLM (Grands Modèles Linguistiques).
TOPS (Tera Operations Per Second - Téra Opérations Par Seconde)
- Les TOPS mesurent généralement les performances des opérations sur les entiers (INT8, INT16, INT32, etc.).
- Ils sont généralement utilisés pour les accélérateurs d'IA (par exemple, Tensor Cores, NPU, TPU) car l'inférence (génération de sortie, prédiction) des LLM utilise souvent des opérations en virgule fixe, qui sont plus efficaces que les calculs en virgule flottante.
- Pour l'inférence, les opérations INT8 ou INT4 sont utilisées car elles réduisent les besoins en calcul et en mémoire sans dégrader significativement les performances du modèle. Par conséquent, les performances annoncées des accélérateurs d'IA sont souvent spécifiées en TOPS.
- Exemple : Un GPU peut avoir une performance de 200 TOPS pour les opérations INT8, ce qui signifie qu'il peut effectuer 200 billions d'opérations sur les entiers par seconde.
FLOPS (Floating Point Operations Per Second - Opérations en Virgule Flottante Par Seconde)
- Les FLOPS mesurent la vitesse d'exécution des opérations en virgule flottante (FP16, FP32, FP64).
- Ils sont cruciaux pour l'entraînement des LLM car les grands modèles nécessitent une précision FP16 ou FP32 pour des calculs précis des poids et des gradients.
- Exemple : Un GPU moderne peut avoir une performance de 20 TFLOPS (TeraFLOPS) FP32, ce qui signifie qu'il peut effectuer 20 billions d'opérations en virgule flottante par seconde.
- Pour les très grands modèles (par exemple, GPT-4 ou Gemini), les opérations FP16 (nombres à virgule flottante en demi-précision) et bfloat16 (BF16) sont également utilisées car elles sont plus rapides tout en restant suffisamment précises pour l'entraînement.
GPU | Cœurs Tensor/IA | FP32 (TFLOPS) | FP16 (TFLOPS) | BF16 (TFLOPS) | INT8 (TOPS) | VRAM (Go) | Bande passante mémoire (Go/s) | Consommation électrique (W) |
---|---|---|---|---|---|---|---|---|
NVIDIA H200 SXM | 528 | 67 | 1,979 | 1,979 | 3,958 | 141 (HBM3e) | 4,800 | 600-700 |
NVIDIA H100 SXM | 576 | 67 | 1,979 | 1,979 | 3,958 | 80 (HBM3) | 3,350 | 350-700 |
NVIDIA H100 PCIe | 576 | 51 | 1,513 | 1,513 | 3,026 | 80 (HBM3) | 2,000 | 350-700 |
NVIDIA A100 PCIe | 432 | 19.5 | 312 | 312 | 624 | 80 (HBM2e) | 1,935 | 250-400 |
RTX 6000 ADA | 568 | 91.1 | 48 (GDDR6 ECC) | 960 | 300 | |||
NVIDIA L40s | 568 | 91.6 | 48 (GDDR6 ECC) | 864 | 350 | |||
RTX A6000 | 336 | 38.7 | 48 (GDDR6) | 768 | 250 | |||
NVIDIA RTX 5090 | 680 | 104.8 | 450 | 900 | 32 (GDDR7x) | 1,790 | 575 | |
NVIDIA RTX 4090 | 512 | 82.6 | 330 | 660 | 24 (GDDR6x) | 1,008 | 450 | |
NVIDIA RTX 3090 | 328 | 40 | 285 | 24 | 936 | 350 | ||
NVIDIA RTX 2080 | 544 | 14.2 | 108 | 11 | 616 | 260 | ||
AMD MI300X | 61 | 654? | 1,307 | 2,615 | 192 (HBM3) | 5,200 | 750 |