GPU-Leistungsvergleich für große Sprachmodelle
Die rasante Entwicklung großer Sprachmodelle (LLMs) stellt die Computertechnik vor neue Herausforderungen. Eine entscheidende Frage für mich ist, wie sich GPUs beim Ausführen dieser Modelle verhalten. In diesem Beitrag möchte ich die Leistung verschiedener GPUs anhand der Konzepte TFLOPS (Billionen Gleitkommaoperationen pro Sekunde) und TOPS (Billionen Operationen pro Sekunde) untersuchen. Ich werde die Fähigkeiten einzelner Modelle in einer übersichtlichen Tabelle darstellen und durch kurze Erklärungen ergänzen.

TOPS (Tera Operations Per Second) und FLOPS (Floating Point Operations Per Second) sind zwei wichtige Kennzahlen zur Charakterisierung der GPU-Leistung, beziehen sich aber auf unterschiedliche Arten von Rechenoperationen, insbesondere beim Ausführen und Trainieren von LLMs (Large Language Models, große Sprachmodelle).
TOPS (Tera Operations Per Second)
- TOPS messen im Allgemeinen die Leistung von Integer-Operationen (INT8, INT16, INT32 usw.).
- Sie werden typischerweise für KI-Beschleuniger (z. B. Tensor Cores, NPUs, TPUs) verwendet, da die Inferenz (Ausgabeerzeugung, Vorhersage) von LLMs oft Festkommaoperationen nutzt, die effizienter sind als Gleitkommaberechnungen.
- Für die Inferenz werden INT8- oder INT4-Operationen verwendet, da sie den Rechen- und Speicherbedarf reduzieren, ohne die Modellleistung wesentlich zu beeinträchtigen. Daher wird die beworbene Leistung von KI-Beschleunigern oft in TOPS angegeben.
- Beispiel: Eine GPU könnte eine Leistung von 200 TOPS für INT8-Operationen haben, was bedeutet, dass sie 200 Billionen Integer-Operationen pro Sekunde ausführen kann.
FLOPS (Floating Point Operations Per Second)
- FLOPS messen die Ausführungsgeschwindigkeit von Gleitkommaoperationen (FP16, FP32, FP64).
- Sie sind entscheidend für das Training von LLMs, da große Modelle FP16- oder FP32-Präzision für genaue Gewichtungs- und Gradientenberechnungen benötigen.
- Beispiel: Eine moderne GPU könnte eine FP32-Leistung von 20 TFLOPS (TeraFLOPS) haben, was bedeutet, dass sie 20 Billionen Gleitkommaoperationen pro Sekunde ausführen kann.
- Für sehr große Modelle (z. B. GPT-4 oder Gemini) werden auch FP16-Operationen (halbe Präzision von Gleitkommazahlen) und bfloat16 (BF16)-Operationen verwendet, da sie schneller sind und dennoch für das Training ausreichend genau.
GPU | Tensor/KI- Kerne | FP32 (TFLOPS) | FP16 (TFLOPS) | BF16 (TFLOPS) | INT8 (TOPS) | VRAM (GB) | Speicherbandbreite (GB/s) | Leistungsaufnahme (W) |
---|---|---|---|---|---|---|---|---|
NVIDIA H200 SXM | 528 | 67 | 1,979 | 1,979 | 3,958 | 141 (HBM3e) | 4,800 | 600-700 |
NVIDIA H100 SXM | 576 | 67 | 1,979 | 1,979 | 3,958 | 80 (HBM3) | 3,350 | 350-700 |
NVIDIA H100 PCIe | 576 | 51 | 1,513 | 1,513 | 3,026 | 80 (HBM3) | 2,000 | 350-700 |
NVIDIA A100 PCIe | 432 | 19.5 | 312 | 312 | 624 | 80 (HBM2e) | 1,935 | 250-400 |
RTX 6000 ADA | 568 | 91.1 | 48 (GDDR6 ECC) | 960 | 300 | |||
NVIDIA L40s | 568 | 91.6 | 48 (GDDR6 ECC) | 864 | 350 | |||
RTX A6000 | 336 | 38.7 | 48 (GDDR6) | 768 | 250 | |||
NVIDIA RTX 5090 | 680 | 104.8 | 450 | 900 | 32 (GDDR7x) | 1,790 | 575 | |
NVIDIA RTX 4090 | 512 | 82.6 | 330 | 660 | 24 (GDDR6x) | 1,008 | 450 | |
NVIDIA RTX 3090 | 328 | 40 | 285 | 24 | 936 | 350 | ||
NVIDIA RTX 2080 | 544 | 14.2 | 108 | 11 | 616 | 260 | ||
AMD MI300X | 61 | 654? | 1,307 | 2,615 | 192 (HBM3) | 5,200 | 750 |