GPU-Leistungsvergleich für große Sprachmodelle

Gábor Bíró 11. Januar 2025
2 Min. Lesezeit

Die rasante Entwicklung großer Sprachmodelle (LLMs) stellt die Computertechnik vor neue Herausforderungen. Eine entscheidende Frage für mich ist, wie sich GPUs beim Ausführen dieser Modelle verhalten. In diesem Beitrag möchte ich die Leistung verschiedener GPUs anhand der Konzepte TFLOPS (Billionen Gleitkommaoperationen pro Sekunde) und TOPS (Billionen Operationen pro Sekunde) untersuchen. Ich werde die Fähigkeiten einzelner Modelle in einer übersichtlichen Tabelle darstellen und durch kurze Erklärungen ergänzen.

GPU-Leistungsvergleich für große Sprachmodelle
Quelle: Selbst erstellt

TOPS (Tera Operations Per Second) und FLOPS (Floating Point Operations Per Second) sind zwei wichtige Kennzahlen zur Charakterisierung der GPU-Leistung, beziehen sich aber auf unterschiedliche Arten von Rechenoperationen, insbesondere beim Ausführen und Trainieren von LLMs (Large Language Models, große Sprachmodelle).

TOPS (Tera Operations Per Second)

  • TOPS messen im Allgemeinen die Leistung von Integer-Operationen (INT8, INT16, INT32 usw.).
  • Sie werden typischerweise für KI-Beschleuniger (z. B. Tensor Cores, NPUs, TPUs) verwendet, da die Inferenz (Ausgabeerzeugung, Vorhersage) von LLMs oft Festkommaoperationen nutzt, die effizienter sind als Gleitkommaberechnungen.
  • Für die Inferenz werden INT8- oder INT4-Operationen verwendet, da sie den Rechen- und Speicherbedarf reduzieren, ohne die Modellleistung wesentlich zu beeinträchtigen. Daher wird die beworbene Leistung von KI-Beschleunigern oft in TOPS angegeben.
  • Beispiel: Eine GPU könnte eine Leistung von 200 TOPS für INT8-Operationen haben, was bedeutet, dass sie 200 Billionen Integer-Operationen pro Sekunde ausführen kann.

FLOPS (Floating Point Operations Per Second)

  • FLOPS messen die Ausführungsgeschwindigkeit von Gleitkommaoperationen (FP16, FP32, FP64).
  • Sie sind entscheidend für das Training von LLMs, da große Modelle FP16- oder FP32-Präzision für genaue Gewichtungs- und Gradientenberechnungen benötigen.
  • Beispiel: Eine moderne GPU könnte eine FP32-Leistung von 20 TFLOPS (TeraFLOPS) haben, was bedeutet, dass sie 20 Billionen Gleitkommaoperationen pro Sekunde ausführen kann.
  • Für sehr große Modelle (z. B. GPT-4 oder Gemini) werden auch FP16-Operationen (halbe Präzision von Gleitkommazahlen) und bfloat16 (BF16)-Operationen verwendet, da sie schneller sind und dennoch für das Training ausreichend genau.

GPU Tensor/KI-
Kerne
FP32 (TFLOPS) FP16 (TFLOPS) BF16 (TFLOPS) INT8 (TOPS) VRAM (GB) Speicherbandbreite (GB/s) Leistungsaufnahme (W)
NVIDIA H200 SXM 528 67 1,979 1,979 3,958 141 (HBM3e) 4,800 600-700
NVIDIA H100 SXM 576 67 1,979 1,979 3,958 80
(HBM3)
3,350 350-700
NVIDIA H100 PCIe 576 51 1,513 1,513 3,026 80
(HBM3)
2,000 350-700
NVIDIA A100 PCIe 432 19.5 312 312 624 80
(HBM2e)
1,935 250-400
RTX 6000 ADA 568 91.1 48
(GDDR6 ECC)
960 300
NVIDIA L40s 568 91.6 48
(GDDR6 ECC)
864 350
RTX A6000 336 38.7 48
(GDDR6)
768 250
NVIDIA RTX 5090 680 104.8 450 900 32
(GDDR7x)
1,790 575
NVIDIA RTX 4090 512 82.6 330 660 24
(GDDR6x)
1,008 450
NVIDIA RTX 3090 328 40 285 24 936 350
NVIDIA RTX 2080 544 14.2 108 11 616 260
AMD MI300X 61 654? 1,307 2,615 192 (HBM3) 5,200 750
Gábor Bíró 11. Januar 2025