GPU Teljesítmények összehasonlítása Nagy Nyelvi Modellekhez

Bíró Gábor 2025. január 11.
3 perc olvasási idő

A nagy nyelvi modellek (LLM-ek) rohamos fejlődése új kihívásokat támaszt a számítástechnika területén. Számomra is fontos kérdés, hogy a GPU-k milyen teljesítményt nyújtanak ezen modellek futtatásakor. Ebben a bejegyzésben a TFLOPS (trillion floating-point operations per second) és a TOPS (trillion operations per second) fogalmak mentén igyekszem megvizsgálni a különböző GPU-k teljesítményét. Egy áttekinthető táblázat segítségével mutatom be az egyes modellek képességeit, rövid magyarázatokkal kiegészítve.

GPU Teljesítmények összehasonlítása Nagy Nyelvi Modellekhez
Forrás: Saját szerkesztés

A TOPS (Tera Operations Per Second) és a FLOPS (Floating Point Operations Per Second) két fontos mérőszám a GPU-k teljesítményének jellemzésére, de eltérő számítási műveletekre vonatkoznak, különösen az LLM-ek (Large Language Model-ek) futtatásánál és betanításánál.

TOPS (Tera Operations Per Second)

  • A TOPS általában az egész számokkal végzett műveletek (INT8, INT16, INT32, stb.) teljesítményét méri.
  • Jellemzően az AI-gyorsítók (pl. Tensor Core, NPUs, TPUs) esetében használják, mivel az LLM-ek inference (kimenet generálása, előrejelzés) során gyakran fixpontos műveleteket alkalmaznak, amelyek hatékonyabbak, mint a lebegőpontos számítások.
  • Az inference esetében INT8 vagy INT4 műveleteket használnak, mert ezek csökkentik a számítási és memóriaigényt anélkül, hogy jelentősen rontanák a modell teljesítményét. Ezért az AI-gyorsítók hirdetett teljesítménye gyakran TOPS-ban van megadva.
  • Példa: Egy GPU 200 TOPS teljesítményű lehet INT8 műveletek esetében, ami azt jelenti, hogy másodpercenként 200 billió egész szám műveletet képes végrehajtani.

FLOPS (Floating Point Operations Per Second)

  • A FLOPS a lebegőpontos műveletek (FP16, FP32, FP64) végrehajtási sebességét méri.
  • Az LLM-ek betanításánál (training) kulcsfontosságú, mert a nagy méretű modellek esetében FP16 vagy FP32 precizitásra van szükség, hogy a súlyok és gradiensszámítások pontosak legyenek.
  • Példa: Egy modern GPU lehet 20 TFLOPS (TeraFLOPS) FP32 teljesítményű, ami azt jelenti, hogy másodpercenként 20 billió lebegőpontos műveletet képes végrehajtani.
  • Nagyon nagy modellek (pl. GPT-4 vagy Gemini) esetében FP16 (félprecíziós lebegőpontos számok) és bfloat16 (BF16) műveletek is használatosak, mert ezek gyorsabbak, de még mindig elég pontosak a betanításhoz.

GPU Tensor/AI
magok
FP32 (TFLOPS) FP16 (TFLOPS) BF16 (TFLOPS) INT8 (TOPS) VRAM (GB) Mem. sávsz. (GB/s) Fogyasztás (W)
NVIDIA H200 SXM 528 67 1 979 1 979 3 958 141 (HBM3e) 4 800 600-700
NVIDIA H100 SXM 576 67 1 979 1 979 3 958 80
(HBM3)
3 350 350-700
NVIDIA H100 PCIe 576 51 1 513 1 513 3 026 80
(HBM3)
2 000 350-700
NVIDIA A100 PCIe 432 19.5 312 312 624 80
(HBM2e)
1 935 250-400
RTX 6000 ADA 568 91.1 48
(GDDR6 ECC)
960 300
NVIDIA L40s 568 91.6 48
(GDDR6 ECC)
864 350
RTX A6000 336 38.7 48
(GDDR6)
768 250
NVIDIA RTX 5090 680 104.8 450 900 32
(GDDR7x)
1 790 575
NVIDIA RTX 4090 512 82.6 330 660 24
(GDDR6x)
1 008 450
NVIDIA RTX 3090 328 40 285 24 936 350
NVIDIA RTX 2080 544 14.2 108 11 616 260
AMD MI300X 61 654? 1 307 2 615 192 (HBM3) 5 200 750
Bíró Gábor 2025. január 11.
© 2025 Birow.com