GPU Teljesítmények összehasonlítása Nagy Nyelvi Modellekhez
A nagy nyelvi modellek (LLM-ek) rohamos fejlődése új kihívásokat támaszt a számítástechnika területén. Számomra is fontos kérdés, hogy a GPU-k milyen teljesítményt nyújtanak ezen modellek futtatásakor. Ebben a bejegyzésben a TFLOPS (trillion floating-point operations per second) és a TOPS (trillion operations per second) fogalmak mentén igyekszem megvizsgálni a különböző GPU-k teljesítményét. Egy áttekinthető táblázat segítségével mutatom be az egyes modellek képességeit, rövid magyarázatokkal kiegészítve.

A TOPS (Tera Operations Per Second) és a FLOPS (Floating Point Operations Per Second) két fontos mérőszám a GPU-k teljesítményének jellemzésére, de eltérő számítási műveletekre vonatkoznak, különösen az LLM-ek (Large Language Model-ek) futtatásánál és betanításánál.
TOPS (Tera Operations Per Second)
- A TOPS általában az egész számokkal végzett műveletek (INT8, INT16, INT32, stb.) teljesítményét méri.
- Jellemzően az AI-gyorsítók (pl. Tensor Core, NPUs, TPUs) esetében használják, mivel az LLM-ek inference (kimenet generálása, előrejelzés) során gyakran fixpontos műveleteket alkalmaznak, amelyek hatékonyabbak, mint a lebegőpontos számítások.
- Az inference esetében INT8 vagy INT4 műveleteket használnak, mert ezek csökkentik a számítási és memóriaigényt anélkül, hogy jelentősen rontanák a modell teljesítményét. Ezért az AI-gyorsítók hirdetett teljesítménye gyakran TOPS-ban van megadva.
- Példa: Egy GPU 200 TOPS teljesítményű lehet INT8 műveletek esetében, ami azt jelenti, hogy másodpercenként 200 billió egész szám műveletet képes végrehajtani.
FLOPS (Floating Point Operations Per Second)
- A FLOPS a lebegőpontos műveletek (FP16, FP32, FP64) végrehajtási sebességét méri.
- Az LLM-ek betanításánál (training) kulcsfontosságú, mert a nagy méretű modellek esetében FP16 vagy FP32 precizitásra van szükség, hogy a súlyok és gradiensszámítások pontosak legyenek.
- Példa: Egy modern GPU lehet 20 TFLOPS (TeraFLOPS) FP32 teljesítményű, ami azt jelenti, hogy másodpercenként 20 billió lebegőpontos műveletet képes végrehajtani.
- Nagyon nagy modellek (pl. GPT-4 vagy Gemini) esetében FP16 (félprecíziós lebegőpontos számok) és bfloat16 (BF16) műveletek is használatosak, mert ezek gyorsabbak, de még mindig elég pontosak a betanításhoz.
GPU | Tensor/AI magok |
FP32 (TFLOPS) | FP16 (TFLOPS) | BF16 (TFLOPS) | INT8 (TOPS) | VRAM (GB) | Mem. sávsz. (GB/s) | Fogyasztás (W) |
---|---|---|---|---|---|---|---|---|
NVIDIA H200 SXM | 528 | 67 | 1 979 | 1 979 | 3 958 | 141 (HBM3e) | 4 800 | 600-700 |
NVIDIA H100 SXM | 576 | 67 | 1 979 | 1 979 | 3 958 | 80 (HBM3) |
3 350 | 350-700 |
NVIDIA H100 PCIe | 576 | 51 | 1 513 | 1 513 | 3 026 | 80 (HBM3) |
2 000 | 350-700 |
NVIDIA A100 PCIe | 432 | 19.5 | 312 | 312 | 624 | 80 (HBM2e) |
1 935 | 250-400 |
RTX 6000 ADA | 568 | 91.1 | 48 (GDDR6 ECC) |
960 | 300 | |||
NVIDIA L40s | 568 | 91.6 | 48 (GDDR6 ECC) |
864 | 350 | |||
RTX A6000 | 336 | 38.7 | 48 (GDDR6) |
768 | 250 | |||
NVIDIA RTX 5090 | 680 | 104.8 | 450 | 900 | 32 (GDDR7x) |
1 790 | 575 | |
NVIDIA RTX 4090 | 512 | 82.6 | 330 | 660 | 24 (GDDR6x) |
1 008 | 450 | |
NVIDIA RTX 3090 | 328 | 40 | 285 | 24 | 936 | 350 | ||
NVIDIA RTX 2080 | 544 | 14.2 | 108 | 11 | 616 | 260 | ||
AMD MI300X | 61 | 654? | 1 307 | 2 615 | 192 (HBM3) | 5 200 | 750 |