A legelterjedtebb számformátumok LLM-hez

Bíró Gábor • 2025. január 22.

6 perc olvasási idő

A nagy nyelvi modellek (LLM-ek) hatékony működéséhez elengedhetetlen a súlyok megfelelő tárolása és feldolgozása. A választott számformátum közvetlen hatással van a modell memóriaigényére, számítási sebességére és pontosságára. Az évek során az FP32-t fokozatosan felváltotta az FP16 és a BF16, míg az inferencia optimalizálása érdekében egyre elterjedtebbek az INT8 és alacsonyabb bitmélységű kvantált formátumok.

A legelterjedtebb számformátumok LLM-hez

Forrás: Saját szerkesztés

A mesterséges intelligencia, különösen a mélytanulás, rengeteg számítást igényel. A számítások során használt számformátumok (azaz, ahogyan a számokat a számítógép tárolja és kezeli) közvetlenül befolyásolják:

Sebesség: Az alacsonyabb pontosságú formátumok (kevesebb bit) gyorsabb számításokat tesznek lehetővé.
Memóriaigény: Kevesebb bit kevesebb memóriát igényel, ami kritikus a nagy modellek betöltése és futtatása során.
Energiafogyasztás: A kevesebb bit feldolgozása általában kevesebb energiát igényel.
Pontosság: A magasabb pontosságú formátumok (több bit) pontosabb eredményeket adnak, de ez a sebesség, memória és energia rovására mehet.

A cél az, hogy megtaláljuk az optimális egyensúlyt a pontosság és a hatékonyság között. A legelterjedtebb számformátum az LLM modelleknél a súlyok tárolására a félig pontos lebegőpontos számábrázolás (FP16) és a bfloat16 (BF16), valamint egyre inkább az int8 vagy még alacsonyabb bitmélységű formátumok kvantáláshoz.

Jellemző számformátumok az MI területén:

FP32 (Floating point 32 bites, lebegőpontos szám)
- Régebben ez volt az alapértelmezett formátum a mélytanulásban.
- Nagy pontosságú, de sok memóriát és számítási erőforrást igényel.
- Ma már ritkán használják közvetlenül a súlyok tárolására LLM-ekben.
FP16 (16 bites lebegőpontos szám)
- Az Nvidia vezette be a Pascal architektúrával (2016)
- Nvidia Tensor Core és más GPU-k támogatják, így gyorsabb számításokat tesz lehetővé.
- Csökkenti a memóriahasználatot és a számítási igényt az FP32-höz képest. A pontosság csökkenése sok esetben elfogadható a mélytanulási modellek betanításánál és futtatásánál.
- Még mindig elég precíz a nagy méretű modellekhe de .bizonyos esetekben (pl. nagyon kis gradiensek) a pontosságvesztés problémákat okozhat ("underflow").
BF16 (bfloat16, 16 bites lebegőpontos szám, de nagyobb exponenssel)
- Ugyanúgy 16 bit, mint az FP16, de más a belső felépítése: több bitet használ a kitevőre (exponent) és kevesebbet a törtrészre (mantissa).
- Ezáltal a BF16 dinamikus tartománya (a legnagyobb és legkisebb ábrázolható számok közötti különbség) közelebb van az FP32-éhez, mint az FP16-éhoz.
- Ez csökkenti az "underflow" problémákat, és lehetővé teszi a BF16 használatát a betanításnál is, kevesebb pontosságvesztéssel, mint az FP16.
- Az Nvidia az Ampere architektúrával (2020) vezette be a BF16 támogatást.
FP8 (8 bites lebegőpontos szám)
- Az Nvidia Hopper (H100) és Blackwell (B100, B200, GB200) architektúrákban debütált.
- Két változata van: E4M3 (4 bit kitevő, 3 bit törtrész) és E5M2 (5 bit kitevő, 2 bit törtrész).
- Az E4M3 nagyobb pontosságot, az E5M2 nagyobb dinamikatartományt biztosít.
- Jelentősen gyorsítja a betanítást és a futtatást, miközben a pontosságvesztés is elfogadható az FP16-os képest.
INT8 (8 bites egész szám, kvantált modellekhez)
- Nagyon hatékony memória- és számítási szempontból, akár 4× gyorsabb lehet, mint az FP16.
- Bizonyos precíziós veszteséggel jár, de jól optimalizálható.
- Edge eszközökön és mobilokon gyakori, illetve a dedikált gyorsítókártyák (pl. Nvidia TensorRT, Qualcomm AI Engine) támogatják.
- A betanításnál ritkábban alkalmazzák, mert a pontosságvesztés itt nagyobb problémákat okozhat.
- Elterjedt gyakorlat, hogy az eredetileg FP32, FP16 -os modelleket kvantálással a modell súlyait és aktivációit átalakítják INT8-ba inference-hez.
INT4 / INT2 (kvantált, alacsony bitmélységű formátumok)
- Legújabb modellekben (pl. LLaMA-2, GPT-4 optimalizációk) egyre elterjedtebbek.
- Drasztikusan csökkenti a memóriahasználatot és gyorsítja az inferenciát.
- Leginkább inference-re való, tanításhoz nem ajánlott.

Számformátumok hardveres támogatásának fontossága

A számformátumok hardveres támogatása azért kritikus fontosságú a GPU-k (és más MI-gyorsítók) esetében, mert ez határozza meg a számítások alapvető hatékonyságát.

Műveleti egységek optimalizálása: Ha egy GPU hardveresen támogat egy adott számformátumot (pl. FP16, BF16, FP8), az azt jelenti, hogy a chipen belül dedikált áramkörök (műveleti egységek, pl. szorzó-összeadó egységek) vannak optimalizálva pontosan erre a formátumra. Ezek az áramkörök közvetlenül, a hardver szintjén végzik a műveleteket, ami nagyságrendekkel gyorsabb, mint a szoftveres emuláció.
Adatmozgatás hatékonysága: A hardveres támogatás nem csak a számításokat, hanem az adatok mozgatását is optimalizálja. A GPU memóriarendszere (regiszterek, gyorsítótárak, globális memória) és az adatbuszok is illeszkednek a támogatott formátumokhoz. Ez azt jelenti, hogy kevesebb bitet kell mozgatni, ami csökkenti a memória-sávszélesség igényt, a késleltetést és az energiafogyasztást.
Párhuzamosítás maximalizálása: A GPU-k ereje a masszív párhuzamosításban rejlik. A hardveres támogatás lehetővé teszi, hogy egyszerre több műveletet végezzenek el az adott formátumú adatokon. Például, ha egy GPU 16 bites műveleteket támogat hardveresen, akkor egy 32 bites művelet helyett két 16 bites műveletet végezhet el párhuzamosan, megduplázva a számítási teljesítményt.
Energiahatékonyság: A dedikált áramkörök nem csak gyorsabbak, de energiatakarékosabbak is. Kevesebb tranzisztort kell kapcsolgatni ugyanannak a műveletnek az elvégzéséhez, ami alacsonyabb energiafogyasztást és hőtermelést eredményez.

Összegzés

Tanításnál főleg FP16 vagy BF16 az elterjedt. Inferenciánál egyre több modell INT8 vagy INT4 kvantálást használ a gyorsabb működés érdekében. A számformátumok fejlődése az MI-ben egy folyamatos optimalizálási folyamat. Az alacsonyabb pontosságú formátumok lehetővé teszik a gyorsabb, hatékonyabb és olcsóbb MI-rendszerek építését, de a pontosság és a dinamikus tartomány közötti kompromisszumokat gondosan mérlegelni kell. Az újabb architektúrák (pl. Ampere, Ada Lovelace, Hopper, Blackwell) egyre több és egyre hatékonyabb számformátumot támogatnak, ami tovább gyorsítja az MI fejlődését. A jövőben várhatóan további, még speciálisabb számformátumok is megjelennek majd.

Ajánló

A Softbank szeretne meghatározóvá válni az AI áramkörök gyártásában

Bíró Gábor • 2024. február 19.

A mesterséges intelligencia AI chip piacának exponenciális növekedése új kihívásokat és lehetőségeket teremt a befektetők és technológiai vállalatok számára. A SoftBank, mint befektetési óriás, stratégiai átrendeződésen megy keresztül, aminek középpontjában az AI áll, és ahhoz kapcsolódva az Arm chip tervező cég által kínált potenciál kiaknázása.

Moravec paradoxona: Az emberi és mesterséges intelligencia képességeinek meglepő különbségei

Bíró Gábor • 2024. május 14.

A Moravec-paradoxon az MI-kutatás és a robotika területén egy ellentmondásos jelenségre hívja fel a figyelmet: az emberek számára egyszerű feladatok gyakran rendkívül nehezek a gépeknek, és fordítva. Ez a Hans Moravec és más kutatók által az 1980-as években megfogalmazott paradoxon máig alapvető megfigyelésnek számít a területen.

Az Apple OpenELM modellje képes lesz az eszközökön futni, nem a felhőben

Bíró Gábor • 2024. április 26.

Az Apple bemutatta az OpenELM (Open Efficient Language Models) névre keresztelt új nyílt forráskódú nagyméretű nyelvi modellsorozatát. Ezeket a modelleket arra tervezték, hogy helyileg működjenek az eszközökön. Ez drasztikus változást jelent a hagyományos, felhőalapú szerverfeldolgozásra való támaszkodáshoz képest. A fejlesztés az Apple tágabb stratégiájának része, hogy fejlettebb mesterséges intelligencia képességeket integráljon közvetlenül az eszközeibe, ezzel javítva az adatvédelmet és a feldolgozási sebességet.

Kognitív számítástechnika

Bíró Gábor • 2024. szeptember 17.

A technológia világában folyamatosan jelennek meg új, izgalmas fejlesztések, amelyek megváltoztatják életünket és munkamódszereinket. Ezek közül az egyik legígéretesebb és legérdekesebb terület a kognitív számítástechnika (cognitive computing). De mi is ez pontosan, és miért olyan fontos?

500 milliárd paraméteres modell a Microsofttól

Bíró Gábor • 2024. május 07.

A Microsoft egy hatalmas új nyelvi modellt fejleszt, az MAI-1-et, amely potenciális riválisa lesz a Google és az OpenAI hasonló eszközeinek. A mintegy 500 milliárd paraméterrel rendelkező MAI-1 célja, hogy javítsa a Microsoft mesterségesintelligencia-kapacitását, különösképp a Bing kereső és Azure felhős szolgáltatások terén.

Az OpenAI megállapodott a Stack Overflow-val

Bíró Gábor • 2024. május 07.

Az OpenAI és a Stack Overflow bejelentették partnerségüket, hogy a közösség műszaki tudásának beépítésével javítsák az AI-modellek képességeit. Ez az együttműködés lehetővé teszi, hogy az OpenAI hozzáférjen a Stack Overflow API-jához, ami megbízható adatbázist kínál az AI fejlesztéséhez, illetve segít a modellek teljesítményének javításában, különösen a programozási és műszaki kérdésekben.

Új szintre lép az MI és az ember közötti interakció

Bíró Gábor • 2024. július 31.

Az OpenAI megkezdte a várva várt Fejlett Hangmód bevezetését a ChatGPT-ben, amely mostantól néhány Plus előfizető számára elérhetővé teszi a hiperrealisztikus hangalapú interakciókat a GPT-4o modell erejével. Ahogy a TechCrunch is beszámolt róla, ez az új funkció természetesebb, valós idejű beszélgetéseket ígér az AI-val, beleértve a mondat közbeni megszakítás és az érzelmi intonációk felismerésének képességét.