Die gängigsten numerischen Formate für LLMs

Gábor Bíró • 22. Januar 2025

4 Min. Lesezeit

Der effiziente Betrieb von großen Sprachmodellen (LLMs) hängt maßgeblich von der geeigneten Speicherung und Verarbeitung ihrer Gewichte ab. Das gewählte numerische Format beeinflusst direkt den Speicherbedarf, die Rechengeschwindigkeit und die Genauigkeit des Modells. Im Laufe der Jahre wurde FP32 beim Training zunehmend durch FP16 und BF16 ergänzt oder ersetzt, während INT8 und sogar quantisierte Formate mit noch geringerer Bit-Tiefe immer häufiger zur Optimierung der Inferenz eingesetzt werden.

Die gängigsten numerischen Formate für LLMs

Quelle: Selbst erstellt

Künstliche Intelligenz, insbesondere Deep Learning, erfordert enorme Rechenleistungen. Die in diesen Berechnungen verwendeten numerischen Formate (d. h. wie Zahlen vom Computer gespeichert und verarbeitet werden) beeinflussen direkt:

Geschwindigkeit: Formate mit geringerer Präzision (weniger Bits) ermöglichen schnellere Berechnungen.
Speicherbedarf: Weniger Bits erfordern weniger Speicher, was entscheidend für das Laden und Ausführen großer Modelle ist.
Energieverbrauch: Die Verarbeitung von weniger Bits erfordert im Allgemeinen weniger Energie.
Genauigkeit: Formate mit höherer Präzision (mehr Bits) liefern genauere Ergebnisse, oft aber auf Kosten von Geschwindigkeit, Speicher und Energie.

Das Ziel ist es, das optimale Gleichgewicht zwischen Genauigkeit und Effizienz zu finden. Für LLMs sind die gängigsten numerischen Formate zur Speicherung von Gewichten Half-Precision Floating-Point (FP16) und bfloat16 (BF16). Für die Inferenzoptimierung durch Quantisierung werden zunehmend INT8 und sogar Formate mit noch geringerer Bit-Tiefe eingesetzt.

Wichtige numerische Formate in der KI:

FP32 (32-Bit-Gleitkommazahl)
- Historisch gesehen war dies das Standardformat im Deep Learning.
- Bietet hohe Präzision, erfordert aber erhebliche Speicher- und Rechenressourcen.
- Wird in modernen großen LLMs selten direkt zur Speicherung von Gewichten verwendet.
FP16 (16-Bit-Gleitkommazahl / halbe Präzision)
- Von Nvidia mit der Pascal-Architektur (2016) eingeführt.
- Wird von Nvidia Tensor Cores und anderen GPUs unterstützt, was schnellere Berechnungen ermöglicht.
- Reduziert den Speicherbedarf und die Rechenanforderungen im Vergleich zu FP32. Die Verringerung der Präzision ist oft akzeptabel für das Training und den Betrieb von Deep-Learning-Modellen.
- Präzise genug für viele große Modelle, aber in einigen Fällen (z. B. bei sehr kleinen Gradienten) kann der Präzisionsverlust Probleme wie Underflow verursachen.
BF16 (bfloat16 / Brain Floating Point)
- Ebenfalls 16 Bit wie FP16, aber mit einer anderen internen Struktur: mehr Bits für den Exponenten und weniger für die Mantisse (Nachkommastellen).
- Dadurch hat BF16 einen Dynamikbereich (die Differenz zwischen der größten und kleinsten darstellbaren Zahl), der näher an FP32 liegt als FP16.
- Dies mildert Underflow-Probleme und ermöglicht den effektiven Einsatz von BF16 während des Trainings mit geringerem Präzisionsverlust im Vergleich zu FP16 in bestimmten Szenarien.
- Nvidia führte die BF16-Unterstützung mit der Ampere-Architektur (2020) ein.
FP8 (8-Bit-Gleitkommazahl)
- Debütierte in Nvidias Hopper- (H100) und Blackwell-Architekturen (B100, B200, GB200).
- Kommt in zwei Varianten: E4M3 (4 Exponentenbits, 3 Mantissenbits) und E5M2 (5 Exponentenbits, 2 Mantissenbits).
- E4M3 bietet eine höhere Präzision, während E5M2 einen größeren Dynamikbereich bietet.
- Beschleunigt sowohl Training als auch Inferenz erheblich, oft mit akzeptablem Präzisionsverlust im Vergleich zu FP16.
INT8 (8-Bit-Integer, für quantisierte Modelle)
- Hocheffizient in Bezug auf Speicher und Rechenleistung, potenziell bis zu 4x schneller als FP16-Operationen.
- Verursacht einen gewissen Präzisionsverlust, der aber durch sorgfältige Quantisierungstechniken effektiv beherrscht werden kann.
- Üblich auf Edge-Geräten und mobilen Plattformen und wird von dedizierten KI-Beschleunigern unterstützt (z. B. Nvidia TensorRT, Qualcomm AI Engine).
- Weniger gebräuchlich beim Training, da der Präzisionsverlust bei Gradientenberechnungen problematischer sein kann.
- Es ist üblich, Modelle zu quantisieren, die ursprünglich in FP32 oder FP16 trainiert wurden, und Gewichte und Aktivierungen für die Inferenz in INT8 umzuwandeln.
INT4 / INT2 (quantisiert, Low-Bit-Formate)
- Immer häufiger in neueren Modellen und Optimierungen (z. B. für Llama-Modelle, GPT-4).
- Reduziert den Speicherbedarf drastisch und beschleunigt die Inferenz.
- Hauptsächlich für die Inferenz verwendet; im Allgemeinen nicht für das Training geeignet.

Die Bedeutung der Hardware-Unterstützung für numerische Formate

Die Hardware-Unterstützung für numerische Formate ist für GPUs (und andere KI-Beschleuniger) von entscheidender Bedeutung, da sie die Recheneffizienz grundlegend bestimmt.

Optimierte Ausführungseinheiten: Wenn eine GPU ein Format in Hardware unterstützt (z. B. FP16, BF16, FP8), bedeutet dies, dass dedizierte Schaltkreise (Ausführungseinheiten, wie Multiply-Accumulate-Einheiten) auf dem Chip speziell für dieses Format entwickelt wurden. Diese Schaltkreise führen Operationen direkt in Hardware aus, was um Größenordnungen schneller ist als Software-Emulation.
Effiziente Datenbewegung: Die Hardware-Unterstützung optimiert nicht nur die Berechnung, sondern auch die Datenbewegung. Das Speichersystem der GPU (Register, Caches, globaler Speicher) und die Datenbusse sind auf die unterstützten Formate ausgerichtet. Das bedeutet, dass weniger Bits bewegt werden müssen, was den Bedarf an Speicherbandbreite, Latenz und Energieverbrauch reduziert.
Maximierung der Parallelität: GPUs beziehen ihre Leistung aus massiver Parallelität. Die Hardware-Unterstützung ermöglicht es, mehr Operationen gleichzeitig mit Daten im unterstützten Format durchzuführen. Wenn eine GPU beispielsweise 16-Bit-Operationen in Hardware unterstützt, kann sie möglicherweise zwei 16-Bit-Operationen parallel anstelle einer 32-Bit-Operation ausführen, wodurch der Durchsatz für diese Operationen potenziell verdoppelt wird.
Energieeffizienz: Dedizierte Schaltkreise sind nicht nur schneller, sondern auch energieeffizienter. Es müssen weniger Transistoren schalten, um die gleiche Operation im Vergleich zu weniger spezialisierter Hardware oder Software-Emulation durchzuführen, was zu einem geringeren Energieverbrauch und geringerer Wärmeentwicklung führt.

Zusammenfassung

Für das Training sind FP16 oder BF16 weit verbreitet. Für die Inferenz verwenden viele Modelle inzwischen INT8- oder sogar INT4-Quantisierung für eine schnellere Ausführung und einen geringeren Speicherbedarf. Die Entwicklung numerischer Formate in der KI ist ein fortlaufender Optimierungsprozess. Formate mit geringerer Präzision ermöglichen den Bau schnellerer, effizienterer und potenziell kostengünstigerer KI-Systeme, aber die Kompromisse zwischen Präzision, Dynamikbereich und Genauigkeit müssen sorgfältig abgewogen werden. Neuere Hardware-Architekturen (wie Ampere, Ada Lovelace, Hopper, Blackwell) unterstützen eine wachsende Anzahl effizienter numerischer Formate und beschleunigen die KI-Entwicklung weiter. In Zukunft können wir die Entstehung noch spezialisierterer numerischer Formate erwarten, die auf KI-Workloads zugeschnitten sind.

Ray Kurzweil: Zeitplan der KI-Entwicklung und zukünftige Auswirkungen

Gábor Bíró • 31. Juli 2024

Ray Kurzweil, der renommierte Zukunftsforscher und Google-Ingenieur, hat kühne Vorhersagen über die Zukunft der künstlichen Intelligenz gemacht, darunter die Entstehung von Artificial General Intelligence (AGI) bis 2029 und die technologische Singularität bis 2045. Laut einem Bericht von The Independent aktualisiert Kurzweils kommendes Buch „The Singularity is Nearer“ seinen Zeitplan für die KI-Entwicklung und deren angenommenes Potenzial, die menschliche Biologie und Lebensspanne zu transformieren.

Roboter, die am Arbeitsplatz lernen: Der Aufstieg der selbstlernenden KI

Gábor Bíró • 12. August 2024

Stellen Sie sich Roboter vor, die nicht nur vorprogrammierte Anweisungen befolgen, sondern tatsächlich lernen und sich anpassen, während sie Aufgaben in unserer unvorhersehbaren Welt ausführen. Forschende am MIT haben kürzlich einen neuartigen Algorithmus namens „Estimate, Extrapolate, and Situate“ (EES) entwickelt, der einen bedeutenden Schritt in diese Richtung darstellt. Diese Innovation verspricht, die Robotik zu verbessern, indem sie es Maschinen ermöglicht, sich effektiv selbst zu trainieren, wodurch die Notwendigkeit ständiger menschlicher Eingriffe reduziert und ihre Fähigkeiten in zahlreichen Bereichen potenziell revolutioniert werden.

OpenAI geht Partnerschaft mit Stack Overflow ein

Gábor Bíró • 7. Mai 2024

OpenAI und Stack Overflow haben eine Partnerschaft angekündigt, die darauf abzielt, die Fähigkeiten von KI-Modellen durch die Integration des umfangreichen technischen Wissens der Community zu verbessern. Diese Zusammenarbeit gewährt OpenAI Zugriff auf die Stack Overflow API und stellt eine zuverlässige Datenbank für die KI-Entwicklung bereit, die zur Verbesserung der Modellleistung beiträgt, insbesondere bei Programmier- und technischen Anfragen.

Cerebras Börsengang: Nvidia-Konkurrent geht an die Börse

Gábor Bíró • 15. Oktober 2024

In den letzten Jahren hat die KI-Revolution neue Akteure und aufregende technologische Lösungen in die Halbleiterindustrie gebracht. Eines der vielversprechendsten Unternehmen ist Cerebras Systems, ein in Kalifornien ansässiges Startup, das kürzlich seine Absicht bekannt gegeben hat, an die Börse zu gehen.

Die Effizienzfalle

Gábor Bíró • 5. März 2025

Haben Sie sich jemals gefragt, warum moderne Technologie, die unser Leben eigentlich erleichtern und uns Zeit sparen soll, nicht wirklich zu mehr Freizeit führt? Warum arbeiten wir genauso viel oder vielleicht sogar mehr als unsere Großeltern, obwohl wir von Waschmaschinen, Geschirrspülern, Computern und Smartphones umgeben sind? Die Antwort liegt in einem Phänomen, das bereits während der Industriellen Revolution erkannt wurde und als Jevons-Paradoxon bekannt ist.

Das Uncanny Valley: Wenn Roboter zu menschlich werden

Gábor Bíró • 11. März 2025

Haben Sie schon einmal einen Roboter, eine animierte Figur oder sogar eine Videospielfigur gesehen, die so lebensecht war, dass sie sich fast ... beunruhigend anfühlte? Fiel es Ihnen schwer zu erkennen, ob sie menschlich war oder nicht, und hat diese Unsicherheit ein seltsames, unheimliches Gefühl ausgelöst? Wenn ja, dann haben Sie wahrscheinlich das Phänomen des „Uncanny Valley“ erlebt. Aber was genau ist das, und warum löst es eine so starke Reaktion in uns aus?

KI kann keine Patentrechte besitzen

Gábor Bíró • 13. Februar 2024

In den Vereinigten Staaten kann künstliche Intelligenz (KI) rechtlich nicht als „Erfinder“ in Patentanmeldungen anerkannt werden. Diese Position wurde vom US-Berufungsgericht für den Federal Circuit bestätigt und durch eine Richtlinie des US-Patent- und Markenamts (USPTO) untermauert. Damit wird bekräftigt, dass nach aktueller US-Gesetzgebung nur Menschen als Erfinder in Frage kommen.