Tamaño de los Modelos LLM, Requisitos de Memoria y Cuantificación

Gábor Bíró • 12 de noviembre de 2024

3 min de lectura

Los Modelos de Lenguaje Grandes (LLM), como GPT-3, LLaMA o PaLM, son redes neuronales de gran tamaño. Este tamaño se mide típicamente por el número de parámetros (p. ej., 7b, 14b, 72b, que significan 7 mil millones, 14 mil millones, 72 mil millones de parámetros). Un parámetro es básicamente un valor de peso o sesgo dentro de la red neuronal. Estos parámetros se aprenden durante el entrenamiento y, en conjunto, representan el "conocimiento" del modelo, determinando cómo procesa la información y genera resultados. Los LLM actuales tienen miles de millones, y a veces incluso cientos de miles de millones, de parámetros.

Tamaño de los Modelos LLM, Requisitos de Memoria y Cuantificación

Fuente: Elaborado por el autor

Cientos de miles de millones de parámetros se traducen en considerables requisitos de memoria:

Almacenamiento: Los parámetros del modelo deben almacenarse en un almacenamiento persistente, como un disco duro o SSD.
Carga: Para ejecutar el modelo (llevar a cabo la inferencia), los parámetros deben cargarse en la memoria de la GPU (u otro acelerador).
Cálculo: Durante la ejecución del modelo, la GPU necesita acceso constante a estos parámetros para realizar cálculos.

Ejemplo:

Supongamos que un modelo tiene 175 mil millones de parámetros, y cada parámetro se almacena en formato FP32 (coma flotante de 32 bits).

Un número FP32 ocupa 4 bytes (32 bits / 8 bits por byte).
175 mil millones de parámetros * 4 bytes/parámetro = 700 mil millones de bytes = 700 GB.

Por lo tanto, ¡solo almacenar los parámetros del modelo requiere 700 GB de espacio! Cargar y ejecutar el modelo requiere al menos esta cantidad de VRAM (Video RAM) en la GPU. Por eso son necesarias las GPU de gama alta con mucha VRAM (como NVIDIA A100, H100) para ejecutar LLM a gran escala. Si, en lugar de 4 bytes, cada parámetro ocupase solo 1 byte (como con el formato INT8), el requisito de memoria en gigabytes sería más o menos igual al número de parámetros en miles de millones. Por ejemplo, un modelo de 175B parámetros que utiliza INT8 requeriría aproximadamente 175 GB de VRAM.

Cuantificación: Reducción de los Requisitos de Memoria

La cuantificación es una técnica que busca reducir el tamaño del modelo y su huella de memoria, generalmente a cambio de sacrificar una cantidad aceptable de precisión. Durante la cuantificación, los parámetros del modelo (pesos y, a veces, activaciones) se convierten a un formato numérico de menor precisión.

¿Cómo funciona la cuantificación?

Formato Original: Los modelos se entrenan típicamente utilizando formatos FP32 o FP16 (coma flotante de 16 bits).
Formato de Destino: Durante la cuantificación, los parámetros se convierten a formatos como INT8 (entero de 8 bits), FP8 u otros tipos de menor precisión.
Mapeo: La cuantificación implica crear un mapeo entre el rango de valores en el formato original (p. ej., FP32) y el rango de valores en el formato de destino (p. ej., INT8). Este mapeo define cómo representar los valores originales utilizando el rango limitado del formato de destino y puede ser lineal o no lineal.
Redondeo: Basándose en el mapeo, los valores originales se "redondean" al valor representable más cercano en el formato de destino.
Pérdida de Información: Este proceso de redondeo lleva inevitablemente a cierta pérdida de información, lo que puede resultar en una disminución de la precisión del modelo. El desafío de la cuantificación reside en minimizar esta pérdida de precisión.

Ejemplo (Cuantificación INT8):

FP32: Un número ocupa 4 bytes.
INT8: Un número ocupa 1 byte.

Si cuantificamos un modelo de 175 mil millones de parámetros de FP32 a INT8, ¡el tamaño del modelo se reduce de 700 GB a 175 GB! Este es un ahorro importante, que posibilita ejecutar el modelo en GPU más pequeñas y económicas (aunque a menudo con una ligera disminución del rendimiento).

Métodos de Cuantificación:

Cuantificación Post-Entrenamiento (PTQ): La cuantificación se realiza después de que el modelo ha sido completamente entrenado. Este es el método más simple, pero puede conducir a una mayor pérdida de precisión.
Entrenamiento Consciente de la Cuantificación (QAT): Las operaciones de cuantificación se simulan o se incorporan al proceso de entrenamiento en sí. El modelo aprende a compensar la pérdida de precisión causada por la cuantificación. Esto generalmente produce una mejor precisión que PTQ, pero requiere más tiempo y recursos computacionales para el entrenamiento.

Resumen

La cuantificación es una técnica fundamental para ejecutar LLM a gran escala de forma eficiente. Permite una reducción considerable del tamaño del modelo y de los requisitos de memoria, haciendo que estos modelos potentes sean accesibles a un público más amplio y a más hardware. Sin embargo, la cuantificación implica un equilibrio con la precisión, por lo que es crucial seleccionar el método de cuantificación y el formato numérico adecuados para la tarea específica. El soporte de hardware (por ejemplo, operaciones INT8 eficientes en las GPU) es clave para ejecutar modelos cuantificados de forma rápida y eficaz. La evolución de los formatos numéricos (FP32, FP16, BF16, INT8, FP8) y su soporte de hardware está directamente relacionada con la cuantificación, lo que permite colectivamente la creación y el despliegue de LLM cada vez más grandes y complejos.

Recomendados

Tesla Optimus

Gábor Bíró • 8 de julio de 2024

Elon Musk y Tesla han entrado una vez más en un nuevo campo, esta vez el mundo de los robots humanoides. El proyecto Tesla Optimus tiene como objetivo revolucionar la robótica y crear robots capaces de realizar numerosas tareas en la industria y más allá. Aunque las opiniones sobre el proyecto son diversas, una cosa es segura: los robots Optimus ya han capturado la atención mundial y encierran un potencial significativo.

El Futuro de los Robots Humanoides

Gábor Bíró • 11 de julio de 2024

La convergencia de la inteligencia artificial y la robótica ha marcado el comienzo de una nueva era de innovación tecnológica, caracterizada por robots capaces de aprender y adaptarse en tiempo real. Esta capacidad dinámica está transformando la automatización tradicional, permitiendo que los robots mejoren su funcionalidad en entornos diversos e impredecibles, revolucionando así industrias desde la manufactura hasta la atención médica.

Métodos de Prueba y Benchmarks para LLM

Gábor Bíró • 8 de diciembre de 2024

Uno de los campos de la inteligencia artificial con mayor desarrollo dinámico es la creación de Modelos de Lenguaje Grandes (LLM), que están entre las tecnologías más populares actualmente. Cada vez más proveedores lanzan sus propios modelos, tanto de código cerrado como de código abierto. Estos modelos responden a diversos temas con distintos niveles de calidad y precisión. Debido al rápido avance de la innovación, determinar cuál modelo ofrece el mejor rendimiento cambia casi cada semana. Pero, ¿cómo podemos averiguar si un modelo concreto realmente funciona mejor que los demás? ¿Qué métodos y pruebas se usan para comparar estas herramientas?

Robots que aprenden trabajando: El auge de la IA de autoaprendizaje

Gábor Bíró • 12 de agosto de 2024

Imagina robots que no solo siguen instrucciones preprogramadas, sino que realmente aprenden y se adaptan mientras realizan tareas en nuestro mundo impredecible. Investigadores del MIT han desarrollado recientemente un nuevo algoritmo llamado "Estimar, Extrapolar y Situar" (EES), marcando un paso significativo en esta dirección. Esta innovación promete mejorar la robótica al permitir que las máquinas se entrenen a sí mismas de manera efectiva, reduciendo la necesidad de intervención humana constante y revolucionando potencialmente sus capacidades en numerosos campos.

Petunia Bioluminiscente: La Flor Resplandeciente

Gábor Bíró • 15 de febrero de 2024

Conocida como la "petunia luciérnaga", esta petunia resplandeciente es una planta modificada genéticamente que emite continuamente una luz verde, gracias a genes derivados de un hongo luminiscente.

OpenAI lanza GPT-4o: Más rápido, más económico y multimodal de forma nativa

Gábor Bíró • 14 de mayo de 2024

OpenAI ha presentado recientemente su último modelo de lenguaje estrella, GPT-4o. El nombre, derivado de "omni", representa un gran avance en la inteligencia artificial, ya que el modelo es nativamente capaz de gestionar entradas y salidas de texto, audio y visión. Este enfoque inherentemente multimodal abre nuevas posibilidades tanto para desarrolladores como para usuarios, consolidando aún más la posición de OpenAI a la vanguardia de la innovación en IA.

Pilas de Combustible de Hidrógeno Apuntan a Aplicaciones Más Amplias

Gábor Bíró • 25 de enero de 2024

General Motors y Honda han anunciado que su empresa conjunta, Fuel Cell System Manufacturing, ha comenzado a producir pilas de combustible de hidrógeno en Brownstown, Michigan. Ambos fabricantes de automóviles han colaborado previamente en vehículos eléctricos de batería.