Comparativa del Rendimiento de GPUs para Modelos de Lenguaje Grandes

Gábor Bíró 11 de enero de 2025
2 min de lectura

El rápido desarrollo de los Modelos de Lenguaje Grandes (LLM) plantea nuevos desafíos en el campo de la computación. Una pregunta crucial para mí es cómo se desempeñan las GPU al ejecutar estos modelos. En esta publicación, mi objetivo es examinar el rendimiento de varias GPU a través de los conceptos de TFLOPS (billones de operaciones de punto flotante por segundo) y TOPS (billones de operaciones por segundo). Presentaré las capacidades de modelos individuales utilizando una tabla clara, complementada con breves explicaciones.

Comparativa del Rendimiento de GPUs para Modelos de Lenguaje Grandes
Fuente: Elaborado por el autor

TOPS (Tera Operaciones Por Segundo) y FLOPS (Operaciones de Punto Flotante Por Segundo) son dos métricas importantes para caracterizar el rendimiento de las GPU, pero se relacionan con diferentes tipos de operaciones computacionales, especialmente al ejecutar y entrenar LLM (Modelos de Lenguaje Grandes).

TOPS (Tera Operaciones Por Segundo)

  • TOPS generalmente mide el rendimiento de las operaciones con enteros (INT8, INT16, INT32, etc.).
  • Se utiliza típicamente para aceleradores de IA (por ejemplo, Tensor Cores, NPUs, TPUs) porque la inferencia (generación de salida, predicción) de LLM a menudo emplea operaciones de punto fijo, que son más eficientes que los cálculos de punto flotante.
  • Para la inferencia, se utilizan operaciones INT8 o INT4 porque reducen los requisitos computacionales y de memoria sin degradar significativamente el rendimiento del modelo. Por lo tanto, el rendimiento anunciado de los aceleradores de IA a menudo se especifica en TOPS.
  • Ejemplo: Una GPU podría tener un rendimiento de 200 TOPS para operaciones INT8, lo que significa que puede realizar 200 billones de operaciones con enteros por segundo.

FLOPS (Operaciones de Punto Flotante Por Segundo)

  • FLOPS mide la velocidad de ejecución de las operaciones de punto flotante (FP16, FP32, FP64).
  • Es crucial para el entrenamiento de LLM porque los modelos grandes requieren precisión FP16 o FP32 para cálculos precisos de pesos y gradientes.
  • Ejemplo: Una GPU moderna podría tener un rendimiento de 20 TFLOPS (TeraFLOPS) FP32, lo que significa que puede realizar 20 billones de operaciones de punto flotante por segundo.
  • Para modelos muy grandes (por ejemplo, GPT-4 o Gemini), también se utilizan operaciones FP16 (números de punto flotante de media precisión) y bfloat16 (BF16) porque son más rápidas y siguen siendo lo suficientemente precisas para el entrenamiento.

GPU Núcleos Tensor/IA
FP32 (TFLOPS) FP16 (TFLOPS) BF16 (TFLOPS) INT8 (TOPS) VRAM (GB) Ancho de Banda de Memoria (GB/s) Power Consumption (W)
NVIDIA H200 SXM 528 67 1,979 1,979 3,958 141 (HBM3e) 4,800 600-700
NVIDIA H100 SXM 576 67 1,979 1,979 3,958 80
(HBM3)
3,350 350-700
NVIDIA H100 PCIe 576 51 1,513 1,513 3,026 80
(HBM3)
2,000 350-700
NVIDIA A100 PCIe 432 19.5 312 312 624 80
(HBM2e)
1,935 250-400
RTX 6000 ADA 568 91.1 48
(GDDR6 ECC)
960 300
NVIDIA L40s 568 91.6 48
(GDDR6 ECC)
864 350
RTX A6000 336 38.7 48
(GDDR6)
768 250
NVIDIA RTX 5090 680 104.8 450 900 32
(GDDR7x)
1,790 575
NVIDIA RTX 4090 512 82.6 330 660 24
(GDDR6x)
1,008 450
NVIDIA RTX 3090 328 40 285 24 936 350
NVIDIA RTX 2080 544 14.2 108 11 616 260
AMD MI300X 61 654? 1,307 2,615 192 (HBM3) 5,200 750
Gábor Bíró 11 de enero de 2025