Comparativa del Rendimiento de GPUs para Modelos de Lenguaje Grandes

Gábor Bíró • 11 de enero de 2025

2 min de lectura

El rápido desarrollo de los Modelos de Lenguaje Grandes (LLM) plantea nuevos desafíos en el campo de la computación. Una pregunta crucial para mí es cómo se desempeñan las GPU al ejecutar estos modelos. En esta publicación, mi objetivo es examinar el rendimiento de varias GPU a través de los conceptos de TFLOPS (billones de operaciones de punto flotante por segundo) y TOPS (billones de operaciones por segundo). Presentaré las capacidades de modelos individuales utilizando una tabla clara, complementada con breves explicaciones.

Comparativa del Rendimiento de GPUs para Modelos de Lenguaje Grandes

Fuente: Elaborado por el autor

TOPS (Tera Operaciones Por Segundo) y FLOPS (Operaciones de Punto Flotante Por Segundo) son dos métricas importantes para caracterizar el rendimiento de las GPU, pero se relacionan con diferentes tipos de operaciones computacionales, especialmente al ejecutar y entrenar LLM (Modelos de Lenguaje Grandes).

TOPS (Tera Operaciones Por Segundo)

TOPS generalmente mide el rendimiento de las operaciones con enteros (INT8, INT16, INT32, etc.).
Se utiliza típicamente para aceleradores de IA (por ejemplo, Tensor Cores, NPUs, TPUs) porque la inferencia (generación de salida, predicción) de LLM a menudo emplea operaciones de punto fijo, que son más eficientes que los cálculos de punto flotante.
Para la inferencia, se utilizan operaciones INT8 o INT4 porque reducen los requisitos computacionales y de memoria sin degradar significativamente el rendimiento del modelo. Por lo tanto, el rendimiento anunciado de los aceleradores de IA a menudo se especifica en TOPS.
Ejemplo: Una GPU podría tener un rendimiento de 200 TOPS para operaciones INT8, lo que significa que puede realizar 200 billones de operaciones con enteros por segundo.

FLOPS (Operaciones de Punto Flotante Por Segundo)

FLOPS mide la velocidad de ejecución de las operaciones de punto flotante (FP16, FP32, FP64).
Es crucial para el entrenamiento de LLM porque los modelos grandes requieren precisión FP16 o FP32 para cálculos precisos de pesos y gradientes.
Ejemplo: Una GPU moderna podría tener un rendimiento de 20 TFLOPS (TeraFLOPS) FP32, lo que significa que puede realizar 20 billones de operaciones de punto flotante por segundo.
Para modelos muy grandes (por ejemplo, GPT-4 o Gemini), también se utilizan operaciones FP16 (números de punto flotante de media precisión) y bfloat16 (BF16) porque son más rápidas y siguen siendo lo suficientemente precisas para el entrenamiento.

GPU	Núcleos Tensor/IA	FP32 (TFLOPS)	FP16 (TFLOPS)	BF16 (TFLOPS)	INT8 (TOPS)	VRAM (GB)	Ancho de Banda de Memoria (GB/s)	Power Consumption (W)
NVIDIA H200 SXM	528	67	1,979	1,979	3,958	141 (HBM3e)	4,800	600-700
NVIDIA H100 SXM	576	67	1,979	1,979	3,958	80 (HBM3)	3,350	350-700
NVIDIA H100 PCIe	576	51	1,513	1,513	3,026	80 (HBM3)	2,000	350-700
NVIDIA A100 PCIe	432	19.5	312	312	624	80 (HBM2e)	1,935	250-400
RTX 6000 ADA	568	91.1				48 (GDDR6 ECC)	960	300
NVIDIA L40s	568	91.6				48 (GDDR6 ECC)	864	350
RTX A6000	336	38.7				48 (GDDR6)	768	250
NVIDIA RTX 5090	680	104.8	450		900	32 (GDDR7x)	1,790	575
NVIDIA RTX 4090	512	82.6	330		660	24 (GDDR6x)	1,008	450
NVIDIA RTX 3090	328	40	285			24	936	350
NVIDIA RTX 2080	544	14.2	108			11	616	260
AMD MI300X		61	654?	1,307	2,615	192 (HBM3)	5,200	750

Recomendados

Métodos de Prueba y Benchmarks para LLM

Gábor Bíró • 8 de diciembre de 2024

Uno de los campos de la inteligencia artificial con mayor desarrollo dinámico es la creación de Modelos de Lenguaje Grandes (LLM), que están entre las tecnologías más populares actualmente. Cada vez más proveedores lanzan sus propios modelos, tanto de código cerrado como de código abierto. Estos modelos responden a diversos temas con distintos niveles de calidad y precisión. Debido al rápido avance de la innovación, determinar cuál modelo ofrece el mejor rendimiento cambia casi cada semana. Pero, ¿cómo podemos averiguar si un modelo concreto realmente funciona mejor que los demás? ¿Qué métodos y pruebas se usan para comparar estas herramientas?

El juego de suma cero: La competencia y la ilusión del beneficio

Gábor Bíró • 19 de marzo de 2025

La teoría de juegos, el modelo matemático de la toma de decisiones estratégicas, opera con numerosos conceptos que ayudan a comprender la dinámica de las interacciones. Uno de los más importantes y mencionados con frecuencia es el juego de suma cero. Este concepto describe situaciones en las que la ganancia de un participante significa necesariamente la pérdida de otro, de modo que la "ganancia" total neta es constante e igual a cero. Los juegos de suma cero son modelos fundamentales de la competencia y el conflicto, y son relevantes en numerosos ámbitos, desde el deporte y la economía hasta la política

1000 Robotaxis Totalmente Autónomos Operando en Wuhan

Gábor Bíró • 17 de octubre de 2024

Los vehículos autónomos están revolucionando el transporte urbano en todo el mundo, y la metrópolis central de China, Wuhan, se encuentra a la vanguardia de esta carrera tecnológica. La ciudad tiene el ambicioso objetivo de convertirse en la primera ciudad del mundo totalmente sin conductores, y este esfuerzo ya está dando resultados impresionantes.

La Paradoja de la Habilidad: Por qué la IA es brillante en ajedrez pero falla en tareas sencillas

Gábor Bíró • 14 de mayo de 2024

Imagina una máquina capaz de derrotar al mejor gran maestro de ajedrez del mundo, componer sinfonías o demostrar teoremas matemáticos complejos. Ahora, imagina esa misma máquina teniendo dificultades para simplemente cruzar una habitación sin chocar con los muebles, o incapaz de servir una taza de café de forma fiable. Este sorprendente contraste es el núcleo de la Paradoja de Moravec, una observación fundamental en inteligencia artificial y robótica, articulada por primera vez por Hans Moravec y otros en la década de 1980. Revela una sorprendente inversión de la dificultad entre humanos y máquinas: lo que a nosotros nos resulta difícil, a menudo a ellas les resulta fácil, y lo que nos resulta natural puede ser monumentalmente desafiante para ellas. ¿Por qué ocurre esto y qué nos dice sobre la naturaleza de la inteligencia en sí misma?

Inteligencia Artificial en los supermercados: Precios dinámicos de Kroger y sus implicaciones

Gábor Bíró • 14 de agosto de 2024

El último sistema de precios dinámicos impulsado por IA de Kroger ha generado reacciones diversas, especialmente por las preocupaciones sobre la privacidad de datos y la desigualdad. ¿Cómo afecta esto la confianza del cliente y qué cuestiones éticas suscita esta nueva tecnología?

Robotaxis de Waymo, Ahora Disponibles para Todos

Gábor Bíró • 25 de junio de 2024

Los robotaxis de Waymo ya están al alcance de todos los usuarios en San Francisco, ampliando el servicio de taxi autónomo que antes solo estaba disponible para un grupo reducido de pasajeros.

Softbank aspira a ser un actor clave en la fabricación de chips de IA

Gábor Bíró • 19 de febrero de 2024

El crecimiento exponencial del mercado de chips de Inteligencia Artificial (IA) está generando nuevos desafíos y oportunidades para inversores y empresas tecnológicas. SoftBank, como gigante de la inversión, está experimentando una reorganización estratégica centrada en la IA y, en particular, en la explotación del potencial que ofrece la empresa de diseño de chips Arm.