Mistral AI y NVIDIA lanzan NeMo: Un modelo potente y eficiente de 12B parámetros

Gábor Bíró 20 de julio de 2024
3 min de lectura

Mistral AI, en colaboración con NVIDIA, ha presentado Mistral NeMo, un modelo de lenguaje que representa un avance significativo tanto en tamaño como en capacidad. Este nuevo modelo ofrece oportunidades interesantes no solo para la comunidad científica, sino también para el sector empresarial.

Mistral AI y NVIDIA lanzan NeMo: Un modelo potente y eficiente de 12B parámetros
Fuente: Elaborado por el autor

Características clave de Mistral NeMo

Presentado el 18 de julio de 2024, Mistral NeMo cuenta con 12 mil millones de parámetros, una cifra impresionante en sí misma. Sin embargo, lo que realmente lo distingue de muchos competidores es su enorme ventana de contexto de 128.000 tokens. Esta capacidad permite al modelo procesar textos extremadamente largos y complejos como una sola unidad coherente, mejorando significativamente las tareas de comprensión y generación.

El modelo se desarrolló utilizando la plataforma NVIDIA DGX Cloud AI, aprovechando nada menos que 3.072 GPU Tensor Core H100 de 80 GB. Esta sustancial potencia computacional permitió a Mistral NeMo adquirir capacidades sofisticadas que lo hacen único en su categoría.

Rendimiento y áreas de aplicación

Mistral NeMo demuestra un rendimiento sobresaliente en numerosas tareas de procesamiento del lenguaje natural. Ya sea generación de texto, resumen de contenido, traducción interlingüística o análisis de sentimientos, el modelo ofrece un rendimiento de alto nivel. Los desarrolladores destacaron particularmente su excelencia en el razonamiento, la aplicación de conocimientos generales y el manejo de tareas de programación.

Una de sus innovaciones más interesantes es el tokenizador "Tekken", que permite una compresión aproximadamente un 30% más eficiente para el código fuente y varios idiomas principales en comparación con otros tokenizadores. Para algunos idiomas, como el coreano y el árabe, esta ganancia de eficiencia es aún mayor.

Comparación y precios

En las pruebas comparativas de rendimiento, Mistral NeMo 12B superó a los modelos Gemma 2 (9B) de Google y Llama 3 (8B) de Meta en precisión y eficiencia en varias pruebas. Su precio también es muy competitivo: procesar 1 millón de tokens de entrada y salida cuesta solo 0,30 dólares a través de la API de Mistral, significativamente más asequible que los modelos más grandes como GPT-4 o Mixtral 8x22B.

Detalles técnicos y disponibilidad

Los pesos del modelo están disponibles en la plataforma HuggingFace en versiones base y ajustadas para instrucciones. Los desarrolladores pueden utilizarlo con la herramienta `mistral-inference` y ajustarlo con `mistral-finetune`. Para la implementación empresarial, Mistral NeMo también está accesible como un microservicio de inferencia NVIDIA NIM a través de ai.nvidia.com.

Fundamentalmente, el modelo está diseñado para funcionar de manera eficiente en una sola GPU NVIDIA L40S, una GeForce RTX 4090 de grado de consumo o una GPU RTX 4500 Ada Generation. Este requisito de hardware relativamente modesto reduce significativamente la barrera de entrada para la implementación empresarial y hace que la IA avanzada sea más accesible para investigadores y equipos más pequeños.

Oportunidades de aplicación

Mistral NeMo ofrece una versatilidad notable. Puede implementarse en numerosas áreas, desde soluciones de IA de nivel empresarial, chatbots y sistemas de IA conversacional hasta análisis de texto complejos y aplicaciones de investigación. Sus capacidades multilingües lo hacen particularmente atractivo para empresas globales. Además, su precisión en la codificación lo posiciona como una herramienta valiosa en el desarrollo de software y la generación de código.

El lanzamiento de Mistral NeMo sin duda marca un hito significativo en la evolución de los modelos de lenguaje. La combinación de una gran ventana de contexto, capacidades de razonamiento avanzadas y una tokenización eficiente proporciona a los usuarios una herramienta poderosa que podría revolucionar las aplicaciones de IA en muchos campos. A medida que más desarrolladores y empresas comiencen a utilizarlo, podemos esperar la aparición de nuevas e innovadoras aplicaciones y soluciones que amplíen aún más las posibilidades de la inteligencia artificial.

Gábor Bíró 20 de julio de 2024