Modelo Multimodal de Mistral: Presentamos Pixtral 12B

Gábor Bíró 9 de septiembre de 2024
3 min de lectura

La startup francesa de IA de rápido crecimiento, Mistral AI, se ha aventurado en el ámbito de la inteligencia artificial multimodal con el lanzamiento de Pixtral 12B. La IA multimodal se refiere a sistemas capaces de procesar y comprender información de múltiples tipos de datos simultáneamente, como texto e imágenes. Este nuevo modelo de 12 mil millones de parámetros posiciona a Mistral, conocida por su enfoque en soluciones de código abierto y por desafiar a los gigantes tecnológicos estadounidenses, para competir con ofertas similares de grandes empresas como OpenAI y Anthropic.

Modelo Multimodal de Mistral: Presentamos Pixtral 12B
Fuente: Mistral

Características de Pixtral 12B

Pixtral 12B se basa en el modelo anterior de Mistral basado en texto, Nemo 12B, incorporando un codificador visual de 400 millones de parámetros que le permite procesar imágenes junto con texto. Si bien 12 mil millones de parámetros lo sitúan como un modelo de tamaño mediano en comparación con algunos gigantes de la industria, ofrece capacidades significativas, especialmente como una oferta de código abierto. El modelo puede manejar imágenes de hasta 1024x1024 píxeles, dividiéndolas en parches de 16x16 píxeles para su análisis. Utiliza la tecnología 2D Rotary Position Embeddings (RoPE), que ayuda crucialmente al modelo a comprender mejor las relaciones espaciales entre los objetos dentro de una imagen. Con un vocabulario de 131,072 tokens y tokens especializados de procesamiento de imágenes, Pixtral 12B destaca en tareas como el subtitulado de imágenes (describir escenas en imágenes), el conteo de objetos (por ejemplo, contar manzanas en una cesta) y las preguntas y respuestas visuales (VQA), como responder a "¿De qué color es el coche en la imagen?".

Licencia y Disponibilidad

Pixtral 12B se publica bajo la licencia permisiva Apache 2.0. Esta es una ventaja significativa para la comunidad de la IA, ya que significa que el modelo puede descargarse, utilizarse, modificarse y desplegarse libremente, incluso con fines comerciales, sin requerir que los usuarios compartan sus modificaciones. Esto fomenta la innovación, permite a las empresas integrarlo en sus productos sin preocupaciones de dependencia de un proveedor y promueve la transparencia. Los desarrolladores pueden acceder al modelo, que tiene un tamaño de aproximadamente 24 GB, a través de GitHub y Hugging Face, lo que les permite ajustarlo para diversas aplicaciones específicas.

Comparación con otros modelos

Pixtral 12B entra en un campo altamente competitivo poblado por potentes modelos multimodales como GPT-4o de OpenAI, Claude de Anthropic y la familia Gemini de Google. Un diferenciador clave para el modelo de Mistral es su naturaleza de código abierto. Mientras que los competidores a menudo proporcionan acceso principalmente a través de APIs comerciales (Interfaces de Programación de Aplicaciones), la disponibilidad abierta de Pixtral 12B otorga a investigadores y desarrolladores un mayor acceso, transparencia y capacidades de personalización. Este enfoque es crucial para acelerar la investigación, permitir auditorías independientes y fomentar un ecosistema de desarrollo colaborativo. Si bien su rendimiento necesita una evaluación comparativa exhaustiva con respecto a estas contrapartes de código cerrado, su tamaño accesible y flexibilidad lo convierten en una alternativa atractiva para la comunidad de la IA.

Modelo Compañía Características Clave Disponibilidad
Pixtral 12B Mistral AI 12 mil millones de parámetros, procesamiento de texto e imágenes, código abierto Disponible gratuitamente bajo la licencia Apache 2.0
GPT-4o OpenAI Modelo multimodal a gran escala, razonamiento avanzado Acceso a API comercial
Claude 3 (Opus/Sonnet/Haiku) Anthropic Comprensión de texto e imágenes, alto rendimiento, enfoque ético Acceso a API comercial
Gemini (Pro/Ultra) Google Capacidades multimodales, integrado en servicios de Google Acceso a API y a través de productos de Google

Perspectivas de futuro

Recién salida de una ronda de financiación de 645 millones de dólares que valoró a la empresa en la impresionante cifra de 6.000 millones de dólares, Mistral AI está preparada para un crecimiento significativo. Esta sustancial inversión subraya la confianza del mercado y proporciona los recursos necesarios para innovar rápidamente y competir a nivel mundial. El lanzamiento de Pixtral 12B se alinea perfectamente con la estrategia de Mistral de ofrecer potentes modelos abiertos de forma gratuita, generando al mismo tiempo ingresos a través de versiones gestionadas y optimizadas y servicios de consultoría empresarial. A medida que Mistral continúa expandiendo su cartera, se espera que Pixtral 12B se integre pronto en la plataforma de chat de la empresa (Le Chat) y en la plataforma de API (La Plateforme). Esta integración permitirá a una gama más amplia de usuarios probar, utilizar y explorar fácilmente las crecientes capacidades del modelo, impulsando aún más su adopción y desarrollo.

Gábor Bíró 9 de septiembre de 2024