Мультимодальная модель Mistral: представляем Pixtral 12B

Gábor Bíró 9 сентября 2024 г.
3 мин. чтения

Быстрорастущий французский ИИ-стартап Mistral AI вышел на арену мультимодального искусственного интеллекта, выпустив Pixtral 12B. Мультимодальный ИИ – это системы, способные обрабатывать и понимать информацию из различных типов данных одновременно, таких как текст и изображения. Эта новая модель с 12 миллиардами параметров позволяет Mistral, известной своим акцентом на решения с открытым исходным кодом и конкуренцией с американскими технологическими гигантами, соперничать с аналогичными предложениями от крупных игроков, таких как OpenAI и Anthropic.

Мультимодальная модель Mistral: представляем Pixtral 12B
Источник: Mistral

Возможности Pixtral 12B

Pixtral 12B основана на более ранней текстовой модели Mistral Nemo 12B, и включает в себя визуальный энкодер с 400 миллионами параметров, который позволяет ей обрабатывать изображения наряду с текстом. Хотя 12 миллиардов параметров относят ее к моделям среднего размера по сравнению с некоторыми отраслевыми гигантами, она предлагает значительные возможности, особенно как решение с открытым исходным кодом. Модель может обрабатывать изображения размером до 1024x1024 пикселей, разбивая их на фрагменты 16x16 пикселей для анализа. В ней используется технология 2D Rotary Position Embeddings (RoPE), которая существенно помогает модели лучше понимать пространственные взаимоотношения между объектами на изображении. С словарем в 131 072 токена и специализированными токенами для обработки изображений, Pixtral 12B превосходно справляется с такими задачами, как создание подписей к изображениям (описание сцен на картинках), подсчет объектов (например, подсчет яблок в корзине) и визуальное вопросно-ответное взаимодействие (VQA), например, ответ на вопрос: «Какого цвета машина на изображении?».

Лицензирование и доступность

Pixtral 12B выпущена под разрешительной лицензией Apache 2.0. Это является значительным преимуществом для ИИ-сообщества, поскольку означает, что модель можно свободно загружать, использовать, модифицировать и развертывать, даже в коммерческих целях, без необходимости делиться своими модификациями. Это способствует инновациям, позволяет предприятиям интегрировать ее в свои продукты, не беспокоясь о привязке к поставщику, и способствует прозрачности. Разработчики могут получить доступ к модели, размер которой составляет примерно 24 ГБ, через GitHub и Hugging Face, что позволяет им дорабатывать ее для различных конкретных применений.

Сравнение с другими моделями

Pixtral 12B выходит на высококонкурентное поле, заполненное мощными мультимодальными моделями, такими как GPT-4o от OpenAI, Claude от Anthropic и семейство Gemini от Google. Ключевым отличием модели Mistral является ее открытый исходный код. В то время как конкуренты часто предоставляют доступ в основном через коммерческие API (интерфейсы прикладного программирования), открытая доступность Pixtral 12B предоставляет исследователям и разработчикам больший доступ, прозрачность и возможности настройки. Такой подход имеет решающее значение для ускорения исследований, обеспечения независимых проверок и содействия развитию экосистемы совместной разработки. Хотя ее производительность требует всестороннего сравнительного анализа с этими закрытыми аналогами, ее доступный размер и гибкость делают ее привлекательной альтернативой для ИИ-сообщества.

Модель Компания Ключевые особенности Доступность
Pixtral 12B Mistral AI 12 млрд параметров, обработка текста и изображений, открытый исходный код Бесплатно доступна под лицензией Apache 2.0
GPT-4o OpenAI Крупномасштабная мультимодальная модель, продвинутое рассуждение Доступ через коммерческий API
Claude 3 (Opus/Sonnet/Haiku) Anthropic Понимание текста и изображений, высокая производительность, фокус на этике Доступ через коммерческий API
Gemini (Pro/Ultra) Google Мультимодальные возможности, интегрирована в сервисы Google Доступ через API и продукты Google

Перспективы на будущее

Только что получив 645 миллионов долларов в раунде финансирования, который оценил компанию в впечатляющие 6 миллиардов долларов, Mistral AI готова к значительному росту. Эти существенные инвестиции подчеркивают уверенность рынка и предоставляют ресурсы, необходимые для быстрого внедрения инноваций и глобальной конкуренции. Выпуск Pixtral 12B идеально соответствует стратегии Mistral по предложению мощных открытых моделей бесплатно, при этом получая доход за счет оптимизированных, управляемых версий и корпоративных консалтинговых услуг. По мере того, как Mistral продолжает расширять свой портфель, Pixtral 12B, как ожидается, будет интегрирована в чат-платформу компании (Le Chat) и платформу API (La Plateforme) в ближайшее время. Эта интеграция позволит более широкому кругу пользователей легко тестировать, использовать и исследовать расширяющиеся возможности модели, что еще больше ускорит ее внедрение и развитие.

Gábor Bíró 9 сентября 2024 г.