Mistral AI и NVIDIA представляют NeMo: мощную и эффективную модель с 12 миллиардами параметров

Gábor Bíró 20 июля 2024 г.
3 мин. чтения

Mistral AI в партнерстве с NVIDIA представила Mistral NeMo, языковую модель, представляющую собой значительный шаг вперед как в размере, так и в возможностях. Эта новая модель открывает захватывающие перспективы не только для научного сообщества, но и для корпоративного сектора.

Mistral AI и NVIDIA представляют NeMo: мощную и эффективную модель с 12 миллиардами параметров
Источник: Авторская работа

Ключевые особенности Mistral NeMo

Представленная 18 июля 2024 года, Mistral NeMo может похвастаться 12 миллиардами параметров, что само по себе является впечатляющей цифрой. Однако, что действительно отличает ее от многих конкурентов, так это огромное контекстное окно в 128 000 токенов. Эта возможность позволяет модели обрабатывать чрезвычайно длинные и сложные тексты как единое целое, значительно улучшая задачи понимания и генерации.

Модель была разработана с использованием облачной AI-платформы NVIDIA DGX Cloud, задействовав не менее 3072 графических процессоров H100 80GB Tensor Core. Эта значительная вычислительная мощность позволила Mistral NeMo приобрести сложные возможности, которые делают ее уникальной в своей категории.

Производительность и области применения

Mistral NeMo демонстрирует выдающуюся производительность в многочисленных задачах обработки естественного языка. Будь то генерация текста, обобщение контента, межъязыковой перевод или анализ тональности, модель обеспечивает высокий уровень производительности. Разработчики особо отметили ее превосходство в рассуждениях, применении общих знаний и решении задач программирования.

Одной из самых интересных инноваций является токенизатор "Tekken", который обеспечивает примерно на 30% более эффективное сжатие для исходного кода и ряда основных языков по сравнению с другими токенизаторами. Для некоторых языков, таких как корейский и арабский, этот прирост эффективности еще выше.

Сравнение и ценообразование

В сравнительных тестах производительности Mistral NeMo 12B превзошла модели Google Gemma 2 (9B) и Meta Llama 3 (8B) как по точности, так и по эффективности в различных тестах. Ее ценообразование также весьма конкурентоспособно: обработка 1 миллиона входных и выходных токенов стоит всего 0,30 доллара США через API Mistral, что значительно доступнее, чем у более крупных моделей, таких как GPT-4 или Mixtral 8x22B.

Технические детали и доступность

Веса модели доступны на платформе HuggingFace как в базовой, так и в instruction-tuned версиях. Разработчики могут использовать ее с помощью инструмента `mistral-inference` и дообучать с помощью `mistral-finetune`. Для корпоративного развертывания Mistral NeMo также доступна в качестве микросервиса NVIDIA NIM inference через ai.nvidia.com.

Возможности применения

Mistral NeMo предлагает замечательную универсальность. Она может быть развернута в различных областях, от корпоративных AI-решений, чат-ботов и разговорных AI-систем до сложного анализа текста и исследовательских приложений. Ее многоязычные возможности делают ее особенно привлекательной для глобальных компаний. Кроме того, ее точность в кодировании позиционирует ее как ценный инструмент в разработке программного обеспечения и генерации кода.

Выпуск Mistral NeMo, несомненно, знаменует собой важную веху в эволюции языковых моделей. Сочетание большого контекстного окна, продвинутых возможностей рассуждения и эффективной токенизации предоставляет пользователям мощный инструмент, который может революционизировать AI-приложения во многих областях. По мере того, как все больше разработчиков и компаний начинают использовать ее, мы можем ожидать появления новых, инновационных приложений и решений, которые еще больше расширят возможности искусственного интеллекта.

Gábor Bíró 20 июля 2024 г.