OpenAI представляет модель o1 для улучшения возможностей ИИ в области рассуждений

Gábor Bíró 13 сентября 2024 г.
3 мин. чтения

Представлена новейшая модель искусственного интеллекта от OpenAI, o1 (внутреннее кодовое имя "Strawberry"). Модель o1 специально разработана для улучшения возможностей искусственного интеллекта в области рассуждений. Многочисленные источники сообщают, что это новое семейство моделей нацелено на решение сложных задач в науке, программировании и математике, уделяя больше времени "размышлению" перед предоставлением ответа.

OpenAI представляет модель o1 для улучшения возможностей ИИ в области рассуждений
Источник: Авторская работа

Продвинутые рассуждения и производительность

Модель o1 продемонстрировала замечательные возможности в решении сложных задач, особенно в областях STEM (наука, технологии, инженерия и математика). В тестах o1 заняла 89-й процентиль в соревнованиях по программированию (Codeforces) и вошла в топ-500 студентов на отборочном туре Математической олимпиады США (AIME). В научных областях, таких как физика, биология и химия, она превзошла точность человека с ученой степенью PhD на эталонном наборе данных (GPQA). Ее продвинутые рассуждения позволяют o1 решать сложные вопросы, генерировать сложные алгоритмы и преуспевать в задачах сравнительного анализа, таких как изучение контрактов или юридических документов.

Бенчмарки производительности

Модель o1 продемонстрировала выдающуюся производительность в различных бенчмарках, доказав свои продвинутые навыки рассуждения. В таблице ниже приведены основные результаты модели o1:

Бенчмарк Производительность
Codeforces (Соревновательное программирование) 89-й процентиль
AIME (Отборочный тур Математической олимпиады) Топ-500 студентов в США
GPQA (Физика, биология, химия) Превосходит точность уровня PhD
Международная олимпиада по информатике (IOI) 49-й процентиль в мире
Рейтинг Elo Codeforces 1807 (93-й процентиль)
Подкатегории MMLU Превосходит предыдущие модели в 54 из 57

Производительность модели o1 особенно примечательна в областях STEM, демонстрируя ее способность решать сложные задачи и логически справляться с трудными заданиями. Ее результаты поднимают возможности ИИ в области рассуждений на новый уровень, представляя собой значительный прогресс для приложений в науке, математике и программировании.

Варианты модели o1

Модель o1 выпущена в двух вариантах: o1-preview и o1-mini. o1-mini меньше, быстрее и экономичнее, специально разработан для задач кодирования. Сообщается, что o1-mini на 80% дешевле, чем o1-preview, при этом демонстрирует конкурентоспособную производительность в бенчмарках кодирования. Обе модели доступны в ChatGPT и через API OpenAI.

Ограничения и вызовы

Несмотря на свои продвинутые возможности, модель o1 сталкивается с рядом проблем. Она значительно дороже в использовании, при этом стоимость ввода в 3 раза, а стоимость вывода в 4 раза выше, чем у GPT-4o через API. Модель o1 иногда может быть медленнее в обработке запросов, особенно для сложных задач, которые могут потребовать более десяти секунд вычислительного времени. Еще одним ограничением является то, что o1 в настоящее время не поддерживает такие функции, как просмотр веб-страниц и анализ файлов, которые доступны в других моделях ИИ.

Доступность и планы на будущее

Модель o1 в настоящее время доступна пользователям ChatGPT Plus и Team с ограниченными недельными лимитами сообщений: 30 сообщений для o1-preview и 50 сообщений для o1-mini. Ожидается, что модель o1-mini станет доступна всем бесплатным пользователям ChatGPT в ближайшее время, хотя конкретная дата выпуска еще не объявлена. OpenAI планирует и дальше улучшать возможности модели, устранять ее ограничения и интегрировать дополнительные функции, такие как просмотр веб-страниц и загрузка файлов, чтобы повысить ее полезность в различных приложениях.

Gábor Bíró 13 сентября 2024 г.