OpenAI представляет модель o1 для улучшения возможностей ИИ в области рассуждений

Gábor Bíró • 13 сентября 2024 г.

3 мин. чтения

Представлена новейшая модель искусственного интеллекта от OpenAI, o1 (внутреннее кодовое имя "Strawberry"). Модель o1 специально разработана для улучшения возможностей искусственного интеллекта в области рассуждений. Многочисленные источники сообщают, что это новое семейство моделей нацелено на решение сложных задач в науке, программировании и математике, уделяя больше времени "размышлению" перед предоставлением ответа.

OpenAI представляет модель o1 для улучшения возможностей ИИ в области рассуждений

Источник: Авторская работа

Продвинутые рассуждения и производительность

Модель o1 продемонстрировала замечательные возможности в решении сложных задач, особенно в областях STEM (наука, технологии, инженерия и математика). В тестах o1 заняла 89-й процентиль в соревнованиях по программированию (Codeforces) и вошла в топ-500 студентов на отборочном туре Математической олимпиады США (AIME). В научных областях, таких как физика, биология и химия, она превзошла точность человека с ученой степенью PhD на эталонном наборе данных (GPQA). Ее продвинутые рассуждения позволяют o1 решать сложные вопросы, генерировать сложные алгоритмы и преуспевать в задачах сравнительного анализа, таких как изучение контрактов или юридических документов.

Бенчмарки производительности

Модель o1 продемонстрировала выдающуюся производительность в различных бенчмарках, доказав свои продвинутые навыки рассуждения. В таблице ниже приведены основные результаты модели o1:

Бенчмарк	Производительность
Codeforces (Соревновательное программирование)	89-й процентиль
AIME (Отборочный тур Математической олимпиады)	Топ-500 студентов в США
GPQA (Физика, биология, химия)	Превосходит точность уровня PhD
Международная олимпиада по информатике (IOI)	49-й процентиль в мире
Рейтинг Elo Codeforces	1807 (93-й процентиль)
Подкатегории MMLU	Превосходит предыдущие модели в 54 из 57

Производительность модели o1 особенно примечательна в областях STEM, демонстрируя ее способность решать сложные задачи и логически справляться с трудными заданиями. Ее результаты поднимают возможности ИИ в области рассуждений на новый уровень, представляя собой значительный прогресс для приложений в науке, математике и программировании.

Варианты модели o1

Модель o1 выпущена в двух вариантах: o1-preview и o1-mini. o1-mini меньше, быстрее и экономичнее, специально разработан для задач кодирования. Сообщается, что o1-mini на 80% дешевле, чем o1-preview, при этом демонстрирует конкурентоспособную производительность в бенчмарках кодирования. Обе модели доступны в ChatGPT и через API OpenAI.

Ограничения и вызовы

Несмотря на свои продвинутые возможности, модель o1 сталкивается с рядом проблем. Она значительно дороже в использовании, при этом стоимость ввода в 3 раза, а стоимость вывода в 4 раза выше, чем у GPT-4o через API. Модель o1 иногда может быть медленнее в обработке запросов, особенно для сложных задач, которые могут потребовать более десяти секунд вычислительного времени. Еще одним ограничением является то, что o1 в настоящее время не поддерживает такие функции, как просмотр веб-страниц и анализ файлов, которые доступны в других моделях ИИ.

Доступность и планы на будущее

Модель o1 в настоящее время доступна пользователям ChatGPT Plus и Team с ограниченными недельными лимитами сообщений: 30 сообщений для o1-preview и 50 сообщений для o1-mini. Ожидается, что модель o1-mini станет доступна всем бесплатным пользователям ChatGPT в ближайшее время, хотя конкретная дата выпуска еще не объявлена. OpenAI планирует и дальше улучшать возможности модели, устранять ее ограничения и интегрировать дополнительные функции, такие как просмотр веб-страниц и загрузка файлов, чтобы повысить ее полезность в различных приложениях.

Ловушка эффективности

Gábor Bíró • 5 марта 2025 г.

Вы когда-нибудь задумывались, почему современные технологии, призванные облегчить нашу жизнь и сэкономить время, на самом деле не приводят к увеличению свободного времени? Почему мы работаем столько же, а может, и больше, чем наши бабушки и дедушки, несмотря на то, что нас окружают стиральные и посудомоечные машины, компьютеры и смартфоны? Ответ кроется в явлении, замеченном еще во времена Промышленной революции, которое называется Парадоксом Джевонса.

Which AI Model Performs Best on a 5th-Grade Math Problem?

Gábor Bíró • 13 января 2025 г.

The development of AI models has progressed at an astonishing pace in recent years, but how do these systems perform when tasked with solving a 5th-grade math competition problem? In this test, I not only examine the models' problem-solving abilities but also provide insight into how effectively they can handle optimization problems.

1000 полностью автономных роботакси работают в Ухане

Gábor Bíró • 17 октября 2024 г.

Беспилотные автомобили революционизируют городской транспорт по всему миру, и Ухань, центральный мегаполис Китая, находится в авангарде этой технологической гонки. Город поставил перед собой амбициозную цель стать первым в мире полностью беспилотным городом, и эти усилия уже приносят впечатляющие результаты.

Парадокс мастерства ИИ: Шахматы – да, лестница – нет

Gábor Bíró • 14 мая 2024 г.

Представьте себе машину, способную победить величайшего шахматного гроссмейстера, сочинять симфонии или доказывать сложные математические теоремы. А теперь представьте ту же машину, с трудом передвигающуюся по комнате, постоянно натыкаясь на мебель, или неспособную надежно налить чашку кофе. Этот поразительный контраст лежит в основе Парадокса Моравека, фундаментального наблюдения в области искусственного интеллекта и робототехники, впервые сформулированного Хансом Моравеком и другими учеными в 1980-х годах. Он раскрывает удивительную инверсию сложности между людьми и машинами: то, что кажется сложным нам, часто оказывается легким для них, а то, что естественно для нас, может быть монументально трудным для них. Почему так происходит, и что это говорит нам о природе самого интеллекта?

Microsoft и OpenAI планируют создать суперкомпьютер Stargate для ИИ за 100 миллиардов долларов

Gábor Bíró • 2 апреля 2024 г.

По данным Business Insider, Microsoft и OpenAI приступили к реализации амбициозного проекта по созданию суперкомпьютера под названием «Stargate» с оценочной стоимостью в 100 миллиардов долларов. Этот масштабный план является частью пятиэтапной стратегии, где Stargate – пятый этап, запуск которого намечен на 2028 год.

Tesla Optimus

Gábor Bíró • 8 июля 2024 г.

Илон Маск и Tesla вновь выходят на новую для себя территорию, на этот раз — в мир человекоподобных роботов. Проект Tesla Optimus нацелен на революцию в робототехнике и создание роботов, способных выполнять множество задач в промышленности и за ее пределами. Несмотря на неоднозначные мнения о проекте, одно можно сказать наверняка: роботы Optimus уже привлекли внимание всего мира и обладают значительным потенциалом.

OpenAI представляет GPT-4o: быстрее, дешевле и изначально мультимодальный

Gábor Bíró • 14 мая 2024 г.

OpenAI недавно представила свою новейшую флагманскую языковую модель, GPT-4o. Название, происходящее от слова «омни», означает значительный шаг вперед в развитии искусственного интеллекта, поскольку модель изначально способна обрабатывать текстовые, аудио и визуальные входные и выходные данные. Этот изначально мультимодальный подход открывает новые возможности как для разработчиков, так и для пользователей, еще больше укрепляя лидирующие позиции OpenAI в области инноваций в сфере ИИ.