OpenAI представила o3 и o4-mini: Новые флагманские модели ChatGPT с расширенными возможностями

Миниатюрное изображение ChatGPT o3 и o4-mini
OpenAI анонсировала новые версии ChatGPT: o3 и o4-mini, обладающие улучшенными функциями и возможностями.

OpenAI представила свои новейшие и самые мощные модели искусственного интеллекта - o3 и o4-mini. Эти разработки являются частью серии 'o', которая фокусируется на моделях, способных к более длительному 'размышлению' перед предоставлением ответа, устанавливая новый стандарт производительности и полезности. Согласно анонсу OpenAI, опубликованному 16 апреля 2025 года, новые модели демонстрируют значительный скачок в возможностях размышления и интеграции инструментов в ChatGPT. Впервые модели серии 'o' могут самостоятельно использовать и комбинировать все доступные инструменты ChatGPT, включая анализ загруженных файлов с помощью Python, глубокий анализ визуальных данных и генерацию изображений. Модели обучены определять, когда и как применять инструменты для создания детальных ответов в нужном формате, обычно менее чем за минуту, что позволяет им эффективнее решать сложные, многогранные проблемы. Ключевые характеристики моделей: - OpenAI o3: Самая мощная модель в серии, демонстрирующая передовые результаты в кодировании, математике, науке и визуальном восприятии. Она установила новые рекорды на таких бенчмарках, как Codeforces, SWE-bench и MMMU. Модель особенно эффективна для сложных запросов, требующих анализа с многих аспектов, и визуальных задач (анализ изображений, диаграмм). По оценкам внешних экспертов, o3 делает на 20% меньше значительных ошибок по сравнению с o1 при сложных реальных задачах, особенно в программировании, бизнес-консалтинге и креативных идеях. Тестировщики отметили ее аналитическую строгость и способность генерировать и критически оценивать новые гипотезы, в частности в биологии, математике и инженерии. - OpenAI o4-mini: Меньшая модель, оптимизированная для быстрых и экономически эффективных размышлений. Она демонстрирует выдающуюся производительность для своего размера и стоимости, особенно в математике, кодировании и визуальных задачах. На AIME 2025 модель набрала 99.5%, имея доступ к интерпретатору Python. Она также превосходит своего предшественника, o3-mini, в задачах вне STEM и в таких областях, как наука о данных. Благодаря эффективности, o4-mini поддерживает значительно более высокие лимиты использования, чем o3. Обе модели, по оценкам экспертов, лучше следуют инструкциям и предоставляют более полезные и верифицированные ответы благодаря улучшенному интеллекту и интеграции веб-источников. Они также стали более естественными в общении, используя память и историю разговоров для персонализации ответов. Технологические усовершенствования: OpenAI отмечает, что масштабирование обучения с подкреплением (RL) демонстрирует тенденцию 'больше вычислений = лучшая производительность', аналогичную к обучению GPT-серии. Компания увеличила вычислительные ресурсы для обучения и размышлений во время вывода, что привело к явному улучшению производительности. Модели также обучены использовать инструменты с помощью RL, понимая, когда именно их применять. Важной новацией является способность моделей интегрировать изображения непосредственно в процесс 'мышления'. Они могут анализировать фото доски, диаграммы из учебника или эскизы, даже если изображения размытие или низкого качества, а также манипулировать ими (поворачивая, масштабируя) во время размышления. Сравнение и примеры: В приведенных примерах OpenAI o3 демонстрирует значительно лучшие результаты по сравнению с o1 в решении сложных задач, таких как конструирование специфического полинома 19-го степени (o3 нашла корректное решение, o1 - нет) или разработка стратегии расширения гостиничного бизнеса с анализом данных и визуализацией. Эффективность и стоимость: Ожидается, что o3 и o4-mini будут не только умнее, но и часто более эффективными по стоимости, чем их предшественники o1 и o3-mini соответственно. Графики сравнения стоимости и производительности показывают явное улучшение для новых моделей. Безопасность: OpenAI перестроила данные для обучения безопасности, добавив новые отказные запросы в сферах биологических угроз, генерации вредоносного ПО и попыток обхода ограничений ('джейлбрейков'). Были разработаны системные средства смягчения рисков и модели мониторинга ИИ для обнаружения опасных запросов, которые успешно выявили ~99% биоз threat под время кампании 'красной команды'. Обе модели прошли стресс-тестирование согласно обновленной системе готовности (Preparedness Framework) и остаются ниже порога 'Высокий' в категориях биохимических угроз, кибербезопасности и саморазвития ИИ. Подробные результаты опубликованы в системной карте моделей. Codex CLI и инициатива на $1 млн: OpenAI также запустила эксперимент Codex CLI - легкий агент для кодирования, который работает с терминала непосредственно на компьютере пользователя и использует возможности размышления моделей o3/o4-mini (с будущей поддержкой GPT-4.1). Инструмент полностью открыт (open-source) на GitHub. Компания объявила инициативу на $1 миллион для поддержки проектов, которые используют Codex CLI и модели OpenAI, предоставляя гранты в виде API-кредитов. Доступ: Пользователи ChatGPT Plus, Pro и Team получают доступ к o3, o4-mini и o4-mini-high с сегодняшнего дня, заменяя предыдущие модели. Пользователи Enterprise и Edu получат доступ через неделю. Бесплатные пользователи могут попробовать o4-mini, выбрав опцию 'Think'. Модели также доступны разработчикам через API Chat Completions и Responses API. Ожидается выпуск OpenAI o3-pro с полной поддержкой инструментов в ближайшие недели. Будущее: OpenAI планирует объединить специализированные возможности размышления o-серии с природными разговорными способностями и использованием инструментов GPT-серии, чтобы будущие модели.

Читайте также

Реклама