UA RU EN

ШІ провалил тест на реальные задания: ChatGPT и Gemini не справились с 97% проектов

Искусственный интеллект не смог успешно выполнить большинство поставленных задач, продемонстрировав низкую эффективность в работе над реальными проектами.

Исследование эффективности современных систем ИИ

Исследование, проведенное компанией Scale AI и Центром безопасности ИИ, выявило, что современные системы искусственного интеллекта, такие как ChatGPT, Gemini и Claude, демонстрируют низкую эффективность при выполнении реальных проектов. В частности, в тестировании на сотнях заданий, лучшая система ИИ справилась лишь с 2,5% проектов. Почти half заданий было выполнено с низким качеством, а треть осталась незавершенной.

Примеры неудачного выполнения заданий

Среди конкретных примеров неудачного выполнения заданий стоит отметить:

  • Проект по дизайну интерьера, в котором ИИ создал неправдоподобный план этажа.
  • При создании панели визуализации данных система накладывала текст на графики и путала цвета.
  • Игра в жанре пивоварения, которую разработал ИИ, оказалась абстрактной и не соответствовала ожиданиям.

ChatGPT, который вышел три года назад, и новая модель Gemini 3 Pro, протестированная в ноябре 2025 года, продемонстрировали аналогичные результаты, выполняя лишь 1,3% заданий. В сравнении, создание игры человеком стоило $1485, тогда как запуск Claude Sonnet обошелся менее чем в $30.

Джейсон Хаузенлой, один из авторов исследования, отметил, что 'ИИ не умеет учиться на ошибках в рамках одного проекта, который длится недели'.

Эти результаты подчеркивают важность осознания ограничений искусственного интеллекта при его использовании в практических проектах. Несмотря на значительный прогресс в разработках, системы ИИ еще не готовы полностью заменить человеческую экспертизу в сложных задачах. Это открывает новые вопросы касательно того, как интегрировать ИИ в рабочие процессы, чтобы максимизировать его потенциал и обеспечить качество выполнения проектов.