ШІ провалил тест на реальные задания: ChatGPT и Gemini не справились с 97% проектов
Исследование эффективности современных систем ИИ
Как сообщает Главком: Исследование, проведенное компанией Scale AI и Центром безопасности ИИ, выявило, что современные системы искусственного интеллекта, такие как ChatGPT, Gemini и Claude, демонстрируют низкую эффективность при выполнении реальных проектов. В частности, в тестировании на сотнях заданий, лучшая система ИИ справилась лишь с 2,5% проектов. Почти half заданий было выполнено с низким качеством, а треть осталась незавершенной.
Примеры неудачного выполнения заданий
Среди конкретных примеров неудачного выполнения заданий стоит отметить:
- Проект по дизайну интерьера, в котором ИИ создал неправдоподобный план этажа.
- При создании панели визуализации данных система накладывала текст на графики и путала цвета.
- Игра в жанре пивоварения, которую разработал ИИ, оказалась абстрактной и не соответствовала ожиданиям.
ChatGPT, который вышел три года назад, и новая модель Gemini 3 Pro, протестированная в ноябре 2025 года, продемонстрировали аналогичные результаты, выполняя лишь 1,3% заданий. В сравнении, создание игры человеком стоило $1485, тогда как запуск Claude Sonnet обошелся менее чем в $30.
Джейсон Хаузенлой, один из авторов исследования, отметил, что 'ИИ не умеет учиться на ошибках в рамках одного проекта, который длится недели'.
Эти результаты подчеркивают важность осознания ограничений искусственного интеллекта при его использовании в практических проектах. Несмотря на значительный прогресс в разработках, системы ИИ еще не готовы полностью заменить человеческую экспертизу в сложных задачах. Это открывает новые вопросы касательно того, как интегрировать ИИ в рабочие процессы, чтобы максимизировать его потенциал и обеспечить качество выполнения проектов.
Читайте также

