ШІ провалив тест на реальні завдання: ChatGPT та Gemini не впоралися з 97% проєктів
Дослідження ефективності сучасних систем ШІ
Як повідомляє Главком: Дослідження, проведене компанією Scale AI та Центром безпеки ШІ, виявило, що сучасні системи штучного інтелекту, такі як ChatGPT, Gemini та Claude, демонструють низьку ефективність при виконанні реальних проектів. Зокрема, у тестуванні на сотнях завдань, найкраща система ШІ впоралася лише з 2,5% проектів. Майже половина завдань була виконана з низькою якістю, а третина залишилася незавершеною.
Приклади невдалого виконання завдань
Серед конкретних прикладів невдалого виконання завдань варто зазначити:
- Проект з дизайну інтер'єру, в якому ШІ створив неправдоподібний план поверху.
- При створенні панелі візуалізації даних система накладала текст на графіки та плутала кольори.
- Гра в жанрі пивоваріння, яку розробив ШІ, виявилася абстрактною та не відповідала очікуванням.
ChatGPT, який вийшов три роки тому, і нова модель Gemini 3 Pro, протестована у листопаді 2025 року, продемонстрували аналогічні результати, виконуючи лише 1,3% завдань. У порівнянні, створення гри людиною коштувало $1485, тоді як запуск Claude Sonnet обійшовся менш ніж у $30.
Джейсон Хаузенлой, один з авторів дослідження, зазначив, що "ШІ не вміє вчитися на помилках у межах одного проекту, що триває тижні".
Ці результати підкреслюють важливість усвідомлення обмежень штучного інтелекту при його використанні в практичних проектах. Попри значний прогрес у розробках, системи ШІ ще не готові повністю замінити людську експертизу в складних завданнях. Це відкриває нові питання щодо того, як інтегрувати ШІ в робочі процеси, щоб максимізувати його потенціал та забезпечити якість виконання проектів.
Читайте також

