ШІ провалив тест на реальні завдання: ChatGPT та Gemini не впоралися з 97% проєктів

Техно 10.01.2026 - 16:24 652 переглянули

10.01.2026 - 16:24 652 переглянули

Штучний інтелект не зміг виконати більшість практичних задач: результати ChatGPT і Gemini виявилися незадовільними.

Дослідження ефективності сучасних систем ШІ

Як повідомляє Главком: Дослідження, проведене компанією Scale AI та Центром безпеки ШІ, виявило, що сучасні системи штучного інтелекту, такі як ChatGPT, Gemini та Claude, демонструють низьку ефективність при виконанні реальних проектів. Зокрема, у тестуванні на сотнях завдань, найкраща система ШІ впоралася лише з 2,5% проектів. Майже половина завдань була виконана з низькою якістю, а третина залишилася незавершеною.

Приклади невдалого виконання завдань

Серед конкретних прикладів невдалого виконання завдань варто зазначити:

Проект з дизайну інтер'єру, в якому ШІ створив неправдоподібний план поверху.
При створенні панелі візуалізації даних система накладала текст на графіки та плутала кольори.
Гра в жанрі пивоваріння, яку розробив ШІ, виявилася абстрактною та не відповідала очікуванням.

ChatGPT, який вийшов три роки тому, і нова модель Gemini 3 Pro, протестована у листопаді 2025 року, продемонстрували аналогічні результати, виконуючи лише 1,3% завдань. У порівнянні, створення гри людиною коштувало $1485, тоді як запуск Claude Sonnet обійшовся менш ніж у $30.

Джейсон Хаузенлой, один з авторів дослідження, зазначив, що "ШІ не вміє вчитися на помилках у межах одного проекту, що триває тижні".

Ці результати підкреслюють важливість усвідомлення обмежень штучного інтелекту при його використанні в практичних проектах. Попри значний прогрес у розробках, системи ШІ ще не готові повністю замінити людську експертизу в складних завданнях. Це відкриває нові питання щодо того, як інтегрувати ШІ в робочі процеси, щоб максимізувати його потенціал та забезпечити якість виконання проектів.