Дослідження ефективності сучасних систем ШІ
Дослідження, проведене компанією Scale AI та Центром безпеки ШІ, виявило, що сучасні системи штучного інтелекту, такі як ChatGPT, Gemini та Claude, демонструють низьку ефективність при виконанні реальних проектів. Зокрема, у тестуванні на сотнях завдань, найкраща система ШІ впоралася лише з 2,5% проектів. Майже половина завдань була виконана з низькою якістю, а третина залишилася незавершеною.
Приклади невдалого виконання завдань
Серед конкретних прикладів невдалого виконання завдань варто зазначити:
- Проект з дизайну інтер'єру, в якому ШІ створив неправдоподібний план поверху.
- При створенні панелі візуалізації даних система накладала текст на графіки та плутала кольори.
- Гра в жанрі пивоваріння, яку розробив ШІ, виявилася абстрактною та не відповідала очікуванням.
ChatGPT, який вийшов три роки тому, і нова модель Gemini 3 Pro, протестована у листопаді 2025 року, продемонстрували аналогічні результати, виконуючи лише 1,3% завдань. У порівнянні, створення гри людиною коштувало $1485, тоді як запуск Claude Sonnet обійшовся менш ніж у $30.
Джейсон Хаузенлой, один з авторів дослідження, зазначив, що "ШІ не вміє вчитися на помилках у межах одного проекту, що триває тижні".
Ці результати підкреслюють важливість усвідомлення обмежень штучного інтелекту при його використанні в практичних проектах. Попри значний прогрес у розробках, системи ШІ ще не готові повністю замінити людську експертизу в складних завданнях. Це відкриває нові питання щодо того, як інтегрувати ШІ в робочі процеси, щоб максимізувати його потенціал та забезпечити якість виконання проектів.