ШІ провалив простий тест на увагу: результати GPT та Claude

Техно 16.06.2026 - 11:56 307 переглянули

Штучний інтелект не зміг впоратися з базовим тестом на уважність: порівняння GPT та Claude. Фото: НВ — Техно

Тестування великих мовних моделей

15 червня о 19:00 дослідники під керівництвом Сукету Пателя провели тестування великих мовних моделей, таких як GPT, Claude та Gemini, на основі тесту Струпа. Суть цього тесту полягає в тому, що перед випробуваним з'являється слово «червоний», але воно написане синім чорнилом. Завдання полягає в тому, щоб назвати колір чорнила, ігноруючи значення слова. Результати дослідження виявили значні розбіжності в точності відповідей моделей, залежно від кількості слів у списках.

Результати дослідження

На коротких списках із п'яти слів мовна модель GPT-4o показала вражаючий результат — 91% правильних відповідей. Однак при збільшенні кількості слів до десяти точність впала до 57%, а при сорока словах — до 15%. Дослідники зазначили, що

«моделі, схоже, просто втрачали нитку»

, що підтверджує труднощі у виконанні завдання. У той же час модель Claude 3.5 Sonnet впевнено трималася на коротких списках і показала 24% правильних відповідей на сорока словах.

Згідно з висновками, при змішуванні слів, що збігаються за кольором і значенням, з конфліктними, точність на конфліктних позиціях впала майже до нуля. Як зазначили дослідники,

«первинна інструкція десь губилась по дорозі»

. Також підкреслюється, що «здатність утримувати фокус на конкретній меті в умовах конкуруючої інформації, особливо на великих послідовностях у мовних моделях, влаштована принципово інакше, ніж у людини».

Ці результати свідчать про те, що хоча мовні моделі мають сильні сторони у виконанні певних завдань, їхня здатність справлятися з конфліктуючою інформацією, особливо в умовах великої кількості слів, залишає бажати кращого. Важливо враховувати, що ці дослідження відкривають нові перспективи для вдосконалення технологій штучного інтелекту, зокрема в напрямі покращення їхньої здатності до обробки інформації та ухвалення рішень у складних ситуаціях.

Водночас, зростаючі виклики, пов'язані з обробкою інформації, стають дедалі актуальнішими для штучного інтелекту. Це підтверджується і дослідженням, яке показало, що письменники на базі ШІ також мають труднощі з концентрацією на завданні, що викликає питання про їхню ефективність у створенні текстів в умовах обмежень. Розуміння цих аспектів може допомогти в подальшому розвитку технологій штучного інтелекту.

Підписатись на Telegram Читати Inkorr в Google