Тестування великих мовних моделей
15 червня о 19:00 дослідники під керівництвом Сукету Пателя провели тестування великих мовних моделей, таких як GPT, Claude та Gemini, на основі тесту Струпа. Суть цього тесту полягає в тому, що перед випробуваним з'являється слово «червоний», але воно написане синім чорнилом. Завдання полягає в тому, щоб назвати колір чорнила, ігноруючи значення слова. Результати дослідження виявили значні розбіжності в точності відповідей моделей, залежно від кількості слів у списках.
Результати дослідження
На коротких списках із п'яти слів мовна модель GPT-4o показала вражаючий результат — 91% правильних відповідей. Однак при збільшенні кількості слів до десяти точність впала до 57%, а при сорока словах — до 15%. Дослідники зазначили, що
«моделі, схоже, просто втрачали нитку», що підтверджує труднощі у виконанні завдання. У той же час модель Claude 3.5 Sonnet впевнено трималася на коротких списках і показала 24% правильних відповідей на сорока словах.
Згідно з висновками, при змішуванні слів, що збігаються за кольором і значенням, з конфліктними, точність на конфліктних позиціях впала майже до нуля. Як зазначили дослідники,
«первинна інструкція десь губилась по дорозі». Також підкреслюється, що «здатність утримувати фокус на конкретній меті в умовах конкуруючої інформації, особливо на великих послідовностях у мовних моделях, влаштована принципово інакше, ніж у людини».
Ці результати свідчать про те, що хоча мовні моделі мають сильні сторони у виконанні певних завдань, їхня здатність справлятися з конфліктуючою інформацією, особливо в умовах великої кількості слів, залишає бажати кращого. Важливо враховувати, що ці дослідження відкривають нові перспективи для вдосконалення технологій штучного інтелекту, зокрема в напрямі покращення їхньої здатності до обробки інформації та ухвалення рішень у складних ситуаціях.
Водночас, зростаючі виклики, пов'язані з обробкою інформації, стають дедалі актуальнішими для штучного інтелекту. Це підтверджується і дослідженням, яке показало, що письменники на базі ШІ також мають труднощі з концентрацією на завданні, що викликає питання про їхню ефективність у створенні текстів в умовах обмежень. Розуміння цих аспектів може допомогти в подальшому розвитку технологій штучного інтелекту.