UA RU EN

Простейший тест на внимательность завалил нейросети: что показали GPT и Claude

Нейросети не справились с элементарным заданием на внимательность: результаты GPT и Claude вызвали удивление. Фото: НВ — Техно

Проверка больших языковых моделей

Вечером 15 июня, в 19:00, команда исследователей во главе с Сукетом Пателем организовала эксперимент с участием таких больших языковых моделей, как GPT, Claude и Gemini. В качестве основы был взят классический тест Струпа: перед испытуемым появляется слово «красный», но написанное синими чернилами. Задача — назвать именно цвет чернил, полностью проигнорировав смысл самого слова. Итоги показали, что точность ответов моделей сильно варьировалась в зависимости от того, сколько слов было в предъявленном списке.

Что выявило исследование

На коротких наборах из пяти слов модель GPT-4o продемонстрировала отличный результат — 91% верных ответов. Однако стоило увеличить список до десяти слов, как точность упала до 57%, а при сорока словах — и вовсе до 15%. Учёные отметили, что

«модели словно теряли нить рассуждения»
, что подтверждает серьёзные сложности при выполнении задания. В то же время Claude 3.5 Sonnet уверенно держался на коротких списках и показал 24% правильных ответов на сорока словах.

Анализ показал: когда в тесте смешивались слова, совпадающие по цвету и значению, с конфликтующими, точность на конфликтных позициях падала почти до нуля. Как подчеркнули авторы,

«первоначальная инструкция где-то терялась по пути»
. Кроме того, отмечается, что «способность удерживать внимание на конкретной цели в условиях конкурирующей информации, особенно на длинных последовательностях, реализована в языковых моделях принципиально иначе, чем у человека».

Эти данные показывают: несмотря на сильные стороны нейросетей в ряде задач, их умение работать с противоречивой информацией, особенно при большом объёме данных, оставляет желать лучшего. Стоит добавить, что такие исследования открывают новые направления для совершенствования ИИ — в частности, в области обработки информации и принятия решений в сложных условиях. Для русскоязычной аудитории это особенно актуально на фоне растущего внедрения языковых моделей в бизнес и образование, где требуется высокая надёжность.

Эти результаты подчеркивают существующие проблемы нейросетей в обработке противоречивой информации. Интересно, что аналогичные недостатки были замечены и в других исследованиях, где искусственные интеллекты сталкивались с лексическими ограничениями, что может затруднять их способность создавать разнообразные тексты. Это открывает новые горизонты для дальнейшего изучения и улучшения технологий ИИ.