Самое популярное сейчас

ИИ-сочинители попали в лексическую ловушку: 88% текстов крутятся вокруг одних и тех же 11 слов

ШІ-писатели застряли на 11 словах: 88% историй пишут о Елиасе
Машинные авторы столкнулись с проблемой однообразия: большая часть их произведений использует всего лишь несколько слов. Фото: НВ — Техно

Анализ работы языковых алгоритмов

Как сообщает НВ — Техно: 12 июня, 12:00

Согласно данным нового исследования, такие языковые модели, как GPT-5.4 Mini, Claude Haiku 4.5 и Gemini 3.1 Flash-Lite, в 88% сгенерированных историй опираются всего на 11 повторяющихся слов. Самым популярным героем этих повествований оказался смотритель маяка по имени Элиас - его имя фигурирует примерно в двух третях всех проанализированных текстов. Это говорит о том, что творческий потенциал нейросетей пока довольно ограничен.

Программист Дэниел Мэй первым заметил склонность чат-ботов к повторению одних и тех же персонажей. Чтобы подтвердить наблюдения, исследователи Сил Гамильтон и Дэвид Мимно изучили около 20 тысяч историй и выяснили: лишь 11 лексических единиц покрывают 88% всех написанных ИИ текстов. Вот этот список:

  • Lighthouse
  • Keeper
  • Baker
  • Mayor
  • Clockmaker
  • Fisherman
  • Librarian
  • Conductor
  • Mara
  • Elias
  • Elara

Примечательно, что образ Элиаса-смотрителя маяка практически не встречается ни в классической литературе, ни в стандартных обучающих датасетах. Исследователи предполагают, что причина кроется в наборе данных WildChat - открытой коллекции из миллионов диалогов между людьми и чат-ботом на базе GPT-3.5. Интересно, что имя Элиас Торн можно найти в фэнтези-книгах, а также у исполнителя эмбиент-музыки на Amazon. Кроме того, Дэниел Мэй обнаружил, что под именем Элиас Торн опубликован справочник по нетрадиционным методам лечения рака.

Полученные данные указывают на феномен, требующий более глубокого изучения. Для русскоязычных пользователей важно понимать, что подобные ограничения могут влиять на качество контента, который генерируют нейросети для блогов, новостей или сценариев. В прошлом году аналогичные исследования уже показывали, что генераторы изображений склонны воспроизводить ограниченный набор одних и тех же визуальных образов, что подтверждает общую тенденцию в поведении ИИ.

Эти результаты открывают новые возможности для понимания границ языковых моделей и их способности к креативности. - Дэниел Мэй

Повторяемость персонажей и узкий словарный запас могут указывать на то, что искусственный интеллект стремится найти наиболее оптимальные решения в рамках заданных параметров. Это важный аспект для дальнейшей разработки и улучшения алгоритмов генерации текста, который напрямую повлияет на качество контента, создаваемого нейросетями в будущем.

В то время как ИИ-сочинители сталкиваются с лексическими ограничениями, технологии от Google также демонстрируют свои недостатки, что ставит под сомнение их способность к обработке информации. Это подчеркивает необходимость критического подхода к контенту, создаваемому нейросетями, и вызывает вопросы о будущем их использования в медиа.

Читайте также

Реклама