Анализ работы языковых алгоритмов
12 июня, 12:00
Согласно данным нового исследования, такие языковые модели, как GPT-5.4 Mini, Claude Haiku 4.5 и Gemini 3.1 Flash-Lite, в 88% сгенерированных историй опираются всего на 11 повторяющихся слов. Самым популярным героем этих повествований оказался смотритель маяка по имени Элиас — его имя фигурирует примерно в двух третях всех проанализированных текстов. Это говорит о том, что творческий потенциал нейросетей пока довольно ограничен.
Программист Дэниел Мэй первым заметил склонность чат-ботов к повторению одних и тех же персонажей. Чтобы подтвердить наблюдения, исследователи Сил Гамильтон и Дэвид Мимно изучили около 20 тысяч историй и выяснили: лишь 11 лексических единиц покрывают 88% всех написанных ИИ текстов. Вот этот список:
- Lighthouse
- Keeper
- Baker
- Mayor
- Clockmaker
- Fisherman
- Librarian
- Conductor
- Mara
- Elias
- Elara
Примечательно, что образ Элиаса-смотрителя маяка практически не встречается ни в классической литературе, ни в стандартных обучающих датасетах. Исследователи предполагают, что причина кроется в наборе данных WildChat — открытой коллекции из миллионов диалогов между людьми и чат-ботом на базе GPT-3.5. Интересно, что имя Элиас Торн можно найти в фэнтези-книгах, а также у исполнителя эмбиент-музыки на Amazon. Кроме того, Дэниел Мэй обнаружил, что под именем Элиас Торн опубликован справочник по нетрадиционным методам лечения рака.
Полученные данные указывают на феномен, требующий более глубокого изучения. Для русскоязычных пользователей важно понимать, что подобные ограничения могут влиять на качество контента, который генерируют нейросети для блогов, новостей или сценариев. В прошлом году аналогичные исследования уже показывали, что генераторы изображений склонны воспроизводить ограниченный набор одних и тех же визуальных образов, что подтверждает общую тенденцию в поведении ИИ.
Эти результаты открывают новые возможности для понимания границ языковых моделей и их способности к креативности. — Дэниел Мэй
Повторяемость персонажей и узкий словарный запас могут указывать на то, что искусственный интеллект стремится найти наиболее оптимальные решения в рамках заданных параметров. Это важный аспект для дальнейшей разработки и улучшения алгоритмов генерации текста, который напрямую повлияет на качество контента, создаваемого нейросетями в будущем.
В то время как ИИ-сочинители сталкиваются с лексическими ограничениями, технологии от Google также демонстрируют свои недостатки, что ставит под сомнение их способность к обработке информации. Это подчеркивает необходимость критического подхода к контенту, создаваемому нейросетями, и вызывает вопросы о будущем их использования в медиа.