88% сгенерированных ИИ историй строятся всего на 11 словах
Как искусственный интеллект ограничивает сам себя: анализ языковых моделей
Исследование, проведенное с участием языковых моделей ИИ, подчеркивает важность анализа данных, на которых эти модели обучаются. Ограниченный выбор слов и частота использования определенных персонажей могут указывать на систематические предубеждения в обучающих наборах, что в свою очередь влияет на творческий потенциал и разнообразие генерируемых историй.
Как сообщает НВ — Техно: 12 июня в 12:00 стало известно, что языковые модели искусственного интеллекта, включая GPT-5.4 Mini, Claude Haiku 4.5 и Gemini 3.1 Flash-Lite, в 88% случаев придумывают истории, используя всего 11 слов. Этот ограниченный словарный запас состоит из:
- Lighthouse
- Keeper
- Baker
- Mayor
- Clockmaker
- Fisherman
- Librarian
- Conductor
- Mara
- Elias
- Elara
Чаще всего в сюжетах фигурирует персонаж Элиас, который работает смотрителем маяка. Он появляется примерно в двух третях всех созданных историй.
Инженер-программист Дэниел Мэй, работая вместе с исследователями Силом Гамильтоном и Дэвидом Мимно, обратил внимание на эту закономерность. Они проанализировали около 20 тысяч историй, написанных упомянутыми моделями. Хотя Элиас встречается очень часто, эксперты не нашли подтверждений тому, что этот образ широко распространен в литературе или обучающих данных. По их мнению, причина популярности может крыться в использовании набора данных WildChat, который включает миллионы диалогов между людьми и чат-ботом на базе GPT-3.5.
Реальный прототип Элиаса Торна
Издание 404 Media также сообщило, что имя Элиаса Торна встречается среди персонажей книг в жанре фэнтези, а также как псевдоним исполнителя эмбиент-музыки на Amazon. Дэниел Мэй дополнительно выяснил, что среди книг, где автором указан Элиас Торн, есть справочник по нетрадиционным методам лечения рака. Эти находки намекают на то, что популярность созданного ИИ героя может быть связана с конкретными данными, на которых обучаются модели.
В то время как искусственный интеллект продолжает развиваться, возникают и новые проблемы. Например, недавний случай с ИИ от Google демонстрирует, что даже базовые задачи, такие как подсчет букв в названии, могут вызывать затруднения. Это подчеркивает важность дальнейшего анализа и улучшения технологий, чтобы минимизировать ошибки и предвзятости в генерации контента.
Читайте также

