UA RU EN

Какие данные нужны для обучения украинской языковой модели

Для создания эффективной украинской языковой модели необходимы разнообразные текстовые данные, включая книги, статьи и разговорные примеры. Фото: Мінцифра

Формирование базы для обучения ИИ

В Украине стартовал сбор данных для обучения национальной языковой модели (LLM), проект реализуется совместно с компанией «Киевстар». Цель — создание модели для сервисов, которыми будут пользоваться миллионы. Для её обучения требуются качественные тексты на украинском языке, которые могут предоставить бизнес, медиа и образовательные учреждения.

Типы контента, востребованные для проекта

Для формирования языковой модели необходим контент из различных областей знаний. В частности:

  • Медиа: новости, интервью, блоги и публицистика
  • Наука и образование: материалы курсов, учебники, научные работы и диссертации
  • Литература: художественные произведения, критика и рецензии
  • История: оцифрованные архивные материалы
  • Бизнес-данные: техническая документация, описания товаров, открытые отзывы и материалы корпоративных блогов

Для участия в сборе данных необходимо заполнить регистрационную форму. Проект направлен на укрепление национальной языковой инфраструктуры и повышение доступности украиноязычного контента. Подобные инициативы становятся важным инструментом цифрового суверенитета, позволяя развивать собственные технологические решения. Создание такой модели — ключевой шаг для развития технологий обработки естественного языка в Украине, что позволит улучшить доступ к информации и будет способствовать появлению новых сервисов, адаптированных под нужды пользователей. Участие бизнеса, медиа и учебных заведений в сборе данных подчёркивает важность межсекторного сотрудничества для достижения общей цели — повышения качества и доступности контента.