Какие данные нужны для обучения украинской языковой модели
Формирование базы для обучения ИИ
Как сообщает Мінцифра: В Украине стартовал сбор данных для обучения национальной языковой модели (LLM), проект реализуется совместно с компанией «Киевстар». Цель - создание модели для сервисов, которыми будут пользоваться миллионы. Для её обучения требуются качественные тексты на украинском языке, которые могут предоставить бизнес, медиа и образовательные учреждения.
Типы контента, востребованные для проекта
Для формирования языковой модели необходим контент из различных областей знаний. В частности:
- Медиа: новости, интервью, блоги и публицистика
- Наука и образование: материалы курсов, учебники, научные работы и диссертации
- Литература: художественные произведения, критика и рецензии
- История: оцифрованные архивные материалы
- Бизнес-данные: техническая документация, описания товаров, открытые отзывы и материалы корпоративных блогов
Для участия в сборе данных необходимо заполнить регистрационную форму. Проект направлен на укрепление национальной языковой инфраструктуры и повышение доступности украиноязычного контента. Подобные инициативы становятся важным инструментом цифрового суверенитета, позволяя развивать собственные технологические решения. Создание такой модели - ключевой шаг для развития технологий обработки естественного языка в Украине, что позволит улучшить доступ к информации и будет способствовать появлению новых сервисов, адаптированных под нужды пользователей. Участие бизнеса, медиа и учебных заведений в сборе данных подчёркивает важность межсекторного сотрудничества для достижения общей цели - повышения качества и доступности контента.
Читайте также

