UA RU EN

Україна створює національну мовну модель: який контент потрібен для навчання

Розробка української мовної моделі: які ресурси необхідні для ефективного навчання Фото: Мінцифра

Збір даних для національної мовної моделі

В Україні оголошено про збір даних для навчання національної мовної моделі (LLM), що реалізується спільно з компанією Київстар. Ця модель призначена для використання в сервісах, якими планується користуватися мільйонам людей. Для її навчання потрібні якісні українські тексти, які можуть надати бізнеси, медіа та освітні заклади.

Необхідний контент для формування мовної моделі

Зокрема, для формування мовної моделі необхідний контент з різних сфер. Серед них:

  • Медіа: новини, інтерв’ю, блоги та публіцистика
  • Наука та освіта: контент курсів, підручники, наукові роботи та дисертації
  • Література: художні твори, критика та рецензії
  • Історія: оцифровані архівні матеріали
  • Бізнес-дані: технічна документація, описи товарів, відкриті відгуки та матеріали корпоративних блогів

Для участі у зборі даних потрібно заповнити форму реєстрації. Цей проєкт має на меті зміцнити національну мовну інфраструктуру та підвищити доступність українського контенту для широкої аудиторії.

Створення національної мовної моделі є важливим кроком для розвитку технологій обробки природної мови в Україні. Це дозволить не лише покращити доступ до інформації українською мовою, але й сприятиме розвитку нових сервісів та продуктів, адаптованих до потреб українських користувачів. Участь бізнесів, медіа та освітніх установ у зборі даних підкреслює важливість співпраці між різними секторами для досягнення спільної мети – підвищення якості та доступності контенту.