Войти

Или войди с помощью

Исследователи МГУ и Яндекса создали первый открытый датасет и метод обучения нейросетей сложным правилам русского языка

Артём Баусов avatar |
Исследователи МГУ и Яндекса создали первый открытый датасет и метод обучения нейросетей сложным правилам русского языка

На Конгрессе молодых ученых Яндекс рассказал про первый открытый датасет LORuGEC и новый метод обучения нейросетей сложным правилам русского языка, которые разработаны совместно с Институтом ИИ МГУ.

На его основе они разработали метод, который помогает ИИ точнее исправлять грамматические, пунктуационные и орфографические ошибки в текстах. И датасет, и метод доступны всем, их можно использовать для создания образовательных сервисов.

Работа о датасете получила приз на воркшопе по инновациям в образовании в рамках конференции ACL 2025, где свои исследования представили также Google, Apple, IBM, Bloomberg AI и другие компании.

Сложные ошибки остаются проблемой для больших языковых моделей: в открытых датасетах почти нет примеров по 48 трудным правилам русского языка. LORuGEC закрывает этот пробел. В него вошло около 1000 предложений с типичными ошибками:

  • пунктуация в сложноподчинённых конструкциях
  • слитное/раздельное написание с «не»
  • согласование подлежащего и сказуемого
  • задания уровня ЕГЭ и олимпиад

Чтобы улучшить качество исправлений, исследователи использовали новый подход Retrieval-Augmented Generation. Дообученная модель GECTOR ищет в датасете примеры с тем же типом ошибки и передаёт их основной модели. Это помогает избегать лишних правок и менять только ту часть, где есть неточность.

Метод протестировали на YandexGPT 5 Lite, YandexGPT 5 Pro и зарубежных моделях. Точность исправлений сложных ошибок выросла на 5–10% по метрике F0.5.

*Конгресс молодых ученых — это главное мероприятие Десятилетия науки и технологий в России, которое проходит 26-28 ноября в Научно-технологическом университете «Сириус».

14
7
1
Что-то пошло не так
4
undefined
iPhones.ru
На Конгрессе молодых ученых Яндекс рассказал про первый открытый датасет LORuGEC и новый метод обучения нейросетей сложным правилам русского языка, которые разработаны совместно с Институтом ИИ МГУ. На его основе они разработали метод, который помогает ИИ точнее исправлять грамматические, пунктуационные и орфографические ошибки в текстах. И датасет, и метод доступны всем, их можно использовать для...

Войди и оставь комментарий

Или войди с помощью

<- Назад Забыли пароль? Войти
  1. 007-topor avatar
    007-topor 26 ноября в 14:34
    0

    теперь школьники вообще думать перестанут

    Numan Adjar avatar
    Numan Adjar26 ноября в 15:14
    0

    Они перестали когда купили айфон.

    Йода avatar
    Йода27 ноября в 0:43
    0

    Школьники, по счастью, думать не могут перестать. Они перестанут думать об уроках, это верно.

    Войди на сайт, чтобы ответить
    Ответить
  2. Diomer avatar
    Diomer 26 ноября в 20:28
    0

    Датасет для изучения русского языка… 
    В результате приза в воркшопе…

    Войди на сайт, чтобы ответить
    Ответить
Помни о правилах — если начал оффтопить, то не удивляйся потом.

Нашли орфографическую ошибку в новости?

Выделите ее мышью и нажмите Ctrl+Enter.