Исследователи МГУ и Яндекса создали первый открытый датасет и метод обучения нейросетей сложным правилам русского языка

Артём Баусов avatar |
Исследователи МГУ и Яндекса создали первый открытый датасет и метод обучения нейросетей сложным правилам русского языка

На Конгрессе молодых ученых Яндекс рассказал про первый открытый датасет LORuGEC и новый метод обучения нейросетей сложным правилам русского языка, которые разработаны совместно с Институтом ИИ МГУ.

На его основе они разработали метод, который помогает ИИ точнее исправлять грамматические, пунктуационные и орфографические ошибки в текстах. И датасет, и метод доступны всем, их можно использовать для создания образовательных сервисов.

Работа о датасете получила приз на воркшопе по инновациям в образовании в рамках конференции ACL 2025, где свои исследования представили также Google, Apple, IBM, Bloomberg AI и другие компании.

Сложные ошибки остаются проблемой для больших языковых моделей: в открытых датасетах почти нет примеров по 48 трудным правилам русского языка. LORuGEC закрывает этот пробел. В него вошло около 1000 предложений с типичными ошибками:

  • пунктуация в сложноподчинённых конструкциях
  • слитное/раздельное написание с «не»
  • согласование подлежащего и сказуемого
  • задания уровня ЕГЭ и олимпиад

Чтобы улучшить качество исправлений, исследователи использовали новый подход Retrieval-Augmented Generation. Дообученная модель GECTOR ищет в датасете примеры с тем же типом ошибки и передаёт их основной модели. Это помогает избегать лишних правок и менять только ту часть, где есть неточность.

Метод протестировали на YandexGPT 5 Lite, YandexGPT 5 Pro и зарубежных моделях. Точность исправлений сложных ошибок выросла на 5–10% по метрике F0.5.

*Конгресс молодых ученых — это главное мероприятие Десятилетия науки и технологий в России, которое проходит 26-28 ноября в Научно-технологическом университете «Сириус».

14
8
1
Что-то пошло не так
4
Логотип iPhones.ru
iPhones.ru
На Конгрессе молодых ученых Яндекс рассказал про первый открытый датасет LORuGEC и новый метод обучения нейросетей сложным правилам русского языка, которые разработаны совместно с Институтом ИИ МГУ. На его основе они разработали метод, который помогает ИИ точнее исправлять грамматические, пунктуационные и орфографические ошибки в текстах. И датасет, и метод доступны всем, их можно использовать для...

4 комментария

Котик
Котик
Котик
Котик
Котик
Котик
Котик
Котик
Котик
Котик
Котик
Котик
Котик из TikTok
Котик из TikTok
Котик из TikTok
Котик из TikTok
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Видео мем
Видео мем
Видео мем
Видео мем
Видео мем
Видео мем

Какие правила в комментариях
  1. 007-topor avatar
    007-topor 26 ноября 2025

    теперь школьники вообще думать перестанут

    Что-то пошло не так
    Войди на сайт, чтобы ответить
    Ответить
    Numan Adjar
    Numan Adjar 26 ноября 2025

    Они перестали когда купили айфон.

    Что-то пошло не так
    Войди на сайт, чтобы ответить
    Ответить
    Йода
    Йода 27 ноября 2025

    Школьники, по счастью, думать не могут перестать. Они перестанут думать об уроках, это верно.

    Что-то пошло не так
    Войди на сайт, чтобы ответить
    Ответить

Нашли орфографическую ошибку в новости?

Выделите ее мышью и нажмите Ctrl+Enter.