Войти

Или войди с помощью

Исследователи МГУ и Яндекса создали первый открытый датасет и метод обучения нейросетей сложным правилам русского языка

Артём Баусов avatar |
Исследователи МГУ и Яндекса создали первый открытый датасет и метод обучения нейросетей сложным правилам русского языка

На Конгрессе молодых ученых Яндекс рассказал про первый открытый датасет LORuGEC и новый метод обучения нейросетей сложным правилам русского языка, которые разработаны совместно с Институтом ИИ МГУ.

На его основе они разработали метод, который помогает ИИ точнее исправлять грамматические, пунктуационные и орфографические ошибки в текстах. И датасет, и метод доступны всем, их можно использовать для создания образовательных сервисов.

Работа о датасете получила приз на воркшопе по инновациям в образовании в рамках конференции ACL 2025, где свои исследования представили также Google, Apple, IBM, Bloomberg AI и другие компании.

Сложные ошибки остаются проблемой для больших языковых моделей: в открытых датасетах почти нет примеров по 48 трудным правилам русского языка. LORuGEC закрывает этот пробел. В него вошло около 1000 предложений с типичными ошибками:

  • пунктуация в сложноподчинённых конструкциях
  • слитное/раздельное написание с «не»
  • согласование подлежащего и сказуемого
  • задания уровня ЕГЭ и олимпиад

Чтобы улучшить качество исправлений, исследователи использовали новый подход Retrieval-Augmented Generation. Дообученная модель GECTOR ищет в датасете примеры с тем же типом ошибки и передаёт их основной модели. Это помогает избегать лишних правок и менять только ту часть, где есть неточность.

Метод протестировали на YandexGPT 5 Lite, YandexGPT 5 Pro и зарубежных моделях. Точность исправлений сложных ошибок выросла на 5–10% по метрике F0.5.

*Конгресс молодых ученых — это главное мероприятие Десятилетия науки и технологий в России, которое проходит 26-28 ноября в Научно-технологическом университете «Сириус».

14
7
1
Что-то пошло не так
4
undefined
iPhones.ru
На Конгрессе молодых ученых Яндекс рассказал про первый открытый датасет LORuGEC и новый метод обучения нейросетей сложным правилам русского языка, которые разработаны совместно с Институтом ИИ МГУ. На его основе они разработали метод, который помогает ИИ точнее исправлять грамматические, пунктуационные и орфографические ошибки в текстах. И датасет, и метод доступны всем, их можно использовать для...

Войди и оставь комментарий

Или войди с помощью

<- Назад Забыли пароль? Войти
Котик
Котик
Котик
Котик
Котик
Котик
Котик
Котик
Котик
Котик
Котик
Котик
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер

Какие правила в комментариях
  1. 007-topor avatar
    007-topor 26 ноября в 14:34
    0

    теперь школьники вообще думать перестанут

    Numan Adjar avatar
    Numan Adjar26 ноября в 15:14
    0

    Они перестали когда купили айфон.

    Йода avatar
    Йода27 ноября в 0:43
    0

    Школьники, по счастью, думать не могут перестать. Они перестанут думать об уроках, это верно.

    Войди на сайт, чтобы ответить
    Ответить
  2. Diomer avatar
    Diomer 26 ноября в 20:28
    0

    Датасет для изучения русского языка… 
    В результате приза в воркшопе…

    Войди на сайт, чтобы ответить
    Ответить
Помни о правилах — если начал оффтопить, то не удивляйся потом.

Нашли орфографическую ошибку в новости?

Выделите ее мышью и нажмите Ctrl+Enter.