Исследователи МГУ и Яндекса создали первый открытый датасет и метод обучения нейросетей сложным правилам русского языка

Артём Баусов | 26 ноября 2025

Исследователи МГУ и Яндекса создали первый открытый датасет и метод обучения нейросетей сложным правилам русского языка

На его основе они разработали метод, который помогает ИИ точнее исправлять грамматические, пунктуационные и орфографические ошибки в текстах. И датасет, и метод доступны всем, их можно использовать для создания образовательных сервисов.

Работа о датасете получила приз на воркшопе по инновациям в образовании в рамках конференции ACL 2025, где свои исследования представили также Google, Apple, IBM, Bloomberg AI и другие компании.

Сложные ошибки остаются проблемой для больших языковых моделей: в открытых датасетах почти нет примеров по 48 трудным правилам русского языка. LORuGEC закрывает этот пробел. В него вошло около 1000 предложений с типичными ошибками:

пунктуация в сложноподчинённых конструкциях
слитное/раздельное написание с «не»
согласование подлежащего и сказуемого
задания уровня ЕГЭ и олимпиад

Чтобы улучшить качество исправлений, исследователи использовали новый подход Retrieval-Augmented Generation. Дообученная модель GECTOR ищет в датасете примеры с тем же типом ошибки и передаёт их основной модели. Это помогает избегать лишних правок и менять только ту часть, где есть неточность.

Метод протестировали на YandexGPT 5 Lite, YandexGPT 5 Pro и зарубежных моделях. Точность исправлений сложных ошибок выросла на 5–10% по метрике F0.5.

*Конгресс молодых ученых — это главное мероприятие Десятилетия науки и технологий в России, которое проходит 26-28 ноября в Научно-технологическом университете «Сириус».

Нейросети Россия Яндекс Новости

iPhones.ru

На Конгрессе молодых ученых Яндекс рассказал про первый открытый датасет LORuGEC и новый метод обучения нейросетей сложным правилам русского языка, которые разработаны совместно с Институтом ИИ МГУ. На его основе они разработали метод, который помогает ИИ точнее исправлять грамматические, пунктуационные и орфографические ошибки в текстах. И датасет, и метод доступны всем, их можно использовать для...