На Конгрессе молодых ученых Яндекс рассказал про первый открытый датасет LORuGEC и новый метод обучения нейросетей сложным правилам русского языка, которые разработаны совместно с Институтом ИИ МГУ.
На его основе они разработали метод, который помогает ИИ точнее исправлять грамматические, пунктуационные и орфографические ошибки в текстах. И датасет, и метод доступны всем, их можно использовать для создания образовательных сервисов.
Работа о датасете получила приз на воркшопе по инновациям в образовании в рамках конференции ACL 2025, где свои исследования представили также Google, Apple, IBM, Bloomberg AI и другие компании.
Сложные ошибки остаются проблемой для больших языковых моделей: в открытых датасетах почти нет примеров по 48 трудным правилам русского языка. LORuGEC закрывает этот пробел. В него вошло около 1000 предложений с типичными ошибками:
- пунктуация в сложноподчинённых конструкциях
- слитное/раздельное написание с «не»
- согласование подлежащего и сказуемого
- задания уровня ЕГЭ и олимпиад
Чтобы улучшить качество исправлений, исследователи использовали новый подход Retrieval-Augmented Generation. Дообученная модель GECTOR ищет в датасете примеры с тем же типом ошибки и передаёт их основной модели. Это помогает избегать лишних правок и менять только ту часть, где есть неточность.
Метод протестировали на YandexGPT 5 Lite, YandexGPT 5 Pro и зарубежных моделях. Точность исправлений сложных ошибок выросла на 5–10% по метрике F0.5.
*Конгресс молодых ученых — это главное мероприятие Десятилетия науки и технологий в России, которое проходит 26-28 ноября в Научно-технологическом университете «Сириус».
Войди и оставь комментарий
Или войди с помощью
теперь школьники вообще думать перестанут
Они перестали когда купили айфон.
Школьники, по счастью, думать не могут перестать. Они перестанут думать об уроках, это верно.
Датасет для изучения русского языка…
В результате приза в воркшопе…
Рекомендуем
Нашли орфографическую ошибку в новости?
Выделите ее мышью и нажмите Ctrl+Enter.