SberDevices анонсировала семейство моделей с открытым исходным кодом GigaAM.
Они предназначены для корректного распознавания русского языка и эмоций. Их можно использовать для написания научных статей и дипломных работ.
Семейство состоит из трех нейромоделей: GigaAM, GigaAM-CTC и GigaAM-Emo.
GigaAM — Audio Foundation Model, предобученная на русской речи. Она нужна для адаптации под различные задачи работы со звуком, включая распознавание речи и эмоций, определение диктора и многие другие.
GigaAM-CTC является моделью для распознавания русскоязычных запросов. По данным компании, модель допускает в коротких запросах на 20–35% меньше ошибок в словах в сравнении с NeMo-Conformer-RNNT и Whisper-Large-v3.
GigaAM-Emo — это акустическая модель для определения эмоций. Она стала лучшей на крупнейшем датасете Dusha среди известных моделей.
Сравнение GigaAM с аналогами
SberDevices отмечает, что все новые модели размещены в открытом доступе с некоммерческой лицензией.
Новинки доступны на платформе SaluteSpeech API и в приложении SaluteSpeech App. Бизнес сможет интегрировать ботов на их базе в свои решения, а пользователи приложения, к примеру, смогут протестировать распознавание на лекциях или в ходе совещаний.
4 комментария
Форум →Наконец-то люди узнают, какие эмоции они испытывают.
@Йода, это госкорпорации узнают. А люди нет..
@tylerDurden, Госкорпорации вряд ли волнуют эмоции людей ;)
Кто бы что ни говорил, Сбер единственный конкурент Яндекса в РФ
Нашли орфографическую ошибку в новости?
Выделите ее мышью и нажмите Ctrl+Enter.Как удалить джейлбрейк iOS 12.4
Как выводить звук с телевизора или Apple TV на колонку HomePod
Не удаляются приложения на iOS, что делать?
Почему в iOS 16 иногда появляется сообщение «Зарядка приостановлена» и iPhone не заряжается
Как установить бета-версию iOS 14.5 с разблокировкой iPhone через Apple Watch
Как спрятать приложение Почта на iPhone
Что делать, если к Mac не подключается Bluetooth клавиатура, мышь или трекпад
Как запретить покупки в App Store по Face ID