SberDevices анонсировала семейство моделей с открытым исходным кодом GigaAM.
Они предназначены для корректного распознавания русского языка и эмоций. Их можно использовать для написания научных статей и дипломных работ.
Семейство состоит из трех нейромоделей: GigaAM, GigaAM-CTC и GigaAM-Emo.
GigaAM — Audio Foundation Model, предобученная на русской речи. Она нужна для адаптации под различные задачи работы со звуком, включая распознавание речи и эмоций, определение диктора и многие другие.
GigaAM-CTC является моделью для распознавания русскоязычных запросов. По данным компании, модель допускает в коротких запросах на 20–35% меньше ошибок в словах в сравнении с NeMo-Conformer-RNNT и Whisper-Large-v3.
GigaAM-Emo — это акустическая модель для определения эмоций. Она стала лучшей на крупнейшем датасете Dusha среди известных моделей.
Сравнение GigaAM с аналогами
SberDevices отмечает, что все новые модели размещены в открытом доступе с некоммерческой лицензией.
Новинки доступны на платформе SaluteSpeech API и в приложении SaluteSpeech App. Бизнес сможет интегрировать ботов на их базе в свои решения, а пользователи приложения, к примеру, смогут протестировать распознавание на лекциях или в ходе совещаний.
4 комментария
Форум →Наконец-то люди узнают, какие эмоции они испытывают.
@Йода, это госкорпорации узнают. А люди нет..
@tylerDurden, Госкорпорации вряд ли волнуют эмоции людей ;)
Кто бы что ни говорил, Сбер единственный конкурент Яндекса в РФ
Нашли орфографическую ошибку в новости?
Выделите ее мышью и нажмите Ctrl+Enter.Как отключить автоматическое воспроизведение роликов YouTube в iPhone
Как использовать iPhone или iPad в качестве камеры наблюдения
Как отслеживать скидки в iTunes Store
Не работает подсветка клавиатуры Mac под Windows
Куда делась Загруженная музыка в Apple Watch на прошивке watchOS 3.0?
Почему на iPhone некоторые приложения не могут записывать звук
Как заказать новый наушник AirPods взамен потерянного
Как использовать iPhone, если сломалась кнопка блокировки