Протестировал нейросеть Яндекса, которая синхронно переводит видео голосом. Теперь смотрю только так

Артём Баусов avatar |
Протестировал нейросеть Яндекса, которая синхронно переводит видео голосом. Теперь смотрю только так

В 2021 году Яндекс Браузер получил крупное обновление, в котором добавилась функция автоматического перевода и озвучки видео на популярных платформах, вроде YouTube.

На старте был доступен только английский язык. С тех пор прошло 2 года, а список поддерживаемых языков вырос до пяти:

• английский
• немецкий
• испанский
• французский
• китайский

И вот только недавно я открыл для себя этот мощный функционал и понял, насколько он удобен. Решил посмотреть WWDC 2023 с помощью нейроозвучки, чтобы не пропустить ничего важного.

Да, всегда есть субтитры, но к ним у меня особое отношение. Ими удобно пользоваться, но при этом тебя эта функция буквально притягивает к экрану, ты не можешь отвлечься, если не знаешь языка или тебе нужно выполнять параллельно другие задачи.

С тем же WWDC мне требовалось писать большое число статей одну за другой, а на слух английский язык я воспринимаю далеко не идеально. Поэтому гораздо удобнее, когда кто-то синхронно переводит презентацию: пишешь текст и одновременно слушаешь, что рассказывают.

Если на старте функция позволяла озвучивать на русском языке только отобранные видео, то сейчас она спокойно справляется и с прямыми трансляциями, что очень удобно. Причем ты даже можешь отличить одного спикера от другого — им подбираются разные синтезированные голоса.

Как вообще устроен синхроперевод и как им пользоваться? Разбираемся.

Как работает автоперевод видео в Яндекс Браузере

Для реализации функции Яндекс использовал технологию сервиса Переводчик, речевые технологии и биометрию. Примечательно, что в озвучке видео принимает участие не одна, а сразу шесть нейросетей.

Первая. Определяет язык говорящего. Если он говорит на поддерживаемом языке, то браузер предложит перевести содержимое на русский.

Вторая. Переводит речь в текст. В полученной модели создается аудиодорожка, из которой нейронка удаляет лишние звуки. Она же удаляет слова-паразиты, делая итоговый текст «чище».

Третья. Нормализует текст и расставляет знаки препинания.

То есть она получает набор переведенных слов, составляет из него грамотные предложения и занимается пунктуацией, сохранив изначальный смысл.

Нейросети передается определенный выделенный контекст, чтобы она могла лучше понять, о чем идет речь в ролике. А затем она сама расставляет все по смыслу. Но иногда требуется чуть больше времени. В случае стриминга это будет компромиссом между качеством и задержкой.

Если мы не уверены, нужно ли разбивать на предложения в данном месте, то можем подождать чуть дольше, пока не придут новые слова. Тогда мы либо лучше определимся с разбиением, либо превысим ограничение по контексту и будем вынуждены разбивать там, где почти уверены.

— Яндекс

Четвертая. Определяет количество спикеров, их пол и применяемые местоимения. Вычисляется тип голоса (мужской или женский) по частоте звучания: у мужчин — 80—150 Гц, у женщин — 150—250 Гц.

Пятая. Занимается переводом текста на русский язык.

Шестая. Синтезирует речь и синхронизирует её с роликом. Она делает паузы одновременно с говорящим человеком, а также соблюдает его темп речи, иногда ускоряясь или замедляясь.

Как работает автоперевод трансляций


Схема работы переводчика

Понятное дело, что стрим — это не уже готовый ролик. Его нельзя заранее проанализировать и наложить озвучку.

Если в первом случае нейросеть получает уже целую аудиодорожку и работает с ней, то во втором такого запаса времени нет. Приходится работать в режиме синхронного перевода по создающейся дорожке.

wp-image-1201899

По этой причине технологии немного отличаются, но языковые модели используются те же самые. В случае с трансляциями на помощь приходит третья нейросеть, ответственная за нормализацию речи. Она распознает начало и конец предложения, выделяет вводные слова, определяет сложносочиненные предложения и так далее.

Как только нейросеть расставит все знаки препинания, система определяет предложения с законченными мыслями и отправляет уже их на перевод.

Задержка при переводе прямых трансляций может составлять от 20 до 50 секунд. Неплохой результат, чтобы сильно не отставать от происходящего.

Особенно меня порадовало и то, что система умеет озвучивать разные голоса. И это, по всей видимости, появилось относительно недавно. Потому что на старте было доступно всего два голоса: один мужской и один женский. Теперь у каждого из них есть несколько вариаций звучания.

Как включить автоперевод видео

Функция перевода доступна на iOS, Android, Windows и macOS в приложении Яндекс или Яндекс Браузер.

Для запуска функции достаточно открыть любое видео на популярных платформах, вроде YouTube, Rutube, Vimeo и так далее. После включения ролика кнопка перевода появится автоматически. Останется только нажать на неё.

Для обычных роликов процесс запуска переводчика занимает пару секунд. А для трансляций обычно приходится сначала подождать около 15-20 секунд, если стрим только начался. А если он уже идет, то те же пару секунд.

Попробуйте, это очень полезная функция

Многие зарубежные видео недоступны на русском языке. Лишь редкие блогеры заказывают себе дубляж.

С помощью автоперевода в Яндекс Браузере эта проблема решается на раз-два. В пару кликов я уже смотрю ролик на русском языке и даже не мучаюсь от субтитров. Ничто не отвлекает, озвучка работает хорошо.

Единственное, лично мне не хватает «живости» самой озвучки. Хочется больше слышать похожих с оригиналом интонаций. Ну и пока функция работает далеко не со всеми стримами. Надеюсь, это исправят в скором времени.

40
Логотип iPhones.ru
iPhones.ru
В 2021 году Яндекс Браузер получил крупное обновление, в котором добавилась функция автоматического перевода и озвучки видео на популярных платформах, вроде YouTube. На старте был доступен только английский язык. С тех пор прошло 2 года, а список поддерживаемых языков вырос до пяти: • английский • немецкий • испанский • французский • китайский И вот только...

40 комментариев

Котик
Котик
Котик
Котик
Котик
Котик
Котик
Котик
Котик
Котик
Котик
Котик
Котик из TikTok
Котик из TikTok
Котик из TikTok
Котик из TikTok
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Момент из фильма
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Мем стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Офис стикер
Видео мем
Видео мем
Видео мем
Видео мем
Видео мем
Видео мем

Какие правила в комментариях
  1. Closed Name avatar
    Closed Name 18 июня 2023

    А еще полезнее выучить язык иностранный и не пользоваться помогаторами которые оттягивают знания. :)

    Что-то пошло не так
    Войди на сайт, чтобы ответить
    Ответить
  2. svitanak avatar
    svitanak 18 июня 2023

    круто ведь, для страны с 150 млн так и космически

    Что-то пошло не так
    Войди на сайт, чтобы ответить
    Ответить

Нашли орфографическую ошибку в новости?

Выделите ее мышью и нажмите Ctrl+Enter.