Протестировал нейросеть Яндекса, которая синхронно переводит видео голосом. Теперь смотрю только так

Артём Баусов avatar | 41
FavoriteLoading В закладки
Протестировал нейросеть Яндекса, которая синхронно переводит видео голосом. Теперь смотрю только так

В 2021 году Яндекс Браузер получил крупное обновление, в котором добавилась функция автоматического перевода и озвучки видео на популярных платформах, вроде YouTube.

На старте был доступен только английский язык. С тех пор прошло 2 года, а список поддерживаемых языков вырос до пяти:

• английский
• немецкий
• испанский
• французский
• китайский

И вот только недавно я открыл для себя этот мощный функционал и понял, насколько он удобен. Решил посмотреть WWDC 2023 с помощью нейроозвучки, чтобы не пропустить ничего важного.

Да, всегда есть субтитры, но к ним у меня особое отношение. Ими удобно пользоваться, но при этом тебя эта функция буквально притягивает к экрану, ты не можешь отвлечься, если не знаешь языка или тебе нужно выполнять параллельно другие задачи.

С тем же WWDC мне требовалось писать большое число статей одну за другой, а на слух английский язык я воспринимаю далеко не идеально. Поэтому гораздо удобнее, когда кто-то синхронно переводит презентацию: пишешь текст и одновременно слушаешь, что рассказывают.

Если на старте функция позволяла озвучивать на русском языке только отобранные видео, то сейчас она спокойно справляется и с прямыми трансляциями, что очень удобно. Причем ты даже можешь отличить одного спикера от другого — им подбираются разные синтезированные голоса.

Как вообще устроен синхроперевод и как им пользоваться? Разбираемся.

Как работает автоперевод видео в Яндекс Браузере

Для реализации функции Яндекс использовал технологию сервиса Переводчик, речевые технологии и биометрию. Примечательно, что в озвучке видео принимает участие не одна, а сразу шесть нейросетей.

Первая. Определяет язык говорящего. Если он говорит на поддерживаемом языке, то браузер предложит перевести содержимое на русский.

Вторая. Переводит речь в текст. В полученной модели создается аудиодорожка, из которой нейронка удаляет лишние звуки. Она же удаляет слова-паразиты, делая итоговый текст «чище».

Третья. Нормализует текст и расставляет знаки препинания.

То есть она получает набор переведенных слов, составляет из него грамотные предложения и занимается пунктуацией, сохранив изначальный смысл.

Нейросети передается определенный выделенный контекст, чтобы она могла лучше понять, о чем идет речь в ролике. А затем она сама расставляет все по смыслу. Но иногда требуется чуть больше времени. В случае стриминга это будет компромиссом между качеством и задержкой.

Если мы не уверены, нужно ли разбивать на предложения в данном месте, то можем подождать чуть дольше, пока не придут новые слова. Тогда мы либо лучше определимся с разбиением, либо превысим ограничение по контексту и будем вынуждены разбивать там, где почти уверены.

— Яндекс

Четвертая. Определяет количество спикеров, их пол и применяемые местоимения. Вычисляется тип голоса (мужской или женский) по частоте звучания: у мужчин — 80—150 Гц, у женщин — 150—250 Гц.

Пятая. Занимается переводом текста на русский язык.

Шестая. Синтезирует речь и синхронизирует её с роликом. Она делает паузы одновременно с говорящим человеком, а также соблюдает его темп речи, иногда ускоряясь или замедляясь.

Как работает автоперевод трансляций


Схема работы переводчика

Понятное дело, что стрим — это не уже готовый ролик. Его нельзя заранее проанализировать и наложить озвучку.

Если в первом случае нейросеть получает уже целую аудиодорожку и работает с ней, то во втором такого запаса времени нет. Приходится работать в режиме синхронного перевода по создающейся дорожке.

wp-image-1201899

По этой причине технологии немного отличаются, но языковые модели используются те же самые. В случае с трансляциями на помощь приходит третья нейросеть, ответственная за нормализацию речи. Она распознает начало и конец предложения, выделяет вводные слова, определяет сложносочиненные предложения и так далее.

Как только нейросеть расставит все знаки препинания, система определяет предложения с законченными мыслями и отправляет уже их на перевод.

Задержка при переводе прямых трансляций может составлять от 20 до 50 секунд. Неплохой результат, чтобы сильно не отставать от происходящего.

Особенно меня порадовало и то, что система умеет озвучивать разные голоса. И это, по всей видимости, появилось относительно недавно. Потому что на старте было доступно всего два голоса: один мужской и один женский. Теперь у каждого из них есть несколько вариаций звучания.

Как включить автоперевод видео

Функция перевода доступна на iOS, Android, Windows и macOS в приложении Яндекс или Яндекс Браузер.

Для запуска функции достаточно открыть любое видео на популярных платформах, вроде YouTube, Rutube, Vimeo и так далее. После включения ролика кнопка перевода появится автоматически. Останется только нажать на неё.

Для обычных роликов процесс запуска переводчика занимает пару секунд. А для трансляций обычно приходится сначала подождать около 15-20 секунд, если стрим только начался. А если он уже идет, то те же пару секунд.

Попробуйте, это очень полезная функция

Многие зарубежные видео недоступны на русском языке. Лишь редкие блогеры заказывают себе дубляж.

С помощью автоперевода в Яндекс Браузере эта проблема решается на раз-два. В пару кликов я уже смотрю ролик на русском языке и даже не мучаюсь от субтитров. Ничто не отвлекает, озвучка работает хорошо.

Единственное, лично мне не хватает «живости» самой озвучки. Хочется больше слышать похожих с оригиналом интонаций. Ну и пока функция работает далеко не со всеми стримами. Надеюсь, это исправят в скором времени.

1 Звезд2 Звезды3 Звезды4 Звезды5 Звезд (37 голосов, общий рейтинг: 4.70 из 5)
undefined
iPhones.ru
В 2021 году Яндекс Браузер получил крупное обновление, в котором добавилась функция автоматического перевода и озвучки видео на популярных платформах, вроде YouTube. На старте был доступен только английский язык. С тех пор прошло 2 года, а список поддерживаемых языков вырос до пяти: • английский • немецкий • испанский • французский • китайский И вот только...
Прокомментировать

🙈 Комментарии 41

  1. Closed Name avatar
    Closed Name18 июня 2023
    16

    А еще полезнее выучить язык иностранный и не пользоваться помогаторами которые оттягивают знания. :)

    Артём Баусов avatar
    Артём Баусов18 июня 2023
    1

    @Closed Name, факт

    olbilyk avatar
    olbilyk18 июня 2023
    8

    @Closed Name, но …
    есть ведь способы(методы) умножить делить и т.д. 2х-3х значные числа в уме. но мы перестали это делать. есть калькуляторы.

    лет через 50-100 скорее всего никто не будет инвестировать время на изучение языков. и есть же прогнозы что лет через 200-300 все прийдут к некому единому (на текущий уровень прогнозов некая смесь китайского и английского)

    FelizNavidad avatar
    FelizNavidad18 июня 2023
    15

    @olbilyk, Английский язык сегодня не знать – позор. А насчет инвестирования времени, ты же инвестировал в написание этого поста, а мог бы пару слов новых выучить) Инвестор))

    plodozhor avatar
    plodozhor18 июня 2023
    8

    @FelizNavidad, это в офисной жизни все привыкли либо к американскому английскому, либо к РП – а вот в кино персонажи зачастую говорят с чудовищными акцентами. Посмотрите к\ф “Элизиум” – оттуда можно понять только персонажа Джоди Фостер (злодейка из привилигированного класса), остальные говорят либо на гетто-спике, ну а самый ужас – это главарь наемников в исполнении Шарлто Копле. Если вам мидландский диалект кажется тарабарщиной, то тарабарщина в квадрате – это акцент южноафриканский

    FelizNavidad avatar
    FelizNavidad18 июня 2023
    3

    @plodozhor, Да, такое есть, для этого можно включить субтитры на английском, тогда проблем не будет. Я иногда так делаю, когда фильм похож на тот, который вы описали.

    FiLunder_7 avatar
    FiLunder_719 июня 2023
    1

    @plodozhor, На самом деле я смотря на английском иногда включаю русские сабы и понимаю насколько перевод не точен. Зачастую его адаптирую, так как калька с английского выглядит странно, но смысл искажается.

    olbilyk avatar
    olbilyk18 июня 2023
    4

    @FelizNavidad, c значительное долей вероятности у меня у меня с языками не хуже чем у вас, а скорее даже лучше. администрация сайта хорошо видит кто от куда заходит и где живет. я живу в не русскоязычной стане и говорю кроме русского еще на 3х языках лучше или хуже. у меня достаточный английский для роботы в американской корпорации на протяжении скоро 20 лет.

    по сути вопроса, вы узко мыслите, это не меня, вас, того парня.
    это про то как меняется образ жизни.

    FelizNavidad avatar
    FelizNavidad18 июня 2023
    10

    @olbilyk, Ну вот, сам то язык получается выучил и живешь не в РФ, а другим советуешь не инвестировать в это время?)) Оригинально. А если серьезно, то через 50 лет никто ничего уже учить не будет, смысла будет очень мало, все будет «на лету» переводиться с помощью нейронок, такое уже сейчас возможно, просто пока аппаратная часть нормально не реализована.

    olbilyk avatar
    olbilyk18 июня 2023
    2

    @FelizNavidad, перечитал еще раз на всякий случай свои комментарии, я в них нет советов.

    я только выразил мнение что люди перерестанут учить языки, т.к. мы быстро привыкаем к удомному и ленивы.

    unknown avatar
    unknown18 июня 2023
    6

    @FelizNavidad, в европейских странах, в которых я был (почти во всех) подавляющая часть людей вообще не знает английского, те вообще ни слова. При этом от возраста не зависит никак. Хрен знает как это им удается, со всем этим интернетом и засилием западной культуры но вот так. Большая часть региональных сайтов и интернет-магазинов не имеет перевода на английский. Выборка не научна конечно, и я имею ввиду именно жизнь в этих странах а не отели и туристические места, но что имеем. Получается «знать английский» это какой-то стереотип советских времен

    FelizNavidad avatar
    FelizNavidad18 июня 2023
    1

    @unknown, Это не так. Английский знают в Европе, зависит конечно от городов и сферы деятельности, но если сравнивать с РФ, то английский знают подавляющее большинство.
    Конечно, те же французы, к примеру, очень не любят когда иностранец к ним обращается на английском, но это не значит что они этот язык не знают.

    wxf avatar
    wxf19 июня 2023
    5

    @FelizNavidad, не знают в евпопе английский. В германии голландии дании и далее на север – да
    На юге – никто не знает.

    enso avatar
    enso19 июня 2023
    0

    @wxf, а юг это где? Испания и Италия?

    Wert avatar
    Wert18 июня 2023
    2

    @FelizNavidad, а если при этом знать китайский, например?

    wxf avatar
    wxf18 июня 2023
    5

    @olbilyk, смесь китайского и английского – это врядли.
    Уж слишком разные языки

    olbilyk avatar
    olbilyk18 июня 2023
    1

    @wxf, в статье где я это читал, в качестве обоснования приводилось то что китай со своей промышленностью и финансовой мощью тесно связан со многими странами, ну и плюс кол-во населения. ну про английский тоже понятно.

    unknown avatar
    unknown18 июня 2023
    0

    @olbilyk, что это за прогнозы такие, было бы не плохо, конечно, но что-то оно совсем не корелируется с опытом

    olbilyk avatar
    olbilyk18 июня 2023
    0

    @unknown, в любом случае, нас эти прогнозы не затронут, мы либо будем знать языки либо нет.

    Голос Разума avatar
    Голос Разума18 июня 2023
    1

    @Closed Name, Согласен, но все языки не выучишь, а это действительно полезная возможность получить доступ к знаниям.

    Tilk avatar
    Tilk18 июня 2023
    2

    @Closed Name, полезнее? Еще 100500 вещей более полезных и важных, чем выучить язык, но большинство и в том числе вы скорее всего этого не делают. Мы же люди и нам свойственно жить оригинально, а не как полезнее и эффективнее, тогда мы бы превратились в роботов.

    zolstas avatar
    zolstas19 июня 2023
    1

    @Tilk, очень глубокий комментарий. Спасибо.

    id452025172 avatar
    id45202517218 июня 2023
    0

    @Closed Name, ну и много ты языков выучил придурок?

    id452025172 avatar
    id45202517218 июня 2023
    0

    Подхватывает на лету, это будущее, когда данную технологию встроят в наушник которая автоматом будет переводить всю речь вокруг также разделяя мужчин и женщин

  2. svitanak avatar
    svitanak18 июня 2023
    1

    круто ведь, для страны с 150 млн так и космически

  3. OrangePower avatar
    OrangePower18 июня 2023
    3

    Тоже пробовал пару видео глянуть, работает офигенно

  4. GIK avatar
    GIK18 июня 2023
    2

    Я так последнюю презентацию яблока смотрел. Удобно.

  5. wxf avatar
    wxf18 июня 2023
    2

    Яндекс всё-таки крутые ребята.
    Насколько я понял, аналогов нет в мире?

    rukamaster avatar
    rukamaster18 июня 2023
    3

    @wxf, аналогов полно. Даже мимику губ уже перерисовывают под определённый язык. Только что-то в ютуб не торопятся это добавлять, почему-то.

    wxf avatar
    wxf19 июня 2023
    1

    @rukamaster, так я о реальных рабочих кейсах, а не о виртуальных достижениях

  6. Sqrl avatar
    Sqrl18 июня 2023
    1

    Только забыли уточнить: видео по часу и более – практически не переводит, нагрузка большая на сервер, пишет. И некоторые видео на англ реально вообще не переводит никак – глючит.

  7. El False avatar
    El False18 июня 2023
    1

    Только для этого и держу яндекс браузер.

  8. unknown avatar
    unknown18 июня 2023
    0

    Выделяет женский и мужской голос? Сексизм какой-то же :D

  9. t-n avatar
    t-n18 июня 2023
    0

    А с кинопоиском работает?

  10. odyvan avatar
    odyvan18 июня 2023
    2

    а мог бы прост английский выучить на уровне – восприятия на слух

  11. Reuel avatar
    Reuel19 июня 2023
    0

    Прикольно было бы сделать в стиле Гаврилова или Михалева

  12. optimizer avatar
    optimizer19 июня 2023
    0

    И обязательно найдутся персонажи, которые будут кричать: «Английский не знать — позор! Надо обязательно учить английский! Все крутые знают английский! Я знаю — я крутой!» И ладно бы речь шла о научных конференциях, а то кино и стримы блогеров они без перевода смотрят — подвиг прям!

    Так-то в статье говориться об удобной технологии синхронного перевода видео с ПЯТИ языков, но кого это волнует…

    Sleepwalker47 avatar
    Sleepwalker4719 июня 2023
    1

    @optimizer, ты бы русский подучил, прежде чем макать людей в научные конференции на английском…

  13. ipg avatar
    ipg19 июня 2023
    0

    а с частотой голоса = 150 Гц – это кто будет?

  14. Pulse avatar
    Pulse20 июня 2023
    1

    можно прикрутить к большинству браузеров, не обязательно использовать яндекс браузер

    гитхаб.ком/ilyhalight/voice-over-translation/

    Closed Name avatar
    Closed Name21 июня 2023
    0

    @Pulse, спасибо, протестировал класная вещь

Вы должны авторизоваться или зарегистрироваться для комментирования.

Нашли орфографическую ошибку в новости?

Выделите ее мышью и нажмите Ctrl+Enter.

Как установить аватар в комментариях?

Ответ вот здесь