Microsoft выпустила модель с открытым исходным кодом VibeVoice-1.5B для преобразования текста в речь.
Пользователи могут создавать аудио длительностью до 90 минут с участием до четырёх персонажей. Модель имитирует естественный разговор, но без перебиваний. При этом нейросеть не умеет добавлять фоновые звуки, музыку и звуковые эффекты.
VibeVoice-1.5B поддерживает только английский и китайский языки.
Пример работы нейросети с ИИ-разговором, в котором участвуют несколько человек
Модель выложена на GitHub. Для её работы потребуется минимум 7 ГБ видеопамяти, поэтому подойдёт любая видеокарта с 8 ГБ, например RTX 3060.
Также протестировать VibeVoice-1.5B можно бесплатно на отдельном сайте: достаточно вставить текст сценария, выбрать число спикеров и их голоса. [Marktechpost]

Я хочу текстовые книги озвучивать. Кроме Яндекс читалки есть что стоящее?
Чтобы озвучивать книги, нужно учитывать контекст. Пока лучше человека никто книги не озвучивает. Так что, если Вы сами решили озвучивать книги вместо ИИ, читайте глубоко, с выражением и станете востребованным.