Пользователям Яндекс Браузера теперь доступен многоголосый перевод видео — голосов стало 12 (6 мужских и 6 женских). Благодаря улучшенным алгоритмам воспринимать видео с большим количеством спикеров стало намного легче.
Как нейросеть распознает разных спикеров на видео
Сначала нейросеть переводит речь в текст, восстанавливает пунктуацию и определяет границы предложений. Затем уже другая нейросеть анализирует спектрограмму голоса и отмечает на аудиодорожке фрагменты, сказанные разными людьми. Так и становится ясно, кто из спикеров что произнес.
Дмитрий Тимко, руководитель приложения Яндекс и Яндекс Браузера:
Мы постоянно работаем над качеством перевода и озвучки, чтобы дать нашим пользователям доступ к любому контенту со всего мира. По нашим оценкам, около половины YouTube-роликов на иностранных языках – это ролики с тремя и более спикерами. Смотреть их с двухголосой озвучкой не совсем удобно – поэтому мы и сделали десять новых голосов.
Напомним, онлайн-покупатели доверяют органической выдаче Яндекса в 3 раза больше, чем рекламе.
Источник: пресс-релиз Яндекса