Специалисты «Яндекса» разработали нейросети, которые автоматически переозвучивают видео с китайского на русский
Что происходит
- Разработчики «Яндекса» обучили нейросети «Яндекс Браузера» переводить видео с китайского языка и автоматически накладывать русскую озвучку.
- В датасет, на котором обучались нейросети вошли 100 тыс. видео с качественными субтитрами на севернокитайском языке.
- Разработчики закодировали в виде 10 тыс. токенов китайские иероглифы, чтобы нейросеть смогла их выучить и понимать. Для сравнения, пять европейских языков, которые браузер научился переводить раньше, уместились в библиотеку на 5 тыс. токенов.
- Один токен равен одному слогу или сочетанию двух слогов, которые используются регулярно.
- Нейросети также обучили делить сплошной поток иероглифов на смысловые отрезки, чтобы точнее синхронизировать перевод с исходной речью.
- Чтобы определить тон — мелодический рисунок голоса, который определяет смысл слога, нейросети научились определять контекст, в котором произносится слог.
- Чтобы перевести видео с китайского на русский, пользователю «Яндекс Браузера» нужно нажать на кнопку «Перевести видео».
Пример перевода видео с китайского на русский.
Что это значит
По данным Statista, севернокитайский — второй по распространенности язык в мире. На нем разговаривают 1,1 млрд человек. Автоматический перевод и озвучка с китайского языка помогут создателям контента расширить свою аудиторию.
Кроме того, среди преимуществ развития нейросетей, которые автоматически переводят видео на другие языки, в частности на китайский, можно выделить:
- возможность сделать контент доступным для людей, говорящих на разных языках;
- повышение взаимопонимания между людьми различных культур;
- помощь в изучении учебных материалов на других языках;
- технологическое и научное развитие искусственного интеллекта;
- сокращение временных и финансовых затрат на перевод.
Нейросети — один из главных технологических трендов в 2022–2023 годов. В 2022 году разработчики представили нейросети Midjourney и ChatGPT, которые генерируют реалистичные изображения и связные тексты на разных языках соответственно.