Meta разработала генеративную модель искусственного интеллекта для преобразования текста в речь

0
95

Meta разработала генеративную модель искусственного интеллекта для преобразования текста в речь

Meta представила генеративную модель преобразования текста в речь Voicebox. По словам разработчиков, алгоритм сделает для разговорной речи то же, что ChatGPT и DALL-E сделали для текста и изображений.

Что известно

Подобно генеративным системам для текста и изображений, Voicebox может создавать выходные данные с нуля, преобразовывать стили и изменять предоставленный шаблон. Система была обучена на 50 000 часов записанной речи и транскрипций аудиокниг в открытом доступе на английском, французском, испанском, немецком, польском и португальском языках.

В результате Voicebox может редактировать клипы, устранять шум и заменять неправильно произносимые слова. 

«Человек может определить, какой необработанный сегмент речи поврежден шумом (например, лаем собаки), вырезать его и дать указание модели восстановить этот сегмент», — говорят исследователи.

Voicebox также может воспроизводить речь в течение двух секунд, передавать межъязыковой стиль и создавать различные образцы для синтетических наборов данных.

Когда ждать

Meta не опубликовала исходный код модели. Разработчики сослались на «потенциальные риски неправильного использования», несмотря на «множество интересных вариантов использования моделей генеративной речи».

НОВОСТИ ПАРТНЕРОВ

БОЛЬШЕ НОВОСТЕЙ