Кристиан Видигер/Unsplash
Исследовательская группа Amazon по искусственному интеллекту объявила о разработке крупнейшей на сегодняшний день модели преобразования текста в речь. Под «максимальным» мы подразумеваем количество параметров и объем данных, используемых для обучения.
Что известно
Представленная модель под названием BASE TTS содержит 980 миллионов параметров. Она прошла обучение на 100 000 часов аудиозаписей выступлений из публичных ресурсов, преимущественно на английском языке.
Система также показывала примеры произносимых слов на других языках, чтобы помочь вам правильно произносить распространенные выражения.
В ходе мелкомасштабного тестирования данных команда Amazon заметила, что качество синтеза речи резко возросло, когда параметры достигли 150 миллионов. В то же время модель начала демонстрировать множество новых языковых возможностей.
Эксперты отмечают, что BASE TTS будет открыта для общественности во избежание неэтичного использования. Вместо этого он служит учебной базой для улучшения существующих решений в этой области.