Microsoft представила имитатор человеческих голосов по короткому образцу VALL-E и обучили ИИ-алгоритм на 60 000 часах речи 7000 англоязычных спикеров.
Также они использовали технологию сжатия аудиосигнала EnCodec, а инструмент может по 3-секундному образцу клонировать голос человека и озвучить им текст.
Модель способна имитировать эмоции и тон спикера даже при воспроизведении ранее не использованных им слов.
Microsoft не открыла исходный код VALL-E из-за опасений злонамеренного использования технологии.
Подробнее