2023-01-10 18:53:36
Новый искусственный интеллект Microsoft может имитировать чей-либо голос с помощью 3 секунд звука
Исследователи Microsoft объявили о новой модели искусственного интеллекта для преобразования текста в речь под названием VALL-E, которая может точно имитировать голос человека при трехсекундном звуковом образце.
Как только VALL-E выучит конкретный голос, он может синтезировать звук, словно этот человек что-то говорит, и делать это таким образом, чтобы сохранить эмоциональный тон говорящего.
Его создатели предполагают, что VALL-E можно использовать для высококачественных приложений преобразования текста в речь, редактирования речи, когда запись человека может быть отредактирована и изменена (заставляя их говорить то, чего они изначально не говорили), и создание аудиоконтента в сочетании с другими генеративными моделями ИИ, такими как GPT-3.
Помимо сохранения вокального тембра и эмоционального тона говорящего, VALL-E также может имитировать «акустическое окружение» сэмпла аудио. Например, если сэмпл взят из телефонного звонка, аудиовыход будет имитировать акустические и частотные свойства телефонного звонка в его синтезированном выходе (это причудливый способ сказать, что он будет звучать как телефонный звонок).
Microsoft
не предоставила код VALL-E, ссылаясь на потенциальный социальный вред, который может принести эта технология.
8 views15:53