Microsoft VALL-E — искусственный интеллект, который имитирует любой человеческий голос
Исходный код Microsoft публиковать не решилась.
ИИ нужна запись всего в три секунды, чтобы скопировать голос, его тембр и эмоциональную окраску.
VALL-E разработан на основе технологии EnCoder. ИИ разбивает запись на отдельные компоненты и генерирует новую на основе того, что уже «знает» об образце.
Обучение VALL-E проходило на библиотеке LibriLight, содержащей 60 000 часов англоязычной речи от 7000 человек.
Публиковать исходный код VALL-E Microsoft не решились — технологию могут использовать в злых целях. В компании также сообщили, что будущие проекты, если они несут потенциальную угрозу злоупотреблений, в открытый доступ попадать не будут.