Дипфейки добрались и до аудио. Теперь Jay-Z читает Шекспира и Билли Джоэла
И юристы не знают, что с этим делать.
Почему-то мы привыкли воспринимать дипфейки как что-то, имеющее отношение только к видео. Многие помнят порно, где вместо лиц актрис кино «взрослого жанра» были лица известных актрис, а о некоторых дипфейках мы сами с радостью пишем, потому что выглядит это очень эффектно и весело:
Но, собственно, какая разница для нейросетей, что делать: видео или аудио? Вот мы и получили образец того, как Jay-Z зачитывает знаменитый отрывок «Быть или не быть» из «Гамлета» Шекспира:
А также зачитывает текст песни We Didn’t Start the Fire Билли Джоэла:
Я не фанат Jay-Z и рэпа вообще, поэтому не могу сказать, насколько точно нейросеть передала его флоу. Но послушав специально несколько настоящих треков рэпера, пришёл к выводу, что звучит очень похоже.
И с этими роликами вот какая штука произошла: сначала их удалили из-за нарушений. А потом восстановили, поскольку YouTube получил неполные запросы на удаление видео и ждёт сейчас разъяснений от заявителей. По словам создателя канала, где были выложены ролики с созданными нейросетью треками, компания Roc Nation, которую основал Jay-Z, запрос на удаление аргументирует следующим образом: «В этом контенте незаконно используется ИИ для олицетворения голоса нашего клиента».
Но вот в чём проблема: это работает только если использовать зрительный образ без согласия того, чей образ используется. А вот к голосу это неприменимо. По крайней мере, в США. Об этом заявляет адвокат по музыке и средствам массовой информации Билл Хохберг: «Заявление об авторском праве в случае с Jay-Z смешно».
Всё это отлично иллюстрирует неготовность мира к подобного рода вещам. Технологии есть, но методов управления и их регулирования нет. И сейчас, по сути, можно творить всё что угодно: проанализировать любой из существующих голосов и с помощью нейросетей «оживить», скажем, Эми Уайнхаус, Тупака или условного Егора Летова. Как минимум с этической точки зрения это такое себе решение.