Илья Кичаев 14 мая 2020 Комментировать 7793

Плачет от счастья и задыхается от горя: стартап Sonatic наделил эмоциями искусственный голос

Нейросеть будет доступна игровым студиям, не желающим тратить время на профессиональную актёрскую озвучку.

Кадр из сериала Westworld. Источник: HBO

Компания Sonatic представила первое демо своего аудиоредактора, предназначенного для игровых студий. Его основная фишка — очень эмоциональный голос, основанный на нейросетях. Звучит это так:

Звучит очень эмоционально. Как бывший звукорежиссёр, работавший с разными формами аудио, я понимаю, что очень большую роль в эмоциональном восприятии играет музыка, которая подобрана тут очень грамотно. Но как звучит сам голос!

Воспроизведение голоса — это не очень сложная технология. Есть множество примеров. Вот, например, нейросеть Baidu анализирует голос и даже может менять его акценты на выходе:

Нейросеть Baidu уже умеет имитировать ваш голос

И буквально вчера я написал про нейросеть, «заставившую» Jay-Z зачитать Шекспира и Билли Джоэла:

Дипфейки добрались и до аудио. Теперь Jay-Z читает Шекспира и Билли Джоэла

Но одно дело — заставить нейросеть читать текст. Абсолютно другое — заставить её читать с выражением. Смех, слёзы, придыхание и выдохи не пропишешь в репликах. Но, похоже, что Sonatic предлагает именно это.

Как работает Sonatic?

У нас нет доступа к приложению, поэтому сказать можно лишь примерно.

На первой стадии стартап заключает договор с актёром, который станет основой для будущего голоса. Как и любой нейросети, этой необходимо на чём-то обучаться.

Неизвестно, какой именно массив данных необходим для анализа, но судя по тому, что обещает Sonatic, актёру потребуется сыграть широкий спектр эмоций — в зависимости от того, какие настроения будут необходимы заказчику. Поэтому в любом случае актёру придётся некоторое время посидеть в студии. В обмен Sonatic предлагает пассивный доход за лицензирование этого голоса.

Кстати, можно стать актёром озвучания Sonatic.

Далее студии, занимающейся разработкой игры, высылается специальное API с графическим интерфейсом:

Из приложенного скриншота непонятно, что за «звуковые эффекты». Относятся ли сюда вдохи и выдохи, смех и слёзы? Их звукорежиссёру нужно будет прикреплять ручками? Или достаточно будет просто поменять «эмоцию» на нужную?

Пока трудно говорить о том, что сделала Sonatic. TechCrunch заявляет, что стартап сотрудничает более чем с десяткой игровых студий класса ААА. Но это лишь косвенно говорит о качестве продукта.

Стоимость и условия сотрудничества с Sonatic не разглашаются.

Источник:

Sonatic, TechCrunch

Плачет от счастья и задыхается от горя: стартап Sonatic наделил эмоциями искусственный голос

Нейросеть Baidu уже умеет имитировать ваш голос

Дипфейки добрались и до аудио. Теперь Jay-Z читает Шекспира и Билли Джоэла

Как работает Sonatic?

Сегодня читают

Рассказываем о важных событиях в мире технологий

О проекте

Величие Valve: обзор Steam Controller глазами ПК-геймера