Google обучает свои нейросети на видео с YouTube
Кто бы сомневался.
В том числе видеомодель Veo 3, которая генерирует реалистичные видео. Похоже, что одно из объяснений такого качества — гигантский датасет из опубликованных за 20 лет видеозаписей.
Анонимный источник сообщил CNBC о том, что Google использует каталог видео до 2020 года для обучения нейронок. Доказательств нет, но заокеанские коллеги уже подсчитали размер датасета: даже если компания использует 1 % от загруженных на платформу видео (более 20 миллиардов на 2020 год), то это уже раз в 40 больше, чем датасеты других компаний, которые обучают ИИ-модели для создания видео.
Представители Google подтвердили, что используют YouTube, чтобы «сделать все продукты лучше», но никакой конкретики не дали. А ещё и напомнили, что инвестируют в создание инструментов для защиты авторов контента.
При этом лицензия YouTube позволяет использовать загруженные видео достаточно широко. Вдвойне забавно, что ещё в прошлом году гремел скандал о нейронках, обучающихся на ворованных транскриптах видео с YouTube. А если нейронку делает платформодержатель, то тут уже вроде как всё правилами предусмотрено.
Ждём нейровилсакома, получается?