Компании используют ворованные транскрипты видео с YouTube для тренировки ИИ
Никогда не было, и вот опять.
Популярные генеративные модели обучены на видео с YouTube без согласия авторов этих видео, сообщает Proof News. Среди людей, на чьих видео обучались нейронки, оказались популярные блогеры — MrBeast, Маркус Браунли, PewDiePie.
Исследователи нашли субтитры из 170 тысяч видео и утверждают, что на этих данных обучались в том числе нейронки от Apple, Anthropic, Nvidia и Salesforce. В датасет попали 48 тысяч ютуб-каналов.
Проблемным оказался датасет The Pile от некоммерческой организации EleutherAI. По задумке, туда должны были попадать материалы из открытого доступа — некоторые книги, статьи «Википедии» и т.д. На деле же туда попали и видео блогеров (которые с них получают монетизацию и совершенно точно не разрешали их распространять как-то иначе), и видео иностранных СМИ. Proof News сделало открытый инструмент, на котором каждый может проверить, есть ли его видео в наборах данных для тренировки ИИ. Видео с канала Wylsacom мы там не нашли.
Интереснее всего в этой ситуации реакция Google. В правилах YouTube сказано, что использование видео для обучения ИИ — это нарушение условий использования платформы. Но пока что YouTube ситуацию не комментирует. Что будет с компанией EleutherAI, которая явно не обращалась к каждому конкретному автору видео, чтобы включить его работу в датасет, тоже неясно.
Ранее, кстати, в массивах данных для обучения нейронок находили кучу авторского контента: и иллюстрации, и картины, и скриншоты из фильмов, и тексты из новостных изданий.