Компании используют ворованные транскрипты видео с YouTube для тренировки ИИ — Wylsacom

Компании используют ворованные транскрипты видео с YouTube для тренировки ИИ

Никогда не было, и вот опять.

Иллюстрация: Светлана Чувилёва / Wylsacom Media

Популярные генеративные модели обучены на видео с YouTube без согласия авторов этих видео, сообщает Proof News. Среди людей, на чьих видео обучались нейронки, оказались популярные блогеры — MrBeast, Маркус Браунли, PewDiePie.

Исследователи нашли субтитры из 170 тысяч видео и утверждают, что на этих данных обучались в том числе нейронки от Apple, Anthropic, Nvidia и Salesforce. В датасет попали 48 тысяч ютуб-каналов.

Проблемным оказался датасет The Pile от некоммерческой организации EleutherAI. По задумке, туда должны были попадать материалы из открытого доступа — некоторые книги, статьи «Википедии» и т.д. На деле же туда попали и видео блогеров (которые с них получают монетизацию и совершенно точно не разрешали их распространять как-то иначе), и видео иностранных СМИ. Proof News сделало открытый инструмент, на котором каждый может проверить, есть ли его видео в наборах данных для тренировки ИИ. Видео с канала Wylsacom мы там не нашли.

Интереснее всего в этой ситуации реакция Google. В правилах YouTube сказано, что использование видео для обучения ИИ — это нарушение условий использования платформы. Но пока что YouTube ситуацию не комментирует. Что будет с компанией EleutherAI, которая явно не обращалась к каждому конкретному автору видео, чтобы включить его работу в датасет, тоже неясно.

Ранее, кстати, в массивах данных для обучения нейронок находили кучу авторского контента: и иллюстрации, и картины, и скриншоты из фильмов, и тексты из новостных изданий.