Cloudflare ставит защиту против поисковых ИИ-ботов
You shall not pass!
Cloudflare представила бесплатный инструмент для блокировки ботов-скрейперов, которые тащат данные с веб-страниц для обучения языковых моделей. Доступен блокировщик будет для всех клиентов компании, включая пользователей бесплатного плана. В будущем разработчики планируют обновлять и поддерживать инструмент.
Вы вот задумывались, как ChatGPT или другие нейросетки учатся? Примерно так же, как и поисковые системы: по интернету ходят боты, которые автоматически парсят весь контент веб-сайтов, что могут найти. В топку летит и публичная информация, и личная, и опубликованные под копирайтами тексты, изображения, и прочее, прочее, прочее. Для тех, кто не хочет, чтобы нейросеть при правильном запросе могла воспроизвести любой ими созданный контент, появился новый инструмент защиты.
Также компания поделилась интересной статистикой. Самые активные боты: Bytespider от Bytedance (владелец TikTok и Lark) и GPTBot от OpenAI. Первый пытался получить доступ к 40 % сайтов Cloudflare, второй — к 35 %. При этом заблокировать ботов сложно: компании могут адаптироваться, чтобы получить доступ даже к контенту, который для их ботов недоступен.