Так себе SEO: как банки, агрегаторы билетов и сайты ведомств нарушают закон о хранении персональных данных

В 2011 году SEO-специалист и эксперт по поисковым системам в Rush Agency Павел Медведев с помощью поисковиков узнал, что небольшие интернет-магазины сливают личные данные россиян, включая паспортные данные.

Утечки Google.Docs, PowerBi — это все фигня. Мой запрос для поиска корзин сексшопов 2011го года который по всем новостям прогремел все еще работает. :) 2011й год, Карл, еще не пофиксили!

Posted by Pavel Medvedev on Thursday, July 12, 2018

Спустя семь лет, на фоне шумихи индексации Яндексом документов Google Docs, он решил повторить запрос. И, как выяснилось, ситуация только усугубилась. В ряду с небольшими интернет-магазинами оказались «Сбербанка», ВТБ, сайты департаментов мэрии Москвы, а также агрегаторов билетов:

Распечатки билетов с travel.vtb.ru

Проблемные места оказались и у «Сбербанка»:

Данные транзакций «Сбербанка»

А на сайтах департаментов мэрии Москвы вообще можно найти сканы документов:

Все эти сайты нарушают Федеральный закон «О персональных данных».

Кто виноват?

Проблема, по мнению Медведева, не лежит на ком-то одном.

Я считаю, это связано с тем, что из-за кризиса многие хорошие специалисты и разработчики переориентировались на Запад, и качество кадров в ИТ снизилось.

Павел Медведев

Эксперт по поисковым системам в Rush Agency

Его слова подтверждает то, что у указанных сайтов в корневом каталоге отсутствует robots.txt. Этот файл даёт команду поисковым системам, какие страницы индексировать.

80 % вины на слив данных Медведев возлагает на владельцев сайтов:

Большинство сайтов до доработки SEO-специалистами выглядят плачевно, владельцы словно живут в параллельном мире без киберугроз, без поисковых систем, ботов, которые могут проиндексировать личные данные пользователей.

Павел Медведев

Эксперт по поисковым системам в Rush Agency

На поисковиках оставшаяся вина. Дело в том, что они плохо информируют пользователей о механизмах ранжирования и индексации.

Часто сталкиваешься с непониманием от разработчиков сайтов: «Как же поисковые системы проиндексируют страницу, ведь у них нет ссылки этой страницы?». Такие же вопросы часто слышу даже от специалистов по SEO.

Павел Медведев

Эксперт по поисковым системам в Rush Agency

Каким образом происходит индексация?

Предполагается, что поисковые системы не будут индексировать страницы, доступные только по авторизации. Но для удобства пользователей для определённых страниц подбираются url-адреса, состоящие из рандомного набора символов.

Медведев приводит в пример сайт.ру/проверить-статус-моего-заказа/orjY4mGPRjk5boDnW0uvlrrd71vZw9kphf8eGbhlTpS4q9cvHzFNngSdNNIG8H5Lt3. По его словам, на подбор всех этих символов потребуется примерно 2,e+100 лет. Предполагаемое большое сжатие Вселенной произойдёт раньше.

И подобные ссылки отправляются на электронные адреса пользователей. Они копируют эти ссылки и вполне могут кинуть их на забытый богом форум, где тусуется несколько человек из ближнего круга. И вот таким образом эта ссылка попадает под индексацию.

Но есть и другие методы. Например, администраторы сайта пользуются «Яндекс.метрикой». По умолчанию в её настройках указана индексация всех страниц:

Но даже если установить запрет, есть другие варианты, как ссылка может быть проиндексирована.

Устанавливая браузеры, вы даёте соглашение на обработку анонимных данных о просмотренных страницах.

Также вы можете открыть ссылку через браузер на смартфоне и забыть о ней. Тут уже её проиндексировать могут и браузер, и метрика, и сторонний софт, собирающий обезличенные данные.

Как защитить личные данные пользователей?

  • Закрывать данные авторизацией;
  • Запрещать роботам индексировать страницы с персональной информацией, используя robot.txt, clean-param и meta-noindex;
  • Настроить методы защиты под все известные поисковые системы (даже «Спутник»);
  • Блокировать доступ роботам, отдавая серверам ответ типа 4xx;
  • Консультироваться с SEO-специалистами.

Я честный гражданин, мне нечего скрывать!

Когда на ваше имя возьмут кредит или переоформят купленный вами билет в Таиланд на другое число и на другое имя, тогда и станет понятно, что скрывать вам есть что.

Реакция

Павел Медведев обратил внимание на проблему 12 июля. На момент написания этого текста никакая из названных организаций никак не отреагировала.