Расследование Wired. Как утечка Яндекса раскрыла, что именно компания знает про нас и делает с этими данными

Илья Сидоров avatar | 21
FavoriteLoading В закладки
Расследование Wired. Как утечка Яндекса раскрыла, что именно компания знает про нас и делает с этими данными

В январе 2023 года хакеры слили исходный код части сервисов Яндекса. Это была одна из самых крупных утечек компании. Объем архивов составляет почти 45 ГБ.

По слухам, слив был организован недовольным сотрудником. Он не содержал пользовательские данные, но зато раскрыл подробности о работе сервисов Яндекса.

Поиск Яндекса, Алиса, Такси, Почта и Диск — все эти сервисы были затронуты утечкой.

Кроме того, в опубликованных архивах был код двух систем аналитики Яндекса: Метрики и Крипты. Журналисты Wired совместно с экспертами изучили код, и выяснили, как Яндекс собирает и обрабатывает информацию.

Яндекс собирает огромное количество данных для показа рекламы

Сервисы Яндекса собирают большие объемы данных о людях. Их можно использовать для выявления интересов пользователей, когда они «сопоставляются и анализируются» со всей информацией, которой владеет компания. Об этом говорится в исследовании Кейли МакКри, инженера по конфиденциальности в компании Confiant, которая занимается кибербезопасностью.

Судя по отметкам времени, включенным в данные, код был изменен в июле 2022 года. В основном он написан на русском и английском языке, и содержит расистские оскорбления. Яндекс заявил, что это никак не влияет на работу сервисов, но носит «глубоко оскорбительный и совершенно неприемлемый характер».

МакКри проанализировала код Метрики и Крипты. Яндекс Метрика — это аналог Google Analytics, который позволяет владельцам сайтов отслеживать статистику и поведение пользователей. Данные из Метрики передаются в Крипту — сервис для подбора персонализированной рекламы.

Эта технология даёт рекламодателям максимально точно таргетировать свою целевую аудиторию. Выяснить, принадлежит ли пользователь к такому сегменту, Крипта может по его поведению в интернете.

Яндекс

Компания утверждает, что Крипта анализирует около 300 факторов с помощью различных методов машинного обучения.

Все приложения и сервисы, которые есть у Яндекса, а их, как предполагается, более 90, в той или иной форме передают данные в Крипту для создания рекламных сегментов.

Кейли МакКри, инженер по конфиденциальности Confiant

Некоторые данные передаются, когда люди пользуются сервисами Яндекса. Например, делятся своим местоположением, чтобы посмотреть, где они находятся на карте.

Часть информации собирается автоматически. Компания может узнать данные об устройстве, местоположение, историю поиска, домашний и рабочий адрес, историю прослушивания музыки и просмотра фильмов, данные электронной почты и многое другое.

Исходный код Метрики показал, что сервис может собирать точные данные о геопозиции, включая высоту, направление и скорость движения. Метрика также запоминает имена сетей Wi-Fi, к которым подключаются люди.

Яндекс объединяет пользователей в сегменты. Их бесчисленное множество

Все данные, которые собирает Метрика, передаются в Крипту. Затем они привязываются к общим идентификаторам, которые дополнительно хэшируются.

Пользователь для Крипты — это не конкретный человек с именем и фамилией, а набор идентификаторов. Но почему набор? Дело в том, что каждое устройство и браузер, которым человек пользуется для выхода в сеть, имеет свой уникальный идентификатор — файл cookie, который сайты используют, чтобы узнавать пользователя и, например, не спрашивать каждый раз пароль для входа. Свои идентификаторы есть и у приложений — если приложение (например, Карты или Навигатор) отправляет данные на сервера Яндекса, информацию из его идентификатора Крипта тоже учитывает.

Яндекс

Крипта понимает, когда разные идентификаторы принадлежат одному пользователю. После этого Крипта распределяет людей по сегментам на разные темы, но которым можно показать одну и ту же рекламу.

Крипта анализирует поведение человека в интернете и «вычисляет вероятность» его принадлежности к тому или иному сегменту.

Объем данных, который Яндекс получает через Метрику, настолько огромен, что просто невозможно даже представить. Этого достаточно, чтобы создать любую группу или сегмент аудитории.

Григорий Бакунов, бывший директор по распространению технологий Яндекса

Сегменты, которые создает Крипта, кажутся очень специфичными, но в то же время они показывают, насколько мощными являются данные о нашей онлайн-жизни, когда они собраны в одном месте. Среди них есть группы людей, которые пользуются Яндекс Станциями, любители кино могут быть сгруппированы по жанру, есть сегмент пользователей ноутбуков, которые искала отель Radisson на карте.


Пример сегментов в Крипте.

Группа «курильщиков» отслеживает людей, которые покупают товары, связанные с курением, например, электронные сигареты. «Дачники» могут находить людей, у которых есть дачи, используя данные о местоположении. Сегмент «путешественники» тоже использует геопозицию для поиска путешественников, поездки разбиваются на международные и внутренние. Часть кода предназначалась для получения данных из приложения Почта и включала поля «отели» и «посадочные талоны».

Яндекс может объединять идентификаторы в «семьи», если их IP-адреса «пересекаются». Данные о «семье» могут включать количество людей, их пол и возраст.

Сервисы Яндекса позволяют предсказывать, есть ли у пользователя дети. Например, люди могут заказывать такси с детскими сиденьями. По словам директора по защите данных Яндекса Ивана Черевко, это может быть свидетельством того, что пользователю будет интересен контент для родителей.

Один элемент в коде Crypta показывает, как все эти данные могут быть объединены. Существует пользовательский интерфейс, который действует как профиль кого-либо. В этом интерфейсе показывается семейное положение человека, прогнозируемый доход, наличие детей и три увлечения, которые включают в себя общие темы, такие как бытовая техника, еда, одежда и отдых.

Черевко заявил, что это «внутренний инструмент Яндекса», где сотрудники могут видеть, как алгоритмы Крипты их классифицируют, и они могут получить доступ только к своей собственной информации.

Сбор данных в таком количестве — стандартная практика для интернет-компаний


Интерфейс Google Analytics, аналога Яндекс Метрики.

МакКри отметила, что часть этой информации «не кажется чем-то необычным» для интернет-рекламы. Такого же мнения придерживается и Иван Черевко.

Он добавил, что группировка пользователей по интересам является «стандартной отраслевой практикой». Сбор информации позволяет показывать людям конкретную рекламу: «товары для сада пользователям, которые интересуются дачами и автозапчасти — тем, кто посещает АЗС». Но все данные в Яндексе обезличены.

Для Крипты каждый пользователь представляется в виде набора идентификаторов, и система не может связать их с физическим лицом в реальном мире. Такой набор является только вероятностным.

Иван Черевко, директор по защите данных Яндекса

Крипта не имеет доступа к электронной почте пользователей. Информация об отелях и посадочных талонах, обнаруженная в коде Почты, была экспериментом. Крипта получала от Почты только обезличенную информацию, но этот метод не используется с 2019 года. Также Черевко сообщил, что Яндекс удаляет геолокацию пользователей, собранную Метрикой, через 14 дней.

Каким образом Яндекс на самом деле собирает информацию — неизвестно


Скриншот форума, где был выложен архив.

45 ГБ исходного кода охватывают многие сервисы Яндекса. В основном используются языки программирования Python, C++ и YQL.

Утечка содержала только код, а не настоящий репозиторий, который показывал бы историю версий. Это означает, что можно только предположить, что делает код, но невозможно точно утверждать, какие части кода использовались или действуют в настоящее время.

В тему: Яндекс поделился первыми итогами расследования по слитому коду компании

Черевко утверждает, что «фрагменты кода» устарели, они отличаются от версий, используемых в настоящее время, и что часть исходного кода «никогда фактически не использовалась» Яндексом.

Также, по словам представителя Яндекса, компания использует данные пользователей только для создания новых сервисов и улучшения существующих. Она никогда не продает данные и не раскрывает их третьим лицам без согласия пользователя.

1 Звезд2 Звезды3 Звезды4 Звезды5 Звезд (65 голосов, общий рейтинг: 4.26 из 5)
undefined
iPhones.ru
В январе 2023 года хакеры слили исходный код части сервисов Яндекса. Это была одна из самых крупных утечек компании. Объем архивов составляет почти 45 ГБ. По слухам, слив был организован недовольным сотрудником. Он не содержал пользовательские данные, но зато раскрыл подробности о работе сервисов Яндекса. Поиск Яндекса, Алиса, Такси, Почта и Диск — все эти...
Вы должны авторизоваться или зарегистрироваться для комментирования.

🙈 Все комментарии

Форум →
  1. Быстро Вперед avatar
    Быстро Вперед19 августа 2023
    3

    « МакКри отметила, что часть этой информации «не кажется чем-то необычным» для интернет-рекламы. Такого же мнения придерживается и Иван Черевко.» это печально.

    Они собирают наши данные и ничего нам не платят. То что мы делаем в интернете – работа, которая должна быть оплачена. Плохо, что это никак не регулируется государством.

    amstel8 avatar
    amstel819 августа 2023
    1

    @Быстро Вперед, считали уже сколько стоят эти данные. Около 9 долларов за всю жинь

    Йода avatar
    Йода20 августа 2023
    4

    @Быстро Вперед, Данные не наши. Это данные о нашем взаимодействии с внешним миром, они не могут быть нашими. Нашими могут быть только мысли, пока мы их не вывели в мир. Так что, расслабьтесь, Вы сами своими действиями отдаете данные. Это как Вы идете по улице и на Вас посмотрел человек, с которого Вы теперь требуете деньги за просмотр. Не попадайтесь на глаза людям, на вас не будут смотреть. ;)

    Gatling Gun avatar
    Gatling Gun20 августа 2023
    0

    @Быстро Вперед, как это не платят – вы пользуетесь некоторыми сервисами не платя компании ни копейки – та же безлимитная почта, разве ничего не стоит?

  2. Fleming avatar
    Fleming19 августа 2023
    5

    Какой ящик Пандоры вы вскрыли, браво.
    Чисто для оценки, в интернетах уже 10 лет гуляет бородатый вопрос с ранних квизов или ЧГК, который сводится к тому, что американский ритейлер Target настолько успешно и давно собирает данные, что предсказывает беременность и роды у клиентов, и за пару месяцев до даты начинает толкать им товары для новорожденных.

    А тут Яндекс аж пользователей в семьи группирует, немыслимо!

  3. Johny avatar
    Johny19 августа 2023
    4

    Особенно порадовала финальная фраза по тексту:
    “…компания использует данные пользователей только для создания новых сервисов и улучшения существующих. Она никогда не продает данные и не раскрывает их третьим лицам без согласия пользователя.”

    Правохранителям не составляет труда, особенно когда человека надо быстро найти и человек перемещается на яндекс-такси, в режиме онлайн прекрасно все видеть – кто и куда едет (а также адреса, номер телефона, фио карты кто оплачивал поездку и тд), и это общеизвестная информация, про которую здесь же писали (что правохранителям предоставили онлайн доступ к поездкам людей в такси)!
    А так Дааа, яндекс молодцы – столько информации про людей собирать!

    roberartua avatar
    roberartua19 августа 2023
    2

    @Johny, Проблем то. Купил симку, вставил в телефон, зарегил новый аккаунт. В такси оплату наликом. Все, для 99% фольгаголовых норм тема.

    iWolf avatar
    iWolf19 августа 2023
    9

    @roberartua, и тебя всё ещё спокойно могут вычислить по IMEI старого телефона. Касательно нового аккаунта будет видно, что новый аккаунт был создан и используется на новом устройстве.
    Купите полностью другой аппарат и сделаете там всё с нуля – тогда можно будет вычислить по IMEI двух устройств, что слишком часто эти два устройства тусуются вместе продолжительное время.
    Ну и в качестве фаталити: давным давно существуют алгоритмы, которые анализируют поведение в интернете вплоть до паттернов передвижения мыши на странице вкупе со скоростью нажатия на различие кнопки.

    Соответственно, вас вычислить в 9/10 случаев не составит труда, если кому то захочется.

  4. amb1ent avatar
    amb1ent19 августа 2023
    9

    Чет “скандальная” статья написана как отмазка. Надо было еще в конце добавить, что сбор информации – это даже на пользу нам всем. Странно, что побоялись, ребята.

  5. Deswing avatar
    Deswing19 августа 2023
    7

    Никогда такого не было и вот опять, как же так, крупная компания собирает кучу данных для своей выгоды

    roberartua avatar
    roberartua19 августа 2023
    1

    @Deswing, Да все собирают. Почему бы и нет. Коммент про такси какого то ноунейма вообще зачет.

    Johny avatar
    Johny19 августа 2023
    0

    @roberartua, Ноунейм у вас в голове видимо )))
    Новый аккунт идите регить, а то без новой симки и телефона вас пропалят и арестуют обязательно)))

  6. Topol M avatar
    Topol M19 августа 2023
    1

    этим занимаются В С Е крупные компании в мире🤣🤣🤣🤣🤣🤣АСОЛЮТНО НЕ НОВОСТЬ! в статье ничего нового не узнал

    infernality avatar
    infernality19 августа 2023
    7

    @Topol M, ага, все компании, доступ к которым есть у слабовиков из рф)

  7. Carter_Mayers avatar
    Carter_Mayers19 августа 2023
    5

    С тех пор, как Яндекс стал государственным они просто в край охренели. Реклама идиотская на каждом шагу, так ещё и активная сука. Куча какой-то шляпы и спама стало, сервисы как говно стали работать (тот же Кинопоиск). Сам ТВ не смотрю, но родители по 10 раз на дню спрашивают: А что с инэтом? Постоянно просит обновить и теряет связь с сервером (инэт в полном порядке и работает как надо). Общем, превращается конторка в Мыльцо и через годик-полтора станет его братом-близнецом только с другим названием. И эти клоуны (государство) ещё заявляют что могут конкурировать с частным бизнесом, просто LOL, шутка века какая-то))))

  8. Closed Name avatar
    Closed Name19 августа 2023
    0

    Народ, Раид и Бричка форумы закрылись – какие сейчас форумы их “заменяют”?

    iLexa avatar
    iLexa20 августа 2023
    2

    @Closed Name, знать бы в принципе что это за форумы такие были

  9. Max K. avatar
    Max K.19 августа 2023
    7

    На хабре по этому сливу было прям интересное. Я.Колонки, например, даже если запретить, всё равно слушают и делают записи.

  10. maintone avatar
    maintone19 августа 2023
    5

    Статья для мятных карасей )) Оу, “бигдата”, первый раз слышим такое! Это возмутительно!
    Вон Мегафон, например, продает доступ к своей “базе больших данных”, а у большинства банков вообще для трекинга и сбора MVNO (виртуальный сотовый оператор) есть.

  11. Rick_S. avatar
    Rick_S.19 августа 2023
    2

    Яндексом конечно не пользуюсь очень давно, но тут возник вопрос. Если кто-то поставит себе например 3 колонки от яндекса, слушать его будут сразу 3 товаресчща моёра, или все 3 колонки повесят на одного? Кто-то в курсе, как янлекс с товаресчщами моерами работает?

  12. OrangePower avatar
    OrangePower20 августа 2023
    1

    Вообще пофигу что настоящая корпорация добра знает обо мне. Знает даже данные моей карты. Яндексу не жаль. Мне нечего скрывать

Нашли орфографическую ошибку в новости?

Выделите ее мышью и нажмите Ctrl+Enter.

Как установить аватар в комментариях?

Ответ вот здесь