
Ассистент Siri обучается распознавать речь с помощью голосовых запросов самих пользователей. При каждом включении Siri в настройках, система предупреждает: мол, Apple оставляет за собой право сохранить и обработать всё, что вы скажете. До сих пор никто вне компании не знал, как наши запросы сохраняются и катализируются на серверах. Ответ на эти вопросы был получен из первых рук.
Портал Wired разместил статью, критикующую Apple за недостаточную информацию о приватных данных пользователя в соглашении об использовании голосового сервиса. В ответ компания раскрыла карты:
Каждый раз, когда вы говорите с голосовым ассистентом, он передаёт данные в дата-центры Apple для анализа. Apple формирует случайную последовательность цифр и присваивает её пользователю, а затем ассоциирует с ней все голосовые файлы запросов и их текстовые расшифровки.
Эти цифры, а не Apple ID или почтовый адрес — единственное, с чем может работать Siri. Иными словами, опознать конкретно вас в массиве данных на сервере Apple будет невозможно. При этом компания не рассказала в подробностях, какие именно данные отправляются при каждом запросе. А это могут быть и предыдущие запросы, история поиска и даже данные на телефоне, вроде содержимого адресной книги.
Записи старше шести месяцев лишаются уникального цифрового идентификатора, но сохраняются ещё 18 месяцев для тестирования и улучшения сервиса.
В итоге Apple знает всё, что вы говорили Siri в течение двух последних лет, но не может узнать, что это говорили именно вы. Всё лучше, чем раздавать свой домашний адрес незнакомым людям без своего же ведома. [9to5mac]

ну как бы вся хрень в том, что этот идентификатор(те самые цифры) можно получить с устройства юзера при желании. Кроме того, на казалось бы обфусцированную базу данных, можно натравить анализирующий алгоритм, который, зная ваши определенные предпочтения или имея некоторые данные из одного подслушанного разговора с Siri, можно с высокой вероятностью вычислить и этот идентификатор, и все остальные ваши данные, хранящиеся в БД. Или сопоставить с другими базами врямя запросов, айпишники и т.п. В общем, использование произвольных идентификаторов в таких случаях является юридическим аргументом, но в реальности защищает только от случаев увода БД теми хакерами, кто толком не знает, что с ней потом делать. Ну то есть данных о юзерах там изначально нет, и выгрузить например email’ы для спамеров из такой БД не получится. Но если нужно следить за определенным юзером, и эта БД – не единственное, что у вас на него есть – то в ней будет довольно несложно найти и отфильтровать именно его данные.
@DSD, совершенно верно. Если коротко, сейчас сири работает анонимно. Что бы раскрыть анонимность, apple достаточно будет выпустить небольшое обновление для iOS.