Что можно узнать о пользователях соцсети на основе циркулирующих в ней данных? Судя по бодрой капитализации компаний, владеющих такими сервисами, и повышенному вниманию к ним рекламщиков, маркетологов, социологов и спецслужб, очень много: начиная с круга знакомств, интересов, политических взглядов, ежедневных занятий и потребительской активности и кончая перемещениями в пространстве, диетой, состоянием здоровья и даже уровнем IQ.
Но что можно узнать о человеке, не зарегистрированном в социальной сети, но чьи знакомые и родственники ею пользуются?
Этим вопросом заинтересовались математики из Междисциплинарного центра компьютерных наук при Гейдельбергском университете (Германия), чья статья под красноречивым заголовком «Один плюс один равно трем (для социальных сетей)» опубликована в PLoS One.
Используя данные пользователей соцсети, они проследили связи между людьми, которые в ней не зарегистрированы. Накапливая косвенные данные и совершенствуя методы искусственного интеллекта, информацию о таких «невидимках» можно детализировать и дальше.
Следуя одному из негласных правил теории информации, что «отсутствие данных — тоже данные», можно придумать много хитроумных способов получения информации о тех, кто ее скрывает.
Так, в соцсетях, чьи пользователи не афишируют, например, свою сексуальную ориентацию или политические взгляды, эти данные могут быть «вычислены», если их знакомые не скрывают подобную информацию о себе. «Если знакомство подтверждено, реконструировать недостающие данные уже не является большой проблемой для систем искусственного интеллекта», уверен профессор Фред Хампрехт, сооснователь Гейдельбергской лаборатории компьютерной обработки образов.
Формально получение сведений подобным способом запрещено договором о неразглашении частной информации, который пользователи соцсетей заключают с владельцами сервисов.
Но в случае с теми, кто не пользуется этими сервисами и не является резидентом сети, ситуация другая.
«Они не заключают такого договора и беззащитны перед автоматическими системами, генерирующими так называемые теневые профили, уверена другой автор статьи профессор Катарина Цвейг.
«Теневые профили» — базы данных, содержащие сведения о людях, которые не являются пользователями соцсетей, составленные на основе присутствующей в них информации.
Авторы статьи показали, как можно реконструировать связи между нерезидентами соцсети, используя контакты e-mail, которые пользователи «Фейсбука» загружают в систему при использовании сервиса «найди друзей».
«Зная, кто с кем знаком внутри соцсети, и имея списки внешних контактов членов соцсети с теми, кто ею не пользуется, можно с известной точностью реконструировать, как связаны между собой нерезиденты», — объясняет руководившая исследованием Аньеш Хорват.
Условно говоря, зная, что А знаком с В, а С — с D (при этом В и D не знакомы и не являются членами соцсети ω, объединяющей А и С), то, анализируя знакомства других юзеров сети ω, можно с достаточно высокой вероятностью определить, что, скажем, некие F и S знакомы, хотя в ω они не входят и никакой дополнительной информации об их знакомстве в этой сети нет.
Потребовалось несколько недель на отработку алгоритмов и два дня вычислений, чтобы реконструировать офлайн-контакты людей, чьи электронные адреса были выложены в профилях пользователей «Фейсбука» из пяти университетских сетей США (примерно у половины этих пользователей списки почтовых контактов, загруженных через сервис «найди друзей», были открыты).
«Основываясь на реальной оценке доли населения, охваченной онлайновыми соцсетями, и вероятности, с какой они загружают в эти сети свои адресные книги,
мы можем устанавливать с 40-процентной точностью связи тех, кто онлайновой соцсетью не охвачен», — сообщается в статье.
«Наше исследование демонстрирует возможности онлайновых соцсетей, когда речь заходит о получении информации о соцсетях реальных, а также людях, которые не являются пользователями известных сервисов. Результаты, полученные нами всего лишь на основе одного простого параметра — электронного контакта, впечатляют», — резюмирует Хампрехт.
Понятно, что в соцсетях открыто циркулирует намного больше информации, чем контакты пользователей, и список анализируемых параметров можно бесконечно увеличивать, составляя все более детальные профили людей, не охваченных соцсетью.
То есть делать «невидимок» видимыми.
Скорей всего, методы, описанные немецкими математиками, уже давно используются за спиной интернет-пользователей маркетинговыми компаниями и спецслужбами. Последние, используя метод «теневого профилирования», могут, например, отслеживать формирование террористического подполья, обрубившего все связи с интернетом, или политической оппозиции, представленной в соцсетях лишь частично. Но судить о реальных масштабах этой деятельности и связанных с ней угрозах сложно: все технологии, дающие информационное преимущество, являются коммерческой и корпоративной тайной.