Геном не защищен от хакеров

Американский генетик успешно установил личности анонимных доноров, участвующих в научных проектах

Дмитрий Малянов
Анонимность информации в геномной базе данных — иллюзия, доказал профессиональный хакер, быстро докопавшийся до персональных данных полусотни доноров такой базы. Как обеспечить неприкосновенность личности от посягательств недобросовестных страховщиков или работодателей, взломщик данных пока не придумал.

Генетик Янив Эрлич, сотрудник Уайтхедовского института биомедицинских исследований и ведущий автор опубликованной сегодня в Science статьи «Персональная идентификация геномов по косвенным фамильным данным», наглядно доказал, что бывших хакеров не бывает. До того как заняться научной деятельностью, Эрлич был профессиональным специалистом по защите информации, помогая банкам и компаниям находить уязвимости в их компьютерных сетях и базах данных. Решив тряхнуть стариной, Эрлич попробовал выяснить, можно ли, используя лишь компьютер и открытые геномные базы данных, идентифицировать личности анонимных доноров этих баз — людей, предоставивших образцы своего генома для его расшифровки и последующего использования в научных исследованиях.

Впрочем применять хакерские навыки Эрличу и не потребовалось: к своему удивлению, он сумел точно определить личность около полусотни таких анонимов, не прибегая к незаконным методам, то есть не имея доступа к биообразцам и не взламывая базы данных институтов, участвующих в проектах по расшифровке генома человека.

Иначе говоря, идентифицировать людей, чьи геномы расшифрованы, может любой, кто имеет доступ к интернету, определенные навыки в статистической обработке данных и некоторые познания в генетике.

Статья в Science содержит общее описание алгоритма такой идентификации.

Она проходила в два этапа. На первом Эрлич, используя открытые данные о возрасте анонимных доноров и американских штатах, в которых они живут, сумел, обработав сведения по 32 геномам из международного научного проекта HapMap по географическому картированию гаплотипов, сузить область поиска до 10 тысяч жителей штата Юта.

На втором Эрлич задействовал другую базу данных, выложенную в открытый доступ одним из популярных генеалогических интернет-сервисов, позволяющих найти своих отдаленных родственников по отцовской линии по уникальному генетическому маркеру, так называемым микросателлитным последовательностям Y-хромосомы (short tandem repeats, или Y-STR). В таких генеалогических базах генетические маркеры уже привязаны к фамилиям. База, использованная Эрличем, насчитывала 40 тысяч «фамильных» хромосомных маркеров.

Далее, установив, что маркеры Y-STR читаются очень хорошо в 10 из 32 анонимных расшифрованных геномов HapMap, Эрлич ввел эти последовательности в поисковый запрос по генеалогической базе и обнаружил, что восемь маркеров в точности соответствуют фамильным, притом люди с найденными фамилиями, которые предоставили данные по Y-STR, проживают в Юте.

После определения фамилий и мест жительства доноров осталось лишь выяснить, какой именно член семьи предоставил образец своего генома в HapMap. Зная точный возраст, сделать это оказалось просто — в конечном итоге это позволило идентифицировать анонимов, чьи геномы выложены в открытый доступ.

Используя описанную методику, Эрличу удалось идентифицировать личности около полусотни анонимных участников научных проектов про расшифровке человеческого генома.

Естественно, их имена он скрыл, но то, что анонимная генетическая информация может быть точно идентифицирована по достаточно простой методике, использующей открытые источники информации, уже сильно настораживает тех, кто обоснованно видит в этом угрозу личной безопасности.

Пока что люди не привыкли идентифицировать себя, свою жизнь и свое будущее с расшифрованной последовательностью нуклеотидов (примечательно, что среди идентифицированных Эрличем доноров оказалось много мормонов, уделяющих особое внимание вопросам наследственности), но технология секвенирования ДНК дешевеет столь стремительно, что уже в ближайшие несколько лет ее начнут использовать себе во благо разные заинтересованные организации и лица.

Например, страховые компании, которые, имея доступ к расшифрованным геномам, начнут ставить в неравные условия клиентов, зная об их наследственной предрасположенности к тем или иным болезням (кстати, по законам США медицинским страховым компаниям запрещено использовать в своей работе персональную генетическую информацию). Или работодатели, которые будут иметь на руках психогенетические профили людей, решая, принимать или не принимать их на работу. Или политики, которые могут использовать такую информацию для получения конкурентного преимущества над соперником. И это лишь предварительный список сторон, заинтересованных в информации о чужих геномах, который будет только пополняться.

Интересно, что, как отмечает Эрлич, даже в отсутствие таких косвенных наводок, как возраст и место проживания людей, содержащихся в расшифрованных образцах геномов в HapMap, все равно можно будет идентифицировать их личности, применяя другие алгоритмы. Похоже, анонимность генома, содержащего огромный объем информации о человеке, — это иллюзия, которая не остановит никого, кто захочет использовать персональные генетические данные в своих корыстных целях.