С проблемой хранения и передачи информации человек столкнулся не одно тысячелетие назад. Древние люди рисовали и высекали на скалах сценки из своей жизни, с изобретением письменности записи наносились на глиняные таблички, пергамент, папирус, бумагу. В настоящее время все больше данных хранится в электронном формате.
Ни для кого не секрет, что с течением времени информация может уничтожаться. Однако, если потерю данных векового возраста еще можно назвать явлением более или менее ожидаемым, то, казалось бы, к материалам, которым около двух десятков лет, доступ получить можно почти всегда. В нашем распоряжении есть и архивы, и библиотеки, и электронные носители данных, и интернет.
В крайнем случае можно напрямую обратиться к авторам необходимых документов, ведь как раз они и должны быть самыми ревностными хранителями своих работ.
Группа канадских и английских ученых под руководством Тимоти Вайнса из университета Британской Колумбии (Ванкувер, Канада) проверила, так ли это. С результатами исследования можно ознакомиться в журнале Current Biology.
Ученые выбрали 516 статей, написанных с 1991 по 2011 годы. Критерием для отбора документов служило то, что все они рассказывали о морфологии животных или растений, а текст статьи можно было найти при помощи интернета или в библиотеке университета Британской Колумбии. Исследователи поставили цель: связаться с авторами статей по электронной почте и получить полный текст исследования, а также дополнительные материалы к нему.
Группа Вайнса использовала логистическую регрессию, чтобы проанализировать связь между возрастом статьи и четырьмя возможностями: того, что как минимум один адрес электронной почты авторов окажется рабочим; что автор статьи ответит на запрос; что автор даст информацию о статусе запрашиваемых данных (утеряны, сохранились, сохранились, но в данный момент недоступны и т. д.); а также того, что информация сохранилась и существует возможность доступа к ней.
Для 385 статей (74%) был найден хотя бы один адрес электронной почты авторов (был указан либо в самой работе, либо получен при помощи интернета). Чем раньше была написана статья, тем сложнее было обнаружить контакты ее авторов: для работ 2011 года в среднем был найден 1,17 адреса электронной почты, для работ 1991 года — 0,42 адреса.
Вероятность того, что адрес окажется рабочим, ежегодно уменьшалась на 3–4%, а возможность его обнаружить с каждым годом падала на 7%.
Связи между возрастом статьи и вероятностью того, что автор ответит на запрос, обнаружено не было. 50% исследователей ответили на запрос, 83% дали информацию о статусе данных.
Однако Вайнс выявил зависимость между датой появления данных и вероятностью того, что они сохранились: ежегодно она уменьшается на 17%.
Исследователям удалось получить 101 работу (19% от общего количества статей), авторы 20 работ (4%) сообщили, что данные в целости, но не могут быть высланы. Таким образом, из 516 статей, написанных с 1991 по 2011 годы, авторы сохранили лишь 121 работу (23%).
Среди причин утраты информации авторы называли: кражу компьютера или ноутбука, на котором она находилась; хранение данных на носителе, который был испорчен; отсутствие необходимой техники для того, чтобы открыть носитель информации.
Тимоти Вайнс уверен, что подобная ситуация неприемлема, ведь многие данные, получаемые в ходе исследований, являются единственными в своем роде и могут быть использованы другими учеными в их изысканиях. Сейчас стало понятно, что авторы не могут обеспечить надежное хранение своих статей: авторы статьи предлагают поощрять размещение новых исследований в архивах, открытых для публичного доступа.