Молекулы ДНК, содержащие детальные инструкции, необходимые для роста, размножения и поддержания жизни организмов, относятся к одним из самых миниатюрных, емких и стабильных носителей информации, оставляющих далеко позади все искусственно созданные на настоящий момент устройства памяти. Идея использовать ДНК для записи, хранения и считывания данных обсуждается и исследуется уже давно, притом не только в научно-фантастических романах, но и в научной периодике, где регулярно появляются сообщения об испытании очередной экспериментальной технологии ДНК-памяти.
Технологический потенциал этой молекулы действительно очень впечатляет.
В первую очередь это относится к плотности упаковки данных: теоретически, ДНК может кодировать два бита информации на один нуклеотид (повторяющиеся блоки, из которых состоит молекула), что в результате дает огромное число — 455 эксабайт (1 эксабайт = 1018 байт) данных на один грамм одноцепочечной ДНК. Такого грамма вполне хватило бы, чтобы записать весь среднегодовой объем глобального интернет-трафика за 2012 год.
Вторым преимуществом ДНК-памяти является ее стабильность: в отличие от цифровых магнитных и оптических носителей, реальное время жизни которых прогнозировать довольно сложно из-за молодости и несовершенства технологии, информация, записанная в ДНК посредством химических связей, может храниться десятки тысяч лет, что уже позволяет считывать генотипы некоторых вымерших в незапамятные времена животных и растений, а с дальнейшим развитием технологии — и возвращать их к жизни.
Наконец, универсальный энзимный механизм записи и считывания информации, отшлифованный за миллиарды лет эволюции живого вещества, позволяет рассматривать ДНК-память в качестве будущего потенциального стандарта хранения и считывания данных.
Ведь почти идеальное устройство памяти уже создано самой природой, роль же технологии сводится к тому, как именно его использовать.
Первое искусственное устройство ДНК-памяти было продемонстрировано еще в 1988 году, когда с помощью этой молекулы удалось закодировать 7920 битов данных. Но по сравнению с этим достижением технология, предложенная исследовательской группой, работающей под руководством Джорджа Чёрча с факультета генетики Гарвардской медицинской школы, выглядит уже настоящим прорывом: используя совершенно новый подход в кодировании информации на ДНК, а также ДНК-синтезаторы и секвенаторы новейшего поколения, генетикам удалось «затолкать» в массив одноцепочечных ДНК целую книгу в формате HTML объемом в 53 426 слов, а кроме того, 11 изображений в формате JPG и одну программу, написанную на языке Java.
Общий объем данных, записанных с помощью ДНК, составил 5,27 мегабит.
Описание новой технологии ДНК-памяти содержится в статье, опубликованной сегодня в Science.
Для кодирования 5,27-мегабитного массива группа Чёрча использовала искусственно синтезированные последовательности нуклеотидов, так называемые олигонуклеотиды (форма нуклеиновой кислоты, содержащая относительно небольшое, до нескольких десятков, число нуклеотидов). Каждый олигонуклеотид включал в себя 96-битный блок данных (96 нуклеотидов), 19-битный адрес, по которому определялось место блока в общем массиве (19 нуклеотидов), и однообразные 22-битные технические последовательности оснований, необходимые для последующей амплификации и финальной расшифровки молекулярной записи с помощью ДНК-секвенатора (амплификация — создание дополнительных копий цепочек нуклеотидов, необходимых для последующих манипуляций с информацией, содержащейся в ДНК, — например, сравнительной коррекции и сведения к минимуму ошибок при ее расшифровке).
В общей сложности для записи 5,27-мегабитного массива было использовано 54 898 159 нуклеотидов, организованных в 115-битные олигонуклеотидные блоки.
Последние были синтезированы обычным образом с помощью специальных полностью автоматизированных установок, позволяющих поэтапно выстраивать олигонуклеотидные цепочки с определенной последовательностью оснований, при этом аденин и цитозин принимались за условный ноль, а гуанин и тимин — за условную единицу.
Таким образом, разбив массив на относительно небольшие 115-битные блоки олигонуклеотидов, удалось избежать необходимости синтезировать длинные ДНК-последовательности для кодирования больших объемов информации, тем более что современные установки способны выстраивать точные цепочки из, как правило, не более 200 нуклеотидов.
Все это упростило последующую расшифровку и коррекцию ошибок, также осуществленных по обычной схеме с помощью автоматизированной полимеразно-цепной реакции и параллельных ДНК-секвенаторов новейшего поколения: ДНК-цепочки многократно клонировали, далее, скорректировав ошибки с помощью «зеркальных» цепочек, прочитали, а получившиеся коды соединили в массив данных в соответствии с адресными метками.
Теоретическая плотность ДНК-записи, достигаемая с помощью подобной технологии, составляет 5,5 петабит (1 петабит = 1015) на один кубический миллиметр.
Это беспрецедентно высокий показатель для устройств памяти, притом не только коммерческих, но также экспериментальных, например квантово-голографических.
Тем не менее практическое использование этого метода сильно ограничено его громоздкостью, продолжительностью цикла запись/чтение и, конечно, стоимостью.
Впрочем, стоимость расшифровки ДНК ежегодно падает примерно в 5–12 раз — намного быстрей, чем стоимость цифрового электронно-оптического мегабайта, так что у технологии ДНК-памяти, безусловно, есть большое будущее, на которое намекает и название закодированной в ДНК книги — «Регенезис: Как синтетическая биология заново откроет природу и нас самих» (´Regenesis: How Synthetic Biology Will Reinvent Nature and Ourselves´, Basic Books, New York), одним из авторов которой является Джордж Чёрч.