В 2003 году исследователи, принимавшие участие в работе проекта «Геном человека» (The Human Genome Project), опубликовали результаты работы по полному секвенированию человеческого генома. До полного завершения работы, впрочем, все еще далеко — анализ отдельных участков генома продолжается до сих пор.
Полное секвенирование и прочтение генома человека — задача далеко не простая, так как геном содержит 20–25 тыс. активных генов (то есть таких, которые кодируют какой-либо белок). Впрочем, это составляет очень незначительную часть всех генов — остальные относятся к так называемой мусорной ДНК, а значит, никаких белков не кодируют. Но с учетом «мусорной ДНК» объем генома человека достигает около 3 млрд пар нуклеотидов.
Однако на основе уже имеющихся данных можно абсолютно точно утверждать, что молекула дезоксирибонуклеиновой кислоты (ДНК) состоит из четырех видов азотистых оснований — аденина, гуанина, цитозина и тимина.
В русскоязычной литературе они обозначаются буквами А, Г, Ц и Т — именно они и составляют так называемый алфавит генетического кода.
Азотистые основания одной цепи ДНК соединяются с основаниями второй цепи ДНК, причем делают это по строго определенным правилами: так, аденин соединяется только с тимином, а гуанин — с цитозином. Таким образом, в молекулах ДНК нуклеотиды соединяются в цепочки и создают последовательности «генетических букв», а их устоявшиеся последовательности сравниваются со словами человеческой речи.
«Геном содержит всю информацию, необходимую для того, чтобы создать организм и обеспечить его жизнедеятельность. Кроме того, геном содержит данные и о том, каков риск развития диабета, сердечно-сосудистых заболеваний или рака у того или иного человека, — комментирует Артту Джолма, профессор Каролинского института, занимающийся клеточной и молекулярной биологией. — Если мы сможет улучшить наше умение прочитывать и понимать человеческий геном, мы получим огромное количество генетической информации о разных болезнях и способах их лечения».
Тем не менее простого знания порядка генетических букв недостаточно для того, чтобы превратить закодированную ДНК информацию в научное открытие.
Порядок «букв» в клетках нашего тела чрезвычайно схож — однако геномы отличаются друг от друга за счет того, что в разных типах клеток активность проявляют разные гены. Это происходит из-за того, что каждый ген обладает особым участком, контролирующим его экспрессию (процесс, в ходе которого наследственная информация преобразуется в молекулы РНК или белки). Обязанность анализировать эти участки и считывать записанные там «инструкции» лежит на специальных белках, которые называются факторами транскрипции. Факторы транскрипции прикрепляются к генетическим «словам» и усиливают или уменьшают интенсивность экспрессии того или иного гена.
Ученые из Каролинского института, одного из крупнейших в Европе медицинских университетов, ранее уже проводили работы по изучению отдельных генетических «слов», то есть определенных и устоявшихся последовательностей четырех азотистых оснований. Исследователям удалось выделить большую часть «слов», которые распознаются транскрипционными факторами, однако, как выяснилось, знания базовой генетической «лексики» также недостаточно для получения полных данных о геноме.
Оказалось, что «слова» тоже имеют свойство объединяться между собой и формировать «сложные слова» или даже целые «словосочетания», которые распознаются уже не одним, а несколькими транскрипционными факторами.
Исследовательская группа, возглавляемая профессором Артту Джолмой из Каролинского института, пошла еще дальше и решила выяснить, как именно устроена «грамматика» генетического языка. Статья была опубликована в авторитетном научном журнале Nature.
Ученые проанализировали более 9,4 тыс. групп, состоящих из двух транскрипционных факторов и одной молекулы ДНК. В результате им удалось выделить 315 пар транскрипционных факторов, которые всегда работают вместе, а также обнаружить 618 ранее неизвестных генетических «слов». Кроме того, исследователи сделали первые шаги на пути понимания того, как именно «слова» объединяются в более сложные конструкции.
Сами авторы исследования заявляют, что грамматика генетического языка гораздо сложнее, чем грамматика любого из языков народов мира.
Ученые говорят: когда наш организм соединяет два «слова» вместе, он не просто «стирает пробел» или «добавляет дефис» между ними — «слова» в ходе этого процесса видоизменяются, создавая уже совершенно новую структуру, которую невозможно сравнить с однокоренным или синонимом исходного слова.
«В ходе работы мы обнаружили множество таких «слов», а это, в свою очередь, увеличило понимание того, как регулируются гены — как в случае нормального развития, так и, например, при образовании раковой опухоли, — комментирует Артту Джолма. — Результаты откроют новый путь к взлому генетического кода, который регулирует экспрессию генов».