Язык генов сложнее человеческого

Ученые расшифровали «грамматику» языка генов

Яна Хлюстова

Shutterstock

Генетический код человека состоит из «слов», которые соединяются между собой согласно определенным «грамматическим правилам», заявили ученые. Отдел науки «Газеты.Ru» рассказывает, что общего между ДНК и языками народов мира, а также поясняет, почему язык генов гораздо сложнее человеческой речи.

В 2003 году исследователи, принимавшие участие в работе проекта «Геном человека» (The Human Genome Project), опубликовали результаты работы по полному секвенированию человеческого генома. До полного завершения работы, впрочем, все еще далеко — анализ отдельных участков генома продолжается до сих пор.

Полное секвенирование и прочтение генома человека — задача далеко не простая, так как геном содержит 20–25 тыс. активных генов (то есть таких, которые кодируют какой-либо белок). Впрочем, это составляет очень незначительную часть всех генов — остальные относятся к так называемой мусорной ДНК, а значит, никаких белков не кодируют. Но с учетом «мусорной ДНК» объем генома человека достигает около 3 млрд пар нуклеотидов.

Однако на основе уже имеющихся данных можно абсолютно точно утверждать, что молекула дезоксирибонуклеиновой кислоты (ДНК) состоит из четырех видов азотистых оснований — аденина, гуанина, цитозина и тимина.

В русскоязычной литературе они обозначаются буквами А, Г, Ц и Т — именно они и составляют так называемый алфавит генетического кода.

Азотистые основания одной цепи ДНК соединяются с основаниями второй цепи ДНК, причем делают это по строго определенным правилами: так, аденин соединяется только с тимином, а гуанин — с цитозином. Таким образом, в молекулах ДНК нуклеотиды соединяются в цепочки и создают последовательности «генетических букв», а их устоявшиеся последовательности сравниваются со словами человеческой речи.

«Геном содержит всю информацию, необходимую для того, чтобы создать организм и обеспечить его жизнедеятельность. Кроме того, геном содержит данные и о том, каков риск развития диабета, сердечно-сосудистых заболеваний или рака у того или иного человека, — комментирует Артту Джолма, профессор Каролинского института, занимающийся клеточной и молекулярной биологией. — Если мы сможет улучшить наше умение прочитывать и понимать человеческий геном, мы получим огромное количество генетической информации о разных болезнях и способах их лечения».

Тем не менее простого знания порядка генетических букв недостаточно для того, чтобы превратить закодированную ДНК информацию в научное открытие.

Порядок «букв» в клетках нашего тела чрезвычайно схож — однако геномы отличаются друг от друга за счет того, что в разных типах клеток активность проявляют разные гены. Это происходит из-за того, что каждый ген обладает особым участком, контролирующим его экспрессию (процесс, в ходе которого наследственная информация преобразуется в молекулы РНК или белки). Обязанность анализировать эти участки и считывать записанные там «инструкции» лежит на специальных белках, которые называются факторами транскрипции. Факторы транскрипции прикрепляются к генетическим «словам» и усиливают или уменьшают интенсивность экспрессии того или иного гена.

Ученые из Каролинского института, одного из крупнейших в Европе медицинских университетов, ранее уже проводили работы по изучению отдельных генетических «слов», то есть определенных и устоявшихся последовательностей четырех азотистых оснований. Исследователям удалось выделить большую часть «слов», которые распознаются транскрипционными факторами, однако, как выяснилось, знания базовой генетической «лексики» также недостаточно для получения полных данных о геноме.

Оказалось, что «слова» тоже имеют свойство объединяться между собой и формировать «сложные слова» или даже целые «словосочетания», которые распознаются уже не одним, а несколькими транскрипционными факторами.

Исследовательская группа, возглавляемая профессором Артту Джолмой из Каролинского института, пошла еще дальше и решила выяснить, как именно устроена «грамматика» генетического языка. Статья была опубликована в авторитетном научном журнале Nature.

Ученые проанализировали более 9,4 тыс. групп, состоящих из двух транскрипционных факторов и одной молекулы ДНК. В результате им удалось выделить 315 пар транскрипционных факторов, которые всегда работают вместе, а также обнаружить 618 ранее неизвестных генетических «слов». Кроме того, исследователи сделали первые шаги на пути понимания того, как именно «слова» объединяются в более сложные конструкции.

Сами авторы исследования заявляют, что грамматика генетического языка гораздо сложнее, чем грамматика любого из языков народов мира.

Ученые говорят: когда наш организм соединяет два «слова» вместе, он не просто «стирает пробел» или «добавляет дефис» между ними — «слова» в ходе этого процесса видоизменяются, создавая уже совершенно новую структуру, которую невозможно сравнить с однокоренным или синонимом исходного слова.

«В ходе работы мы обнаружили множество таких «слов», а это, в свою очередь, увеличило понимание того, как регулируются гены — как в случае нормального развития, так и, например, при образовании раковой опухоли, — комментирует Артту Джолма. — Результаты откроют новый путь к взлому генетического кода, который регулирует экспрессию генов».