— Расскажите, пожалуйста, вкратце, чем занимается биоинформатика?
— Биоинформатика занимается биологией, я вообще склонен считать, что это раздел биологии. Есть два основных способа заниматься биоинформатикой. Есть «полезная» биоинформатика — она сообщает биологам что-то полезное для их деятельности. Например, стандартная задача — взять ген, кодирующий белок, и понять функцию этого белка. Эта задача довольно тяжелая. Оказывается, что, сравнивая геномы и делая другие манипуляции, можно во многих случаях давать довольно конкретные предсказания на эту тему, и тогда эксперимент сводится просто к проверке этих предсказаний. Бывает наоборот: вы знаете, что в клетке есть какая-то функция, но не знаете, какой белок за эту функцию отвечает. Эта задача экспериментально еще более сложная. Но и в этом случае тоже можно теоретически предложить каких-то кандидатов, и останется просто проверить. Это одна сторона, это ближе всего к тому, чем много занимается моя группа, ближе к молекулярной биологии.
Другое направление, тоже полезное, связанное с развитием технологий, стало особенно актуально в последние десять лет — это попытка посмотреть на то, как клетка работает в целом.
В традиционной молекулярной биологии объектом исследования является один конкретный белок или ген. Теперь же есть техническая возможность посмотреть сразу все взаимодействия белков и ДНК, и это довольно большие объемы данных. Это способ посмотреть на клетку целиком, и очень полезно сопоставлять разные данные такого рода: о связывании белков и ДНК, модификации ДНК, пространственная структура ДНК в клетке.
Для традиционных биоинформатиков ДНК — это текст, длинная линейная молекула. На самом деле полезно понимать, что это молекула — не линейная, а имеет сложную трехмерную структуру.
Если молекула ДНК будет линейна, она вытянется в несколько метров. В клетке она свернута в плотный клубок, и это неслучайно. Например, выяснилось, что пространственно близкие участки ДНК «любят» находиться в похожем состоянии с точки зрения работы генов. Сегодня эта сложная наука находится в самом начале развития: уже накоплено довольно много данных, и делаются самые первые попытки по их осмыслению.
Однако не вызывает сомнения, что за ней будущее: в конечном итоге мы можем говорить про работу клеточных систем в целом. И это очень поучительно, потому что лет двадцать назад были популярны методологические и философские рассуждения о том, что биология свелась к редукционизму: целую клетку мы разбираем на части и изучаем эти части. Но это тупиковая ветвь, так мы никогда не поймем, как клетка работает. Теперь мы предпринимаем некоторую попытку это понять. Роль биоинформатиков в ней двояка: во-первых, чисто техническая — в первичной обработке и хранении данных, а во-вторых — содержательная, потому что для описания клетки в целом нужно делать это на достаточно формальном языке. Нужно рисовать графы или писать дифференциальные уравнения, то есть делать что-то вполне математизированное, только на уровне клетки в целом.
Это все была «полезная» биоинформатика. А еще есть «бесполезная» биоинформатика, для меня, например, самая интересная.
Она связана с эволюцией и отвечает на очень базовый вопрос: как получилось то, что мы сейчас видим вокруг нас. Как можно моделировать механизмы, которые привели к тому, что образовались те геномы, которые мы сейчас наблюдаем? Есть знаменитое высказывание Добржанского: «Ничто в биологии не имеет смысла, кроме как в свете эволюции». И «правильный» биолог все время имеет в виду, что он наблюдает какой-то моментальный срез очень продолжительного по времени процесса. Этот процесс тоже надо описывать, моделировать, пытаться понять, как он был устроен, как он устроен сейчас. Предсказание функции генов, о котором я раньше говорил, в значительной степени основано на эволюционных соображениях. Просто они настолько привычны, что ими оперируют так, как будто это естественно, а на самом деле это очень глубокие эволюционные утверждения.
--Как биоинформатика развивалась у нас в России?
— Биоинформатика — очень молодая наука. Как я говорил много раз, когда в 86-м году после университета я начал этим заниматься, я раз в неделю ходил в Библиотеку естественных наук и просматривал все статьи по биоинформатике, которые вышли в мире за эту неделю. Читал не все, но просматривал все, и это было возможно физически. Сейчас, конечно, уже нет: число статей выросло в десятки раз. А в 80-х годах это была очень молодая наука, возникшая как самостоятельная область на рубеже 70–80-х.
Тогда можно было придумать идею, и с очень большой вероятностью оказывалось, что ты первый ее придумал.
И если у тебя была какая-то любимая техника в другой области, можно было попробовать ее принести и применять здесь.
--Расскажите, пожалуйста, о российских специалистах, работающих в биоинформатике.
— Очень многие сильные ученые, мировые лидеры в биоинформатике — это выходцы из России, и многие из них сохраняют контакты с Россией. Назову три самых ярких примера таких ученых российского происхождения. Первый— это Евгений Кунин, он работает в США, несколько лет назад у нас с ним были совместные работы, но специально он с Россией не взаимодействует. Далее — Павел Певзнер, профессор Университета Калифорнии (Сан-Диего) и Алексей Симонович Кондрашов — профессор Университета Мичигана. Последние двое очень активно работают в России, у них есть «мегагранты», на средства которых они создали успешные российские лаборатории. Они находятся на совершенно разных полюсах этой науки. Певзнер занимается конкретными алгоритмами, предназначенными для обработки конкретных данных, алгоритмическими проблемами, очень близкими к практике. У него потрясающее чутье на хорошие практические задачи, из которых вырастает красивый математический аппарат. Российская лаборатория Певзнера находится в Санкт-Петербурге. Кондрашов, наоборот, биолог, очень яркий эволюционист, и его лаборатория в Москве как раз занимается эволюционными задачами. Как очень хороший биолог, он знает неожиданные и красивые биологические объекты и свои эволюционные построения делает на них.
Это про уехавших... А еще есть оставшиеся, которые просуществовали здесь в 90-е годы. У нас в феврале будет двадцатилетие московского семинара по биоинформатике.
Он возник в 93-м году, когда от довольно сильных групп осталось по два-три человека, и ни одна не была уже в состоянии поддерживать свой собственный рабочий семинар.
Тогда мы решили объединиться и сделать регулярный общегородской семинар. Люди из разных лабораторий встречались каждые две недели и рассказывали друг другу о своей работе. Сейчас семинар активно живет, но уже в другом режиме: общемосковский семинар стал местом встречи с приезжими докладчиками. Сильные группы снова могут позволить себе свои рабочие семинары. Есть несколько групп мирового уровня.
Нужно учитывать, что биоинформатика все-таки находится в существенно более мягком положении, чем экспериментальная биология, потому что у нас нет сложностей с реактивами, животными, перевозкой биообразцов через границу.
--А суперкомпьютеры не нужны?
— Суперкомпьютеры нужны, но их дефицита нет. Самая острая проблема биоинформатики — это не компьютеры и даже не деньги, а сильные ученые. Сейчас как раз пришло время, когда биологи осознали, что в каждой хорошей биологической лаборатории должен быть человек, который отвечает за биоинформатику. И на таких людей довольно большой спрос. Есть факультет биоинженерии и биоинформатики в Московском университете, и у его выпускников нет проблем с поиском работы.
Мы делали двухлетнюю вечернюю школу по биоинформатике: она сначала была подразделением школы анализа данных Яндекса, а сейчас, по-видимому, мы будем пытаться вести ее отдельно. В прошлом году, когда мы объявляли первый набор, мы набрали 50 человек, а на собеседование пришло человек 100 или 80. Причем пополам — математики и биологи. Математики, которые хотели войти в новую область, а биологи — экспериментальные биологи, осознавшие, что им нужно это умение.
--А кто лучше входит в эту область, математики или биологи?
--Пополам. Если смотреть по моим ученикам, и по самым успешным, и просто по хорошим, то оказывается, что примерно пополам.
--Расскажите, какими задачами вы занимаетесь в настоящее время.
— В работе нашей лаборатории есть направление, связанное с предсказанием функций генов. Мы занимаемся «бесполезной» биоинформатикой — изучаем то, как эволюционируют регуляторные системы бактерий, а «по дороге» мы делаем много практических предсказаний: какой белок какую функцию выполняет. В Институте медицинских исследований Бернема (Калифорнийский университет в Сан-Диего) есть лаборатория, там проводят значительную часть времени несколько моих учеников. Это биохимическая лаборатория Андрея Остермана, которая занимается экспериментальной проверкой биоинформатических предсказаний, и наших, и своих собственных.
Другое направление связано с анализом массовых данных о том, как устроена работа генов у разных млекопитающих. Например, у нас есть совместный проект с Филиппом Хайтовичем из Шанхая, в рамках которого мы изучаем, как меняется с возрастом работа генов в мозге человека и обезьян.
Третье, чем мы занимаемся, — это мой проект по изучению эволюции бактерий в очень короткое время. Если вы возьмете два штамма кишечной палочки, то окажется, что их последовательности тождественны на 99%, но при этом у каждого из этих штаммов будут большие куски генома, которых у другого штамма нет вовсе. Это одна и та же кишечная палочка, но они на треть могут отличаться по геному, и фрагменты, которыми они отличаются, довольно часто отвечают за патогенность. Лекарственная устойчивость тоже передается между штаммами: у одних она есть, а у других ее нет. То есть эта проблема практически очень важная, но пока мы очень плохо понимаем, как устроена эволюция бактерий.
Было бы полезно узнать, как между бактериями передаются механизмы патогенеза или, наоборот, — гены защиты от антибиотиков.
--Приведите, пожалуйста, конкретные примеры практического применения биоинформатики.
--Та же, что от занятий биологией. Во-первых, очевидно, это медицина. Прогресс в лечении рака в значительной степени завязан на прогрессе в понимании его молекулярных механизмов. Это не моя область, но сейчас публикуется довольно много работ по молекулярной диагностике рака и по определению молекулярных механизмов, которые ведут к раковому перерождению. Это дело последних 2–3 лет. Берется очень много пациентов с одним и тем же диагнозом, и определяется последовательность клеток из опухоли и здоровых клеток, смотрится, что поменялось. Рак — болезнь генома, она вызывается мутациями в ДНК, вы можете эти мутации просто «выписать в столбик». Сейчас, когда возможно определить последовательность генома в клетках из опухоли, можно ставить диагнозы по тому, какие сигнальные пути в клетке сломались. Вообще, рак — это болезнь «клеточной бюрократии». Десять процентов белков клетки занимаются передачей разнообразных сигналов и определением состояния клетки. Нормальная клетка не может бесконтрольно делиться, потому что ей не позволяет «бюрократия», она понимает, что «зажата» между соседями, знает, в какой ткани находится, и потому ведет себя соответственно. Есть специальные сигнальные пути, которые регулируют работу генов в зависимости от тканевого контекста.
При раке клетка перестает «узнавать соседей», перестает понимать, в какой она ткани находится, она возвращается в недифференцированное состояние, начинает «путешествовать» по организму, образуя метастазы.
Оказывается, то, что мы считали раньше одним диагнозом, — это может быть несколько разных. На вид две опухоли похожи, а «сломано» в них при этом разное — разный молекулярный диагноз. И это существенно для прогноза и выбора лекарств. Современные раковые лекарства действуют на эти сигнальные пути, на отдельные компоненты этих сигнальных путей — они их подавляют или, наоборот, активируют. Практические применения, которые только-только начинают развиваться, заключаются, например, вот в чем. Предположим, у вас было лекарство, которое эффективно в 10 % случаев (для некоторых видов рака это хорошо), но имеет тяжелые побочные эффекты. Если мы заранее не знаем, кому лекарство поможет, мы не будем его использовать. Но если мы заранее знаем, кто тот один из десяти, кому это будет полезно, для кого лекарство сработает, ему-то мы и будем его давать, и побочные эффекты будут оправданны. А остальных не будем напрасно мучить. Конечно, это идеализированный случай, он приблизительно показывает направление, в котором будет развиваться медицина.
А второй аспект — это то, что при разных видах рака бывают «поломаны» одни и те же сигнальные пути.
Раки при этом будут разные, потому что один и тот же путь мог «сломаться» в клетках одной или другой ткани: влияние геномного контекста, того, что исход зависит не от одного гена, а от того, какие еще гены активны, никто не отменял. Но основной механизм, в котором случилась поломка, один и тот же. И вот появляются первые клинические работы такого сорта, когда вы берете лекарство, уже одобренное для какого-то вида рака (вам не нужно уже проводить испытания на безопасность, оно уже введено в медицинскую практику), и начинаете его применять к такому раку, к которому оно раньше не применялось, потому что молекулярный механизм одинаковый. По технике этих работ это чистая биоинформатика — анализ больших объемов данных по сигнальным путям.
Оговорюсь еще раз, что это не та область, которой я занимаюсь, и речь идет о поисковых работах, в районной больнице это массово не делают. Это тяжелая, очень тонкая наука и отдельные примеры, не массовые для всей онкологии, но показывающие, в каком направлении можно двигаться.
Кроме того, практическое применение биологии можно найти в сельском хозяйстве и генной инженерии. Сельское хозяйство нуждается в существенном прогрессе, потому что на земле живет много людей. То есть или мы все согласимся есть меньше, или мы должны выращивать больше – и тут как раз помогает генная инженерия.
Есть и технологии, связанные с производством лекарств, — бактериальные биотехнологии, та же самая генная инженерия, только на уровне микроорганизмов.
В этом контексте нельзя умолчать об истерии вокруг генно-модифицированных организмов.
Все страшно боятся генно-модифицированной картошки, и никто не боится генно-модифицированных бактерий, которые делают человеческий инсулин – именно этот человеческий инсулин, произведенный бактериями, колют всем диабетикам.
Это самый простой пример. Более тонкий пример — одно из очень красивых открытий в области системы защиты бактерий от вирусов — бактериального иммунитета. Это абсолютно фундаментальная вещь, никто не ожидал, что такое бывает. Больше всего в этом исследовании продвинулись люди из компании DANONE. У них большая проблема: есть стартовые культуры для закваски йогуртов, и время от времени там случаются вирусные эпидемии, приводящие к гибели этих культур. Поэтому анализ того, как бактерии защищаются от вирусов, — абсолютно фундаментален для компании DANONE.
Это все общая информация о том, в чем польза биологии, а биоинформатика в каждой области биологии позволяет биологам работать гораздо более эффективно. Потребителем биологии является медицина, или сельское хозяйство, или биотех, а нашим потребителем являются биологи. Мы еще на один шаг дальше от практики.
--Можно технический вопрос? Если у Вас нет своих штаммов, своих биоорганизмов, что Вы принимаете за наблюдательный материал? Заказываете лабораториям?
--Если нужно, можем заказать, но реально это все есть в интернете. Есть колоссальные базы данных, есть целые «фабрики», которые генерируют эти последовательности. В Китае есть Пекинский геномный институт — это колоссальная «фабрика» по производству этих последовательностей. Кроме того, с последовательностями ДНК есть международное правило, принятое еще в 80-х годах, что ни один серьезный журнал не опубликует вашу статью, если вы все последовательности, про которые вы пишете, не положили в стандартный депозитарий. И дальше все желающие могут этим пользоваться.
Кроме того, у нас довольно много коллабораций с экспериментаторами, они производят данные, а мы вместе их обрабатываем. Есть коллаборации в России, Германии, Америке и в Китае.