Чебурашка помог понять, как устроена жизнь

Как Чебурашка помог российским ученым победить в международном соревновании

Надежда Маркина

Анатолий Зубрицкий

Россияне победили в мировом соревновании по машинному обучению в генетике ENCODE-DREAM. Они показали лучший результат среди 32 групп из разных стран. Участники российской команды член-корреспондент Всеволод Макеев из Института общей генетики РАН и кандидат физ.-мат. наук Иван Кулаковский из Института молекулярной биологии РАН рассказали «Газете.Ru», как удалось победить и при чем тут Чебурашка.

— Всеволод, поздравляем вашу команду с победой! Для начала расскажите о соревновании ENCODE-DREAM.

— ENCODE — это большой международный проект, ему уже больше 10 лет. Его цель — изучение той части ДНК, которая не кодирует белки. Ведь участки, в которых записана информация о белках, составляют очень малую часть генома, а остальную ДНК когда-то считали «мусорной». Но потом выяснилось, что она содержит регуляторы, которые включают и выключают гены и показывают, где и когда должны синтезироваться те или иные белки.

Именно благодаря этим регуляторам клетки сердца не похожи на клетки печени, а всего в человеческом организме существует несколько сотен типов клеток.

— Задача ENCODE — прочитать инструкцию к геному, так?

— Да, именно так. В этой некодирующей части ДНК работают белки, которые называют транскрипционными факторами. Они выполняют важнейшую роль в работе генов. Процесс считывания информации с гена начинается с того, что на него садится фермент — полимераза. Так вот, именно белки — транскрипционные факторы указывают полимеразе на то место, с которого она должна начинать работать. В разных типах клеток работают разные транскрипционные факторы, целая комбинация, каждый из которых садится на определенный участок ДНК — сайт связывания. Несколько лет назад научились находить в геноме участки ДНК, связывающие молекулы конкретного белка. Для этого белки «пришивают» к ДНК, затем делают на них антитела, которые эти белки распознают, и эти антитела «вытягивают» белок вместе с пришитым к нему участком цепочки ДНК. Этот эксперимент очень дорогой и трудоемкий.

Но есть альтернативный путь. Если мы знаем, какие участки ДНК доступны для связывания белков в каждом типе клеток и особенности участков ДНК, хорошо связывающих белки, например характерные последовательности нуклеотидов таких участков, то можно попробовать предсказать участки, в которых белок будет связываться в каждом из типов клеток.

В этом и состояла задача, поставленная перед участниками соревнования, — предсказать сайты связывания конкретного белка для нового, неизученного типа клеток, обучить этому машину.

— А почему DREAM?

— DREAM (Dialogue on Reverse Engineering Assessment and Methods) — это команда, которая организует такого рода соревнования. ENCODE поставил условия задачи: мы даем некоторое количество данных — характеристики нового типа клеток и известные сайты связывания белков — и пусть участники на основе этих данных обучат свои искусственные «мозги» предсказывать сайты связывания белков в этой новой ткани. У ENCODE был результат эксперимента, который они не публиковали, дожидаясь результатов, которые покажут участники. Такая форма получения знания сегодня существует в науке. Например, уже несколько десятков лет проходят соревнования на предсказание трехмерной структуры белка по последовательности аминокислот, эти соревнования начались задолго до того, как появился DREAM.

— Сколько участников включилось в соревнование ENCODE-DREAM и был ли кто-то из России, кроме вас?

— Сначала зарегистрировалось порядка 50 команд, но результаты работы прислали 32, среди них были весьма сильные — из Швейцарии, США, других стран. Из России участвовали мы одни.

— Расскажите про вашу команду.

— У нас она довольно большая — семь человек, все из молодого поколения, многие в то или иное время работали со мной: Валентина Боева, моя бывшая аспирантка, которая сейчас получила позицию профессора во Франции, нашла этот проект и уговорила нас участвовать; Иван Кулаковский (Институт молекулярной биологии РАН) выполнял роль фактического руководителя работы; Илья Воронцов (ИОГен РАН, заканчивает аспирантуру), Андрей Ландо (студент 5-го курса МФТИ); Ирина Елисеева (Институт белка, Пущино); Григорий Сапунов — сооснователь компании, которая занимается машинным обучением.

— На фотографии у вас еще один член коллектива — Чебурашка! На сайте synapse.org он назван «советским покемоном». Как он-то к вам попал?

— На первом этапе работы мы сделали простую программу-«предсказалку», она очень грубо, но верно определяет, куда могут сесть белки. И за ней закрепилось название «Чебурашка».

Мы так у себя называем программы, которые написаны «на коленке» и почему-то работают.

Потом эту программу мы использовали для обучения большой предсказательной программы, и это уже настоящее машинное обучение. Ну а Чебурашка остался нашим талисманом. Когда мы пытались объяснить зарубежным коллегам, кто это такой, были найдены слова «soviet pokemon» — и всем стало понятно.

— Когда было объявлено соревнование и когда подведены итоги?

— Проект начался в июне, а дедлайн — 30 сентября.

— Всего четыре месяца? И как вы работали все это время?

— Мы в какой-то момент поняли, что ни разу не собирались вместе. Каждый работал индивидуально, мы все время общались в электронной почте и по скайпу, а все данные выкладывали на сервер. Сначала мы просто играли с этими данными, пытались понять, на что это похоже, запускали разные программы, играли циферками, рисовали картинки и обменивались впечатлениями. Потом поняли, что половина срока уже прошла. И тогда появился Чебурашка, эту программу написал Иван Кулаковский, в августе месяце. И она, довольно простая, впервые реально предсказала участки, которые «железно» связываются с белками. А затем то, что предсказал Чебурашка, мы использовали как выборку, на которой обучалась сложная система — настоящая программа искусственного интеллекта.

И после обучения эта система предсказала нам все, что было нужно.

— У вас был опыт подобной работы?

— Мы занимаемся регуляторными участками в геноме года с 98-го. Сначала работали на дрозофиле, потом переключились на млекопитающих: человек, мышь. У нас много разных программ для этого написано. Мы участвовали в проекте FANTOM (см. материал «Газеты.Ru»), но там у нас был только один тип данных. Такую же задачу, как сейчас, — с множеством разных клеток и с таким объемом данных — мы решаем впервые.

— Иван, как автор программы, объясните, в чем связь между сайтами связывания белков и машинным обучением?

— К любой проблеме в биологии можно подходить с двух сторон. Первый подход биологический: это попытка понять, что за объект, какие у него свойства, и заниматься моделированием, в данном случае моделированием участков генома, где могли бы сидеть регуляторные белки. При втором подходе, математическом, мы делаем вид, что ничего не знаем про биологию генома, но можем разрезать его на множество интервалов, которым приписаны какие-то числа-«характеристики», и построить компьютерный классификатор, чтобы разложить эти интервалы на кучки: «здесь, вероятно, белок сидел, а здесь не сидел».

В ходе соревнования нужно было как-то угадать вслепую, на что похожи данные, на которых организаторы будут проверять и тестировать конкурирующие методы. Обычно в машинном обучении «с учителем» используется набор объектов, похожих на те, что машина затем будет предсказывать. Чебурашка помог угадать, на что похожи невидимые нам данные. Математика за ним стоит очень простая, а глобальная идея очень биологическая — в том, что регуляторные участки генома должны обладать некой совокупностью свойств, которые совместно говорят, что «это место похоже на регуляторный участок». Мы не можем таким образом аккуратно расклассифицировать все участки генома, но можем найти удачные примеры, которые позволяют выбрать обучающую выборку и затем на ней тренировать уже «настоящий» сложный классификатор. И это сработало.

Соревнования по машинному обучению, такие как DREAM Challenges, — это конвергенция двух направлений.

С одной стороны, данных уже достаточно много, чтобы напускать на них «черный ящик» и, не разбираясь в деталях, пользоваться универсальными алгоритмами «машинного обучения». С другой стороны, параллельно развиваются «содержательные» методы моделирования, чтобы на основе тех же самых данных понять, как же, собственно, жизнь устроена.

— Всеволод, объясните, зачем это нужно? Какое применение в будущем могут иметь полученные вами результаты?

— Ну, во-первых, сейчас получено довольно много данных по ассоциации каких-то генетических вариантов с разными болезнями. Очень многие ассоциированные варианты находятся не в генах, а в регуляторной области. Ген может быть хорошим, но если регулятор сломан, то ген не работает и белок не производится. Или, наоборот, включается ген, который не должен работать. Например, известна мутация в регуляторном участке гена теломеразы (который обеспечивает надстройку концов хромосом — теломер — при делении клетки). Этот механизм в обычных клетках выключен,

но если из-за мутации в регуляторе он включается, то клетка превращается в раковую, и возникают опухоли.

Другой вариант. Давняя мечта — моделировать регуляторную сеть, которая управляет поведением клетки. Если бы это удалось, то какие-то лекарства можно связать с элементами в этой сети, и таким образом можно ею управлять. Многие пытались это делать. Пока получается плохо. Но если мы научимся предсказывать такие важные элементы этой сети, как сайты связывания белков, переключающих работу генов, — это поможет пониманию.

— Вы получили какой-то приз за победу?

— Лучшие команды — а на втором месте после нас оказалась немецкая группа из города Галле — приглашены на конференцию в Аризону, где расскажут о своей работе. Где-то через год выйдет статья в приличном журнале, и лучшие команды будут персональными соавторами, остальные — в составе консорциума.

— Но предстоит ведь и второй этап соревнования? Каким он будет?

— Да, очень скоро организаторы объявят «второй забег». Он начнется снова с нуля, но по результатам первого этапа будет уже известно, на что надо обращать внимание.

— Всеволод, считаете ли вы, что ваш успех — это закономерный успех российской школы биоинформатики? Общепризнано, что в нашей стране сильная биоинформатика по сравнению, например, с такой областью, как молекулярная биология. Ведь биоинформатику не нужно дорогое оборудование, лишь голова и компьютер.

— У нас всегда была хорошая школа и абстрактной математики, и прикладной математики. Конечно, мы можем успешно решать и биологические задачи. Но я не согласен насчет молекулярной биологии. Я знаю немало групп, которые давно и продуктивно работают на хорошем мировом уровне. Например, методику того эксперимента, о котором я рассказывал, про сшивку ДНК с белками, в значительной степени разработали в России. А если бы у биологов было больше возможностей, то и успехов было бы еще больше.