В клетке каждого живого организма содержится биологическая информация, которая передается от предков. Этот наследственный материал называется геномом, и он необходим для генерации тканей и поддержания жизнедеятельности организма. Однако помимо генома на состояние тела могут оказать влияние населяющие его микроорганизмы — бактерии, вирусы, грибы. Совокупность ДНК сообщества организмов называется метагеномом.
К метагеному относятся и совокупные геномы микроорганизмов. Нередко метагеном может продемонстрировать наличие у своего владельца того или иного заболевания или же предрасположенности к заболеваниям.
До недавнего времени получить последовательности генов каждого микробного сообщества было практически невозможно, но с распространением методов секвенирования нового поколения метагеномика получила широкое распространение. Некоторые ниши до сих пор остаются неизученными из-за сложности среды, в которой обитают микроорганизмы, их высокого разнообразия и из-за отсутствия связанных базовых геномных последовательностей.
Например, на протяжении нескольких десятилетий ученые не могли получить геном сообществ бактерий, населяющих кишечник человека.
Команда российских ученых в рамках гранта Российского научного фонда (РНФ) разработала алгоритм под названием MetaFast, который позволяет быстро сравнивать между собой совокупности ДНК микроорганизмов, обитающих в разных средах.
Программа базируется на принципе адаптивной сегментации и сочетает в себе лучшие характеристики, которыми обладали предшествующие алгоритмы, а именно — скорость и точность сравнивания метагеномов.
Владимир Ульянцев, сотрудник Международной лаборатории «Компьютерные технологии» Санкт-Петербургского национального исследовательского университета информационных технологий, механики и оптики (Университета ИТМО), рассказал отделу науки «Газеты.Ru», как работает программа MetaFast.
«MetaFast может работать как на персональных компьютерах, так и на серверных мощностях. Программа принимает на вход большие данные геномного секвенирования, которыми, например, занимается ФНКЦ физико-химической медицины, и на выходе выдает параметры для сравнительного анализа этих данных. Речь идет о данных секвенирования нового поколения, они же NGS (Next generation sequencing).
Эта технология позволяет из генома получить маленькие «кусочки», которые потом можно собирать, обрабатывать и сравнивать между собой,
— рассказывает ученый. — Задача заключается в том, чтобы из этих маленьких кусочков собрать исходные геномные последовательности. Для этого есть сборщики, которые разрабатываются в разных частях мира и занимаются решением этой задачи.
Мы же используем идеи сборки не для геномов, а для сравнительного изучения метагеномов — ДНК микробных сообществ, которые встречаются везде — от организма человека до арктических озер, которые мы также рассматривали в ходе одного из исследований. Метагеномы можно изучать также для морей и нефти».
MetaFast, по сути, представляет собой конвейер, способный принять одновременно несколько метагеномов в качестве входных данных. Алгоритм состоит из шести частей. Сначала из каждого метагенома выделяются k-меры — подпоследовательности длины k в последовательности нуклеотидов. Для каждого метагенома при этом строится граф де Брёйна.
На втором этапе выделяются отдельные участки графов, а на третьем объединяются в общий граф. Четвертый этап заключается в выделении общих компонентов-признаков из построенного общего графа, затем для каждого метагенома отдельно вычисляется вектор значений признаков по данным покрытия глубины компонентов.
Последним этапом является сравнительный анализ с использованием полученных векторов, например, строится матрица расстояний между метагеномами, отрисовывается древовидная диаграмма на основе кластерного анализа полученной информации. С подробным текстом исследования можно ознакомиться в журнале Bioinformatics.
По словам ученых, MetaFast показал высокую эффективность при исследовании редких и неизведанных метагеномов. В ходе исследований ученые проверяли работу MetaFast в разных условиях: они проанализировали метагеном нескольких крупных озер мира (на Шпицбергене, в Канаде, США и в Австралии), и, ничего не зная об образцах микробиоты озер,
программа нашла генетическое сходство между теми из них, которые были близки по химическому составу.
Также исследователи изучали метагеном кишечной флоры китайских респондентов и брали образцы ДНК с различных поверхностей Нью-Йоркского метрополитена: со скамеек, поручней, турникетов. Программа одинаково успешно проанализировала и сложный метагеном подземки, и микробиоту человека.
«Пока мы проводили исследование только на данных из озер, морские метагеномы мы еще не затрагивали. Небольшая часть исследования касалась также нефтяных шахт. Отдельная история касается тестирования MetaFast в подземке. В текущий момент мы заняты разработкой алгоритмов для поиска механизмов антибиотикорезистентности, то есть устойчивости микроорганизмов к антибиотикам. К сожалению, в наше время мы уже не сможем победить многие инфекционные и прочие заболевания. Но в будущем наша технология, возможно, сможет помочь избавиться от этой проблемы», — прокомментировал Владимир Ульянцев.
Исследователи утверждают, что MetaFast является полезным инструментом для подсчета и анализа признаков большого числа метагеномов, а также экономит оперативную память, что делает алгоритм наиболее эффективным среди аналогов.
«У нас получился классный московско-питерский симбиоз. Петербургская сторона в лице меня, Сергея Казакова и Артема Васильева, кстати, чемпиона мира по программированию, занимается разработкой программного обеспечения. Московские ученые в лице Вероники Дубинкиной, Александра Тяхта, Дмитрия Алексеева являются первыми нашими пользователями, указывают на недостатки, а также специализируются на биологических выводах по результатам применения технологии», — пояснил Ульянцев.