Интернет-коллайдер

GRID — проект CERN по стандартизации и универсализации удаленного доступа к вычислительным ресурсам.

Александра Борисова (Женева)

Возможно, через какие-то несколько лет интернет уступит место новой, более глубокой интеграции удаленных компьютеров, позволяющей не только удаленно передавать информацию, локализованную в разных концах света, но и автоматически использовать удаленные вычислительные ресурсы. В связи с запуском Большого адронного коллайдера CERN уже несколько лет работает над созданием такой сети.

То, что интернет (или то, что обозначается термином web) был изобретен в Европейской организации ядерных исследований (CERN), давно уже стало хрестоматийным фактом. Вокруг таблички «В этих коридорах была создана всемирная сеть» в одном из обычных коридоров обычного здания CERN во время дня открытых дверей всегда толпятся зеваки. Сейчас интернет используют для своих практических нужд люди по всему миру, а изначально он был создан для того, чтобы ученые, работающие на одном проекте, но находящиеся в разных концах планеты, могли общаться между собой, делиться данными, публиковать информацию, к которой можно было бы получить доступ удаленно.

Разрабатываемая в CERN система GRID (по-английски grid — решётка, сеть) — это еще один шаг вперед, новая ступень интеграции пользователей компьютеров.

Он дает не только возможность публиковать данные, которые находятся где-то в другой точке планеты, но и использовать удаленные машинные ресурсы, не сходя со своего места.

Конечно, обычные компьютеры не играют особой роли в обеспечении вычислительных мощностей, поэтому первый этап интеграции — это соединение мировых суперкомпьютерных центров.

Создание этой системы спровоцировал Большой адронный коллайдер. Хотя уже сейчас GRID используется для массы других задач, без коллайдера его бы не было, и наоборот, без GRID обработка результатов коллайдера невозможна.

Люди, которые работают в коллаборациях БАК, находятся в разных концах планеты. Известно, что над этим прибором работают не только европейцы, а и все 20 стран — официальных участниц CERN, всего же порядка 35 стран. Теоретически для обеспечения работы БАК существовала альтернатива GRID — расширение собственных вычислительных ресурсов компьютерного центра CERN. Но тех ресурсов, что были на момент постановки задачи, было совершенно недостаточно для моделирования работы ускорителя, хранения информации его экспериментов и ее научной обработки. Поэтому компьютерный центр нужно было бы очень значительно перестраивать и модернизировать, закупать больше компьютеров и средств для хранения данных. Но это бы означало, что все финансирование будет сосредоточено в CERN. Это было не очень приемлемо для стран, находящихся далеко от CERN. Конечно, они не были заинтересованы в спонсировании ресурсов, которыми очень сложно будет воспользоваться и скорее склонны были наращивать свой вычислительный, машинный потенциал. Поэтому родилась идея использовать ресурсы там, где они находятся.

Не пытаться все сосредоточить в одном месте, а объединить то, что уже есть в разных уголках планеты.

В частности, привлекать готовые ресурсы институтов, которые участвуют в научной программе коллайдера. Так родилась идея GRID.

Проект был запущен несколько лет назад, и изначально люди не очень верили в успех. В первом тестовом запуске участвовали всего шесть центров («сайтов»), было очень много проблем, и много пессимистических мыслей высказывалось по этому поводу. Но прошло всего лишь несколько лет, и удалось построить громадную систему, которая сейчас работает и одновременно продолжает расширяться: подключаются новые и новые центры. Эта система с успехом справляется с задачами, которые ставят перед ней физики проекта БАК.

Как устроен GRID? Система должна работать так, чтобы все физики БАК (а это порядка 7 тысяч человек по всему миру) могли получать одинаково эффективный доступ ко всей информации эксперимента. Они не должны чувствовать разницы, работая в CERN в Москве, в Нью-Йорке или в Мумбае.

Внешне это выглядит так, будто сложнейшая задача, поставленная ученым, решается на его ноутбуке или домашнем компьютере с помощью программы, обеспечивающей (на самом деле) связь с GRID.

Но, конечно, одной машине не под силу такое. На самом деле поставленная задача может решаться за тысячи и тысячи километров от ее автора. Система, получив запрос на решение задачи, сама ищет свободные ресурсы и направляет ее туда. Ученый-физик не занимается этими организационными вопросами — система сама забирает из точек хранения необходимые начальные данные и запускает решение задачи. Когда процесс завершен, результаты работы направляются обратно на персональный компьютер физика. Таким образом, для работы в системе ученому необходимо лишь стабильное интернет-соединение, ПО для связи с GRID на его компьютере и так называемый электронный паспорт — «удостоверение», которое ученый предъявляет системе онлайн для получения доступа к ней. На первый взгляд, идея простая, однако ее реализация потребовала большой работы.

Система хорошо отлажена и способна сама диагностировать свое состояние.

Периодически на все центры посылаются тестовые задачи, не имеющие научного смысла, но диагностирующие состояния центров. Если центр не отвечает, он временно становится невидимым для пользователей и задачи не направляются на него. Это исключает вариант затягивания выполнения работы, которая могла бы оказаться в листе ожидания отказавшего центра. При восстановлении связи с центром он вновь включается в активную работу.

Строительство GRID, конечно, было начато для коллайдера, и работы ускорителя продолжают быть нашим главным заказчиком. Однако, кроме того, GRID используется и в других целях, когда стоит задача интенсивных вычислений. Его используют медики, геофизики, астрофизики. Проект Fusion на юге Франции, нацеленный на разработку метода получения электричества с помощью термоядерного синтеза (то есть так, как выделяется энергия на Солнце или при взрыве водородной бомбы), также будет пользоваться GRID. Кроме того, под названием CLOUD начат проект коммерциализации GRID. В рамках этого проекта небольшие компании, институты, которые нуждаются в вычислительных мощностях, но не могут себе позволить по тем или иным причинам иметь свой суперкомпьютерный центр, могут просто покупать у GRID вычислительное время.

Система GRID не является плоской, она имеет иерархическую структуру.

Самая верхняя точка иерархии — это, конечно, CERN, потому что здесь осуществляется получение информации с детекторов, сбор научных данных. Здесь записываются «сырые» данные, приходящие с детектора. Первая их копия будет храниться в CERN до конца работы эксперимента, то есть, возможно, десятки лет.

Понять, какой гигантский объем информации будет получен, поможет простой расчет. При выходе на проектную светимость (интенсивность пучка протонов) в каждую секунду будет происходить несколько миллиардов событий. Но большинство из них не представляют для физиков интереса, так как явления, которые необходимо наблюдать, происходят с небольшой вероятностью. На стадии регистрации событий система автоматически сортирует «интересные» и «неинтересные» — из миллиарда событий «интересных» находится порядка 100. Каждый файл с явлением весит порядка 1 Мб. То есть каждую секунду производится 100 Мб данных. Умножив это на 3600, получим порядка 360 Гб информации в час. Дальше — больше.

Таким образом, за первый год работы планируется собрать до 15 петабайт (тысяч терабайт) данных.

Они и записываются изначально в носителях памяти CERN. Но такой механизм хранения небезопасен — локализованные компьютеры CERN могут быть тем или иным способом одновременно выведены из строя. А данные очень ценные, и мы не можем допустить потерю данных. Для того чтобы избежать любого риска их исчезновения, вторая копия этих данных хранится где-то в другом уголке мира. Для этой задачи есть 11 центров GRID первого уровня — Tier1 (CERN — это как бы нулевой уровень). Эти центры отличаются тем, что обладают хорошими обширными ресурсами для хранения данных. Как только данные снимаются с детекторов, они начинают распределяться по этим центрам первого уровня. Они есть в Италии, Франции, Великобритании, США, на Тайване, а один центр первого уровня — CMS Tier1 — находится в CERN. Следующими в иерархии следуют более многочисленные центры второго уровня — Tier2. У них не обязательно есть крупные ресурсы для хранения данных, обычно такая задача перед ними не стоит. Зато они обладают хорошими вычислительными ресурсами, с которыми они охотно готовы поделиться. По статистике, сейчас более 85% всех вычислительных задач БАК выполняется вне CERN, из них более 50% на центрах второго уровня.

И вот центры второго уровня созданы и успешно функционируют в России.

Успешно работают центры в Дубне (ОИЯИ, Объединенный институт ядерных исследований), три центра в Москве (НИИЯФ МГУ, ФИАН, ИТЭФ — институт теоретической и экспериментальной физики), Троицке (ИЯИ, Институт ядерный исследований), Протвино (ИФВЭ, институт физики высоких энергий) и Гатчине (ПИЯФ). Кроме того, в единую сеть с этими центрами связаны и центры других стран-участниц ОИЯИ — в Харькове, Минске, Ереване, Софии и Тбилиси.

Система GRID растет и развивается, так что, возможно, не далек тот день, когда она так же будет приспособлена для практических нужд больших групп людей, как это произошло с интернетом.

(Подготовлено по материалам главного вычислительного центра CERN)

Что думаешь?