Объединенный институт ядерных исследований

ЕЖЕНЕДЕЛЬНИК
Электронная версия с 1997 года
Газета основана в ноябре 1957 года
Регистрационный № 1154
Индекс 00146
Газета выходит по пятницам
50 номеров в год

1

Номер 12 (4252) от 20 марта 2015:


№ 12 в формате pdf
 

Коллектив и его дело

Tier1: обеспечить полную надежность

B ноябре 2011 года по предложению А.А.Фурсенко на заседании Комитета по сотрудничеству Россия-ЦЕРН было принято решение о создании в России центра уровня Tier1 для экспериментов на Большом адронном коллайдере на базе НИЦ "Курчатовский институт" и ОИЯИ. 28 сентября 2012 года на заседании Наблюдательного совета проекта WLCG (грид, спроектированный в ЦЕРН и предназначенный для обработки больших объемов данных, поступающих с LHC) был одобрен план работ по созданию Tier1 в России. Сегодня, когда эти работы завершаются, к сессии Комитета полномочных представителей они будут окончены и центр Tier1 будет запущен в полномасштабном виде, - о сделанном рассказывает директор ЛИТ Владимир Васильевич КОРЕНЬКОВ.

Работы по созданию центра Tier1 для эксперимента CMS ведутся в ЛИТ ОИЯИ в течение нескольких лет. Как они были организованы?

На первом этапе был создан прототип центра, на котором апробированы различные подсистемы и программные решения. На втором этапе началось проектирование полнофункционального центра и возникло много проблем. Требования к центрам уровня Tier1 очень жесткие - 100-процентная надежность и доступность. Это предполагает, что все элементы должны быть надежны и зарезервированы, поэтому самым сложным оказалось создание надежной инженерной инфраструктуры. Когда мы стали обследовать наши системы электропитания, охлаждения, то поняли, что при функционирующих почти 40 лет структурных элементах и кабельном хозяйстве Tier1 не построить. Больше года мы проектировали и создавали новую систему бесперебойного электропитания и климат-контроля, что стало хорошим фундаментом сетевой и компьютерной инфраструктуры ОИЯИ.

В процессе проектирования наши специалисты анализировали выбор всех решений, так как у нас не должно оказаться слабых звеньев в будущей системе. Например, мы долго обсуждали, какое сетевое оборудование выбрать для нашего центра: оно должно быть надежным, масштабируемым, работать в течение нескольких даже не лет, а десятилетий. Оборудование за это время может обновляться, но в рамках уже выбранного решения. Сетевое оборудование должно справляться с постоянно увеличивающимся трафиком и наращиванием количества подключенных элементов. В результате системного анализа мы выбрали решения компании Brocade. Еще один важный элемент Tier1-центра - ленточная библиотека для архивирования и хранения данных. Главная задача Tier1 - хранение информации, и мы должны обеспечить долговременное надежное хранение информации, поэтому эта система тоже должна быть масштабируемой, эффективной и надежной в течение долгих лет. Поэтому мы провели тщательную аналитическую работу по выбору системы и остановились на оборудовании компании IBM.

И это еще не все элементы новой системы?

С другими элементами: управляющими серверами, вычислительными серверами, серверами хранения, - нам было проще делать выбор, поскольку мы уже имели достаточный опыт. И это оборудование не нужно выбирать на десятилетия, поэтому при развитии комплекса мы будем постоянно исследовать тенденции и решения, которые наиболее эффективно могут решать наши задачи и впишутся в нашу систему. Благодаря хорошим контактам со многими ведущими компаниями России и мира нам удалось получить необходимое оборудование. Практически все оно уже поставлено, сейчас ведем инсталляционные работы, чтобы запустить все оборудование и программное обеспечение. Работы находятся в завершающей стадии, и мы надеемся, что к сессии Комитета полномочных представителей они будут окончены и центр Tier1 будет запущен в полномасштабном виде. Он встретит второй запуск Большого адронного коллайдера, уже на более высокой энергии, и встанет в строй тех Tier1-центров, которые работают уже много лет.

Наладкой оборудования Tier1 занимаются инженеры ЛИТ А.С.Каменский и С.В.Марченко.

В своих докладах и сообщениях по этой теме вы неоднократно рассказывали о ходе создания прямого канала связи с ЦЕРН.

Да, это следующая проблема, которую нам необходимо было решить. И хочу подчеркнуть еще раз: из-за требований надежности и доступности мы должны иметь резервированный канал связи с ЦЕРН. Вместе с коллегами НИЦ "Курчатовский институт" велась кропотливая работа по выбору архитектуры, структуры этой сети, что привело к созданию кольца, в которое входят НИЦ "Курчатовский институт", ОИЯИ, соединенные с узлами в Амстердаме и Будапеште. Будапешт и Амстердам - это "точки присутствия" в ЦЕРН, что позволило создать два прямых канала по 10 гигабит/с для связи Tier1 в России с ЦЕРН. Пока мы работаем на скорости 10 гигабит/с, но уже обсуждаем, как ее довести до 100 гигабит в секунду.

Расскажите о формировании команды специалистов.

Работа в течение прошедших двух лет была очень напряженная. Это самая важная задача, поскольку поддержка надежного функционирования Tier1-центра должна осуществляться в круглосуточном режиме квалифицированными специалистами. Мы отбирали молодых, квалифицированных сотрудников, и команда, занимающаяся Tier1, уже составляет 15-17 человек. В нее входят специалисты в области серверного и сетевого оборудования, систем дисковых массивов и ленточных библиотек, базового и промежуточного программного обеспечения, компьютинга эксперимента CMS, который поддерживает наш Tier1. Это позволит эффективно использовать все оборудование и создаст физикам ОИЯИ, России, коллаборации RDMS CMS отличные условия для активного участия в обработке и анализе данных эксперимента CMS на Большом адронном коллайдере.

Мы не забываем и о других экспериментах на LHC: ATLAS, ALICE, LHCb, - потому что продолжаем развивать наш комплекс Tier2. Этот центр используется не только для экспериментов на LHC, но и для других экспериментов в России, Германии, Китае, и в первую очередь - для развития научной программы ОИЯИ.

Возвращаясь к Tier1-центру, надо сказать, что это не только важный проект для CMS. Это бесценный опыт создания инфраструктуры для наших новых проектов: все технологии, все наработки, которые мы использовали для создания Tier1, пригодятся, когда мы будем создавать систему хранения и обработки данных для мегапроекта NICA и других масштабных проектов.

ЦЕРН будет проверять готовность вашего центра?

ЦЕРН постоянно контролирует все центры уровня Tier1 и Tier2. Мы, можно сказать, периодически сдаем экзамены - например, в течение 24 часов нужно проверить связи со всеми остальными центрами, это так называемая сертификация канала. А с другой стороны, вся работа полностью контролируется при помощи систем мониторинга, учета, анализа, в которых отражается все, что происходит в каждом Tier1 и Tier2-центрах. О каждой проблеме тут же становится известно, потому что в Tier1, повторяю, должна быть обеспечена 100-процентная надежность и доступность. Ни к какой другой системе такие жесткие требования не предъявляются. Прототип Tier1 в ОИЯИ даже при несовершенной инженерной инфраструктуре демонстрировал хорошие показатели надежности и доступности, близкие к 100 процентам.

А опыт уже действующих Tier1-центров вы как-то использовали?

Да, конечно. Мы с коллегами постоянно общаемся, обмениваемся визитами, их опыт для нас бесценен. Я думаю, все специалисты по Tier1 составляют одну общую команду, в которой все изменения, все ошибки и прочее обсуждаются совместно. Мы работаем вместе с российскими специалистами не только из "Курчатовского института", но и из других центров, а также с системными администраторами из других стран. У нас хорошее взаимопонимание и взаимопомощь, поэтому мы не можем себе представить, как можно работать иначе. Если взять глобальную грид-инфраструктуру, то каждый элемент очень важен, и нужно, чтобы все эти инструменты звучали как хорошо сыгранный оркестр.

В.В.Кореньков и Т.А.Стриж.

Давайте назовем членов команды Tier1-центра...

По каждому направлению у нас есть так называемые "гуру", или "академики" - признанные, авторитетные специалисты. Основным архитектором системы выступает Валерий Мицын, который многие годы является ведущим специалистом в этой области. Наши "гуру" по системам хранения и ленточным библиотекам - Владимир Трофимов, по сетевой инфраструктуре - Андрей Долбилов, главный специалист по hardware - Николай Астахов, по компьютингу CMS - Сергей Шматов и Елена Тихоненко. Хочу особо отметить роль Татьяны Александровны Стриж, которая помогает в решении всех вопросов, связанных с Tier1, взяв на себя большую часть проблем. Хорошо вписался в команду помощник директора лаборатории Михаил Пляшкевич, под его контролем выполнялись работы по инженерной инфраструктуре. Нас радует, что в команду Tier1 включились молодые и перспективные специалисты Алексей Голунов, Иван Кашунин, Андрей Багинян, Илья Горбунов, Николай Войтишин, и этот список можно продолжить. Получился очень хороший сплав: есть специалисты высокого уровня, признанные не только в Институте, но и в России и в мире, есть слой опытных специалистов, которые уже проявили себя в серьезных проектах, и перспективная молодежь. Причем молодежь, попадая в нашу команду, быстро осваивается и успешно решает трудные задачи. За время работы над проектом центра Tier1 мы создали сплоченную и сильную команду, способную решать трудные задачи, и это самое важное, что мы сделали.

Ольга ТАРАНТИНА,
фото Елены ПУЗЫНИНОЙ
 


При цитировании ссылка на еженедельник обязательна.
Перепечатка материалов допускается только с согласия редакции.
Техническая поддержка -
ЛИТ ОИЯИ
   Веб-мастер