Технологии XXI века
Что такое GRID?
Когда-то, по мнению Энгельса, труд сделал из обезьяны человека. И c тех пор человек озадачен, как бы от этого труда избавиться. Не для того, чтобы вернуться к обезьянам, а чтобы удовлетворить заложенное в нем стремление к далеким мирам, желание постичь законы мироздания, обеспечить комфортное существование.
За несколько тысячелетий, начав с палки-копалки, человечество научилось перемещаться в пространстве, держать связь с любой точкой планеты, получать моментальное изображение... И теперь, похоже, пришел праздник на улицу Ученых. Интенсивно развивающаяся область GRID-технологий обещает в недалеком будущем свести усилия исследователей к творчеству в чистом виде - выработке гипотезы и правильной постановке задачи. Все остальное - определение алгоритма, поиск ресурсов, подключение инструментария, использование данных - будет делать машина. Что представляет из себя электронный GRID сейчас, каковы его история и перспективы - эти вопросы мы адресуем заместителю директора Лаборатории информационных технологий ОИЯИ профессору Владимиру Васильевичу Коренькову:
Название GRID (сеть) взято по аналогии с электрическими сетями - electric power grid. Так же как появление этих сетей в начале прошлого века привело к кардинальному изменению в использовании электрической энергии, а в последние годы Интернет и всемирная паутина WWW стандартизовали поиск и доставку документов, GRID является следующим этапом в этой цепочке революционных преобразований в сфере высоких технологий. Если попробовать сформулировать определение, GRID - это система, которая координирует использование глобальных (мировых) ресурсов при отсутствии централизованного управления этими ресурсами; использует стандартные и универсальные протоколы и интерфейсы; обеспечивает высококлассное обслуживание. Современные GRID-системы уже сейчас объединяют значительные ресурсы, расположенные в различных научных и технологических центрах, институтах, университетах мира. Они включают отдельные компьютеры, кластеры, локальные сети, суперкомпьютеры, хранилища информации, коммуникации, программные пакеты и инструментарий. Хотелось бы подчеркнуть, что на данном этапе речь идет, прежде всего, о глобализации использования ресурсов на качественно новом уровне. Степень развития GRID пока лишь позволяет существенно расширить возможности использования компьютерных ресурсов, но, как правило, не избавляет ученых от необходимости самостоятельно доводить свою задачу до уровня программного продукта - за исключением тех случаев, когда программное приложение уже разработано и внедрено в структуру GRID. Также следует понимать, что глобальные ресурсы объединяются (и эта тенденция, безусловно, будет сохранена и в дальнейшем) по направленности ведущихся исследований: крупные эксперименты физики высоких энергий, биологические разработки, медицинская диагностика и так далее. Такое объединение ресурсов в GRID называется "виртуальная организация" и соответствующим образом администрируется в среде GRID.
Сейчас в "арсенале" математиков есть метод распределенных вычислений, когда пользователи, находящиеся в различных офисах, могут работать с одним и тем же набором географически распределенных ресурсов. Чем принципиально отличается от него GRID?
GRID - это качественное развитие системы распределенных вычислений, которая основана на наиболее целесообразном использовании ресурсов. В обычной системе распределенных вычислений пользователь может работать только с теми ресурсами, где он зарегистрирован, при этом он должен точно знать, где находятся его программы и данные. В GRID пользователь получает доступ к ресурсам как специальный электронный сертификат, а эта "умная" система сама регулирует поиск свободных ресурсов, обращение к хранилищам данных в рамках своей виртуальной организации. Каждый GRID-сайт предоставляет свои ресурсы только определенным виртуальным организациям. Например, ОИЯИ заинтересован в решении задач моделирования и обработки информации с установок CMS, ATLAS, ALICE и других физических экспериментов, в решении задач биофизики, и поэтому мы предоставляем свои ресурсы этим виртуальным организациям, а сами, в свою очередь можем использовать их ресурсы - на данный момент это около ста крупных вычислительных ферм в различных научных учреждениях на разных континентах.
В связи с этим возникает вопрос о возможности несанкционированного проникновения, доступа к засекреченным данным организации.
Вопрос очень актуальный. GRID-специалисты уделяют проблеме безопасности особое внимание. Для этого используются самые современные технологии. Я уже говорил, что как все ресурсы, так и все пользователи в GRID имеют свои сертификаты - зашифрованные ключи. Расшифровать их практически невозможно, тем более что сертификаты периодически изменяются.
В физике высоких энергий ученые имеют дело с огромными массивами информации. Но вместе с тем такие научные центры, как правило, обладают и развитой компьютерной инфраструктурой. В чем для них заключается преимущество использования GRID?
В физике высоких энергий, где работа организована в рамках крупных международных коллабораций (виртуальных организаций в терминологии GRID), использование инфраструктуры GRID наиболее эффективно. Как правило, моделирование и обработка огромных массивов информации проводятся во многих центрах, а GRID-система поможет существенно расширить возможности, аккумулируя мощности десятков и сотен тысяч компьютеров, которые в это время могут простаивать.
Видимо, с этой целью и создана программа ДубнаGRID?
Да, мы хотели бы более эффективно использовать мощности компьютерного парка университета "Дубна" и компьютерные классы школ, объединенные городской информационно-образовательной сетью, не снижая эффективности образовательного процесса. Если организация располагает, например, тысячами настольных ПК, то за время их простоя потерянная производительность может изменяться терафлопами. На базе уже существующей городской инфраструктуры можно создать систему для исследования в области GRID-технологий, чтобы тиражировать этот опыт в другие регионы, обучать GRID-специалистов. Создание вычислительной инфраструктуры для развития наукоемких производств и научных исследований в городе, возможно, планируется впервые в мировой практике.
Какая страна является лидером в использовании GRID?
Буквально до недавнего времени - Америка. Американским ученым принадлежит инициатива и первенство в осуществлении этой идеи. Ее авторы - сотрудник Арагонской национальной лаборатории Чикагского университета Ян Фостер и сотрудник Института информатики Университета Южной Калифорнии Карл Кессельман. Там уже работают несколько GRID-систем, в основном они ориентированы на уникальные научные вычислительные задачи. Крупнейшая из них TeraGrid объединяет четыре суперкомпьютера - два на Восточном побережье и два на Западном, соединенных сорокагигабитными каналами связи. Проект финансируется Национальным научным фондом с бюджетом больше сотни миллионов долларов. Благодаря успешным проектам к уровню Америки в последнее время приближается и Европа. Вообще сейчас трудно назвать крупную страну, которая не участвует в процессе развития GRID-технологии.
Расскажите о европейских проектах, в которых участвуют ОИЯИ и другие российских научные центры.
Первый масштабный проект, в котором участвовали российские центры и ОИЯИ - EU DataGrid - стартовал в 2001 году и объединял организации 14 европейских стран. Его целью было создание глобальной инфраструктуры нового поколения для обработки огромных массивов информации в области физики высоких энергий, биоинформатики и системы наблюдения за Землей. От России в нем участвовали ИТЭФ (Москва), ИФВЭ (Протвино), НИИЯФ МГУ (Москва) и ОИЯИ, в отдельных проектах участвовали ПИЯФ (Гатчина) и ИПМ имени Келдыша. Именно участие в этом проекте обеспечило российским ученым знакомство и опыт работы с новейшим программным обеспечением типа GRID. Как хорошо известно, Россия активно участвует в крупнейшем международном проекте по физике высоких энергий - создании большого адронного коллайдера LHC в CERN (Швейцария). Первые экспериментальные данные планируется получить в 2007 году, к этому времени должна быть создана соответствующая информационно-вычислительная система, работа над ней уже активно ведется. Базовые параметры такие - процессорная мощность примерно 200 Терафлопс (2x1014 операций в секунду), объем дисковой памяти - десятки и сотни Петабайт (1016 байт). Информация с детекторов LHC будет направляться для обработки и анализа в региональные вычислительные центры. Реализацией этих важных задач занимается в настоящее время крупный международный проект LCG (LHC Computing Grid), который уже стал значительным полигоном для испытания GRID-технологий. В рамках этого проекта в России планируется создание мощной инфраструктуры: в НИИЯФ МГУ создан сертификационный центр, а часть компьютерных ресурсов российских центров и ОИЯИ вошли в состав нескольких виртуальных организаций. При создании LCG-сегмента наши специалисты совместно с зарубежными коллегами активно участвуют в создании программного обеспечения для среды LCG. И, наконец, в апреле начался новый европейский проект создания глобальной компьютерной инфраструктуры GRID - EGEE (Enabling Grids for E-science in Europe), доступной 24 часа в сутки. В нем участвуют 70 институтов из 28 стран мира. Согласно принятой в EGEE структуре, Россия, входит в проект в качестве одной из федераций.
И если подытожить опыт участия в этих проектах, что уже сделано для создания сети GRID в России?
Создан сегмент GRID в России, состоящий из нескольких сайтов на базе инфраструктур НИИЯФ МГУ, ИТЭФ, Курчатовского института, ИПМ им. Келдыша, ИФВЭ (Протвино), ОИЯИ. Каждая организация выполняет определенные функции и поддерживает необходимые сервисы. Российские специалисты участвуют в развитии пакетов, сервисов и служб, в тестировании нового программного обеспечения. Отрадно, что созданная в России новая инфраструктура уже нашла практическое применение, особенно для проведения сеансов массового моделирования физических событий для экспериментов физики высоких энергий (эти работы ведутся в тесном сотрудничестве с зарубежными научными центрами и по общему графику проведения таких работ).
Что можно сказать о прикладном аспекте GRID, может ли использоваться эта структура для решения таких задач?
Безусловно. GRID-технологии могут использоваться метеорологами для предсказания погоды, геофизиками - для разведки новых месторождений. В технологическом плане GRID будет очень полезен в конструкторских бюро крупных машиностроительных заводов, где конструкторы занимаются сложными термодинамическими и аэродинамическими расчетами, а также в биологии, химии и многих других областях. Вспомним как развивался Интернет. Все началось как технология совместных научных исследований, а затем эта технология была адаптирована к задачам электронного бизнеса. Аналогичная судьба ожидает и GRID: сначала научные и инженерные задачи, потом - распределенные вычисления в коммерческих приложениях, мультимедиа-приложения, сфера развлечений, использование в быту и других сферах человеческой деятельности.
Вопрос, который я хочу задать вам как профессору, заведующему кафедрой распределенных информационно-вычислительных систем Университета "Дубна". Вы не опасаетесь, что GRID оставит без работы программистов, чья профессия переживает пик популярности?
Нет, не опасаюсь. Во-первых, для развития GRID-технологий требуются профессионалы высокого уровня, а подготовка таких специалистов пока не ведется ни в одном университете. Мы сейчас пытаемся организовать стажировку и обучение специалистов на базе ОИЯИ (ЛИТ и УНЦ) и Университета "Дубна". В ближайшем будущем потребуется большое количество программистов, которые будут адаптировать различные приложения в среду GRID.
Говорить о кризисе жанра в области программирования не приходится еще и потому, что в Дубне подписано соглашение о создании Российского центра программирования. Большинство IT-компаний считают, что в России недостаточное количество профессиональных программистов, чтобы занять хорошие позиции в этой сфере международного разделения труда. Важная задача нашей кафедры в университете состоит в том, чтобы обеспечить подготовку, переподготовку и стажировку специалистов как для ОИЯИ и научной сферы в целом, так и для IT-компаний.
Галина Мялковская