О конференции CHEP’97 - Компьютинг в физике высоких энергий
В Берлине (ФРГ) в апреле проходила ежегодная конференция Компьютинг в физике высоких энергий - CHEP'97, в которой приняла участие довольно представительная делегация от ЛВТА. На прошлой неделе в лаборатории, на семинаре участники конференции поделились впечатлениями, рассказали о тенденциях развития компьютинга в физике высоких энергий.
Директор ЛВТА, профессор Р.ПОЗЕ
Из широкой области применения компьютеров в физике высоких энергий (ФВЭ) на конференции были, в основном, представлены следующие направления:
Общие замечания по основным затронутым вопросам
Прежде всего бросалось в глаза, что, по сравнению с предыдущими конференциями, существенно усилилась тенденция участия промышленности, в некоторых областях она даже доминировала. На наш взгляд, это связано с тем, что, с одной стороны, темпы развития компьютерной промышленности значительно увеличились, и там, где мы раньше вынуждены были искать собственные решения, сегодня промышленность их нам предлагает, и с другой стороны - долговечность экспериментов и их разработок в ФВЭ, участие все более широких кругов ученых из разных стран и организаций требуют высокую степень надежности, совместимости и стандартизации технических и программных составляющих. Как раз эти требования в высокой степени удовлетворяются и гарантируются промышленностью.
Следствием вышеуказанной тенденции является другая - от оригинальных разработок - к эффективному и оригинальному применению промышленных продуктов (технических и программных). Это и понятно, поскольку стандартные промышленные продукты, как правило, непосредственно не применимы к конкретным задачам экспериментальной физики и требуют определенной адаптации. Наука в целом, и, тем более, ФВЭ как одно из многих направлений науки, как правило, приносят промышленности слишком мало дохода, чтобы специально учитываться. Основным стимулом оригинальности во многих случаях является поиск наилучшего решения для высокоэффективного использования выбранного продукта.
Через все секции конференции проходила нить, которую мы называли бы распределенной работой. Эта тенденция является прямым следствием того, что ФВЭ в течение последних лет все более концентрируется вокруг больших коллабораций ученых - с одной стороны и охватывает все большие круги ученых в отдаленных университетах разных стран, с другой стороны. В этих условиях необходимо найти способы для того, чтобы каждый сотрудник мог принимать участие в научной работе, находясь на своем рабочем месте, у своего персонального компьютера. Эта тенденция особенно ярко выделялась при обсуждениях вопросов, связанных с разработкой новых экспериментов на ускорителе LHC.
Естественно, что одной из основ распределенной работы являются компьютерные сети. Вопросам работы в компьютерных сетях, использования услуг INTERNET, доступа к сетевым службам через WWW, применения языка программирования JAVA для работы с WWW была посвящена целая секция, но эта проблематика проходила в более или менее выраженной форме через все другие секции конференции. К выводам этой секции можно отнести следующие: методика видео-конференций продолжает развиваться, совместно приобретаемые и используемые технические средства могут составить растущую сферу работы, WWW используется на различных платформах и стал фундаментальным средством в ФВЭ, хорошо работающее всемирное сетевое окружение для ФВЭ стало важнее, чем когда-либо.
В ранее проведенных обсуждениях участия сотрудников ЛВТА в работах по подготовке модели компьютинга для будущих экспериментов на LHC -CMS,ATLAS - уже вырисовывалась необходимость использования новых языков программирования, как, например, С++. Одним из важных итогов конференции можно считать подтверждение перехода научной общественности ФВЭ на языки программирования, основанные на парадигме объектной ориентации (ОО), при разработке нового поколения программного обеспечения для экспериментов следующего тысячелетия. В связи с этим переходом, и с учетом распределенной работы при создании нового программного обеспечения для будущих экспериментов, все чаще встает вопрос об использовании инструментария CASE-tools (автоматизированное проектирование программного обеспечения и систем). Хотя здесь имеется еще целый ряд нерешенных вопросов и различных точек зрения, положительный опыт использования этой методологии в Европейском космическом агентстве (ESA) подсказывает целесообразность работы в этом направлении.
Первая программная система, разработанная на языке С++ для ФВЭ - это система моделирования GEANT4, которая заменяет разработанную ранее на FORTRAN систему GEANT. Опыт, полученный при этой разработке большим интернациональным коллективом, полностью оправдал надежды, вложенные в новый подход к созданию программного обеспечения на основе ОО. Сама программа широко используется при подготовке новых экспериментов, она была, пожалуй, самой цитируемой программой на CHEP'97.
Что касается самого компьютинга в классическом понимании - вычисления и хранение данных, - то на CHEP'97 предметом дискуссии были не отдельные процессоры, компьютеры или программы, а два понятия - TERAFLOP и PetaBytes, которые будут определять компьютинг для будущих экспериментов в ФВЭ. От эксперимента CMS, например, ожидается 1015 байт (1 Петабайт) экспериментальных данных в год, и для реконструкции событий и off-line обработки - в ногу с темпом получения событий - потребуется порядка 107 MIPS.
В связи с необходимостю обработки таких огромных массивов данных большими коллаборациями физиков, разбросанными по всему свету, вопросы накопления и хранения данных, а также доступа к данным приобретают исключительно важное значение. Другим важным результатом CHEP'97можно считать, что вопрос о централизованном или распределенном хранении и обработке данных с будущих экспериментов на LHC однозначно решен в пользу распределенной схемы. Представляется, что по всему миру будет распределена и связана между собой компьютерными сетями иерархическая система узлов хранения и обработки экспериментальных данных, с центральным узлом в CERN, региональными центрами в отдельных странах, локальными центрами в отдельных университетах и т.д..
Определяющими стратегию развития компьютинга в ФВЭ стали коллаборации, созданные для подготовки будущих экспериментов на LHC - CMS и ATLAS. Некоторые выводы по работам над моделью компьютинга для CMS, в частности, хорошо перекликаются с общими выводами конференции: в связи с большим сроком подготовки к экспериментам на LHC модель должна быть достаточно гибкой, чтобы учесть изменения в технологии, максимальное использование главных промышленных технологий, ОО как способ гарантии качества разрабатываемого программного обеспечения и уменьшения сложности окончательного продукта. В вопросах тактики, касающихся текущих экспериментов, по-прежнему лидирует FermiLab в Батавии. В частности, в FermiLab сейчса происходит замена морально устаревших процессорных ферм на фермы высокопроизводительных персональных компьютеров.
Традиционно на конференции были заслушаны обзорные доклады по компьютингу в известных крупных институтах и коллаборациях ФВЭ.
В связи с различными конкретными проблемами обсуждались также перспективы использования универсальных компьютеров (Main Frame), рабочих станций (Workstation) и персональных компьютеров (PК) в ФВЭ. Благодаря сильному росту мощности персональных компьютеров при доступных ценах, они привлекают к себе все большее внимание общественности ФВЭ и идея, использования распределенных кластеров ПК для обработки данных будущих экспериментов, притягивает все больше сторонников. Хорошим примером в этом отношении являются вычислительные фермы ПК в FermiLab.
В связи с последней дискуссией интересной представляется также дискуссия или противопоставление операционных систем LINUX и Windows NT. В пользу LINUX говорит то, что система свободно распространяется (GNU), поддерживается целой армией любителей, основывается на UNIX, развивается быстро. В пользу Windows NT говорит, что система недорога, поддерживается фирмой Microsoft, становится все более надежной, не основывается на UNIX, легко интегрируется в платформы и физические применения. Вопрос, по-видимому, потребует накопления дальнейшего опыта. Последний вопрос тесно переплетается с вопросом будущего использования ПК в ФВЭ, в частности, использования ферм ПК. Общее заключение конференции по этой проблематике: интересно посмотреть, что будет на следующей конференции CHEP сказано по применению ПК.
Проблемам разработки алгоритмов и математических методов обработки экспериментальных данных на этой конференции не было уделено большого внимания, за исключением сравнительно нового направления - применения моделей нейронных сетей для обработки данных.
Начальник отдела информационного обеспечения В.П.ШИРИКОВ:
Фигурально выражаясь, над всеми помещениями, где проходили пленарные доклады и заседания параллельных секций, висел лозунг "Вперед, в эру LHC" с подзаголовком "Объектно-ориентированный подход - это хорошо, это то, что нам нужно". Последнее относилось к характеристике тех программных средств, которые должны составить основу математического обеспечения вычислительной техники для решения задач физики высоких энергий уже сейчас и в ближайшем обозримом будущем. Говоря о тех основных составляющих, которыми реализуется этот объектно-ориентированный подход (ОО), докладчики и дискутировавшие имели в виду членов "большой пятерки": C++, JAVA, CORBA, OODBMS, WWW.
Языку программирования С++, предоставившему новый гибкий аппарат работы с данными как частью понятия объектов любых типов, определяемых самим программистом, однозначно предсказана судьба преемника ФОРТРАНа как универсального языка программирования. Обсуждался даже вопрос: стоит ли теперь давать представление о ФОРТРАНе студентам? Последние его версии (ФОРТРАН-90) перегружены деталями, которые могут оказаться лишними в будущей работе, сразу учить ОО-программированию в объеме курса по С++ (достаточно сложного для начинающих) - тоже проблематично... В этой ситуации апологет ФОРТРАНа в ЦЕРН, Мишель Меткалф, вместе с профессором Р.Фристи (колледж в Вентуре) и представителем фирмы Imajine1 предлагают в качестве первого курса по языкам программирования односеместровое обучение чему-то промежуточному: языку F (его формальное описание можно получить через информационную систему WWW по адресу: http://www.imaje1.com/imajine1). Конечно, "вальс устарел", но не все ученики готовы сейчас бросать ФОРТРАН и полностью переходить на новый стиль программирования для задач эры LHC: для начала пригодится многое уже написанное на ФОРТРАНе или его расширениях, этот задел можно будет при необходимости перевести и на С++ (так, по моему впечатлению, полагают многие в коллаборации для установки ATLAS на LHC).
JAVA считается упрощенным вариантом С++, но упрощение это сделано, в частности, для того, чтобы сделать язык максимально машинонезависимым и приспособленным к работе в компьютерной сети: так, чтобы пользователь-клиент JAVA-программы мог применять ее с разных системных и аппаратных платформ в сети, не внося в нее никаких изменений. На конференции высказывалось мнение, что все-таки JAVA не сможет заменить ("задавить") С++ в целом ряде сложных вычислительных применений (как когда-то ПАСКАЛЬ не смог заменить ФОРТРАН), и его экологической нишей может остаться применение в рамках информационной системы WWW, с которой он на свет и появился. На самом деле, скажем, сейчас оба этих языка применяются в изготовлении новой версии библиотек программ ЦЕРН (проект LHC++, доложенный на секции Е "Tools and Methods) как примерного эквивалента известной нам ФОРТРАН-ориентированной библиотеки CERNLIB.
CORBA (common object reqnest broker architecture) - своеобразный напарник языков JAVA и С++, облегчающий взаимодействие клиентских программ с наполнением сетевых серверов (например, обработочными пакетами, наборами данных); был придуман и предложен в качестве стандарта консорциумом OMG (Object Management Group) примерно семисот промышленных компаний; из известных предшественников CORBA считается продукт Microsoft OLE (Object Linkage and Environment).
Правда, один из участников реализации проекта ROOT (сотрудник ЛВТА В.Файн, демонстрировавший мне на одном из компьютеров около конференц-зала работу "заменителя" системы PAW, написанного на языке С++) утверждал, что ни в Java, ни в CORBA они нужды не испытывают: в С++ и так все нужное есть.
OODBMS (Object-oriented Data Base Management Systems) - сравнительно новый программный аппарат управлениями базами данных. Одно из определений объектно-ориентированной базы: "нечто (база, хранилище), предназначенное для запоминания и выборки полностью готовых к использованию объектов без приведения их к какому-то условному внутреннему формату представления". До появления этого аппарата запоминание и выборка данных была связана с применением систем управления базами (DBMS, RDBMS) типа Fox Pro, Clipper, Paradox, Access на персональных компьютерах и ORACLE, INFORMIX, SYBASE на более мощных серверах; особенно популярны были (да и сейчас пока остаются таковыми по широте распространения) реляционные базы данных (RDBMS) с языком SQL для непосредственного общения с ними из приложений (пользовательских программ). Наиболее мощные из них при своем развитии имеют тенденцию к включению в свои возможности объектно-ориентированного аппарата (например, ORACLE версии 8), однако многими считается, что это вряд ли может составить конкуренцию по полноте реализации этого аппарата базам типа ObjectStore фирмы Object Design (лидера на рынке OODBMS), Objectivity/DB, Versant и др.
Еще в 1995 году в подразделении CN (ныне IT) ЦЕРНа был начат проект RD45 по выработке рекомендаций и выбору средств работы с данными в эру LHC (его состояние докладывал Jamie Shiers на секции C "Mass Storage and Data"). Исполнители проекта особое внимание уделили коммерческим OODBMS как подходящим для реализации объектной модели, описывающей данные о событиях, регистрируемых с экспериментальных установок высоких энергий. Один из выводов доклада: "OODBMS-подход открывает возможность революционизировать нашо подход к физическому анализу - предлагая не только более эффективный доступ к данным, но также позволяя проводить более сложный анализ".
Выбор конкретной фирмы-поставщика, с продукцией которой можно было бы начинать серьезно работать, пришелся на Калифорнийскую фирму Objectivity по одной простой причине: уже с 1988 года она обслуживает таких серьезных заказчиков, как телекоммуникационные компании, а следовательно может остаться на рынке OODBMS и в тот период после 2000 года, когда LHC с его установками окажется в эксплуатационном состоянии, и поэтому OODBMS Objectivity/DB не окажется без поддержки и развития с учетом нужд CHEP. Уже сейчас некоторые пожелания об учете этих нужд направлены в фирму Objectivity и группу ODMG консорциума OMG. К концу 1997 года обещаны достаточно строгие доказательства того, что OODBMS могут удовлетворить ключевые требования типовых производственных сценариев, в частности, при моделировании и реконструкции событий для наборов данных большого объема (до 1 ТВ). Естественно, что в поддержку функционирования OODBMS нужна будет и массовая память больших объемов со своей программной системой поддержки.
Самое достойное место в "большой пятерке" занимает система WWW (WORLD-Wide Web, "всемирная паутина"). До какого-то времени мы привыкли называть ее информационной системой обмена гипертекстами, распределенными во всемирной компьютерной сети INTERNET, пока клиентские программы этой системы (browsers) не имели в своем составе интерпретаторов языка JAVA и не появилась возможность разрабатывать, загружать и выполнять программы в INTERNET (это отмечается, например, в докладе сотрудников ЛВТА А.Будника и В.Иванова на секции А "Data Analysis and Presentation"). Учитывая и то обстоятельство, что любой серьезный поставщик систем управления базами данных (а иногда и сами пользователи) обеспечивает сейчас сопряжение ("переходник", gateway) между DBMS и WWW, можно утверждать, что WWW становится универсальным интерфейсом для пользователя сети INTERNET при решении самого широкого круга проблем: от участия в компьютерной организации работы большой коллаборации до запуска своих задач на удаленной машине, слежения за их прохождением и получения результатов на свой персональный компьютер. Подобные возможности демонстрировались в докладах на секции D "Networking and Communications", таких как "World-Wide Web Interactive Remote Event Display" (проект WIRED от INFN, ИФВЭ, ЦЕРН и SLAC), "JAVA Technology and Wide Area Collaboration" (от Newport University), "WWW Oriented Remote Job Submission, Monitoring and Management" ( от Fermilab) и др.
Я еще вернусь к примерам реализаций с применением членов "большой пятерки" при кратком обзоре по секциям, заметив, что в принципе у них существует еще один серьезный партнер, упоминавшийся на конференции при обсуждении вопроса, как планировать, реализовывать и документировать сложный комплекс программного обеспечения любого крупного проекта. Такой комплекс - это продукт труда многих участников, его последующее использование не обязательно будет прерогативой всех его исполнителей с какого-то момента, как идти: от плана к программам или наоборот? Существует целый ряд автоматизированных компьютерных систем, поддерживающих технологический процесс изготовления подобных комплексов: это область, называемая "Software engineering". Примером такой системы может служить StP (Software through Pictures), на использование которой ориентируется коллаборация ATLAS. Мнения об их роли были разные. Я обратил внимание на одну фразу доктора Бауердика (DESY) при подведении итогов работы секции E "Tools and Methods, которая прозвучала примерно так: "что-то с этими средствами не все понятно, есть какой-то элемент разочарования, возможно из-за недостаточной поддержки".
На секциях приводилось достаточно много примеров реального применения объектно-ориентированного подхода ("членов большой пятерки"). Так, по секции A "Data Analysis and Presentation" в докладе Adesanya от ЦЕРН отмечалась неудовлетворенность традиционными программными средствами для задач в области гистопрограммирования, поэтому была начата реализация проекта по созданию нового пакета программ на языке C++ с применением OODBMS Objectivity/DB для размещения и использования гистограмм как объектов;
в докладе Johnson (SLAC) описан прототип пакета программ на языке JAVA для распределенного анализа данных: физик может писать и отлаживать программу анализа на своей персональной машине через графический интерфейс (GUI), передавать ее на удаленный сервер с данными, запускать ее там и получать результаты для представления на экране своей машины с помощью того же интерфейса;
в докладе Schaffner (SLAC) характеризовалось использование C++ для создания программного обеспечения для off-line реконструкции событий в эксперименте BaBar;
чем-то похожие задачи (но включая и проблему реконструкции в режиме on-line) решались с использованием смеси языков программирования (ФОРТРАН, C и C++) для эксперимента HERA-B (доклад от DESY);
реализации функций HIGZ (High Level Interface to Graphycs) в среде WWW с использованием языков C++ и Java был посвящен уже упоминавшийся постерный доклад А.Будника и В.Иванова (ЛВТА ОИЯИ).
В секции B, посвященной системам регистрации данных (DAQ) и управления для экспериментальных установок, в общем докладе об объектно-ориентированной структуре для проектирования систем управления экспериментальными установками достаточно ясно изложена идея этой структуры: установка (или ее модель) рассматривается как набор объектов, каждый из которых представляет либо какую-то часть аппаратуры (ее программную модель), либо кусок программного обеспечения, выполняющего определенную функцию (например, сброс данных в компьютер, фильтр и т.п.); взаимодействие всех объектов организуется через систему команд, посылаемых блоку переключения (программному тригеру) действий объектов. В этой схеме объект - это по существу конечный автомат ("черный ящик" с определенными данными на входе и выходе). В материалах секции B достаточно много сообщений, уточняющих детали реализации подобных структур для экспериментов ATLAS, CMS, ALICE; во многих из этих сообщений поминаются те же JAVA, C++, Objectivity/DB, CORBA ...
О секции C я уже упоминал в связи с проектом RD45 (выбор подходящих систем управления базами данных), и сейчас отмечу дополнительно только один доклад, представленный японскими авторами из нескольких центров (в том числе KEK): по исследованию использования OODB для анализа данных в HEP-эксперименте. Авторы сравнили производительность системы обработки DST-данных фортрано-ориентированным программным обеспечением, когда сами данные запоминались в традиционного типа базе данных, с аналогичной системой, написанной на языке C++ и использовавшей базу Objectivity/DB, и сделали однозначный вывод в пользу этого аналога. За основу брались данные и программное обеспечение для эксперимента AMY в TRISTANe.
Естественно, что на конференции обсуждались и проблемы выбора вычислительной техники для задач эры LHC: типовых компьютеров для рабочих мест и серверов общего пользования, наиболее подходящих для решения проблем физики высоких энергий. Достаточно много внимания этому уделялось и в пленарных докладах, и на секциях, особенно секции F "Large Systems and Specific Solutions" и секции G "Commodity Hardware and Software". Ни у кого не вызывало сомнения, что машины класса PC будут основой оборудования рабочих мест: (спорили только о том, выживет ли для них операционная система LINUX или ее вытеснит Windows/NT (сейчас пока выбирают по принципу "кому нравится поп, а кому попадья").
Что касается мощных вычислительных серверов, то обсуждались многопроцессорные параллельные комплексы разных фирм (SGI, HP/CRAY, DEC...). Поминалась, в частности, машина COLUMBIA как одна из наиболее подходящих (как сейчас кажется): хорошая поддержка векторных операций, быстрые дисковые и сетевые средства. ЦЕРНовцы в вопросах выбора идут единственно оправданным путем: берут какой-то тестовый комплект наиболее важных программ из своей сферы деятельности и гоняют на разных машинах. Этим спортом уже давно занимается Эрик Макинтош, пять лет назад подаривший мне копию своего труда "Benchmarking Computers for HEP": в нем приведены сравнительные данные примерно для 100 машин, от DECVAX 8200 до H-P 9000/735. Сейчас его интерес сконцентрирован на установках параллельного типа, на секции F был представлен его доклад "Parallel Processing - Today and Tomorrow", на его исследования были ссылки в ряде сообщений.
Наконец, последнее замечание. Все чаще на разных конференциях, в том числе и на CHEP'97, демонстрируются возможности организации видеоконференций. Так, на секции D было несколько докладов по этому поводу, где отмечалась их насущная повседневная потребность для членов международных коллабораций по проектам сегодняшних и будущих экспериментов. Есть уже некоторый опыт в этом деле, например, у коллаборации CMS с использованием мультимедийной виртуальной сети MBONE. Кстати, MBONE использовалась только что на международной конференции по высокоскоростным телекоммуникациям в науке и образовании, проходившей 17-18 июня в Москве и объединившийся с конференциями "Global Networking" в Калгари (Канада) и "Networking Interoperability" в Мадере (Португалия), с трансляцией в режиме реального времени по INTERNET в Новосибирск, Новгород, Ярославль, Владикавказ, Челябинск.
Практика организации видеоконференций быстро расширяется, преодолевая проблемы недостаточно высокой пропускной способности каналов связи или несовершенство программного обеспечения, так что не исключено, что во время проведения CHEP'98 уже не попьешь пивка с Эриком Макинтошем в перерывах между докладами... Вот это - одно из нехороших последствий прогресса.
Научный сотрудник А.Б.РЫБАЛКИН:
Моя информация - о поддержке Windows NT в физических центрах.
Значительное падение стоимости персональных компьютеров и увеличение их производительности до уровня рабочих станций делают реальным использование PC в качестве рабочих мест и вычислительной базы для физических экспериментов и обработки данных. Удобный графический интерфейс и наличие встроенных возможностей (во многом эквивалентных OS Unix) привлекают все большее внимание к Windows NT как к перспективной операционной системе для использования в физических центрах. Благодаря усилиям корпорации Microsoft и ряда независимых поставщиков программного обеспечения по внедрению и стандартизации новых технологий на рынке операционных систем и программного обеспечения, Windows NT начинает становиться (и скорее всего станет) операционной системой массового использования для персональных компьютеров.
Что это значит применительно к физическим центрам? Физики - тоже люди. Уже сейчас Windows NT вызывает широкий интерес пользователей в целом ряде физических центров, и его популярность стремительно увеличивается. А это значит, что Windows NT будет постепенно вытеснять с персональных компьютеров такие "знакомые"операционные системы, как MS DOS и MS Windows и "переходный образец" Windows 95. Что это несет? Наряду с несомненно заметным количеством "улучшений" и новых возможностей по сравнению со своими предшественниками от Microsoft, Windows NT также (благодаря своей сложности) является наиболее трудоемкой в смысле затрат времени и специальных знаний операционной системой для установки, администрирования и поддержки. И к этому надо быть готовым...
На конференции CHEP'97 было представлено несколько докладов, посвященных проблемам (и путям их решения), возникающим при поддержке многочисленных установок Windows NT и их интеграции в уже существующие инфраструктуры различных физических центров. В докладах рассматривались различные концепции и подходы как к выбору стратегического направления на поддержку инфраструктуры Windows NT (централизованное управление, разделение полномочий или компромисные решения), так и к выбору программных средств для реализации этих решений.
Для чего нужны централизованная поддержка и сопровождение Windows NT в физических центрах? В первую очередь, чтобы снять с конечных пользователей все заботы и затраты, которые в настоящее время связаны с интеграцией PC в сеть, установкой и сопровождением (в том числе и обновлением) наиболее распространенных и популярных программных продуктов, восстановлением информации в случае ошибок пользователей или поломки оборудования. При централизованном подходе все заботы решаются не за счет пользователей, а небольшой группой подготовленных специалистов при использовании специализированного программного обеспечения. Основные дискуссии, по мнению автора, в выступлениях на CHEP'97 были посвящены именно выбору программного обеспечения, облегчающего централизованную поддержку Windows NT. Рассматривались различные альтернативы, от ориентации на полностью коммерческие решения до разработки полностью "своего" окружения, отвечающего нуждам конкретного физического центра. Однако по крайней мере в одном все выступающие были едины - реализация работ в этой области предоставляет пользователям физических центров возможность работать в хорошо организованной среде с богатым выбором возможностей, отвечающей современным требованиям и открытой к технологиям будущего.
Научный сотрудник А.Д.БУДНИК:
Два направления, если можно их так назвать, заинтересовали меня в докладах, представленных на CHEP'97. Заинтересованность объясняется тем, что работая в ОИЯИ я имею дело с тем же. Два направления: первое - язык программирования JAVA или JAVA как концепция в HEP, и, второе - использование PC в HEP и выбор операционной системы.
JAVA появилась совсем недавно (анонсирована Sun Microsystem в октябре 1995). Как язык Java базируется на известном и проверенном языке C++, однако содержит некоторые расширения и усовершенствования. На мой взгляд JAVA является языком программирования (C++ более 10 лет - пора внести какие-то изменения). Однако, как мне кажется, JAVA не является заменой языкам типа C++ там, где речь касается расчетов, обработки и всего того, с чем в HEP работают на протяжении десятилетий. Многое, еще должно измениться в мире компьютеров, прежде чем JAVA вытеснит C++, на это потребуется несколько лет (если еще учесть, что за эти несколько лет ситуация может измениться коренным образом...). Так почему же тогда так много слов сказано про этот язык? Ответ может быть прост - JAVA как концепция содержит все необходимое, чтобы писать, а затем и выполнять программы в среде WWW. Популярность WWW добавляет очки в пользу JAVA. Теперь собственно что касается конференции CHEP'97. Слово Java упоминается в материалах очень часто, однако по материалам конференции трудно выделить какие-то направления использования JAVA. На мой взгляд HEP сообщество находится сейчас в поиске этих направлений и представлений. Доклады выглядят как эксперименты по использованию JAVA. Одно является общим в поддтверждение сказанных ранее слов - везде JAVA соседствует с WWW.
PC имеют более 20 лет истории и претерпели за это время существенные изменения. Если совсем недавно это был инструмент для персональной работы (Personal Computer) и несложных вычислений, то теперь это компьютер на котором может быть записана многопользовательская операционная система, превращающая PC в мощный инструмент коллективной работы и HEP обработки. Недорогие PC обладают теперь возможностями дорогих рабочих станций типа Sun или Alpha. Если компьютер выбран, возникает вопрос о выборе операционной системы. Критериев здесь может быть несколько. Одним из важных (в одном из докладов) называется наличие привычных для HEP сообщества средств программирования, таких например, как PAW и CERNLIB.
Официальные версии CERNLIB и PAW существуют только для двух операционных систем PC - это WINDOWS NT и LINUX. По моей оценке, чаще всего в докладах встречается упоминание о Windows NT, на втором месте стоит Linux, дальше FreeSD - только один раз и в общем все. Так что если речь в работах заходит о выборе операционной системы - то выбирают между NT и Linux. Так на каком основании сделать предпочтение? Можно выделить два аспекта сравнения: сравнение производительности и сравнение возможностей. Сравнение производительности проводится в двух независимых работах. Результаты противоречивые. Например, сравнение скорости работы сети - в одном случае значительно лучше NT, в другом - все наоборот. Сравнение по производительности процессора дает примерно равные результаты. Складывается мнение, что производительность реально не является критерием выбора. Так что, на счет возможностей? Приведу некоторые сравнения Windows NT и Linux , собранные по материалам конференции:
1) NT - это коммерческий продукт от которого вы вправе ожидать стабильности, поддержки производителя и т.п., тогда как Linux является свободно распространяемой системой и никто вам не гарантирует ее работу.
2) Linux - это свободная система, и она достанется вам бесплатно, как и все ее новые версии, а NT - коммерческий продукт, который стоит денег и денег также стоят любые новые его версии.
3) NT имеет доступные по цене качественные программы такие например, как MS Office , а Linux не имеет MS Office (по опыту это один из немногих кирпичиков, которых ему не достает). Однако, имеется TEX, который по качеству получаемых документов, пожалуй, превосходит MS, но требует существенно больше затрат на создание документов.
4) Linux - это POSIX standart UNIX. Программы, написанные на других Unix, в том числе на коммерческих, в общем случае легко переносятся на Linux (обратное тоже действительно), тогда как NT совершенно нечто особенное, перенос программ в общем случае непрост.
5) Linux вы можете взять в исходных текстах и внести нужные вам изменения (например, написать драйвер для КАМАК), что делает его более гибким, но врядли у вас есть шанс получить NT в исходных текстах, чтобы вносить в него изменения.
6) Linux имеет систему X Window, которая позволяет в равных условиях работать на одном компьютере сразу нескольким пользователям (например, запускать PAW) , тогда как в NT удаленный пользователь имеет ограниченные возможности (например, не может запустить PAW).
На мой взгляд это основные различия, хотя реально их много больше и выбор операционной системы всегда за пользователем.
Профессор Г.А. Ососков:
Наш доклад на конференции CHEP`97 был посвящен проблеме разрешени перекрывающихся сигналов в современных дискретных детекторах физики высоких энергий. Эту задачу мы исследовали на примере данных взаимодействия ионов свинца, зарегистрированных в эксперименте NA-45 на установке CERES в ЦЕРНе. Высокая множественность событий (до 1500 треков вторичных частиц) приводила к тому, что 30% сигналов в силиконовых дрейфовых камерах (SiDC) установки перекрывали друг друга. При этом значительно ухудшалась точность целеуказаний для последующего обнаружения колец черенковского излучения, регистрируемых в двух основных детекторах типа RICH.
Параметрические методы подгонки сигналов по данным SiDC - измерений, развитые в ЛВТА совместно с физиками ЛВЭ и Института ядерной физики им. М.Планка (MPI) в Гейдельберге, позволяют достаточно быстро и точно определять положение и амплитуду как одиночного, так и двух перекрывающихся сигналов (см. сообщение ОИЯИ Е10-97-105). Тем не менее, когда в прошлом году с.н.с. Е.Л.Косарев из Института физпроблем им. П.Капицы защитил в ЛВТА докторскую диссертацию, посвященную новому непараметрическому подходу к подобным задачам, возникла идея включить этот подход в общую программу, для повышения ее надежности. Метод Косарева называется непараметрическим, т.к. в нем не предполагается знания числа и параметров сигналов. Требуется только знание формы аппаратной функции регистрирующего прибора. После этого итеративным путем решается интегральное уравнение первого рода, связывающее данные измерений с возможными шумами аппаратуры и оцифровки, аппаратную функцию и искомую входную функцию, т.е. место входа в детектор и заряда частиц. Точность при этом, естественно, не могла быть выше той, что могли дать параметрические методы, но оказывалась достаточной, чтобы определить число сигналов и приблизительно оценить их параметры. Такая информация позволяла снять все сложности, возникающие иногда при параметрическом подходе.
Для завершения этих исследований меня вместе с Е.А.Колгановой пригласили в MPI (Гейдельберг), где и разрабатывался вершинный силиконовый детектор для установки CEPES. Нам с Леной Колгановой удалось адаптировать метод Косарева для совместной работы с нашими параметрическими алгоритмами и получить сравнительные точностные и временные оценки. Общаясь с Косаревым по электронной почте, мы смогли даже получить вывод наилучшей достижимой точности разрешения сигналов с помощью теоремы Крамера-Рао.
Наш доклад, где излагались результаты этих исследований, был принят на конференцию CHEP`97 в секцию анализа и представления данных. Когда выяснилось, что главный докладчик Е.Л.Косарев поехать в Берлин не сможет, то устроители конференции, узнав, что я нахожусь в Германии, любезно пригласили меня сделать доклад вместо него.
Я смог пробыть на конференции только три дня, так как в отличие от остальной публики участвовал в ней за свой счет. Однако и эти три дня оказались для меня весьма полезными и информативными. Я уже бывал на конференции CHEP`92 пять лет назад и думал, что представляю атмосферу подобного сборища. Однако все оказалось непохожим на 1992 год. Главное отличие было в том, что основной акцент полностью сместился с методов и алгоритмов распознавания событий и прослеживания треков на вопросы организации вычислений в больших системах массовой обработки, то есть на манипуляции большими массивами данных с привлечением ИНТЕРНЕТа, и на использование объектно-ориентированных языков и баз данных. На "моей" секции А (Анализ и представления данных) прозвучала серия докладов, в которых было показано, что, например, в языке С++ треки и события можно определить как классы этого языка, так что в дальнейшем сам компилятор при трансляции будет заботиться о правильном представлении этих классов и операциях над ними. Среди таких докладов можно отметить, например «Гистограммы как объекты»; «О распределенном анализе данных на языке JAVA»; «ОО алгоритм поиска треков с использование фильтра Калмана»; «ОО-распознавание треков и вершин»; «ОО подход к подгонки вершин» и так далее.
В одном из докладов конструируются даже классы распадов частиц, что весьма упрощает анализ данных.
Введенная нумерация позволила легко найти тот или иной доклад в трудах конференции, изданных заранее и врученных нам при регистрации. Это пример отличной организации CHEP`97, хотя ее организаторам выпало очень сложное испытание: Шененбергская ратуша в Западном Берлине, где все было подготовлено к началу конференции, внезапно загорелась сразу в двух местах ночью за десять дней до ее начала и выгорела настолько, что пришлось конференцию срочно переносить. Проходила она в итоге в бывшей штаб квартире ШТАЗИ - печально известной секретной полиции бывшей ГДР, здание которой теперь стало Лихтенбергским центром конгрессов. Здание очень хорошо переоборудовано: просторный зал для пленарных совещаний, удобные аудитории для шести параллельных секций и большой холл, где одновременно шла выставка новой компьютерной техники, висели постерные доклады, стояло 30 персоналок для демонстрации прикладных программ, а также для быстрой связи участников конференции по ИНТЕРНЕТу со своими институтами. Там же разместилась и столовая. Замечу, кстати, что на одной из персоналок Валера Файн, ("наш человек в ЦЕРНе"), поставил систему С++ программ ROOT, осуществляющую быструю статобработку и графическое представление самых разных типов экспериментальных данных. Я был приятно удивлен, когда он смог лихо и без проблем подогнать сумму гауссианов к моим сдвоенным сигналам.
Возвращаясь к научной стороне конференции, отмечу еще доклады, заинтересовавшие меня тем, что в них шла речь именно о математических методах и алгоритмах той части обработки данных ФВЭ, которой я занимаюсь много лет, - о реконструкции событий по данным измерениям. В докладе Р.Епеса (Хьюстон, США) рассказывалось об оригинальном методе быстрого распознавания треков частиц в магнитном поле, путем конформного отображения измерений в пространство с координатами, являющимися физическими параметрами трека. Я очень ждал встречи с Катей Петта (INFN, Катанья) автором доклада по близкой мне тематике анализа данных силиконовых дрейфовых детекторов с помощью так называемых нечетких (fuzzy) множеств. Однако, она не приехала, придется искать ее по ИНТЕРНЕТу, так как применение подхода с такими нечеткими логиками выглядит очень перспективным в первичной обработке данных. Обстоятельное сравнение трех совершенно различных методов распознавания мезонных треков в эксперименте HEPA-B сделал Р.Манкель из университета им.Гумбольта (Берлин). В ситуации с очень большим числом треков, детектируемых системой дрейфовых трубок, сравнивались прослеживание треков по Калману, гистограммирование и нейронные сети Хопфильда. Прослеживание оказалось быстрее и эффективнее, особенно в сравнении с нейронными сетями.
Замечу, однако, что интерес к нейронным сетям не угасает, но к другим, прямоточным, многослойным персентронам (МСП), которые в виде специальных нейрочипов используются главным образом в триггерах второго уровня. Мне, в частности, показался очень интересным доклад итальянской группы Г.Теччиолии о применении в ФВЭ нейрочипа ТОТЕМ, в котором реализован новый способ обучения МСП с помощью нового метода RTS (reactve taby search), который оказывается более устойчивым при грубом вычислении весов, чем всюду применяемый метод обратного распространения ошибок.
В заключение отмечу два доклада, привлекшие общий интерес дубненской делегации:
- Доклад Ханса Фрезе об опыте использования WWW для ФВЭ странами бывшего Советского Союза. К моему сожалению, Дубна не была упомянута в этом докладе, так как ОИЯИ не входил в число институтов, получавших поддержку для осуществления этого проекта.
- Любопытный пленарный доклад Симона Левина из Англии о перспективах развития персональных ЭВМ вплоть до 2010 года. Доклад не вошел в труды конференции, но я записал его на видеофильм, так что его можно будет показать для желающих.