Объединенный институт ядерных исследований

ЕЖЕНЕДЕЛЬНИК
Электронная версия с 1997 года
Газета основана в ноябре 1957 года
Регистрационный № 1154
Индекс 00146
Газета выходит по пятницам
50 номеров в год

1

Номер 40 (4230) от 24 октября 2014 г.


№ 40 в формате pdf
 

Конференции

В рамках четвертой парадигмы

С 13 по 16 октября в ЛИТ ОИЯИ работала Всероссийская научная конференция "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" RCDL-2014. Конференция собрала около 80 специалистов из ведущих в этой области российских центров - Института проблем информатики, Института программных систем, Института системных исследований и других, преподавателей и аспирантов МГУ, СПбГУ, МИФИ, Ярославского госуниверситета, специалистов из Великобритании, Индии, Казахстана, Украины, Франции и ОИЯИ. На конференцию были отобраны 50 докладов и сообщений, для аспирантов и молодых ученых работал специальный диссертационный семинар. Что такое электронные библиотеки сегодня, рассказывают участники конференции.

В.В.Кореньков (ЛИТ): Мы принимаем Всероссийскую конференцию по электронным библиотекам уже в третий раз. В ОИЯИ эта конференция проходила в 2002, 2008 и в 2014 годах, то есть получился шестилетний цикл. Шесть лет для электронных библиотек - большой срок, целая жизнь. За это время изменились и парадигмы, и направления развития. Шесть лет назад еще не было понятия больших данных, которые появились совсем недавно, а сейчас это один из основных трендов развития информационных технологий.

Эта конференция затрагивает широкий пласт проблем, связанных с организацией хранения, доступа к электронным мультимедийным библиотекам, в которых присутствует большое разнообразие форматов информации, а не только строго структурированная информация. Когда мы говорим о структурированной, частично структурированной и неструктурированной информации, то обеспечение целостности, быстрого доступа и выборки информации - эти задачи становятся с каждым днем все более актуальными. Мы тоже занимаемся этими проблемами на разных уровнях - это связано с обработкой и хранением большого объема данных, получаемых в мегапроектах LHC и в других проектах, и не только. Мы занимаемся электронными библиотеками, различными порталами, в том числе мультимедийными, поэтому задач в этой области очень много. Кроме научной информации, есть еще много другой, которую нужно обрабатывать и хранить, - это государственное управление в экономике, медицине, сельском хозяйстве и других сферах деятельности, здесь как раз огромный фронт работ, и те, кто занимается научными данными, должны помочь привести в соответствие информацию в других сферах деятельности.

Наша конференция проводится на высоком уровне, с широким представительством российских научных центров, есть приглашенные гости из-за рубежа. Семантический поиск, проблемы больших данных, проблемы защиты информации - тематика разнообразная и особенно важная для молодежи. У нас организована специальная секция, где будут выступать аспиранты, а маститые ученые - слушать выступления молодых коллег с их новыми идеями, новыми подходами.

В.Б.Барахнин (Институт вычислительных технологий СО РАН, Новосибирск): Конференции по электронным библиотекам организуются с конца 1990-х годов, сегодня мы встречаемся в 16-й раз, а в Дубне - в третий. Прослеживая динамику за прошедшие 15 лет, можно увидеть, как развивалась отечественная информатика. Понятно, что развиваются компьютерные мощности, и как следствие ставятся все более сложные задачи, развиваются все более мощные информационные системы, позволяющие обрабатывать все более крупные объемы информации. Ясно, что информация в большом объеме накапливалась и в доинтернетовскую эпоху, но только современные технологии - облака, мощные серверы - позволяют создавать системы, с одной стороны, обрабатывающие базы данных с миллионами и десятками миллионов записей, а с другой стороны, писать к ним программный инструментарий со все более усложняющимися алгоритмами.

Сейчас речь уже идет о семантическом поиске: машина в той или иной степени обучается восприятию конструкций естественного языка - не просто шаблонов из отдельных слов, но именно конструкций, пониманию смысла. Учитывая ее мощность, исследователь получает возможность анализировать большие корпуса текста автоматически и получать какие-то новые знания.

Вы сотрудничаете в этой области с коллегами из ЛИТ ОИЯИ?

Нет, но мы всегда с интересом слушаем доклады сотрудников ЛИТ, потому что эксперименты на ускорителях порождают огромные объемы информации. Давайте вспомним, как на LHC искали бозон Хиггса - генерировались огромные объемы данных и чуть ли не методом аутсорсинга эти объемы обрабатывались, чтобы найти то сочетание данных, которое и соответствовало искомому бозону. Любой ускоритель порождает огромное количество данных, они должны накапливаться, быть доступны широкому кругу исследователей, поэтому для ОИЯИ эта тематика имеет большое значение. В других институтах - свои нюансы: биологи, например, размещают в сети свои коллекции, гуманитарии свои, размещаются музейные коллекции, кто-то занимается информационно-поисковыми системами, формализацией данных.

Конференция объединяет специалистов из разных областей, довольно далеких друг от друга...

На конференции мы работаем по секциям и, конечно, некоторые области довольно далеки друг от друга, но всегда есть общие проблемы - это организация больших баз данных и алгоритмы. Хотя понятно, что в каждом классе задач есть своя специфика: хранение цифровых данных, как это бывает у физиков и астрономов, или это обработка семантической информации, сейчас актуальны исследования, в том числе, и блогосферы. В программе заявлен доклад наших коллег с Украины и из Петербурга с анализом представления информации о Евромайдане в социальных сетях. Все это делается под разными углами, иногда - в рамках предупреждения террористической деятельности, такие исследования ведутся и в России, в частности в Институте системного анализа РАН, другие работы, судя по библиографии, делаются из сочувствия движению и представляют собой своеобразный пиар. Тем не менее, коль скоро такой феномен, как социальные сети, существует и коль скоро они используются в политической жизни, то и они становятся предметом исследований.

Чего вы ждете от этой конференции?

Конференция - это всегда обмен идеями, никогда не знаешь заранее, что услышишь, если бы можно заранее предсказать, то достаточно было бы прочитать сборник трудов конференции в сети. Здесь именно в процессе живого общения, контактов между учеными рождаются новые интересные идеи, возникает сотрудничество между коллективами из разных городов и даже из разных стран.

М.Р.Когаловский (Институт проблем рынка РАН, Москва): В центре интернет-регулирования, в котором я работаю, в отделении общественных наук РАН уже более 15 лет действует система, которая поддерживает ресурсы практически всех институтов отделения. Система построена по открытым международным стандартам, она интегрирует свои ресурсы в крупнейшую международную информационную систему по общественным, в основном, наукам, но там есть и математика, физика. Мой институт тоже пользуется ресурсами этой системы, мы поддерживаем свою электронную библиотеку, в системе ведется статистика, по которой видно, какие наши работы пользуются спросом у читателей библиотеки. Ну а кроме того вместе с создателем этой системы Сергеем Ивановичем Париновым, который разрабатывал ее еще в Новосибирском академгородке, а сейчас работает в Москве, мы совершенствуем эту систему, которая теперь обладает новыми интересными функциональными возможностями. И об этом - наш доклад на конференции.

А как сопредседатель программного комитета должен сказать, что мы уже третий раз собираемся в гостеприимной Дубне, в Лаборатории информационных технологий, большую помощь в организации нам оказывает Владимир Васильевич Кореньков и его команда. Конференция уже 16-я, это ее совершеннолетие, и я надеюсь, все пройдет благополучно.

Как за время проведения конференции изменилась ее тематика?

Тематика меняется следующим образом: если первоначально, когда электронные библиотеки создавались, поддерживались как ресурсы в основном научные публикации, то со временем в мире электронные библиотеки все больше работают с разнородными ресурсами, в том числе с научными данными, с мультимедийными данными, геоданными - в общем, поддерживают данные самой разной природы. А технологии электронных библиотек впитывают все, что в области информационных технологий нарабатывается, - здесь и распределенные системы, и большие данные, и все что угодно.

Кроме того, значительно меняется парадигма научных исследований, сейчас говорят о четвертой - когда работа с данными становится ключевым звеном в научных исследованиях, поэтому и возникли большие данные, анализ данных, - довольно сложные задачи, где активно используются разные разделы математики. Второе, что очень важно, что стало особенно развиваться в последние годы, - работа со смыслом данных, с их семантикой. И то, что на этот счет наработано в лингвистике, очень активно применяется в электронных библиотеках, и это можно увидеть в программах наших последних конференций, в том числе и на этой.

В.В.Ежела (ИФВЭ, Протвино): Здесь хорошая площадка для обсуждения проблем обмена научной информацией, которые были представлены в докладах разного уровня. Я услышал около десяти блестящих докладов, которые нужно просто изучать и из которых я что-то возьму для использования в своей работе. Я считаю, эта конференция очень полезна, особенно для молодых людей, работающих в области информатики, в области пересечения фундаментальной науки, информатики и метрологии, а таких специалистов у нас не готовят. Для того чтобы они появились, надо много чего сделать в смысле гармонизации метрологической системы РФ, в технологиях электронных публикаций и в сопряжении фундаментальных исследований с информационными потоками, которые становятся все более и более масштабными, и нужны все более эффективные технологии, чтобы их быстро осваивать и внедрять в практику. Нужны новые специальности. Какие? Например, физик-систематик, биофизик-систематик, а если молодой специалист математик, то должен быть готов к тому, что может быть вовлечен в работу по модернизации метрологической системы.

Современные электронные технологии публикации научных работ унаследовали все препятствия, которые сопутствовали бумажной технологии. И, казалось бы, нужно уже и стандарты перестроить, но перестраиваются они очень медленно. Мой личный призыв: нужны новые специалисты, которые могли бы стать соучастниками процесса гармонизации метрологической, научной и издательской систем для того, чтобы повысить эффективность использования новых наработок, создаваемых неимоверным трудом экспериментаторов и теоретиков.

Ольга ТАРАНТИНА,
фото Елены ПУЗЫНИНОЙ
 


Техническая поддержка - ЛИТ ОИЯИ Веб-мастер