Электронные библиотеки

 

Электронные библиотеки - 2002 - Том 5 - Выпуск 5


Электронная библиотека в понятийной сети как результат эволюции информационной системы проекта

Жучков А.В.,(1,2) Твердохлебов Н.В.,(1) Арнаутов С.А.,(1) Голицын С.В. (2)
(1)Институт химической физики им. Н.Н. Семенова РАН,
(2)Автономная некоммерческая организация
«Телекоммуникационный центр «Наука и общество»


Введение

Стремительное развитие глобальных информационно-вычислительных сетей ведет к изменению фундаментальных парадигм обработки данных. Их можно охарактеризовать, с одной стороны, как переход к исключительно распределенной схеме создания, поддержания и хранения ресурсов, а с другой – как стремление к виртуальному единству посредством предоставления свободного доступа к любым ресурсам сети через ограниченной число «точек доступа» (например, порталов).

При этом мы, вслед за [1] предполагаем, что для решения тех или иных проблем разного уровня будут динамически создаваться т.н. «понятийные сети» (knowledge networks).

Термин "понятийная сеть"  можно определить, как совокупность информационных ресурсов, знания и экспертов по определенной дисциплине, которые совместно с пользователями анализируют и решают различные проблемы с применением компьютерных технологий. Инфраструктура включает программно-аппаратную и сетевую компоненты, специализированный информационно-ориентированный программный комплекс, модели и соответствующие приложения. Знания (обычно в форме т.н. «баз знаний») представлены, в том числе, гипотезами (прогнозами) о возможных эффектах (например, о влиянии способов получения вакцин на отклик иммунной системы) и интерпретацией существующих данных (например, данных биохимических анализов). В случае научных сетей в число экспертов должны входить как профильные специалисты, так и специалисты в области информационных технологий, призванные организовать и обеспечить обработку информации.

В архитектуре понятийной сети необходимы высокоавтоматизированные комплексы, предназначенные для "аннотированного хранения" данных, причем их пользователем может быть как человек, так и приложение на удаленном компьютере. В своей работе мы рассматриваем в качестве такого «хранилища знаний» электронные библиотеки (ЭБ).

Важно отметить, что понятийные сети и федеративные цифровые библиотеки можно рассматривать и как примеры именно виртуальных организаций: большая часть компонентов находится в разных местах и при выполнении иных задач может функционировать независимо, интероперабельность достигается использованием согласованного набора протоколов и сервисов, а виртуальное единство обеспечивается, прежде всего, за счет единого интерфейса и единого администрирования и базируется на сходном понимании целей и задач.

В контексте европейского интеграционного процесса по развитию единой динамической среды распределенных ресурсов (ЕСР, «грид» [*] ) [2-5] в России проводится определенная работа по созданию национального междисциплинарного сегмента, призванного стать инструментом в решении сложных проблем физики, химии, биологии и медицины [6-7].

Работа по построению программной и организационной структуры российского сегмента грид и тестированию предлагаемых решений включает несколько основных направлений, среди них [8]:

  • метакомпьютинг – решение ресурсоёмких вычислительных задач средствами и инструментами ЕСР;
  • предоставление грид-сервисов посредством специализированного портала заинтересованным пользователям (прежде всего, из научных организаций);
  • изучение возможностей создания понятийных сетей.

В настоящем сообщении в контексте создания прообраза иммунологической понятийной сети обсуждается проблема информационного обеспечения фундаментальных и прикладных научных исследований в ходе выполнения межведомственной научно-технической программы «Вакцины нового поколения и медицинские диагностические системы будущего» [6]. Важнейшим компонентом такой сети должна стать электронная библиотека, обеспечивающая эффективный сбор, хранение и публикацию информации, а также развитый набор всех необходимых сервисов.

Описано текущее состояние системы [9].

Концепция построения информационной подсистемы

В основу нашего подхода положена концепция, предусматривающая построение системы, обеспечивающей накопление необходимых информационных ресурсов параллельно со структуризацией и формализацией отдельных аспектов прикладной области. Важной особенностью является возможность постепенного наращивания информационных возможностей без принципиального изменения архитектуры системы и её инструментальных средств.

Одновременно предусматривается развитие «клиентской части» информационной системы. Ее возможности призваны предоставить конечному пользователю достаточный набор опций для создания личной информационной подсистемы.

В простейшем случае пользователь ведет поиск в Интернете с использованием общепринятых поисковых средств. Фактически при этом он составляет персональную базу данных поискового адресного пространства. Анализ получаемой информации в таком режиме, как правило, затруднителен и малоэффективен. Поэтому на последующем этапе пользователю предоставляется возможность вести собственные индексы по выбранным ресурсам. Эти индексы находятся на информационном сервере системы, что значительно увеличивает производительность поиска и позволяет вести его более точно и целенаправленно. При этом в случае необходимости, научный сотрудник может перенести часть ресурсов на информационный сервер. И, наконец, для него предусмотрена возможность заполнять собственную, персональную базу данных. Источники информации при этом могут быть самыми различными, включая перенесённые на сервер внешние информационные ресурсы.

Понятно, что из перечисленных возможностей самой сложной и важной является накопление собственных информационных ресурсов или авторских коллекций данных и их организация в ЭБ. При этом предусмотрено, что особое внимание при программной реализации должно быть уделено удобной структуризации, классификации и организации информации в авторских наборах.

Программная реализация информационной системы

Программный комплекс созданной информационной системы спроектирован  и реализован по трехзвенной архитектуре. Такая архитектура обеспечивает наибольшие возможности для поддержки и развития информационного пространства, организованного по федеративному принципу. Действительно, ведь она позволяет, с одной стороны, различным коллаборациям проекта независимо взаимодействовать (администрировать,  актуализировать и др.) со своими собственными авторскими наборами данных, а с другой стороны, являясь пользователем общей системы, использовать единственный узел входа в систему для реализации доступа ко всем информационным ресурсам (с учетом авторизации) (рис.1).

Рисунок 1. Интерфейс контента информационной системы

Выбор данной архитектуры предусматривает разделение узлов распределенной системы на три уровня: пользователи-клиенты; связывающий брокер; информационные сервера данных.

На уровне серверов данных могут быть представлены и как отдельные машины, хранящие в пространстве своей файловой системы некий набор неструктурированной информации, так и, например, серверные группы машин, работающие в общей системе и обеспечивающие набор сервисов, среди которых существуют и сервисы удаленного предоставления доступа к различным базам данных. Эти сервисы, фактически представляют собой драйвера для обеспечения доступа к наборам данных в определенном формате. Они, получая один из стандартных запросов на взаимодействие с данными, преобразуют его в запрос, специфичный для формата СУБД данного сервера, и далее, после получения результата, преобразуют полученные данные в один из определенных стандартных форматов. Различие форматов хранения объясняется тем, что существует достаточно большое количество типов хранимых информационных единиц (документов, наборов данных и пр.), и для каждой существует свой определенный оптимальный метод хранения, характеризующийся скоростью доступа и объемом места при хранении на жестком устройстве.

Важно отметить, что на этом уровне в информационной системе был разработан и реализован специальный формат хранения документальных данных, позволяющий хранить помимо непосредственно документов, также и многоуровневою иерархическую структуру распределения документов базы по рубрикатору в соответствии с потребностями пользователя относительно каждого набора данных (рис.2). При проектировании формата хранения данных ключевым вопросом являлась скорость поиска по информационному массиву, а также скорость, с которой вносятся дополнения в уже готовый информационный массив. В процессе проектирования были рассмотрены различные существующие методы, один из которых и был использован с некоторыми доработками. Помимо формата документальных данных были также реализованы форматы хранения и методы обработки поисковых индексных файлов информационных массивов (рис.3).

Рисунок 2. Пример многоуровневой иерархической структуры распределения документов по рубрикатору

Рисунок 3. Навигация по ИС с использованием индексных файлов информационных массивов

На следующем уровне находится программа-брокер. В использованной архитектуре он связывает два других уровня между собой. Следует заметить, что могут существовать также и дополнительные (резервирующие) брокеры системы, которые, однако, вступают в работу только при перегрузке или выходе из строя основного.

На брокере лежат в основном организационные и связующие функции. Он объединяет все сервера данных в единое информационное пространство, преобразуя  запросы клиентов в формат, специфичный для каждого источника данных (сервера данных). Созданный брокер ведет каталог метаданных системы, а также наделен функциями маршрутизации узлов серверов данных. При этом он, так же как и сервер данных, разграничивает на своём уровне права доступа пользователей к информационным ресурсам системы. В некоторых случаях данная компонента системы может объединять внутри общего информационного пространства несколько баз данных так, что они будут выглядеть для пользователя как одна. Примером может служить ситуация, когда один сервер данных хранит рефераты статей, второй - полные тексты статей, а третий хранит отзывы или комментарии этих статей.

Поскольку серверы в корпоративной сети базируются на различных операционных системах, программа, выполняющая функции брокера разработана таким образом, что она может работать как на WINDOWS, так и на UNIX-платцормах. Однако, на данном этапе работоспособность программы была протестирована под управлением FreeBSD UNIX и Redhat Linux.

На уровне клиента расположены пользователи ресурсов информационного пространства. Каждому из них предоставлен определённый репертуар методов доступа к данным, в соответствии с его потребностями и предпочтениями. В последнее время достаточно популярным является доступ через веб-браузер, но может существовать и вариант доступа, реализованный с помощью специально разработанной программы-клиента. У каждого из этих методов есть свои плюсы и минусы. Например, при доступе через веб не требуется установки никакого дополнительного программного обеспечения, однако, так как со стороны сервера, помимо предоставления собственно данных, приходится формировать и передавать также и дополнительную служебную информацию, а каждый запрос обрабатывается в режиме одиночной сессии, то скорость отклика сервера на запрос может заметно упасть. Таких проблем не возникает при использовании созданной нами специализированной программы доступа (программы-клиента), которая в процессе одной сессии применяет кэширующие механизмы непосредственно к данным.

Кроме того, разработан программный продукт, позволяющий пользователям создавать свои собственные информационные массивы, которые впоследствии могут быть представлены для общего анализа. При помощи данной клиентской программы пользователь может выполнять все основные функции добавления, удаления, изменения документов своей авторской БД, а также аннотирование и рубрицирование документов коллекции.

Непосредственно в процессе разработки и тестирования интерфейс программы-клиента и её функциональные возможности постоянно подвергались изменениям, так как разработчики пытались максимально учесть пожелания будущих пользователей. В результате был сформирован трехоконный интерфейс, достаточно гибкий при  настройке, что позволяет, например, убирать или добавлять (необязательные в одном и необходимые в другом случае) информационные поля различных коллекций. Наряду с административными функциями, программа-клиент выполняет и функцию просмотра (как удаленного, так и локального) документов и коллекций.

Реализован также веб-доступ к информационной системе, работающий под управлением веб-сервера Apache. К сожалению, в отличие от специализированной программы-клиента, веб-доступ на данном этапе может быть использован только для сквозного просмотра и поиска информационных ресурсов авторских БД созданной информационной системы .

В целом, текущая версия разработанного комплекса программ на данном этапе показала удовлетворительные результаты при опытном тестировании на реальных наборах данных, позволяя организовывать различные как по информационному содержанию, так и по формату хранимых данных массивы информации. Программный комплекс информационной системы позволяет создавать и организовывать собственные наборы данных без особых усилий, предлагая к заполнению интерфейсные формы, интуитивно понятные большинству пользователей - специалистов в прикладной области.

      Информационное наполнение

Создание собственных информационных ресурсов в рамках МНТП «Вакцины нового поколения» происходит как распределенный во времени и пространстве процесс накопления и объединения авторских коллекций.

В составе этих информационных массивов доминируют, конечно, библиографические базы данных по проблемам создания новых вакцин и диагностических систем, в том числе БД по тематическим реферативным материалам ВИНИТИ и по специализированной периодической печати. Так, например, реализованы БД, содержащие реструктуризированную информацию из российских журналов «Астма, аллергология и клиническая иммунология» и «Биопрепарататы», причем первая содержит статьи всех номеров журнала с начала 2000 года, а вторая - статьи первых четырех номеров журнала, вышедших из печати. Структура организации данных в обеих базах идентична и построена по принципу представления журнальной статьи, как объекта БД (записи).

Примером БД другого вида может служить «Атлас распространения возбудителей природно-очаговых вирусных инфекций на территории России», содержащая наряду с фактическим материалом и соответствующую картооснову. Эта БД создана и поддерживается в рамках информационного пространства МНТП в НИИ Вирусологии МЗ РФ (рис.4,5).

Рисунок 4. Заглавная страница "Атласа..."

Рисунок 5. Пример документа "Атласа..."

На другом узле корпоративной сети, в ГИСК им. Л.А. Тарасевича, созданы БД, содержащие информацию, относящуюся к медицинским биопрепаратам: БД «Реестр зарегистрированных в России биопрепаратов» (более 800 записей) и документальная БД, содержащая нормативно-справочную информацию по производству, контролю качества, сертификации, условиям хранения и применения медицинских иммунобиологических препаратов (вакцин).

Их дополняет находящаяся в Институте иммунологии МЗ РФ база данных по иммуностимулирующим и иммунодепрессивным препаратам, содержащая к настоящему времени более 1300 записей (автор – профессор В.М. Манько) (рис.6,7).

Рисунок 6. Заглавная страница БД по иммуномодуляторам

Рисунок 7. Пример записи

В числе фактографических БД, посвященных медико-биологическим проблемам, отметим созданную и наполненную данными БД по диагностическим тест-системам (более 300 записей в настоящее время). Основу этой БД составила собранная и систематизированная информация из разнообразных, в основном зарубежных, источников по полному спектру характеристик диагностических тест-систем (в том числе и коммерческих), включая информацию о фирмах-производителях.

В настоящее время созданы также прототипы и ведется наполнение специализированных БД по вирусу гепатита С, а также по кадастру штаммов из Государственной коллекции вирусов и по гибридомам-продуцентам антител, имеющихся в учреждениях РАМН и МЗ РФ, а также ряд других.

Такие информационные массивы и БД в совокупности образуют распределенные разнородные информационные ресурсы, которые являются основой для построения элементов понятийной сети.

Перспективные задачи

Итак, в рамках Программы «Вакцины нового поколения» был создан целый ряд библиографических, фактографических, картографических баз данных, доступных через информационную систему проекта. Встает задача интеграции созданных ресурсов в полноценную ЭБ, как компонент понятийной сети Программы.

Очевидно, что проблема создания понятийных сетей – задача огромная и многоплановая. Мы выделили для себя две темы, которые представляются приоритетными в контексте наших проектов [7,8]. Это создание портала и имплементация модели и схем метаданных, как этапы превращения созданной информационной системы в электронную библиотеку (ЭБ).

ЭБ принципиально должна проектироваться как открытая система [10] – т.е. должны быть предусмотрены механизмы подключения самых разных коллекций с использованием различных технических средств. При этом важно добиться интероперабельности. В рамках открытой системы речь должна идти не о некоторых жестких общих стандартах, но об уровнях интероперабельности (которые в совокупности образуют своеобразный спектр интероперабельности). Мы принципиально выделяем три таких уровня:

  1. Технический. Требуются соглашения по форматам, протоколам, системам безопасности – всему тому, что делает возможным обмен данными.
  2. Контентный. Соглашения по данным, метаданным, включая семантическое соглашение по интерпретации информации.
  3. Организационный (административный). Соглашения по правилам и условиям доступа, сохранению коллекций, оплате, авторизации, авторским правам.

Понятно, что относительный вклад каждого из этих уровней и необходимый объем работы зависят от конкретной конфигурации ЭБ.

В зависимости от глубины, полноты и организационной интегрированности информационные системы, объединяющие отдельные коллекции и автономные ЭБ могут быть разделены на:

  • федеративные;
  • обменивающиеся метаданными (harvesting) - когда они целенаправленно передаются  между участниками;
  • осуществляющие простой поиск (gathering) новых данных (информации, коллекций).

В нашем случае мы полагаем, что система потенциально будет включать в себя все виды взаимосвязей. За прошедшее время сформировано ядро системы, которое построено на федеративных принципах. Одновременно, провозглашая принцип открытости, мы предусматриваем возможность включения в состав ЭБ коллекций, созданных на иных началах.

Это означает, что между различными коллекциями и ЭБ возможны различные типы взаимосвязей, которые должны быть адекватно отражены в функциональности портала. Кроме того, список сервисов должен учитывать потребности и возможности пользователей целевой аудитории ЭБ.      Принципиально важным является то, что наряду с функциональностями уже ставшими стандартными, такими как: аутентификация и авторизация (выделение объема прав) пользователей в соответствии с политикой доступа к данному конкретному ресурсу; сбор оплаты за пользование ресурсами; обеспечение безопасности; использование различных форматов и протоколов (по спецификации, согласованной между всеми контент-провайдерами) - в данной реализации предусматривается возможность обращения к метаданными, которые собираются в автоматическом режиме от всех серверов коллекций данных ЕСР.

Проанализировав тип и состав информационных источников, используемых в данной реализации, мы пришли к выводу, что единственная модель и схема метаданных не может удовлетворить все потребности. Поэтому нами предложен следующий подход к созданию метаданных в нашей ЭБ:

  • поддерживать несколько форматов метаданных, заведомо покрывающих все перспективные потребности ЭБ;
  • обеспечить отражение всех форматов в один, принятый за стандарт (для этого предлагается дублинское ядро с квалификаторами (ДЯк))
  • хранить все метаданные в центральном репозитории метаданных (каталоге, БД);
  • сделать все записи доступными для соответствующих сервисов;
  • метаданные на уровне коллекций создавать с участием профессионалов данной предментой области;
  • на уровне объектов (документов) метаданные генерировать автоматически.

При этом в каталоге метаданных должны храниться записи:

  • на уровне коллекции (содержание, предназначение, протоколы, форматы, условия доступа). Стандарт - ДЯк.
  • на уровне объекта (документа, item) - в одном из поддерживаемых стандартов метаданных;
  • нормализованные записи на уровне объектов – отражение оригинального формата в формат ДЯк.

Проанализировав существующий спектр форматов метаданных, мы остановились на следующем списке:

  • Дублинское ядро (15 элементов);
  • ДЯк;
  • Learning Object Metadata;
  • MARC;
  • Content Standard for Digital Geospatial Metadata (FGDC);
  • Encoded Archival Description (EAD).

Использование стандартов метаданных диктуется пользовательскими потребностями и функциональностями, которые мы хотим придать нашей системе. А, как известно, потребности имеют тенденцию к развитию во времени. Поэтому наша конкретная работа начинается с ДЯ и Дяк, а остальные форматы будут использованы по мере возникновения соответствующих задач и коллекций.

Заключение

Работы по созданию ЭБ проводились на примере и в рамках МНТП «Вакцины нового поколения и медицинские диагностические системы будущего», где создан целый ряд библиографических, фактографических, картографических и документарных баз данных, доступных через корпоративную сеть МНТП и возникла задача интеграции созданных ресурсов в полноценную ЭБ. Изложенные в настоящей работе принципы и подходы являются основой для реализации проекта информационного обеспечения МНТП с использованием технологий Grid и понятийных сетей.

Литература

  1. The Grid: Blueprint for a New Computing Infrastructure. Ed. by I. Foster and C. Kesselman. Morgan Kaufmann Pub., San Francisco, CA. 1999.
  2. http://www.globus.org/
  3. http://www.eu-dataGrid.org
  4. http://www.crossGrid.org/
  5. http://www.eurogrid.org/
  6. Арнаутов С., Жучков А., Цифровые библиотеки в распределенной среде. «Открытые системы», 2001, №2, с.46-8 http://www.osp.ru/os/2001/02/046.htm 
  7. Арнаутов С.А., Жучков А.В. Единая среда распределенных ресурсов (GRID)
    и цифровые библиотеки. В сб. трудов 3-ей Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», Петрозаводск, 11-13 сентября 2001 г., КарНЦ РАН, с.20-25.
  8. Zhuchkov A.V., Tverdokhlebov N.V., Arnautov S.A., Yanovskii A.K., Lyisov Yu.P., Chernii A.V. Development of an interdisciplinary fragment of the Russian GRID segment: state of the art. Abstracts of VIII International Workshop on Advanced Computing and Analysis Techniques in Physics Research ACAT'2002, June 24-28, 2002, Moscow
  9. http://www.immune.isf.ru
  10. Арнаутов С.А. Роль и место виртуальных цифровых библиотек в Интернете (на примере Российской Академии Наук). В сб. докладов 3-ей Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», Петрозаводск, 11-13 сентября 2001 г., КарНЦ РАН, с. 46-50.

[*] В англоязычной литературе общепринятым стал термин Grid. Это не аббревиатура, а слово «решетка». Нам представляется нецелесообразным заново проходить весь тот путь, который проделал термин Internet-->Интернет-->интернет, поэтому мы предлагаем на выбор два русскоязычных варианта этого термина. Первый – это неполная аббревиатура фразы, которая, с нашей точки зрения, наиболее полно и точно раскрывает смысл, второй – просто «калька» с английского слова. Не делая окончательного выбора, далее по тексту мы рассматриваем их как синонимы.


Об авторах

Жучков Александр Васильевич - к.ф.-м.н., руководитель Компьютерного центра ИХФ РАН, директор АНО "ТЦ "Наука и общество"
e-mail:

Твердохлебов Николай Владимирович - инженер ИХФ РАН.

Арнаутов Сергей Анатольевич - к.х.н., с.н.с. ИХФ РАН
e-mail:

Голицын Сергей Владимирович - программист АНО "ТЦ "Наука и общество"

 

 


©  Жучков А.В., Твердохлебов Н.В., Арнаутов С.А., Голицын С.В. 2002