на пути к функциональной интеграции ресурсов и сервисов

advertisement
Электронная библиотека
с распределенным полнотекстовым поиском:
на пути к функциональной интеграции
ресурсов и сервисов
С.Х.Ляпин
ген. директор ООО «Константа», (Россия);
зав. отделом ИРТ Архангельского краеведческого музея
lyapins@yandex.ru
А.В.Куковякин
зам. ген. директора ООО «Константа»,
главный специалист-эксперт Архангельского краеведческого музея
magicmagus@yandex.ru
XX Международная
Конференция "Крым 2013"
Судак 08 – 16 июня 2013
Содержание
•
Тенденции в развитии современной
информационной среды.
•
Полнотекстовый поиск в электронной
библиотеке.
•
Распределенный полнотекстовый поиск в среде
Интернет.
•
Проекты:
–
–
межмузейная распределенная библиотека;
распределенная библиотека НП «ЭЛБИ».
Тенденции в развитии
современной информационной среды.
• Продвинутый полнотекстовый поиск, дополняющий
поиск по каталогу.
• Функциональная интеграция ресурсов и
сервисов
(каталоги, библиотеки, коллекции, архивы, энциклопедии, реестры
памятников, виртуальные экспозиции и т.д.).
• Распределенная информационная среда
(включающая электронную библиотеку с
распределенным полнотекстовым поиском)
– на разных уровнях (региональный, отраслевой…);
– с различной степенью централизации / децентрализации;
О продвинутом полнотекстовом поиске.
• Полнотекстовый поиск, позволяющий в автоматизированном
режиме сформировать тематическую подборку материала из
разных документов, причем с точностью до произвольных
единиц полнотекстовой информации.
• Сами эти единицы информации, тематически связываемые
запросом, могут находиться в разных «документах»
информационной системы, а для распределенной библиотеки –
и на разных пространственно удаленных серверах.
• Электронные библиотеки с такого рода сервисами должны
обеспечивать взаимодействие с существующими АБИС
(«электронными каталогами») на уровне импорта/экспорта
метаданных, в том числе и с прикрепленными к ним файловыми
ресурсами.
• Архитектура: должна быть ориентирована на работу в среде
Интернет / Интранет и допускать возможность интеграции на
основе унифицированных Веб-сервисов как в локальной сети,
так и в распределенной среде.
• Одна из возможных реализаций такого подхода –
информационная система T-Libra 6.x
ИС T-Libra 6.x®:
разработчик и статус программы
“Информационная система
«T-Libra 6.x» для создания
многофункциональных
электронных библиотек”
ООО «Константа» (Россия),
зарегистрировано в Реестре
программ для ЭВМ (Роспатент)
Свидетельство № 2007613971 от 17
сентября 2007 года.
Назначение и функционал T-Libra 6.x
•
Создание многофункциональных электронных библиотек в
Интернет/Интранет-архитектуре с возможностями:
– импорта и индексации полнотекстовых ресурсов, подготовленных в
соответствии с требованиями ИС T-Libra 6.х;
• Индексируются файлы в форматах rtf, pdf (символьный), pdf
графический с символьным слоем.
– импорта файловых ресурсов любых форматов (объемом до 400
Mb. каждый);
– импорта/экспорта библиографических данных в формате ISO 2709
из существующих MARC-ориентированных АБИС («электронных
каталогов») в ИС T-Libra 6.х. и обратно;
– автоматизированной подготовки (с использованием
специализированных АРМов) электронных полнотекстовых
ресурсов различного вида и формата для последующего ввода их в
ИС T-Libra 6.х;
Назначение и функционал T-Libra 6.x
(продолжение)
возможности:
– автоматического пополнения (при импорте ресурсов) и
«ручного» редактирования электронного словаря
словоформ;
– поиска по Каталогу с тремя формами поиска (однострочная,
краткая, полная), поисковой алгеброй, встроенной в
функционал полей и структуру формы поиска,
• а также предметным мультирубрикатором, содержащим
библиотечные классификаторы / рубрикаторы (УДК, ББК, ВАК,
ГРНТИ и т.д.) в виде баз данных с интерфейсами для их
редактирования;
– использования для целей хранения и презентации
пополняемого файлового хранилища (Депозитария) с
файлами произвольного формата и собственным
настраиваемым рубрикатором ресурсов (Рубрикатор Депо);
Назначение и функционал T-Libra 6.x
(окончание)
–
–
–
возможности:
гибкого тематизируемого многоязычного полнотекстового
поиска различного типа и вида с ранжировкой результатов и
различными формами их презентации;
пользовательской оценки найденных абзацев и автоматической
сборки итогового тематического файла (опция Собрать тему);
распределенного полнотекстового поиска:
(децентрализованная гибридная архитектура):
архитектура клиент-сервер в локальной сети каждой организации;
одноранговая связь серверов в среде Интернет;
клиентский запрос с любого из серверов актуализирует релевантные
полнотекстовые ресурсы всей распределенной среды.
http://softconst.ru;
http://www.tlibra.ru
T-Libra 6.x: архитектура
Клиент
Браузер
(IE, Opera, Firefox,
Safari, Chrome,
Яндекс.Браузер)
Сервер
(блок-схема)
HTTP
Веб-сервер
(Apache)
CGI
CGI-приложение
named pipe
Сервер приложения
(объектная среда,
бизнес-логика)
ODBC
РСУБД (MySQL)
T-Libra 6.x:
Основные технические характеристики
• Многозвенная клиент-серверная
Интернет/Интранет архитектура:
– Web-browser / Web-server + Application Server / Relational
DBMS, с протоколами HTTP, CGI, PIPE API, ODBC.
• Многоплатформенность:
– Клиент: поддерживаются браузеры: IЕ, Opera, Firefox, Safari,
Chrome, Яндекс.Браузер;
– Сервер: платформа Windows c ODBC-совместимыми СУБД
(например, MySQL).
• «Бизнес-логика» встроена в объектноориентированный сервер приложения.
– Предметно-ориентированные объекты приложения (сервер
приложений) разработаны на объектно-ориентированном
языке C++.
T-Libra 6.x: функциональная структура
Информационная система T-Libra
Пользовательский раздел
Административный раздел
Каталог
Оператор ресурсов
поиск ресурсов по каталогу
со встроенным
мультирубрикатором
пополнение ИС ресурсами
различного типа
Депозитарий
Оператор словаря
поиск и извлечение файловых
ресурсов по
специализированному
настраиваемому рубрикатору
пополнение и редактирование
многоязычного словаря
словоформ
Полнотекстовый поиск
Администратор
гибкий параметризируемый поиск
по полнотекстовым ресурсам
управление пользователями,
назначение прав доступа к
ресурсам ИС, настройки ИС
Главное меню со списком функциональных подсистем
T-Libra (административный доступ)
В версии 6.6.x имеется 19 подсистем (4 в пользовательском
разделе, 8 в операторском, 7 в административном).
Главное меню
со списком функциональных подсистем T-Libra
(пользовательский доступ)
Доступны 4 подсистемы:
Каталог, Депозитарий, Полнотекстовый поиск, Статистика
Главное меню со списком функциональных подсистем T-Libra
(операторский доступ)
Дополнительно к 4-м пользовательским доступны еще 8 подсистем:
Описание ресурсов, Импорт ресурсов, Загрузка ISO, Рубрикатор Депо,
Поля каталога, Настройка каталога, Paragen (генерация словоизменительных
парадигм словаря словоформ), Пополнение словаря.
Главное меню со списком функциональных подсистем T-Libra
(административный доступ)
Доступны дополнительно к пользовательским и операторским
еще 7 специальных подсистем:
Настойка главного меню, Пользователи и группы, Удаление
ресурсов, Настройка папок, Права доступа, Утилиты
администратора, Локализация интерфейса.
Пользовательский раздел
Каталог
•
•
Поиск по метаданным с учетом лексико-грамматической парадигматики
естественного языка по 6-ми полям: “Автор”, “Заглавие”, “Ключевые слова”,
“Аннотация”, “Год издания”, “Предметная область”.
Пополняется:
–
–
•
•
•
автоматизированно путем импорта из внешних электронных каталогов (АБИС),
поддерживающих стандарты семейства MARC («ИРБИС», «МАРК-SQL» и т.д.),
или «вручную» инструментами самой T-Libra (подсистема «Описание ресурсов»).
Имеется однострочная, краткая и полная формы поиска. В однострочной
форме используется комплексное поле, включающее в себя все поля, кроме
поля «Предметная область»; в краткой форме поле “Заглавие”, “Ключевые
слова”, “Аннотация” объединены логическим сложением.
Поисковая алгебра (операции логического объединения, пересечения,
обязательного исключения и обязательного включения термина в запрос)
входит в функционал соответствующих полей и структуру формы поиска.
Поле “Предметная область” представляет собой настраиваемый
мультирубрикатор, включающий набор стандартных классификаторов (УДК,
ББК, ВАК, ГРНТИ), а также иерархический настраиваемый рубрикатор Депо (
“Депозитарий”), создаваемый с учетом интересов конкретной организации.
Выбор формы поиска по Каталогу
По умолчанию активна однострочная форма поиска,
использующая комплексное поле со встроенной поисковой
логикой.
Элементы встроенной справочной системы T-Libra
(раскрыта «Справка» к Каталогу в целом)
В левом нижнем углу – блок
хранилища личных ресурсов пользователя
Результат запроса «Региональная культурная политика» в
однострочной форме поиска по Каталогу
с ранжировкой результатов по релевантности
Краткая форма поиска по Каталогу с активированной
справкой к комплексному полю «Заглавие, ключевые слова,
аннотация»
Полная форма поиска по Каталогу с активированной справкой
по полю «Предметная область». В запрос включен выбранный
по ББК весь раздел 6/8 Общественные и гуманитарные науки
Пользовательский раздел
Подсистема «Депозитарий»
• представляет собой файловое хранилище информации, и
содержит файловые ресурсы любого вида и формата (каждый
файл может быть объемом до 400 Mb).
• Имеет собственный настраиваемый рубрикатор ресурсов,
навигация по которому позволяет получить как описания
ресурсов (метаданные), так и сами электронные ресурсы в
файловом виде.
• Подсистема связана в обе стороны с другими подсистемами
пользовательского раздела T-Libra («Каталог» и
«Полнотекстовый поиск»), а также с мультимодальными
расширениями ИС T-Libra (электронными коллекциями и т.п.).
Подсистема «Депозитарий» с навигацией по
собственному настраиваемому иерархическому
рубрикатору
Пользовательский раздел
Полнотекстовый поиск
Типы запросов
– Абзацно-ориентированный: в произведениях, включенных
пользователем в поисковую область («корзина ресурсов»),
находит множество абзацев, удовлетворяющих условиям
запроса.
– Частотно-ориентированный: создает частотноранжированный список терминов (имен существительных) из
произведения / произведений на заданную глубину с
указанием абсолютной и относительной частоты
встречаемости термина.
Пользовательский раздел
Полнотекстовый поиск
Виды абзацно-ориентированных запросов
(запросы ведутся с учетом лексико-грамматической парадигмы слова
и поисковой алгебры, встроенной в структуру и поля формы запроса).
1. Простой («однослойный») тематический запрос
Производится по терминам, вводимых в комплексное поле запроса.
Результат: совокупность релевантных абзацев (включая абзацы сносок и
примечаний) из выбранной пользователем «корзины ресурсов».
2. Расширенный («многослойный») тематический запрос.
Производится по нескольким терминам, которые одновременно:
– а) принадлежат разным тематическим «слоям», определяемых пользователем,
при этом количество слоев варьируется,
– б) находятся на определенном «расстоянии» между собой в пределах
авторского абзаца.
Запрос обеспечивает дополнительную, по сравнению с «однослойным»,
фокусировку запроса.
Результатом запроса является совокупность релевантных абзацев (включая
абзацы сносок и примечаний), содержащих указанную пользователем
терминологическую структуру.
Простой (однослойный) тематический запрос +реставрация +иконы
с результатом, ранжированными по документам (используется одно
комплексное поисковое поле со встроенной логикой). По базе в
1781 полнотекстовый ресурс найдено 94 абзаца в 30 документах.
Многослойный тематический запрос [реставрация иконы], с
дополнительной фокусировкой запроса (расстояние между словами
=0, т.е. слова в абзаце примыкают друг к другу).
Найдено 18 абзацев в 9 документах (поиск по базе в 1781
полнотекстовый ресурс)
Многослойный тематический запрос [реставрация иконы].
Раскрыт один из абзацев, удовлетворяющий условиям запроса.
Красным цветом на желтом фоне покрашены термины,
удовлетворяющие дополнительным условиям фокусировки
(расстояние между терминами =0). Синим цветом на голубом фоне –
все остальные термины запроса
Распределенный полнотекстовый поиск
• Нет международных стандартов и готовых
протоколов (есть стандарты и протоколы только для
поиска по метаданным, по Каталогу).
• В этих условиях в конце 2010 - начале 2011 г.
поставлена и решена задача (ООО «Константа»,
Архангельск) для частного случая: распределенного
полнотекстового поиска для однородных
информационных систем, находящихся в различных
точках Интернет-пространства.
• В качестве экспериментальной информационной
системы была выбрана T-Libra v.6.6.x, установленная
к тому времени в нескольких организациях
Архангельска и Москвы.
Гибридная децентрализованная архитектура
• а) клиент-серверная Интернет-архитектура в локальной сети
каждой организации (клиент – браузер),
• б) одноранговая равноправная (пиринговая) связь серверов
организаций друг с другом,
• в) консолидированная ресурсная база, актуализируемая
сквозным пользовательским запросом.
• Такая архитектура позволяет,
а) учесть интересы пользователей (сквозной поиск по всей
распределенной среде)
б) учесть интересы каждой из организаций, участвующих в создании
распределенной среды (ресурсы остаются в ведении каждой из них
и расположены на их серверах),
в) обеспечить эффективную консолидацию используемых ресурсов,
г) организовать координацию действий по созданию и развитию
консолидированной ресурсной базы.
Эксперимент по реализации
распределенного полнотекстового поиска
•
•
•
•
5 апреля 2011 года, в рамках ежегодной конференции «Музейные
библиотеки в современном мире» (Музеи Московского Кремля)
осуществлен эксперимент по реализации распределенного
полнотекстового поиска.
участвовали электронные библиотеки 5 организаций:
2 - в Архангельске (Архангельский областной центр повышения
квалификации специалистов культуры и ООО «Константа»)
3 - в Москве (библиотека Музеев Московского Кремля, библиотека
истории русской философии и культуры «Дом А.Ф.Лосева»,
библиотека Государственного исторического музея).
Эксперимент воспроизведен во время видеоконференции 8 апреля
2011 года в Российской ассоциации электронных библиотек,
http://www.aselibrary.ru/conference/conference43/conference432039
а также на других конференциях в 2011-2013 гг.
;
Распределенный полнотекстовый поиск (1)
Страница формирования распределенного
полнотекстового запроса в T-Libra 6.6.x
Распределенный полнотекстовый поиск (2)
Всплывающее окно со списком библиотек,
актуализированных запросом, и описанием состояния
их серверов.
Распределенный полнотекстовый поиск (3)
Страница с результатами запроса
+Собор +Василия +Блаженного.
(все термины обязательно присутствуют
в найденных абзацах).
Распределенный полнотекстовый поиск (4)
Показаны фрагменты трех найденных абзацев, удовлетворяющих
условиям запроса (в книге С.П.Бартенева «Московский Кремль в старину
и теперь», Кн.1; из эл. библиотеки Музеев Кремля).
Распределенный полнотекстовый поиск (5)
Раскрыт один из абзацев, найденный в результате
запроса.
Распределенный полнотекстовый поиск (6)
Открыта графическая страница книги С.П.Бартенева,
на которой находится найденный абзац.
Распределенный полнотекстовый поиск (7)
Всплывающее окно с управляющими элементами для
опции Собрать тему предварительно открытых и
оцененных пользователем абзацев.
Распределенный полнотекстовый поиск (8)
Фрагмент файла с результатами операции «Собрать тему» (по
распределенному запросу +Собор +Василия +Блаженного).
Проект
“Межмузейная распределенная библиотека
Архангельской области”
• Включен в целевую программу развития сферы культуры
Архангельской области в 2013-2015 гг.
• Участники:
– Архангельский областной краеведческий музей,
– 10 муниципальных музеев Архангельской области
• Цель:
– создание коллаборации музеев по использованию
электронных библиотек с полнотекстовым поиском для
информационной поддержки всех основных видов музейной
деятельности (экспозиционно-выставочной, экскурсионной,
исследовательской, научно-методической, лекционной, атрибуции
музейных фондов);
– Создание организационно-технологической основы для
расширения сотрудничества с музейными и другими
организациями по использованию современной
информационной среды.
Проект
“Распределенная ЭБС НП «ЭЛБИ»”
•
•
•
20 марта 2013 года на VIII конференции НП «ЭЛБИ» анонсирован
партнерский проект «Распределенная ЭБС Российской
ассоциации электронных библиотек».
Его инициаторы и непосредственные участники: РГБ, НП «ЭЛБИ»,
ООО «Константа».
– РГБ предоставляет полнотекстовые информационные
ресурсы (с правами доступа к ним из Интернет),
– «Константа» предоставляет ИС T-Libra v.6.6.x,
– НП «ЭЛБИ» предоставляет технологическую площадку,
осуществляет информационное и административное
сопровождение проекта.
На 1 этапе (2013 г.):
– На базе T-Libra 6.6.x будет создана электронная библиотека
участников проекта с распределенным полнотекстовым
поиском;
– осуществлена апробация распределенного полнотекстового
поиска; произведены необходимые корректировки
функционала;
– начата организация подписки на ее информационные услуги
(вузы, научные учреждения, публичные библиотеки,
отдельные граждане).
Развитие проекта
(от ЭБС «ЭЛБИ» к «Альянсу ЭБС»)
• На следующих этапах (2014-2015 гг.):
– расширение состава участников проекта,
– создание на договорной основе Альянса
электронно-библиотечных систем («Альянс
ЭБС»), функционально объединенных
распределенной информационной средой,
• участие государственных, некоммерческих и
коммерческих организаций, предоставление
на этой основе продвинутых полнотекстовых
информационно-поисковых сервисов;
• НП «ЭЛБИ»: координатор проекта.
Развитие проекта «Альянс ЭБС»
(2015-2017 гг.)
• Технологическое взаимодействие различных
информационно-библиотечных систем, имеющихся у
участников проекта – с целью создания
транспарентной для пользователя распределенной
информационной среды, предоставляющей сервисы
продвинутого полнотекстового поиска.
• Планируются также эксперименты по
функциональной интеграции в распределенной
среде сервисов электронной библиотеки и других
информационных систем:
– электронных музейных коллекций, специализированных баз
данных (памятников истории и культуры, виртуальных
атласов, электронных энциклопедий) и т.д.
Контакты
ООО «Константа» (Архангельск):
www.softconst.ru; http://softconst.ru/tlibra
С.Х.Ляпин
lyapins@yandex.ru
А.В.Куковякин
magicmagus@yandex.ru
.
Download