Электронная библиотека с распределенным полнотекстовым поиском: на пути к функциональной интеграции ресурсов и сервисов С.Х.Ляпин ген. директор ООО «Константа», (Россия); зав. отделом ИРТ Архангельского краеведческого музея [email protected] А.В.Куковякин зам. ген. директора ООО «Константа», главный специалист-эксперт Архангельского краеведческого музея [email protected] XX Международная Конференция "Крым 2013" Судак 08 – 16 июня 2013 Содержание • Тенденции в развитии современной информационной среды. • Полнотекстовый поиск в электронной библиотеке. • Распределенный полнотекстовый поиск в среде Интернет. • Проекты: – – межмузейная распределенная библиотека; распределенная библиотека НП «ЭЛБИ». Тенденции в развитии современной информационной среды. • Продвинутый полнотекстовый поиск, дополняющий поиск по каталогу. • Функциональная интеграция ресурсов и сервисов (каталоги, библиотеки, коллекции, архивы, энциклопедии, реестры памятников, виртуальные экспозиции и т.д.). • Распределенная информационная среда (включающая электронную библиотеку с распределенным полнотекстовым поиском) – на разных уровнях (региональный, отраслевой…); – с различной степенью централизации / децентрализации; О продвинутом полнотекстовом поиске. • Полнотекстовый поиск, позволяющий в автоматизированном режиме сформировать тематическую подборку материала из разных документов, причем с точностью до произвольных единиц полнотекстовой информации. • Сами эти единицы информации, тематически связываемые запросом, могут находиться в разных «документах» информационной системы, а для распределенной библиотеки – и на разных пространственно удаленных серверах. • Электронные библиотеки с такого рода сервисами должны обеспечивать взаимодействие с существующими АБИС («электронными каталогами») на уровне импорта/экспорта метаданных, в том числе и с прикрепленными к ним файловыми ресурсами. • Архитектура: должна быть ориентирована на работу в среде Интернет / Интранет и допускать возможность интеграции на основе унифицированных Веб-сервисов как в локальной сети, так и в распределенной среде. • Одна из возможных реализаций такого подхода – информационная система T-Libra 6.x ИС T-Libra 6.x®: разработчик и статус программы “Информационная система «T-Libra 6.x» для создания многофункциональных электронных библиотек” ООО «Константа» (Россия), зарегистрировано в Реестре программ для ЭВМ (Роспатент) Свидетельство № 2007613971 от 17 сентября 2007 года. Назначение и функционал T-Libra 6.x • Создание многофункциональных электронных библиотек в Интернет/Интранет-архитектуре с возможностями: – импорта и индексации полнотекстовых ресурсов, подготовленных в соответствии с требованиями ИС T-Libra 6.х; • Индексируются файлы в форматах rtf, pdf (символьный), pdf графический с символьным слоем. – импорта файловых ресурсов любых форматов (объемом до 400 Mb. каждый); – импорта/экспорта библиографических данных в формате ISO 2709 из существующих MARC-ориентированных АБИС («электронных каталогов») в ИС T-Libra 6.х. и обратно; – автоматизированной подготовки (с использованием специализированных АРМов) электронных полнотекстовых ресурсов различного вида и формата для последующего ввода их в ИС T-Libra 6.х; Назначение и функционал T-Libra 6.x (продолжение) возможности: – автоматического пополнения (при импорте ресурсов) и «ручного» редактирования электронного словаря словоформ; – поиска по Каталогу с тремя формами поиска (однострочная, краткая, полная), поисковой алгеброй, встроенной в функционал полей и структуру формы поиска, • а также предметным мультирубрикатором, содержащим библиотечные классификаторы / рубрикаторы (УДК, ББК, ВАК, ГРНТИ и т.д.) в виде баз данных с интерфейсами для их редактирования; – использования для целей хранения и презентации пополняемого файлового хранилища (Депозитария) с файлами произвольного формата и собственным настраиваемым рубрикатором ресурсов (Рубрикатор Депо); Назначение и функционал T-Libra 6.x (окончание) – – – возможности: гибкого тематизируемого многоязычного полнотекстового поиска различного типа и вида с ранжировкой результатов и различными формами их презентации; пользовательской оценки найденных абзацев и автоматической сборки итогового тематического файла (опция Собрать тему); распределенного полнотекстового поиска: (децентрализованная гибридная архитектура): архитектура клиент-сервер в локальной сети каждой организации; одноранговая связь серверов в среде Интернет; клиентский запрос с любого из серверов актуализирует релевантные полнотекстовые ресурсы всей распределенной среды. http://softconst.ru; http://www.tlibra.ru T-Libra 6.x: архитектура Клиент Браузер (IE, Opera, Firefox, Safari, Chrome, Яндекс.Браузер) Сервер (блок-схема) HTTP Веб-сервер (Apache) CGI CGI-приложение named pipe Сервер приложения (объектная среда, бизнес-логика) ODBC РСУБД (MySQL) T-Libra 6.x: Основные технические характеристики • Многозвенная клиент-серверная Интернет/Интранет архитектура: – Web-browser / Web-server + Application Server / Relational DBMS, с протоколами HTTP, CGI, PIPE API, ODBC. • Многоплатформенность: – Клиент: поддерживаются браузеры: IЕ, Opera, Firefox, Safari, Chrome, Яндекс.Браузер; – Сервер: платформа Windows c ODBC-совместимыми СУБД (например, MySQL). • «Бизнес-логика» встроена в объектноориентированный сервер приложения. – Предметно-ориентированные объекты приложения (сервер приложений) разработаны на объектно-ориентированном языке C++. T-Libra 6.x: функциональная структура Информационная система T-Libra Пользовательский раздел Административный раздел Каталог Оператор ресурсов поиск ресурсов по каталогу со встроенным мультирубрикатором пополнение ИС ресурсами различного типа Депозитарий Оператор словаря поиск и извлечение файловых ресурсов по специализированному настраиваемому рубрикатору пополнение и редактирование многоязычного словаря словоформ Полнотекстовый поиск Администратор гибкий параметризируемый поиск по полнотекстовым ресурсам управление пользователями, назначение прав доступа к ресурсам ИС, настройки ИС Главное меню со списком функциональных подсистем T-Libra (административный доступ) В версии 6.6.x имеется 19 подсистем (4 в пользовательском разделе, 8 в операторском, 7 в административном). Главное меню со списком функциональных подсистем T-Libra (пользовательский доступ) Доступны 4 подсистемы: Каталог, Депозитарий, Полнотекстовый поиск, Статистика Главное меню со списком функциональных подсистем T-Libra (операторский доступ) Дополнительно к 4-м пользовательским доступны еще 8 подсистем: Описание ресурсов, Импорт ресурсов, Загрузка ISO, Рубрикатор Депо, Поля каталога, Настройка каталога, Paragen (генерация словоизменительных парадигм словаря словоформ), Пополнение словаря. Главное меню со списком функциональных подсистем T-Libra (административный доступ) Доступны дополнительно к пользовательским и операторским еще 7 специальных подсистем: Настойка главного меню, Пользователи и группы, Удаление ресурсов, Настройка папок, Права доступа, Утилиты администратора, Локализация интерфейса. Пользовательский раздел Каталог • • Поиск по метаданным с учетом лексико-грамматической парадигматики естественного языка по 6-ми полям: “Автор”, “Заглавие”, “Ключевые слова”, “Аннотация”, “Год издания”, “Предметная область”. Пополняется: – – • • • автоматизированно путем импорта из внешних электронных каталогов (АБИС), поддерживающих стандарты семейства MARC («ИРБИС», «МАРК-SQL» и т.д.), или «вручную» инструментами самой T-Libra (подсистема «Описание ресурсов»). Имеется однострочная, краткая и полная формы поиска. В однострочной форме используется комплексное поле, включающее в себя все поля, кроме поля «Предметная область»; в краткой форме поле “Заглавие”, “Ключевые слова”, “Аннотация” объединены логическим сложением. Поисковая алгебра (операции логического объединения, пересечения, обязательного исключения и обязательного включения термина в запрос) входит в функционал соответствующих полей и структуру формы поиска. Поле “Предметная область” представляет собой настраиваемый мультирубрикатор, включающий набор стандартных классификаторов (УДК, ББК, ВАК, ГРНТИ), а также иерархический настраиваемый рубрикатор Депо ( “Депозитарий”), создаваемый с учетом интересов конкретной организации. Выбор формы поиска по Каталогу По умолчанию активна однострочная форма поиска, использующая комплексное поле со встроенной поисковой логикой. Элементы встроенной справочной системы T-Libra (раскрыта «Справка» к Каталогу в целом) В левом нижнем углу – блок хранилища личных ресурсов пользователя Результат запроса «Региональная культурная политика» в однострочной форме поиска по Каталогу с ранжировкой результатов по релевантности Краткая форма поиска по Каталогу с активированной справкой к комплексному полю «Заглавие, ключевые слова, аннотация» Полная форма поиска по Каталогу с активированной справкой по полю «Предметная область». В запрос включен выбранный по ББК весь раздел 6/8 Общественные и гуманитарные науки Пользовательский раздел Подсистема «Депозитарий» • представляет собой файловое хранилище информации, и содержит файловые ресурсы любого вида и формата (каждый файл может быть объемом до 400 Mb). • Имеет собственный настраиваемый рубрикатор ресурсов, навигация по которому позволяет получить как описания ресурсов (метаданные), так и сами электронные ресурсы в файловом виде. • Подсистема связана в обе стороны с другими подсистемами пользовательского раздела T-Libra («Каталог» и «Полнотекстовый поиск»), а также с мультимодальными расширениями ИС T-Libra (электронными коллекциями и т.п.). Подсистема «Депозитарий» с навигацией по собственному настраиваемому иерархическому рубрикатору Пользовательский раздел Полнотекстовый поиск Типы запросов – Абзацно-ориентированный: в произведениях, включенных пользователем в поисковую область («корзина ресурсов»), находит множество абзацев, удовлетворяющих условиям запроса. – Частотно-ориентированный: создает частотноранжированный список терминов (имен существительных) из произведения / произведений на заданную глубину с указанием абсолютной и относительной частоты встречаемости термина. Пользовательский раздел Полнотекстовый поиск Виды абзацно-ориентированных запросов (запросы ведутся с учетом лексико-грамматической парадигмы слова и поисковой алгебры, встроенной в структуру и поля формы запроса). 1. Простой («однослойный») тематический запрос Производится по терминам, вводимых в комплексное поле запроса. Результат: совокупность релевантных абзацев (включая абзацы сносок и примечаний) из выбранной пользователем «корзины ресурсов». 2. Расширенный («многослойный») тематический запрос. Производится по нескольким терминам, которые одновременно: – а) принадлежат разным тематическим «слоям», определяемых пользователем, при этом количество слоев варьируется, – б) находятся на определенном «расстоянии» между собой в пределах авторского абзаца. Запрос обеспечивает дополнительную, по сравнению с «однослойным», фокусировку запроса. Результатом запроса является совокупность релевантных абзацев (включая абзацы сносок и примечаний), содержащих указанную пользователем терминологическую структуру. Простой (однослойный) тематический запрос +реставрация +иконы с результатом, ранжированными по документам (используется одно комплексное поисковое поле со встроенной логикой). По базе в 1781 полнотекстовый ресурс найдено 94 абзаца в 30 документах. Многослойный тематический запрос [реставрация иконы], с дополнительной фокусировкой запроса (расстояние между словами =0, т.е. слова в абзаце примыкают друг к другу). Найдено 18 абзацев в 9 документах (поиск по базе в 1781 полнотекстовый ресурс) Многослойный тематический запрос [реставрация иконы]. Раскрыт один из абзацев, удовлетворяющий условиям запроса. Красным цветом на желтом фоне покрашены термины, удовлетворяющие дополнительным условиям фокусировки (расстояние между терминами =0). Синим цветом на голубом фоне – все остальные термины запроса Распределенный полнотекстовый поиск • Нет международных стандартов и готовых протоколов (есть стандарты и протоколы только для поиска по метаданным, по Каталогу). • В этих условиях в конце 2010 - начале 2011 г. поставлена и решена задача (ООО «Константа», Архангельск) для частного случая: распределенного полнотекстового поиска для однородных информационных систем, находящихся в различных точках Интернет-пространства. • В качестве экспериментальной информационной системы была выбрана T-Libra v.6.6.x, установленная к тому времени в нескольких организациях Архангельска и Москвы. Гибридная децентрализованная архитектура • а) клиент-серверная Интернет-архитектура в локальной сети каждой организации (клиент – браузер), • б) одноранговая равноправная (пиринговая) связь серверов организаций друг с другом, • в) консолидированная ресурсная база, актуализируемая сквозным пользовательским запросом. • Такая архитектура позволяет, а) учесть интересы пользователей (сквозной поиск по всей распределенной среде) б) учесть интересы каждой из организаций, участвующих в создании распределенной среды (ресурсы остаются в ведении каждой из них и расположены на их серверах), в) обеспечить эффективную консолидацию используемых ресурсов, г) организовать координацию действий по созданию и развитию консолидированной ресурсной базы. Эксперимент по реализации распределенного полнотекстового поиска • • • • 5 апреля 2011 года, в рамках ежегодной конференции «Музейные библиотеки в современном мире» (Музеи Московского Кремля) осуществлен эксперимент по реализации распределенного полнотекстового поиска. участвовали электронные библиотеки 5 организаций: 2 - в Архангельске (Архангельский областной центр повышения квалификации специалистов культуры и ООО «Константа») 3 - в Москве (библиотека Музеев Московского Кремля, библиотека истории русской философии и культуры «Дом А.Ф.Лосева», библиотека Государственного исторического музея). Эксперимент воспроизведен во время видеоконференции 8 апреля 2011 года в Российской ассоциации электронных библиотек, http://www.aselibrary.ru/conference/conference43/conference432039 а также на других конференциях в 2011-2013 гг. ; Распределенный полнотекстовый поиск (1) Страница формирования распределенного полнотекстового запроса в T-Libra 6.6.x Распределенный полнотекстовый поиск (2) Всплывающее окно со списком библиотек, актуализированных запросом, и описанием состояния их серверов. Распределенный полнотекстовый поиск (3) Страница с результатами запроса +Собор +Василия +Блаженного. (все термины обязательно присутствуют в найденных абзацах). Распределенный полнотекстовый поиск (4) Показаны фрагменты трех найденных абзацев, удовлетворяющих условиям запроса (в книге С.П.Бартенева «Московский Кремль в старину и теперь», Кн.1; из эл. библиотеки Музеев Кремля). Распределенный полнотекстовый поиск (5) Раскрыт один из абзацев, найденный в результате запроса. Распределенный полнотекстовый поиск (6) Открыта графическая страница книги С.П.Бартенева, на которой находится найденный абзац. Распределенный полнотекстовый поиск (7) Всплывающее окно с управляющими элементами для опции Собрать тему предварительно открытых и оцененных пользователем абзацев. Распределенный полнотекстовый поиск (8) Фрагмент файла с результатами операции «Собрать тему» (по распределенному запросу +Собор +Василия +Блаженного). Проект “Межмузейная распределенная библиотека Архангельской области” • Включен в целевую программу развития сферы культуры Архангельской области в 2013-2015 гг. • Участники: – Архангельский областной краеведческий музей, – 10 муниципальных музеев Архангельской области • Цель: – создание коллаборации музеев по использованию электронных библиотек с полнотекстовым поиском для информационной поддержки всех основных видов музейной деятельности (экспозиционно-выставочной, экскурсионной, исследовательской, научно-методической, лекционной, атрибуции музейных фондов); – Создание организационно-технологической основы для расширения сотрудничества с музейными и другими организациями по использованию современной информационной среды. Проект “Распределенная ЭБС НП «ЭЛБИ»” • • • 20 марта 2013 года на VIII конференции НП «ЭЛБИ» анонсирован партнерский проект «Распределенная ЭБС Российской ассоциации электронных библиотек». Его инициаторы и непосредственные участники: РГБ, НП «ЭЛБИ», ООО «Константа». – РГБ предоставляет полнотекстовые информационные ресурсы (с правами доступа к ним из Интернет), – «Константа» предоставляет ИС T-Libra v.6.6.x, – НП «ЭЛБИ» предоставляет технологическую площадку, осуществляет информационное и административное сопровождение проекта. На 1 этапе (2013 г.): – На базе T-Libra 6.6.x будет создана электронная библиотека участников проекта с распределенным полнотекстовым поиском; – осуществлена апробация распределенного полнотекстового поиска; произведены необходимые корректировки функционала; – начата организация подписки на ее информационные услуги (вузы, научные учреждения, публичные библиотеки, отдельные граждане). Развитие проекта (от ЭБС «ЭЛБИ» к «Альянсу ЭБС») • На следующих этапах (2014-2015 гг.): – расширение состава участников проекта, – создание на договорной основе Альянса электронно-библиотечных систем («Альянс ЭБС»), функционально объединенных распределенной информационной средой, • участие государственных, некоммерческих и коммерческих организаций, предоставление на этой основе продвинутых полнотекстовых информационно-поисковых сервисов; • НП «ЭЛБИ»: координатор проекта. Развитие проекта «Альянс ЭБС» (2015-2017 гг.) • Технологическое взаимодействие различных информационно-библиотечных систем, имеющихся у участников проекта – с целью создания транспарентной для пользователя распределенной информационной среды, предоставляющей сервисы продвинутого полнотекстового поиска. • Планируются также эксперименты по функциональной интеграции в распределенной среде сервисов электронной библиотеки и других информационных систем: – электронных музейных коллекций, специализированных баз данных (памятников истории и культуры, виртуальных атласов, электронных энциклопедий) и т.д. Контакты ООО «Константа» (Архангельск): www.softconst.ru; http://softconst.ru/tlibra С.Х.Ляпин [email protected] А.В.Куковякин [email protected] .