Многоязычный поиск в многофункциональной электронной библиотеке: общие подходы и их реализация в ИС T-Libra 6.x® С.Х.Ляпин, А.В.Куковякин ООО «Константа» (Россия); Архангельский областной центр повышения квалификации специалистов культуры e-mail: [email protected]; [email protected] Міжнародна наукова конференція «Проблеми гармонізації традиційних і новітніх бібліотечно-інформаційних ресурсів» Київ, НБУВ, 7-8 жовтня 2008 р. Содержание (1) • Многоязычный поиск: общие подходы – Классификация: основные типы многоязычного поиска – Инструментарий: словари, тезаурусы, классификаторы – Оценка поиска в различных прикладных разработках и коллекциях документов (программы РОМИП и CLEF) • Электронная библиотека как универсальная среда для организации ресурсов («документов») и использования поиска. Наиболее широкий спектр: – типов, видов и форматов документов – типов и видов поиска – типичных «моделей пользователя» и, соответственно, функциональных структур пользовательского интерфейса Содержание (2) • Многоязычный поиск в ИС T-Libra 6.x® : проблемы и решения ИС T-Libra 6.x®: назначение, архитектура, функционал UNICODE: организация ресурсов и поиска Ресурсы: подготовка и импорт Словари: создание и использование Тезаурусы и квази-тезаурусы (виртуальные пользовательские ad hoc тезаурусы) – Поиск и презентация его результатов для разных типов и видов документов, разных категорий пользователей. – – – – – • Контакты • Презентация программы генерации словаря словоформ и параллельного многоязычного поиска I типа (русский и украинский языки) в ИС T-Libra 6.2. Многоязычный поиск: классификация (1) Тип многоязычного поиска: I – Запрос – одновременно на нескольких языках. • «ручной» ввод пользователем терминов отдельно на каждом из языков – Термины запроса не переводятся. – Поиск - по множеству документов на различных языках. – Результаты запроса - на языке «оригинала». – Результаты запроса не переводятся. – Параллельный многоязычный поиск без перевода входных терминов и результатов запроса. Многоязычный поиск: классификация (2) Тип многоязычного поиска: II – – Запрос – на одном (или нескольких) языках. Термины запроса автоматически переводятся • • • многоязычный переводной словарь (многоязычный тезаурус), или совокупность взаимно пересекающихся двуязычных переводных словарей (пересекающихся двуязычных тезаурусов), или встроенные программы машинного перевода. – – – Поиск - по множеству документов на различных языках. Результаты запроса - на языке «оригинала». Результаты запроса не переводятся. – Множественный кросс-языковый поиск с переводом входных терминов, без перевода результатов запроса. Многоязычный поиск: классификация (3) Тип многоязычного поиска: III – Запрос – одновременно на нескольких языках • – – – – Термины запроса не переводятся. Поиск - по множеству документов на различных языках. Результаты запроса - на языке «оригинала». Результаты запроса автоматически переводятся • – «ручной» ввод пользователем терминов отдельно на каждом из языков. Встроенные или внешние программы машинного перевода Параллельный поиск без перевода входных терминов, с переводом результатов запроса. Многоязычный поиск: классификация (4) Тип многоязычного поиска: IV – – Запрос – на одном (или нескольких) языках. Термины запроса автоматически переводятся • • • – – – Поиск - по множеству документов на различных языках. Результаты запроса - на языке «оригинала». Результаты запроса автоматически переводятся. • – многоязычный переводной словарь (многоязычный тезаурус), или совокупность взаимно пересекающихся двуязычных переводных словарей (пересекающихся двуязычных тезаурусов), или встроенные программы машинного перевода. Встроенные или внешние программы перевода Множественный кросс-языковый поиск с переводом входных терминов и результатов запроса. Многоязычный поиск: классификация (5) I. Параллельный поиск без перевода входных терминов и результатов запроса III. Параллельный поиск без перевода входных терминов, с переводом результатов запроса II. Множественный кроссязыковый поиск с переводом входных терминов, без перевода результатов запроса IV. Множественный кроссязыковый поиск с переводом и входных терминов, и результатов запроса Многоязычный поиск: инструментарий (1) Инструментарий поиска: словари, тезаурусы, классификаторы • • • Словари: их объекты = «слова» (естественного языка) Тезаурусы: их объекты = «термины» (естественного и/или искусственного языка). Классификаторы (рубрикаторы): их объекты = выраженные в терминах «понятия» (обыденные, научные, философские и т.п.). – Классификатор / рубрикатор с информационнотехнологической точки зрения есть частный случай тезауруса. Многоязычный поиск: инструментарий (2) Инструментарий поиска: словоизменительные и переводные словари (1) • Использование готовых словоизменительных одноязычных словарей (например, имеющихся в составе OpenOffice) – – • Плюсы: минимизация трудозатрат разработчиков. Минусы: нет автоматизированного пополнения словаря (генерации словоформ). Использование готовых переводных двух- и многоязычных словарей (кросс-языковые словари). – – Плюсы: минимизация трудозатрат разработчиков; Минусы: нет автоматизированного пополнения словаря (генерации словоформ). Многоязычный поиск: инструментарий (3) Инструментарий поиска: словоизменительные и переводные словари (2) • Генерация кросс-языковых словарей на основе специально подготовленных двух- и многоязычных ресурсов (заголовков статей, ключевых слов, аннотаций на двух и более языках), их дальнейшее использование (в формате баз данных) в составе электронной библиотеки для поиска по полнотекстовым ресурсам. • Литература: – Абрамова, Н.Н. Формирование многоязычных словарей и их использование при кросс-языковом поиске информации / Абрамова Н.Н., Глобус Е.И. [Электронный ресурс]. – Режим доступа: http://company.yandex.ru/grant/2005/01_Abramova_102704.pdf Многоязычный поиск: инструментарий (3) Инструментарий поиска: словоизменительные и переводные словари (3) • Генерация «на лету» словоизменительной парадигмы только для терминов выполняемого пользовательского запроса («виртуальный ad hoc словарь словоформ»). Реализовано в ИС T-Libra v.6.x® («Константа», Россия) • Создание и автоматическое пополнение словоизменительного одноязычного словаря при импорте полнотекстовых ресурсов. Реализовано в ИС T-Libra v.6.x® («Константа», Россия) Многоязычный поиск: инструментарий (3) Инструментарий: тезаурусы (1). Стандарты • Международный стандарт ISO 2788-1986 для описания одноязычных тезаурусов. – • Американский стандарт ANSI/NISO Z39.19-1993 расширяет и уточняет стандарт ISO 2788-1986, а также накладывает ряд важных дополнительных ограничений на структуру тезауруса. • Международный стандарт ISO 5964-1985 для описания многоязычных тезаурусов. Желательна проверка используемых тезаурусов на соответствие требованиям стандартов (для концептуальной и технологической совместимости различных информационно-поисковых систем). • Литература: – Аджиев, Алим Сапарович. Подходы к описанию и использованию тезаурусов в информационных системах / Аджиев Алим Сапарович, Нгуен Хунь Мань // Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Труды 5-й Всероссийской научной конференции. RCDL'2003, Санкт-Петербург, Россия, 2003 г. – С. 191-200. [Электронный ресурс]. – Режим доступа: http://rcdl2003.spbu.ru/proceedings/F1.pdf Многоязычный поиск: инструментарий (3) Инструментарий: тезаурусы (2) Многоязычные тезаурусы • Дополнительно к требованиям одноязычного тезауруса дается описание языка (как свойства термина), а также описание типов связи между эквивалентными терминами на разных языках: – – – – Полная эквивалентность (значения терминов совпадают) Неполная эквивалентность (значения терминов не совпадают, но пересекаются) Частичная эквивалентность (значение одного термина шире, чем значение другого) Эквивалентность один ко многим (значение одного термина соответствует совокупности значений нескольких терминов). Многоязычный поиск: инструментарий (3) Инструментарий: тезаурусы (3) Многоязычные тезаурусы для интеллектуализации поиска • Пример (НИВЦ МГУ): – Русско-английский Тезаурус по общественно-политической жизни для УИС «РОССИЯ». По состоянию на 2002 год: в русской части тезауруса находилось 64 тысячи терминов, в английской 55 тысяч, в целом иерархическая сеть включала 27 тысяч понятий. – Используется как один из важнейших инструментов понятийноориентированного поиска (не зависящего от языка) с помощью так называемого «концептуального индексирования» документа и автоматического разрешения многозначности терминов. – Построенный концептуальный индекс позволяет выполнять поиск одновременно русских и английских документов по запросу на русском или английском языке. – Литература. Добров Б.В., Лукашевич Н.В. http://rcdl2001.krc.karelia.ru/papers/papers/dobrov_lukashevich/dobrov_paper.rtf http://rcdl2002.jinr.ru/Reports/Vol_2/vol2_148-158.pdf Многоязычный поиск: оценка поиска (1) – Европейская программа CLEF (Cross-Language Evaluation Forum) и семинар CLEF Workshop, присоединенный к Европейской конференции по электронным библиотекам (ECDL), – CLEF Workshop: экспериментальное изучение методов информационного поиска, прежде всего - задачи многоязычного поиска и интеграции многоязычных коллекций для европейских языков. – В России – семинар РОМИП (Российская Оценка Методов Информационного Поиска), присоединенный к конференции RCDL. • РОМИП также отвечает за оценки русскоязычного поиска в рамках CLEF Многоязычный поиск: оценка поиска (2) В CLEF 2006 исследовались направления («дорожки»): 1) моноязычный, двуязычный и многоязычный поиск документов (Ad Hoc); 2) моноязычный и многоязычный поиск по структурированным документам в области социальных наук (Domain-Specific); 3) интерактивный многоязычный поиск (iCLEF); 4) многоязычный поиск ответов на вопрос (QA@CLEF); 5) многоязычный поиск по коллекции изображений (ImageCLEF); 6) многоязычный поиск по коллекции аудиозаписей речи (CLSR); 7) многоязычный поиск web-документов (WebCLEF) 8) многоязычный поиск с учетом географических отношений (GeoCLEF) Многоязычный поиск: оценка поиска (3) Описания «дорожек» в CLEF 2006: – Агеев, М.С. Обзор исследований в рамках Cross-Language Evaluation Forum в 2006 году //. Труды четвертого российского семинара РОМИП'2006. (Суздаль, 19 октября 2006г.). Санкт-Петербург: НУ ЦСИ, 2006. 274 с. – C.151-159. [Электронный ресурс]. – Режим доступа: http://romip.narod.ru/romip2006/14_uis_clef.pdf – Cross-Language Evaluation Forum (CLEF) // [Электронный ресурс]. – Режим доступа: http://www.clef-campaign.org – Peters, Carol. What happened in CLEF 2006. Introduction to the Working Notes // Proceedings of CLEF’2006. [Электронный ресурс]. – Режим доступа: http://www.clefcampaign.org/2006/working_notes/ workingnotes2006/petersCLEF2006.pdf Электронная библиотека как универсальная среда для апробации многоязычного поиска ЭБ (в перспективе) включает в себя наиболее широкий спектр: – – – – типов, видов и форматов документов; типов и видов собственно поиска; типичных «моделей пользователя»; типов (функциональных структур) пользовательского интерфейса. Многоязычный поиск в ИС T-Libra 6.x®: проблемы и решения • • • • • • ИС T-Libra 6.x®: назначение, архитектура, функционал UNICODE: организации ресурсов и поиска Ресурсы: подготовка и импорт Словари: создание и использование Тезаурусы и квази-тезаурусы (виртуальные пользовательские ad hoc тезаурусы) Поиск и презентация его результатов для разных типов и видов документов, разных категорий пользователей. • Пользовательские интерфейсы ИС T-Libra 6.x®: разработчик и статус программы Специализированное программное обеспечение “Информационная система «T-Libra 6.x» для создания многофункциональных электронных библиотек” разработано ООО «Константа» (Россия), зарегистрировано в Реестре программ для ЭВМ Федеральной службой по интеллектуальной собственности, патентам и товарным знакам Российской Федерации (Свидетельство № 2007613971 от 17 сентября 2007 года). Назначение ИС T-Libra 6.x® (1) • Создание многофункциональных многоязычных многоплатформенных электронных библиотек в Интернет/Интранет-архитектуре с возможностями: – автоматизированной подготовки (в том числе с использованием специализированных АРМов) электронных полнотекстовых ресурсов различного вида и формата для последующего ввода их в ИС T-Libra 6.х; – автоматического импорта и индексации электронных полнотекстовых ресурсов, подготовленных в соответствии с требованиями ИС T-Libra 6.х; – импорта/экспорта библиографических данных в формате ISO 2709 из существующих MARC-ориентированных АБИС («электронных каталогов») в ИС T-Libra 6.х. и обратно; Назначение ИС T-Libra 6.x® (2) С возможностями (продолжение): – автоматического пополнения (при импорте полнотекстовых ресурсов) и «ручного» редактирования многоязычного электронного словаря словоформ; – поиска по интегрированному Каталогу с настраиваемыми полями и встроенной в них булевой алгеброй, а также встроенным в функционал одного из полей предметным мультирубрикатором, содержащим библиотечные классификаторы и рубрикаторы (УДК, ББК, ВАК, ГРНТИ и т.д.) в виде баз данных с собственными интерфейсами для их редактирования; – использования для целей хранения и презентации пополняемого файлового хранилища (Депозитария) с файлами произвольного вида и формата и собственным настраиваемым рубрикатором ресурсов; Назначение ИС T-Libra 6.x® (3) С возможностями (продолжение): – гибкого тематизируемого многоязычного полнотекстового поиска различного типа и вида с сортировкой, группировкой и различными формами презентации его результатов; – мультимодального расширения (графика, аудио, видео), используемого как для расширения функциональных возможностей ИС T-Libra 6.х., – так и для взаимодействия и интеграции с другими информационными системами, модулями и оболочками (электронными коллекциями, электронными экспозициями, мультимедиа-энциклопедиями и т.д.). ИС T-Libra 6.x: архитектура Клиент Сервер (блок-схема) Браузер (MS IE 6 и выше) HTTP Веб-сервер (Apache) CGI CGI-приложение named pipe Сервер приложения (объектная среда, бизнес-логика) ODBC РСУБД (MySQL) ИС T-Libra 6.x: функциональная структура Информационная система T-Libra Пользовательский раздел Административный раздел Каталог Оператор ресурсов поиск ресурсов по каталогу со встроенным мультирубрикатором пополнение ИС ресурсами различного типа Депозитарий Оператор словаря поиск и извлечение файловых ресурсов по специализированному настраиваемому рубрикатору пополнение и редактирование многоязычного словаря словоформ Полнотекстовый поиск Администратор гибкий параметризируемый поиск по полнотекстовым ресурсам управление пользователями, назначение прав доступа к ресурсам ИС, настройки ИС Пользовательский раздел Каталог • • • • • Поиск по библиографической информации осуществляется с учетом лексико-грамматической парадигматики естественного языка по 6ти полям: “Автор”, “Заглавие”, “Ключевые слова”, “Аннотация”, “Год издания”, “Предметная область”. Пополняется с помощью программ импорта из любых электронных каталогов, поддерживающих стандарты семейства MARC, или из библиографических файлов-описаний, создаваемых пользователем. Имеется полная и краткая форма поиска (в последней поля “Заглавие”, “Ключевые слова”, “Аннотация” объединены логическим сложением). Булева алгебра (операции логического сложения, умножения, отрицания) включена в функционал соответствующих полей и структуру формы поиска. Поле “Предметная область” представляет собой настраиваемый мультирубрикатор, включающий набор стандартных классификаторов (УДК, ББК, ВАК, ГРНТИ), а также рубрикатор “Депозитарий”, создаваемый с учетом интересов конкретного корпоративного пользователя. Пользовательский раздел Депозитарий • Подсистема представляет собой универсальное файловое хранилище информации ИС T-Libra, и содержит файловые ресурсы любого вида и формата. • Имеет собственный настраиваемый рубрикатор ресурсов и позволяет получить сначала описания ресурсов (метаданные), а затем и сами электронные ресурсы: полные тексты произведений (статей, сборников статей, учебников, справочников, монографий и т.п.), архивные документы в текстовом и/или графическом формате, аудио, видео и т.д. • Подсистема связана в обе стороны с другими подсистемами пользовательского раздела T-Libra («Каталог» и «Полнотекстовый поиск»), а также с мультимодальными расширениями ИС T-Libra (электронными коллекциями и т.п.). Пользовательский раздел Полнотекстовый поиск Типы запросов – Абзацно-ориентированный: в произведениях, включенных пользователем в поисковую область («корзина ресурсов»), находит множество абзацев, удовлетворяющих условиям запроса. – Частотно-ориентированный: создает частотноранжированный список терминов (имен существительных) из произведения / произведений на заданную глубину с указанием абсолютной и относительной частоты встречаемости термина. Административный раздел, подсистема «Оператор ресурсов» Схема импорта ресурсов Каталог Подготовка ресурсов Папки с файлами Импорт ресурсов Депозитарий Полнотекстовый поиск Автоматизированная или «ручная» подготовка ресурсов Автоматический импорт в подсистемы T-Libra Словарь Организация программной среды ИС T-Libra (словарь словоформ) Концептуальная модель • • Многоязычность: унифицированное создание и использование электронных словарей основных европейских языков Многоплановое использование одного и того же словаря: – для обычного библиотечного поиска (с учетом морфологии), – для продвинутых лингвистических, текстологических и других исследований (в составе «виртуальной лаборатории»), • • • Генерация словоизменительной парадигмы, управляемая правилами грамматики (с возможностью изменения этих правил пользователем – в специализированных модулях); Автоматическое пополнение словаря (при импорте текстов) + его «ручное» редактирование с рабочего места Оператора словаря Unicode: – поддержка Unicode при импорте текстов (при создании словаря словоформ); – использование Unicode при экспорте текстов (отображении текста в окне браузера); Схема пополнения словаря (автоматически и/или вручную) Правила Генерация парадигм, выбор лучшей Новые словоформы Оператор Парадигма Корректировка парадигмы Словоизменительный словарь Публикации •С.Х.Ляпин, А.В.Куковякин. Концепт-ориентированный поиск в электронной полнотекстовой библиотеке с мультимодальным расширением // Труды 6-й Всеросс. науч. конф. RCDL’2004, Пущино, 29 сент. - 1 окт. 2004 г. - С. 127-134, http://www.impb.ru/~rcdl2004. • Ляпин С.Х., Куковякин А.В. Методология и технология создания многоцелевой информационной среды T-System на базе электронной библиотеки с гибким полнотекстовым поиском // Труды Седьмой Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции", RCDL'2005, Ярославль, 4-6 окт. 2005 г. – Ярославль: Изд-во ЯрГУ, 2005, http://www.rcdl2005.uniyar.ac.ru/ru/RCDL2005/papers/sek2_1_paper.pdf; см. также в: www.elbib.ru/index.phtml?page=elbib/rus/journal/2006/part5/Lyapin • С.Х.Ляпин. Интеллектуализация многофункциональной электронной библиотеки: концепция, методология, технология // Международная научная конференция «Интеллектуальные информационные технологии в библиотечном деле», 11-12 октября 2005 г., Киев, Национальная библиотека Украины им. В.И.Вернадского (доклад на пленарном заседании), http://www.nbuv.gov.ua/new/05_kiev/plenar.html •Ляпин С.Х., Куковякин А.В. Гибкий поиск и его модификации в многофункциональной информационной среде T-System // Материалы международной конференции «EVA-2005, Москва», 28 ноября - 02 декабря 2005 г., г. Москва, Всероссийская государственная библиотека иностранной литературы им. М.И.Рудомино, http://conf.cpic.ru/upload/eva2005/reports/tezis_412.doc. Поисковая система Yandex по запросу «T-Libra» выдает (на октябрь 2008 года) около 30 релевантных ссылок Презентация • параллельного многоязычного поиска I типа (русский и украинский языки) • работы программы генерации словаря словоформ украинского языка в ИС T-Libra 6.2.