Ляпин Сергей Хамзеевич Куковякин Алексей Валентинович канд. филос. наук, доцент

реклама
Ляпин Сергей Хамзеевич,
канд. филос. наук, доцент
ген. директор ООО «Константа»,
директор АОЦПК (г. Архангельск, Россия)
e-mail: [email protected]
Куковякин Алексей Валентинович,
зам. ген. директора ООО «Константа»,
зам. директора АОЦПК (г. Архангельск, Россия)
e-mail: [email protected].
Многоязычный поиск в многофункциональной электронной библиотеке:
общие подходы и их реализация в ИС T-Libra 6.x®
Міжнародна наукова конференція «Проблеми гармонізації традиційних і новітніх
бібліотечно-інформаційних ресурсів», Київ, 7-8 жовтня 2008 р.
В докладе рассматриваются перспективные и текущие вопросы организации
многоязычного поиска в многофункциональной электронной библиотеке с возможностями
гибкого тематизируемого полнотекстового поиска и мультимодального расширения.
Во введении предлагается классификация типов многоязычного поиска, дается краткий
обзор литературы по проблемам многоязычного поиска в информационных ресурсах
различного вида и формата и в рамках различных технологических решений. Речь идет, в
частности:
- о создании и использовании многоязычных тезаурусов (стандарты их проектирования
и оценки [1], их использование для автоматического концептуального индексирования [2] и
инструмента обработки больших многоязычных текстовых массивов [3]);
- об организации кросс-языкового поиска для автоматического составления
многоязычных словарей по заглавиям статей [4];
- об осуществлении многоязычного поиска в полнотекстовых и мультимодальных
коллекциях документов различного назначения (библиотечных, музейных, архивных и т.д.),
в том числе поиска, реализованного в рамках различных прикладных разработок этого рода,
обсуждаемых и экспериментально исследуемых в рамках российской программы РОМИП
(Российская Оценка Методов Информационного Поиска) и ежегодного семинара,
присоединенного к Всероссийской конференции по электронным библиотекам и
электронным коллекциям (RCDL), а также европейской программы CLEF (Cross-Language
Evaluation Forum) и ежегодного международного семинара
CLEF Workshop,
присоединенного к Европейской конференции по электронным библиотекам (ECDL),
Далее обосновывается тезис о том, что современная электронная библиотека может
рассматриваться как наиболее общая и универсальная информационная среда, в которой в
разной степени и разной форме должны быть реализованы все основные виды поиска, в том
числе многоязычного, – и для того, чтобы осуществлять эффективный поиск и представление
его результатов по всем типам и видам документов [8], фактически представленных на
разных языках в традиционных («бумажных») библиотеках и уже поэтому потенциально
включаемых в электронную библиотеку, и для того, чтобы обеспечивать интересы самых
разных категорий пользователей, по-разному работающих с разными типами и видами
документов.
Задачи создания такого рода открытых информационных систем общего назначения,
взаимодействующих между собой с помощью унифицированных Веб-сервисов, особенно
актуальны для европейского сообщества в связи с растущей интеграцией разных культур в
рамках единого экономического и политического пространства Евросоюза. Но они важны
также и для более широкого диалога культур и языков (и соответствующих «культурных
текстов») в современном глобальном информационном пространстве.
В этом контексте более подробно рассматриваются вопросы текущей реализации и
дальнейшего развития многоязычного поиска в информационной системе T-Libra 6.x,
предназначенной для создания многофункциональных электронных библиотек с гибким
тематизируемым полнотекcтовым поиском и возможностями мультимодального расширения
(разработка ООО «Константа», Архангельск, Россия) [9; 10; 11; 12; 13]. В их числе проблемы
и решения, касающиеся:
- подготовки и импорта многоязычных полнотекстовых ресурсов, включая проблему
шрифтов и их отображения в окне браузера при презентации результатов поиска;
- использования готовых и/или генерируемых при импорте электронных многоязычных
словарей, необходимых как для поддержки полнотекстового поиска общего назначения, так
и для обеспечения работы специализированных модулей и оболочек для различных
категорий пользователей;
- использования генерации «на лету» словоизменительной грамматической парадигмы
для терминов, введенных в поля формы пользовательского запроса;
- использования многоязычного тезауруса (тезаурусов) для поддержки полнотекстового
поиска (в том числе определяемых пользователем при формировании условий запроса минитезаурусов) – как в рамках адаптации к ИС T-Libra готовых тезаурусов, так и путем
генерация тезауруса средствами самой информационной системы;
- собственно многоязычного поиска и презентации его результатов, в том числе
вопросы оптимальной организации интерфейса для различных задач (обработки различных
типов и видов документов) и различных категорий пользователей;
- решение проблемы UNICODE на всех уровнях (подготовка и импорт ресурсов,
организация и/или генерация электронного словаря словоформ, подготовка и использование
тезауруса, полнотекстовый поиск и презентация его результатов в окне браузера).
Доклад сопровождается демонстрацией слайдов, а также примерами осуществления
многоязычного поиска в действующей версии ИС T-Libra v.6.2. на коллекции документов
(русский, украинский, английский языки).
Литература
1. Аджиев, Алим Сапарович. Подходы к описанию и использованию тезаурусов в
информационных системах / Аджиев Алим Сапарович, Нгуен Хунь Мань // Электронные
библиотеки: перспективные методы и технологии, электронные коллекции. Труды 5-й Всероссийской
научной конференции. RCDL'2003, Санкт-Петербург, Россия, 2003 г. – С. 191-200. [Электронный
ресурс]. – Режим доступа: http://rcdl2003.spbu.ru/proceedings/F1.pdf
2. Добров, Б.В. Тезаурус и автоматическое концептуальное индексирование в Университетской
Информационной Системе «РОССИЯ» / Добров Б.В., Лукашевич Н.В. // Электронные библиотеки:
перспективные методы и технологии, электронные коллекции. Труды Третьей Всероссийской
конференции. RCDL'2001. - Петрозаводск, 2001. - С.78-82. [Электронный ресурс]. – Режим доступа:
http://rcdl2001.krc.karelia.ru/papers/papers/dobrov_lukashevich/dobrov_paper.rtf
3. Добров, Б.В. Организация двуязычного поиска в Университетской Информационной Системе
«Россия» / Добров Б.В., Лукашевич Н.В. // Электронные библиотеки: перспективные методы и
технологии, электронные коллекции. Труды Четвертой Всероссийской научной конференции
RCDL’2002. Дубна, 15–17 октября 2002 г. - Том 2. – С. 148-158. [Электронный ресурс]. – Режим
доступа: http://rcdl2002.jinr.ru/Reports/Vol_2/vol2_148-158.pdf
4. Абрамова, Н.Н. Формирование многоязычных словарей и их использование при кроссязыковом поиске информации / Абрамова Н.Н., Глобус Е.И. [Электронный ресурс]. – Режим доступа:
http://company.yandex.ru/grant/2005/01_Abramova_102704.pdf
5. Агеев, М.С. Обзор исследований в рамках Cross-Language Evaluation Forum в 2006 году //
Российский семинар по Оценке Методов Информационного Поиска. Труды четвертого российского
семинара РОМИП'2006. (Суздаль, 19 октября 2006г.). Санкт-Петербург: НУ ЦСИ, 2006. 274 с. –
C.151-159. [Электронный ресурс]. – Режим доступа: http://romip.narod.ru/romip2006/14_uis_clef.pdf
6. Cross-Language Evaluation Forum (CLEF) // [Электронный ресурс]. – Режим доступа:
http://www.clef-campaign.org
7. Peters, Carol. What happened in CLEF 2006. Introduction to the Working Notes // Proceedings of
CLEF’2006. [Электронный ресурс]. – Режим доступа: http://www.clefcampaign.org/2006/working_notes/
workingnotes2006/petersCLEF2006.pdf
8. Ляпин, С.Х. Электронный документ в многофункциональной электронной библиотеке (на
пути к организационно-функциональной интеграции ресурсов и сервисов) // V міжнародна науково–
практична конференція «ДОКУМЕНТОЗНАВСТВО. БІБЛІОТЕКОЗНАВСТВО. ІНФОРМАЦІЙНА
ДІЯЛЬНІСТЬ: ПРОБЛЕМИ НАУКИ, ОСВІТИ ТА ПРАКТИКИ». Державна академія керівних кадрів
культури і мистецтв. Київ, Україна, 20-22 травня 2008 р. В докладе на пленарном заседании
обосновывается тезис об использовании электронной библиотеки в качестве универсальной
информационной среды для включения в нее документов различного типа, вида и назначения.
9. Ляпин, С.Х. Методология и технология создания многоцелевой информационной среды TSystem на базе электронной библиотеки с гибким полнотекстовым поиском / Ляпин С.Х., Куковякин
А.В. // Труды Седьмой Всероссийской научной конференции «Электронные библиотеки:
перспективные методы и технологии, электронные коллекции», RCDL'2005, Ярославль, 4-6 окт. 2005
г. – Ярославль: Изд-во ЯрГУ, 2005. [Электронный ресурс]. – Режим доступа:
http://www.rcdl2005.uniyar.ac.ru/ru/RCDL2005/papers/sek2_1_paper.pdf;
см.
также:
www.elbib.ru/index.phtml?page=elbib/rus/journal/2006/part5/Lyapin
10. Ляпин, С.Х. Интеллектуализация многофункциональной электронной библиотеки:
концепция, методология, технология // Международная научная конференция «Интеллектуальные
информационные технологии в библиотечном деле», 11-12 октября 2005 г., Киев, Национальная
библиотека Украины им. В.И.Вернадского (доклад на пленарном заседании). [Электронный ресурс].
– Режим доступа: http://www.nbuv.gov.ua/new/05_kiev/plenar.html
11. Ляпин, С.Х. Гибкий поиск и его модификации в многофункциональной информационной
среде T-System / Ляпин С.Х., Куковякин А.В. // Материалы международной конференции «EVA-2005,
Москва», 28 ноября - 02 декабря 2005 г., г. Москва, Всероссийская государственная библиотека
иностранной литературы им. М.И.Рудомино. [Электронный ресурс]. – Режим доступа:
http://conf.cpic.ru/upload/eva2005/reports/tezis_412.doc.
12. Ляпин, С.Х. Расширение функциональности электронной библиотеки в составе
многоцелевой информационной среды: тематические коллекции и интерактивные экспозиции /
Ляпин С.Х., Куковякин А.В. // Материалы международной конференции «Роль бібліотек у
формуванні єдиного науково-інформаційного простору України», 10-11 октября 2006 г., Киев,
Национальная библиотека Украины им. В.И.Вернадского. [Электронный ресурс]. – Режим доступа:
http://www.nbuv.gov.ua/new/05_Kiev/plenar.html
13. Ляпин, С.Х. Информационная система T-Libra 6.х для создания многофункциональных
библиотек: новые проекты, новые задачи, новые возможности / Ляпин С.Х., Куковякин А.В. //
Материалы международной конференции EVA-2007 [Электронный ресурс]. – Режим доступа:
http://conf.cpic.ru/upload/eva2007/reports/ doklad_1246.doc
Российский семинар по Оценке Методов Информационного Поиска (РОМИП)
Целью семинара является создание плацдарма для проведения независимой оценки методов
информационного поиска, ориентированных на работу с русскоязычной информацией, а также
консолидация сообщества российских исследователей и разработчиков, занимающихся
информационным поиском.
http://romip.narod.ru/
Российский семинар по Оценке Методов Информационного
Поиска
РОМИП - это инициатива по созданию плацдарма для проведения независимой оценки методов
информационного поиска, ориентированных на работу с русскоязычной информацией.
Проект имеет некоммерческий характер и осуществляется силами сообщества российских
исследователей и разработчиков, занимающихся информационным поиском. Затраты на подготовку и
проведение тестирования возмещаются за счёт взносов участников. Результаты тестирования
предназначены для использования только в исследовательских целях и не могут быть использованы
в маркетинговых или коммерческих целях.
Используемые методики оценки являются открытыми, они сформированы с учётом мнения
участников. Результаты работы семинара публично доступны как в виде трудов семинара, так и в
виде построенных тестовых корпусов. Доступ к корпусам можно получить после обращения в
Оргкомитет РОМИП и подписания необходимых соглашений с правообладателем.
Благодарности
Проведение семинара стало возможным благодаря объединению усилий разных организаций и
компаний. Мы выражаем благодарность за помощь в организации и предоставлении тестовых данных
и коллекций документов следующим организациям и компаниям:







DW-World
ForUm
Lenta.ru
NewsProm.ru
AK&M
Альфа-канал
АПИ







ВостокМедиа
Грани.ру
Известия
Известия науки
Накануне.ру
Независимая
газета
Полит.ру







Правда.ру
Радио Свобода
Регнум
Росбалт
Российская газета
Россiя
СаратовБизнесКонсалтинг




Советский
спорт
Тюменская
линия
Урал-прессинформ
Финансовые
известия
Отдельное спасибо организаторам всеросийской научной конференции "Электронные библиотеки:
перспективные методы и технологии, электронные коллекции" (RCDL 2007), значительно
упростивших проведение очной части семинара в 2003-2007 годах.
Мы благодарим РФФИ за поддержку семинара (грант 04-07-90280-в).
Также мы хотим выразить благодарность асессорам за их кропотливый труд по оценке.
Оргкомитет РОМИП
http://romip.narod.ru/ru/2007/index.html
Семинар РОМИП'2007
Здесь собрана подробная информация о прошедшем в 2007 году пятом цикле семинара РОМИП:




Хроника событий
Оргкомитет
Участники (подробная таблица)
Дорожки:
o классическая задача поиска по запросу (ad-hoc track) с оценкой методом "общей кучи"
(pooling)
 по коллекции нормативно-правовых документов
 по Веб-коллекции
 по смешанной коллекции
o тематическая классификация
 нормативно-правовых документов
 Веб-сайтов
 Веб-страниц
o кластеризация новостного потока
o контекстно-зависимое аннотирование текстовых документов
o поиск похожих документов по документу образцу или фрагменту текста
Результаты и отчеты участников РОМИП'2007 доступны в разделе "Публикации".
Хроника событий
3 апреля 2007
Начало распространения официальных приглашений к участию в семинаре РОМИП'2007
7 апреля
Опубликована информация о ПЕРВОЙ Российской летней школе по информационному поиску
- RuSSIR, которая успешно прошла в Екатеринбурге в сентябре 2007 года.
10 апреля 2006
Опубликован новый контактный адрес оргкомитета - romip[AT]romip.ru.
1 мая 2007
Опубликован список участников РОМИП'2007.
14 июня 2007
Опубликованы правила проведения дорожек поиска и классификации, включая форматы
данных и результатов. Начало распространения заданий для них.
25 июня 2007
Опубликованы правила проведения дорожек поиска по документу образцу, кластеризации
новостного потока и контекстно-зависимого аннотирования, включая форматы данных и
результатов.
20 сентября 2007
Разосланы результаты оценки для дорожки поиска по нормативно-правовой коллекции.
25 сентября 2007
Разосланы результаты оценки для дорожек поиска по Веб коллекции и смешанной коллекции.
1 октября 2007
Разосланы результаты оценки для дорожек классификации Веб-сайтов и Веб-страниц.
10 октября 2007
Публикация трудов РОМИП'2007 отложена из-за задержек с проведением оценки.
18 октября 2006
В Переславле-Залесском состоялась очная часть РОМИП'2007, на которой были
представлены 6 докладов. После закрытия официальной части семинара и RCDL по традиции
состоялся неформальный круглый стол. Заметки с круглого стола опубликованы в форуме.
20 октября 2007
Опубликованы слайды очной встречи.
Оргкомитет









Михаил Агеев (МГУ, Москва)
Павел Браславский (ИМаш УрО РАН, Екатеринбург)
Максим Губин (Кодекс, Санкт-Петербург)
Борис Добров (УИС РОССИЯ, Москва)
Игорь Кураленок (СПбГУ, Санкт-Петербург)
Игорь Некрестьянов (СПбГУ, Санкт-Петербург)
Владимир Плешко (Гарант-Парк Интернет, Москва)
Илья Сегалович (Яндекс, Москва)
Влад Шабанов (Рамблер,Москва)
Участники







Exactus
Exactus - система семантического поиска и анализа текстовой информации в гетерогенных
информационных ресурсах и сервисах. Exactus - это научно-исследовательский проект,
который развивается в Институте Системного Анализа РАН в течении последних 5 лет
командой опытных лингвистов, программистов, математиков и психологов.
Новая версия Exactus успешно сочетает в себе статистические и лингвистические методы
анализа текстов и функционирует на высокопроизводительной кластерной установке под
управлением операционной системы Unix. Exactus представляет поисковый сервисы
естественно-языкового поиска, вопросно-ответного поиска, расширения запроса близкими по
смыслу словами из Тезауруса, персональной онтологии пользователя и много другое.
NearSky
Система обнаружения закономерностей в больших объемах данных. NearSky обладает
возможностями для проведения эффективного поиска, формирования прогнозов и
классификации текстов в предопределнные категории. В основе системы лежит метод
приближенного вычисления оценок вероятностей событий.
RCO
Компания RCO специализируется на исследованиях в области компьютерной лингвистики и
создании компонентов интеллектуального анализа текста для информационно-поисковых и
информационно-аналитических систем. На семинаре планируется провести апробацию ряда
алгоритмов тематической классификации документов и структуризации новостного потока.
SOPHIA
SOPHIA (SOPHisticated Information Analysis)- это система поиска, в основе которой лежит
алгоритм, кластеризации Contextual Document Clustering (CDC). Алгоритм CDC выделяет из
множества документов в коллекции узкие по смыслу контексты (кластеры).
SPECS
Исследовательский проект, посвященный созданию системы периодического тематического
поиска в Web.
Yandex
Версия поисковой системы 3.8.2 beta.
Версия новостного агрегатора 2.1
Галактика-Zoom
Система обработки больших объемов неструктурированных данных Галактика-Zoom инструмент для создания хранилища текстовой информации, который обладает
возможностями для проведения эффективного поиска и аналитических исследований.
Галактика-Zoom обеспечивает поиск в информационных массивах с применением языка
запросов; возможен контекстный или тематический поиск информации с учетом морфологии.
С помощью комплекса Галактика-Zoom можно построить информационный образ объекта
исследования (Информационный портрет) на основе языковых конструкций - слов и
словосочетаний.




Зеркало новостей
Cистема предназначена для автоматического формирования выпусков новостей, собираемых
от различных источников. В основе алгоритмов кластерного анализа и реферирования лежит
подход, основанный на использовании абзацев в качестве единицы текста.
Поиск@Mail.ru
Поиск KM.ru
KM.ru на РОМИП-2007 планирует провести апробацию новой поисковой системы,
реализующей функции классического информационного поиска. В основе системы традиционные алгоритмы и собственные разработки.
УИС РОССИЯ
Университетская информационная система РОССИЯ (УИС РОССИЯ) - проект, нацеленный на
интеграцию информационных ресурсов для гуманитарных исследований. Поддерживается
Научно-исследовательским вычислительным центром МГУ им.М.В.Ломоносова (НИВЦ МГУ) и
АНО Центр информационных исследований (АНО ЦИИ).
Решения на основе технологий УИС РОССИЯ - тематический анализ текстов, классификация
по большим рубрикаторам, интерактивный поиск документов - используются в некоторых
органах государственной власти и управления, коммерческих организациях.
Участие в семинаре
Семинар открыт для присоединения новых участников. К участию приглашаются все
заинтересованные лица - как создатели поисковых систем, так и исследователи, занимающиеся
проблемами информационного поиска.
Участник свободен в определении набора дорожек, в которых он хочет участвовать, и может
напрямую влиять на правила проведения этих дорожек во время их формирования. Приветствуется
также предложение новых вариантов дорожек на общее обсуждение.
Участнику предоставляется:





Набор данных и заданий для выбранных дорожек
Подробная информация о правилах проведения семинара и используемой методологии
Анонимная оценка результатов тестируемой системы
Информация о всех собранных экспертных оценках для дорожек, в которых он принимает
участие.
Набор вспомогательных инструментов для облегчения процедур импорта и вычисления
оценок
От участника ожидается:



представление результат прогона(ов) системы для их независимой оценки в оговорённые
сроки в требуемом формате
представление статьи с описанием общих принципов использованного подхода и полученных
результатов и доклада на очной встрече
участие в компенсации затрат на распространение тестовых корпусов и оценку результатов (в
виде прямых финансовых вкладов или предоставлении ресурсов для проведения оценки)
Поощряется также и решение модифицированных задач на основе используемых наборов данных.
Заявка на участие
Заявка на участие в семинаре РОМИП должна содержать следующую информацию:



краткая (в 1-2 абзаца) презентация системы
(название, ссылка в web, краткое описание принципов используемого подход
контактная информация
(организация, email контактного лица)
список дорожек, в которых вы заинтересованы принять участие
Заявки принимаются по адресу: romip[AT]romip.ru
Скачать