Ляпин Сергей Хамзеевич, канд. филос. наук, доцент ген. директор ООО «Константа», директор АОЦПК (г. Архангельск, Россия) e-mail: [email protected] Куковякин Алексей Валентинович, зам. ген. директора ООО «Константа», зам. директора АОЦПК (г. Архангельск, Россия) e-mail: [email protected]. Многоязычный поиск в многофункциональной электронной библиотеке: общие подходы и их реализация в ИС T-Libra 6.x® Міжнародна наукова конференція «Проблеми гармонізації традиційних і новітніх бібліотечно-інформаційних ресурсів», Київ, 7-8 жовтня 2008 р. В докладе рассматриваются перспективные и текущие вопросы организации многоязычного поиска в многофункциональной электронной библиотеке с возможностями гибкого тематизируемого полнотекстового поиска и мультимодального расширения. Во введении предлагается классификация типов многоязычного поиска, дается краткий обзор литературы по проблемам многоязычного поиска в информационных ресурсах различного вида и формата и в рамках различных технологических решений. Речь идет, в частности: - о создании и использовании многоязычных тезаурусов (стандарты их проектирования и оценки [1], их использование для автоматического концептуального индексирования [2] и инструмента обработки больших многоязычных текстовых массивов [3]); - об организации кросс-языкового поиска для автоматического составления многоязычных словарей по заглавиям статей [4]; - об осуществлении многоязычного поиска в полнотекстовых и мультимодальных коллекциях документов различного назначения (библиотечных, музейных, архивных и т.д.), в том числе поиска, реализованного в рамках различных прикладных разработок этого рода, обсуждаемых и экспериментально исследуемых в рамках российской программы РОМИП (Российская Оценка Методов Информационного Поиска) и ежегодного семинара, присоединенного к Всероссийской конференции по электронным библиотекам и электронным коллекциям (RCDL), а также европейской программы CLEF (Cross-Language Evaluation Forum) и ежегодного международного семинара CLEF Workshop, присоединенного к Европейской конференции по электронным библиотекам (ECDL), Далее обосновывается тезис о том, что современная электронная библиотека может рассматриваться как наиболее общая и универсальная информационная среда, в которой в разной степени и разной форме должны быть реализованы все основные виды поиска, в том числе многоязычного, – и для того, чтобы осуществлять эффективный поиск и представление его результатов по всем типам и видам документов [8], фактически представленных на разных языках в традиционных («бумажных») библиотеках и уже поэтому потенциально включаемых в электронную библиотеку, и для того, чтобы обеспечивать интересы самых разных категорий пользователей, по-разному работающих с разными типами и видами документов. Задачи создания такого рода открытых информационных систем общего назначения, взаимодействующих между собой с помощью унифицированных Веб-сервисов, особенно актуальны для европейского сообщества в связи с растущей интеграцией разных культур в рамках единого экономического и политического пространства Евросоюза. Но они важны также и для более широкого диалога культур и языков (и соответствующих «культурных текстов») в современном глобальном информационном пространстве. В этом контексте более подробно рассматриваются вопросы текущей реализации и дальнейшего развития многоязычного поиска в информационной системе T-Libra 6.x, предназначенной для создания многофункциональных электронных библиотек с гибким тематизируемым полнотекcтовым поиском и возможностями мультимодального расширения (разработка ООО «Константа», Архангельск, Россия) [9; 10; 11; 12; 13]. В их числе проблемы и решения, касающиеся: - подготовки и импорта многоязычных полнотекстовых ресурсов, включая проблему шрифтов и их отображения в окне браузера при презентации результатов поиска; - использования готовых и/или генерируемых при импорте электронных многоязычных словарей, необходимых как для поддержки полнотекстового поиска общего назначения, так и для обеспечения работы специализированных модулей и оболочек для различных категорий пользователей; - использования генерации «на лету» словоизменительной грамматической парадигмы для терминов, введенных в поля формы пользовательского запроса; - использования многоязычного тезауруса (тезаурусов) для поддержки полнотекстового поиска (в том числе определяемых пользователем при формировании условий запроса минитезаурусов) – как в рамках адаптации к ИС T-Libra готовых тезаурусов, так и путем генерация тезауруса средствами самой информационной системы; - собственно многоязычного поиска и презентации его результатов, в том числе вопросы оптимальной организации интерфейса для различных задач (обработки различных типов и видов документов) и различных категорий пользователей; - решение проблемы UNICODE на всех уровнях (подготовка и импорт ресурсов, организация и/или генерация электронного словаря словоформ, подготовка и использование тезауруса, полнотекстовый поиск и презентация его результатов в окне браузера). Доклад сопровождается демонстрацией слайдов, а также примерами осуществления многоязычного поиска в действующей версии ИС T-Libra v.6.2. на коллекции документов (русский, украинский, английский языки). Литература 1. Аджиев, Алим Сапарович. Подходы к описанию и использованию тезаурусов в информационных системах / Аджиев Алим Сапарович, Нгуен Хунь Мань // Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Труды 5-й Всероссийской научной конференции. RCDL'2003, Санкт-Петербург, Россия, 2003 г. – С. 191-200. [Электронный ресурс]. – Режим доступа: http://rcdl2003.spbu.ru/proceedings/F1.pdf 2. Добров, Б.В. Тезаурус и автоматическое концептуальное индексирование в Университетской Информационной Системе «РОССИЯ» / Добров Б.В., Лукашевич Н.В. // Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Труды Третьей Всероссийской конференции. RCDL'2001. - Петрозаводск, 2001. - С.78-82. [Электронный ресурс]. – Режим доступа: http://rcdl2001.krc.karelia.ru/papers/papers/dobrov_lukashevich/dobrov_paper.rtf 3. Добров, Б.В. Организация двуязычного поиска в Университетской Информационной Системе «Россия» / Добров Б.В., Лукашевич Н.В. // Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Труды Четвертой Всероссийской научной конференции RCDL’2002. Дубна, 15–17 октября 2002 г. - Том 2. – С. 148-158. [Электронный ресурс]. – Режим доступа: http://rcdl2002.jinr.ru/Reports/Vol_2/vol2_148-158.pdf 4. Абрамова, Н.Н. Формирование многоязычных словарей и их использование при кроссязыковом поиске информации / Абрамова Н.Н., Глобус Е.И. [Электронный ресурс]. – Режим доступа: http://company.yandex.ru/grant/2005/01_Abramova_102704.pdf 5. Агеев, М.С. Обзор исследований в рамках Cross-Language Evaluation Forum в 2006 году // Российский семинар по Оценке Методов Информационного Поиска. Труды четвертого российского семинара РОМИП'2006. (Суздаль, 19 октября 2006г.). Санкт-Петербург: НУ ЦСИ, 2006. 274 с. – C.151-159. [Электронный ресурс]. – Режим доступа: http://romip.narod.ru/romip2006/14_uis_clef.pdf 6. Cross-Language Evaluation Forum (CLEF) // [Электронный ресурс]. – Режим доступа: http://www.clef-campaign.org 7. Peters, Carol. What happened in CLEF 2006. Introduction to the Working Notes // Proceedings of CLEF’2006. [Электронный ресурс]. – Режим доступа: http://www.clefcampaign.org/2006/working_notes/ workingnotes2006/petersCLEF2006.pdf 8. Ляпин, С.Х. Электронный документ в многофункциональной электронной библиотеке (на пути к организационно-функциональной интеграции ресурсов и сервисов) // V міжнародна науково– практична конференція «ДОКУМЕНТОЗНАВСТВО. БІБЛІОТЕКОЗНАВСТВО. ІНФОРМАЦІЙНА ДІЯЛЬНІСТЬ: ПРОБЛЕМИ НАУКИ, ОСВІТИ ТА ПРАКТИКИ». Державна академія керівних кадрів культури і мистецтв. Київ, Україна, 20-22 травня 2008 р. В докладе на пленарном заседании обосновывается тезис об использовании электронной библиотеки в качестве универсальной информационной среды для включения в нее документов различного типа, вида и назначения. 9. Ляпин, С.Х. Методология и технология создания многоцелевой информационной среды TSystem на базе электронной библиотеки с гибким полнотекстовым поиском / Ляпин С.Х., Куковякин А.В. // Труды Седьмой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», RCDL'2005, Ярославль, 4-6 окт. 2005 г. – Ярославль: Изд-во ЯрГУ, 2005. [Электронный ресурс]. – Режим доступа: http://www.rcdl2005.uniyar.ac.ru/ru/RCDL2005/papers/sek2_1_paper.pdf; см. также: www.elbib.ru/index.phtml?page=elbib/rus/journal/2006/part5/Lyapin 10. Ляпин, С.Х. Интеллектуализация многофункциональной электронной библиотеки: концепция, методология, технология // Международная научная конференция «Интеллектуальные информационные технологии в библиотечном деле», 11-12 октября 2005 г., Киев, Национальная библиотека Украины им. В.И.Вернадского (доклад на пленарном заседании). [Электронный ресурс]. – Режим доступа: http://www.nbuv.gov.ua/new/05_kiev/plenar.html 11. Ляпин, С.Х. Гибкий поиск и его модификации в многофункциональной информационной среде T-System / Ляпин С.Х., Куковякин А.В. // Материалы международной конференции «EVA-2005, Москва», 28 ноября - 02 декабря 2005 г., г. Москва, Всероссийская государственная библиотека иностранной литературы им. М.И.Рудомино. [Электронный ресурс]. – Режим доступа: http://conf.cpic.ru/upload/eva2005/reports/tezis_412.doc. 12. Ляпин, С.Х. Расширение функциональности электронной библиотеки в составе многоцелевой информационной среды: тематические коллекции и интерактивные экспозиции / Ляпин С.Х., Куковякин А.В. // Материалы международной конференции «Роль бібліотек у формуванні єдиного науково-інформаційного простору України», 10-11 октября 2006 г., Киев, Национальная библиотека Украины им. В.И.Вернадского. [Электронный ресурс]. – Режим доступа: http://www.nbuv.gov.ua/new/05_Kiev/plenar.html 13. Ляпин, С.Х. Информационная система T-Libra 6.х для создания многофункциональных библиотек: новые проекты, новые задачи, новые возможности / Ляпин С.Х., Куковякин А.В. // Материалы международной конференции EVA-2007 [Электронный ресурс]. – Режим доступа: http://conf.cpic.ru/upload/eva2007/reports/ doklad_1246.doc Российский семинар по Оценке Методов Информационного Поиска (РОМИП) Целью семинара является создание плацдарма для проведения независимой оценки методов информационного поиска, ориентированных на работу с русскоязычной информацией, а также консолидация сообщества российских исследователей и разработчиков, занимающихся информационным поиском. http://romip.narod.ru/ Российский семинар по Оценке Методов Информационного Поиска РОМИП - это инициатива по созданию плацдарма для проведения независимой оценки методов информационного поиска, ориентированных на работу с русскоязычной информацией. Проект имеет некоммерческий характер и осуществляется силами сообщества российских исследователей и разработчиков, занимающихся информационным поиском. Затраты на подготовку и проведение тестирования возмещаются за счёт взносов участников. Результаты тестирования предназначены для использования только в исследовательских целях и не могут быть использованы в маркетинговых или коммерческих целях. Используемые методики оценки являются открытыми, они сформированы с учётом мнения участников. Результаты работы семинара публично доступны как в виде трудов семинара, так и в виде построенных тестовых корпусов. Доступ к корпусам можно получить после обращения в Оргкомитет РОМИП и подписания необходимых соглашений с правообладателем. Благодарности Проведение семинара стало возможным благодаря объединению усилий разных организаций и компаний. Мы выражаем благодарность за помощь в организации и предоставлении тестовых данных и коллекций документов следующим организациям и компаниям: DW-World ForUm Lenta.ru NewsProm.ru AK&M Альфа-канал АПИ ВостокМедиа Грани.ру Известия Известия науки Накануне.ру Независимая газета Полит.ру Правда.ру Радио Свобода Регнум Росбалт Российская газета Россiя СаратовБизнесКонсалтинг Советский спорт Тюменская линия Урал-прессинформ Финансовые известия Отдельное спасибо организаторам всеросийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" (RCDL 2007), значительно упростивших проведение очной части семинара в 2003-2007 годах. Мы благодарим РФФИ за поддержку семинара (грант 04-07-90280-в). Также мы хотим выразить благодарность асессорам за их кропотливый труд по оценке. Оргкомитет РОМИП http://romip.narod.ru/ru/2007/index.html Семинар РОМИП'2007 Здесь собрана подробная информация о прошедшем в 2007 году пятом цикле семинара РОМИП: Хроника событий Оргкомитет Участники (подробная таблица) Дорожки: o классическая задача поиска по запросу (ad-hoc track) с оценкой методом "общей кучи" (pooling) по коллекции нормативно-правовых документов по Веб-коллекции по смешанной коллекции o тематическая классификация нормативно-правовых документов Веб-сайтов Веб-страниц o кластеризация новостного потока o контекстно-зависимое аннотирование текстовых документов o поиск похожих документов по документу образцу или фрагменту текста Результаты и отчеты участников РОМИП'2007 доступны в разделе "Публикации". Хроника событий 3 апреля 2007 Начало распространения официальных приглашений к участию в семинаре РОМИП'2007 7 апреля Опубликована информация о ПЕРВОЙ Российской летней школе по информационному поиску - RuSSIR, которая успешно прошла в Екатеринбурге в сентябре 2007 года. 10 апреля 2006 Опубликован новый контактный адрес оргкомитета - romip[AT]romip.ru. 1 мая 2007 Опубликован список участников РОМИП'2007. 14 июня 2007 Опубликованы правила проведения дорожек поиска и классификации, включая форматы данных и результатов. Начало распространения заданий для них. 25 июня 2007 Опубликованы правила проведения дорожек поиска по документу образцу, кластеризации новостного потока и контекстно-зависимого аннотирования, включая форматы данных и результатов. 20 сентября 2007 Разосланы результаты оценки для дорожки поиска по нормативно-правовой коллекции. 25 сентября 2007 Разосланы результаты оценки для дорожек поиска по Веб коллекции и смешанной коллекции. 1 октября 2007 Разосланы результаты оценки для дорожек классификации Веб-сайтов и Веб-страниц. 10 октября 2007 Публикация трудов РОМИП'2007 отложена из-за задержек с проведением оценки. 18 октября 2006 В Переславле-Залесском состоялась очная часть РОМИП'2007, на которой были представлены 6 докладов. После закрытия официальной части семинара и RCDL по традиции состоялся неформальный круглый стол. Заметки с круглого стола опубликованы в форуме. 20 октября 2007 Опубликованы слайды очной встречи. Оргкомитет Михаил Агеев (МГУ, Москва) Павел Браславский (ИМаш УрО РАН, Екатеринбург) Максим Губин (Кодекс, Санкт-Петербург) Борис Добров (УИС РОССИЯ, Москва) Игорь Кураленок (СПбГУ, Санкт-Петербург) Игорь Некрестьянов (СПбГУ, Санкт-Петербург) Владимир Плешко (Гарант-Парк Интернет, Москва) Илья Сегалович (Яндекс, Москва) Влад Шабанов (Рамблер,Москва) Участники Exactus Exactus - система семантического поиска и анализа текстовой информации в гетерогенных информационных ресурсах и сервисах. Exactus - это научно-исследовательский проект, который развивается в Институте Системного Анализа РАН в течении последних 5 лет командой опытных лингвистов, программистов, математиков и психологов. Новая версия Exactus успешно сочетает в себе статистические и лингвистические методы анализа текстов и функционирует на высокопроизводительной кластерной установке под управлением операционной системы Unix. Exactus представляет поисковый сервисы естественно-языкового поиска, вопросно-ответного поиска, расширения запроса близкими по смыслу словами из Тезауруса, персональной онтологии пользователя и много другое. NearSky Система обнаружения закономерностей в больших объемах данных. NearSky обладает возможностями для проведения эффективного поиска, формирования прогнозов и классификации текстов в предопределнные категории. В основе системы лежит метод приближенного вычисления оценок вероятностей событий. RCO Компания RCO специализируется на исследованиях в области компьютерной лингвистики и создании компонентов интеллектуального анализа текста для информационно-поисковых и информационно-аналитических систем. На семинаре планируется провести апробацию ряда алгоритмов тематической классификации документов и структуризации новостного потока. SOPHIA SOPHIA (SOPHisticated Information Analysis)- это система поиска, в основе которой лежит алгоритм, кластеризации Contextual Document Clustering (CDC). Алгоритм CDC выделяет из множества документов в коллекции узкие по смыслу контексты (кластеры). SPECS Исследовательский проект, посвященный созданию системы периодического тематического поиска в Web. Yandex Версия поисковой системы 3.8.2 beta. Версия новостного агрегатора 2.1 Галактика-Zoom Система обработки больших объемов неструктурированных данных Галактика-Zoom инструмент для создания хранилища текстовой информации, который обладает возможностями для проведения эффективного поиска и аналитических исследований. Галактика-Zoom обеспечивает поиск в информационных массивах с применением языка запросов; возможен контекстный или тематический поиск информации с учетом морфологии. С помощью комплекса Галактика-Zoom можно построить информационный образ объекта исследования (Информационный портрет) на основе языковых конструкций - слов и словосочетаний. Зеркало новостей Cистема предназначена для автоматического формирования выпусков новостей, собираемых от различных источников. В основе алгоритмов кластерного анализа и реферирования лежит подход, основанный на использовании абзацев в качестве единицы текста. Поиск@Mail.ru Поиск KM.ru KM.ru на РОМИП-2007 планирует провести апробацию новой поисковой системы, реализующей функции классического информационного поиска. В основе системы традиционные алгоритмы и собственные разработки. УИС РОССИЯ Университетская информационная система РОССИЯ (УИС РОССИЯ) - проект, нацеленный на интеграцию информационных ресурсов для гуманитарных исследований. Поддерживается Научно-исследовательским вычислительным центром МГУ им.М.В.Ломоносова (НИВЦ МГУ) и АНО Центр информационных исследований (АНО ЦИИ). Решения на основе технологий УИС РОССИЯ - тематический анализ текстов, классификация по большим рубрикаторам, интерактивный поиск документов - используются в некоторых органах государственной власти и управления, коммерческих организациях. Участие в семинаре Семинар открыт для присоединения новых участников. К участию приглашаются все заинтересованные лица - как создатели поисковых систем, так и исследователи, занимающиеся проблемами информационного поиска. Участник свободен в определении набора дорожек, в которых он хочет участвовать, и может напрямую влиять на правила проведения этих дорожек во время их формирования. Приветствуется также предложение новых вариантов дорожек на общее обсуждение. Участнику предоставляется: Набор данных и заданий для выбранных дорожек Подробная информация о правилах проведения семинара и используемой методологии Анонимная оценка результатов тестируемой системы Информация о всех собранных экспертных оценках для дорожек, в которых он принимает участие. Набор вспомогательных инструментов для облегчения процедур импорта и вычисления оценок От участника ожидается: представление результат прогона(ов) системы для их независимой оценки в оговорённые сроки в требуемом формате представление статьи с описанием общих принципов использованного подхода и полученных результатов и доклада на очной встрече участие в компенсации затрат на распространение тестовых корпусов и оценку результатов (в виде прямых финансовых вкладов или предоставлении ресурсов для проведения оценки) Поощряется также и решение модифицированных задач на основе используемых наборов данных. Заявка на участие Заявка на участие в семинаре РОМИП должна содержать следующую информацию: краткая (в 1-2 абзаца) презентация системы (название, ссылка в web, краткое описание принципов используемого подход контактная информация (организация, email контактного лица) список дорожек, в которых вы заинтересованы принять участие Заявки принимаются по адресу: romip[AT]romip.ru