Ляпин Сергей Хамзеевич, канд. филос. наук, доцент ген. директор ООО «Константа», директор АОЦПК (г. Архангельск, Россия) e-mail: [email protected] Куковякин Алексей Валентинович, зам. ген. директора ООО «Константа», зам. директора АОЦПК. e-mail: [email protected]. Многоязычный поиск в электронной библиотеке и его реализация в ИС T-Libra 6.x XI Международная конференция EVA-Moscow 2008, Москва, 1-5 декабря 2008 года В докладе рассматривается проблема многоязычного поиска в многофункциональных электронных библиотеках нового поколения, ориентированных на предоставление продвинутых пользовательских сервисов над полнотекстовыми и полносодержательными (мультимодальными) ресурсами, и описываются подходы к ее решению, связанные с развитием информационной системы T-Libra v.6.x (разработка ООО «Константа, Архангельск, Россия). Во введении дается классификация типов многоязычного поиска, ориентированная на их поэтапную реализацию в электронных библиотеках. Далее рассматривается инструментарий поиска, осуществляемого над различными коллекциями информационных ресурсов и в рамках различных технологических решений, в том числе: - статические двух- и многоязычные словари, формируемые на специализированном подмножестве текстовых ресурсов (например, на двуязычных заголовках статей) с целью их дальнейшего использования для кросс-языкового поиска по полным текстам [1], - совокупность динамических одноязычных словоизменительных словарей, получаемых путем программной генерации словоизменительных парадигм при импорте текстов в электронную библиотеку и/или путем генерации парадигмы «на лету», непосредственно при осуществлении пользовательского запроса (реализовано в ИС T-Libra); - одно- и многоязычные тезаурусы, в том числе существующие международные стандарты их проектирования и использования в информационных системах [2], использование многоязычных тезаурусов для поиска в больших массивах информации [3], а также для интеллектуализации поиска на основе «концептуального индексирования» [4]. Кратко рассмотрены направления деятельности («дорожки») по экспериментальной оценке методов многоязычного поиска в рамках европейской программы CLEF (CrossLanguage Evaluation Forum) и международного семинара CLEF Workshop, присоединенного в Европейской конференции по электронным библиотекам (ECDL), а также российской программы РОМИП (Российская оценка методов информационного поиска) и семинара РОМИП, присоединенного к Всероссийской конференции по электронным библиотекам (RCDL) [5; 6; 7]. В докладе обосновывается утверждение, что именно современная электронная библиотека может рассматриваться как универсальная многофункциональная информационная среда, в которой могут и должны быть реализованы все основные типы и виды поиска, в том числе многоязычного – и для того, чтобы осуществлять эффективный поиск и представление его результатов по всем типам и видам документов [8], которые ведь de facto представлены на разных языках в традиционных («бумажных») библиотеках и уже поэтому должны быть включены в соответствующую электронную библиотеку, и для того, чтобы обеспечивать максимально гибкое и вариативное «моделирование пользователя» (user modeling) и соответствующую функциональную организацию пользовательского запроса. Задачи создания такого рода информационных систем широкого назначения, взаимодействующих между собой с помощью унифицированных Веб-сервисов, особенно актуальны для европейского сообщества в связи с растущей интеграцией разных культур в рамках единого экономического и политического пространства Евросоюза. Но они важны также и для более широкого диалога культур и языков (и соответствующих «культурных текстов») в современном глобальном информационном пространстве. В этом контексте далее рассматриваются вопросы текущей реализации и дальнейшего развития многоязычного поиска в ИС T-Libra 6.x, предназначенной для создания многофункциональных электронных библиотек с гибким тематизируемым полнотекcтовым поиском и возможностями мультимодального расширения [9; 10; 11; 12; 13]. В их числе: - подготовка и импорт многоязычных полнотекстовых ресурсов, включая проблему шрифтов и их отображения в окне браузера при презентации результатов поиска; - использование готовых и/или генерируемых при импорте электронных многоязычных словарей, необходимых как для поддержки полнотекстового поиска общего назначения, так и для обеспечения работы специализированных модулей и оболочек для различных категорий пользователей; - использование генерации «на лету» словоизменительной грамматической парадигмы для терминов, введенных в поля формы пользовательского запроса; - использование многоязычного тезауруса (тезаурусов) для поддержки полнотекстового поиска, как в рамках адаптации к ИС T-Libra готовых тезаурусов, так и путем генерации тезауруса средствами самой информационной системы; - собственно многоязычный поиск и презентация его результатов, в том числе вопросы оптимальной организации интерфейса для различных задач и различных категорий пользователей; - решение проблемы UNICODE на всех уровнях (подготовка и импорт ресурсов, организация и/или генерация электронного словаря словоформ, подготовка и использование тезауруса, полнотекстовый поиск и презентация его результатов в окне браузера). Доклад сопровождается демонстрацией слайдов, а также примерами осуществления двух типов многоязычного поиска в действующей версии ИС T-Libra v.6.2. на коллекции полнотекстовых ресурсов на русском, украинском и английском языках. Литература 1. Абрамова, Н.Н. Формирование многоязычных словарей и их использование при кроссязыковом поиске информации / Абрамова Н.Н., Глобус Е.И. [Электронный ресурс]. – Режим доступа: http://company.yandex.ru/grant/2005/01_Abramova_102704.pdf 2. Аджиев, Алим Сапарович. Подходы к описанию и использованию тезаурусов в информационных системах / Аджиев Алим Сапарович, Нгуен Хунь Мань // Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Труды 5-й Всероссийской научной конференции. RCDL'2003, Санкт-Петербург, Россия, 2003 г. – С. 191-200. [Электронный ресурс]. – Режим доступа: http://rcdl2003.spbu.ru/proceedings/F1.pdf 3. Добров, Б.В. Организация двуязычного поиска в Университетской Информационной Системе «Россия» / Добров Б.В., Лукашевич Н.В. // Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Труды Четвертой Всероссийской научной конференции RCDL’2002. Дубна, 15–17 октября 2002 г. - Том 2. – С. 148-158. [Электронный ресурс]. – Режим доступа: http://rcdl2002.jinr.ru/Reports/Vol_2/vol2_148-158.pdf 4. Добров, Б.В. Тезаурус и автоматическое концептуальное индексирование в Университетской Информационной Системе «РОССИЯ» / Добров Б.В., Лукашевич Н.В. // Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Труды Третьей Всероссийской конференции. RCDL'2001. - Петрозаводск, 2001. - С.78-82. [Электронный ресурс]. – Режим доступа: http://rcdl2001.krc.karelia.ru/papers/papers/dobrov_lukashevich/dobrov_paper.rtf 5. Агеев, М.С. Обзор исследований в рамках Cross-Language Evaluation Forum в 2006 году // Российский семинар по Оценке Методов Информационного Поиска. Труды четвертого российского семинара РОМИП'2006. (Суздаль, 19 октября 2006г.). Санкт-Петербург: НУ ЦСИ, 2006. 274 с. – C.151-159. [Электронный ресурс]. – Режим доступа: http://romip.narod.ru/romip2006/14_uis_clef.pdf 6. Cross-Language Evaluation Forum (CLEF) // [Электронный ресурс]. – Режим доступа: http://www.clef-campaign.org 7. Peters, Carol. What happened in CLEF 2006. Introduction to the Working Notes // Proceedings of CLEF’2006. [Электронный ресурс]. – Режим доступа: http://www.clefcampaign.org/2006/working_notes/ workingnotes2006/petersCLEF2006.pdf 8. Ляпин, С.Х. Электронный документ в многофункциональной электронной библиотеке (на пути к организационно-функциональной интеграции ресурсов и сервисов) // V міжнародна науковопрактична конференція «ДОКУМЕНТОЗНАВСТВО. БІБЛІОТЕКОЗНАВСТВО. ІНФОРМАЦІЙНА ДІЯЛЬНІСТЬ: ПРОБЛЕМИ НАУКИ, ОСВІТИ ТА ПРАКТИКИ». Державна академія керівних кадрів культури і мистецтв. Київ, Україна, 20-22 травня 2008 р. В докладе на пленарном заседании обосновывается тезис об использовании электронной библиотеки в качестве универсальной многофункциональной информационной среды для включения в нее документов различного типа, вида и назначения. 9. Ляпин, С.Х. Методология и технология создания многоцелевой информационной среды TSystem на базе электронной библиотеки с гибким полнотекстовым поиском / Ляпин С.Х., Куковякин А.В. // Труды Седьмой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», RCDL'2005, Ярославль, 4-6 окт. 2005 г. – Ярославль: Изд-во ЯрГУ, 2005. [Электронный ресурс]. – Режим доступа: http://www.rcdl2005.uniyar.ac.ru/ru/RCDL2005/papers/sek2_1_paper.pdf; см. также: www.elbib.ru/index.phtml?page=elbib/rus/journal/2006/part5/Lyapin 10. Ляпин, С.Х. Интеллектуализация многофункциональной электронной библиотеки: концепция, методология, технология // Международная научная конференция «Интеллектуальные информационные технологии в библиотечном деле», 11-12 октября 2005 г., Киев, Национальная библиотека Украины им. В.И.Вернадского (доклад на пленарном заседании). [Электронный ресурс]. – Режим доступа: http://www.nbuv.gov.ua/new/05_kiev/plenar.html 11. Ляпин, С.Х. Гибкий поиск и его модификации в многофункциональной информационной среде T-System / Ляпин С.Х., Куковякин А.В. // Материалы международной конференции «EVA-2005, Москва», 28 ноября - 02 декабря 2005 г., г. Москва, Всероссийская государственная библиотека иностранной литературы им. М.И.Рудомино. [Электронный ресурс]. – Режим доступа: http://conf.cpic.ru/upload/eva2005/reports/tezis_412.doc. 12. Ляпин, С.Х. Расширение функциональности электронной библиотеки в составе многоцелевой информационной среды: тематические коллекции и интерактивные экспозиции / Ляпин С.Х., Куковякин А.В. // Материалы международной конференции «Роль бібліотек у формуванні єдиного науково-інформаційного простору України», 10-11 октября 2006 г., Киев, Национальная библиотека Украины им. В.И.Вернадского. [Электронный ресурс]. – Режим доступа: http://www.nbuv.gov.ua/new/05_Kiev/plenar.html 13. Ляпин, С.Х. Информационная система T-Libra 6.х для создания многофункциональных библиотек: новые проекты, новые задачи, новые возможности / Ляпин С.Х., Куковякин А.В. // Материалы международной конференции EVA-2007 [Электронный ресурс]. – Режим доступа: http://conf.cpic.ru/upload/eva2007/reports/ doklad_1246.doc