DOC, 57 КБ - Константа

advertisement
Ляпин Сергей Хамзеевич,
канд. филос. наук, доцент
ген. директор ООО «Константа»,
директор АОЦПК (г. Архангельск, Россия)
e-mail: cpk@atnet.ru
Куковякин Алексей Валентинович,
зам. ген. директора ООО «Константа»,
зам. директора АОЦПК.
e-mail: magicmagus@yandex.ru.
Многоязычный поиск в электронной библиотеке и его реализация в ИС T-Libra 6.x
XI Международная конференция EVA-Moscow 2008, Москва, 1-5 декабря 2008 года
В докладе рассматривается проблема многоязычного поиска в многофункциональных
электронных библиотеках нового поколения, ориентированных на предоставление
продвинутых пользовательских сервисов над полнотекстовыми и полносодержательными
(мультимодальными) ресурсами, и описываются подходы к ее решению, связанные с
развитием информационной системы T-Libra v.6.x (разработка ООО «Константа,
Архангельск, Россия).
Во введении дается классификация типов многоязычного поиска, ориентированная на
их поэтапную реализацию в электронных библиотеках.
Далее рассматривается инструментарий поиска, осуществляемого над различными
коллекциями информационных ресурсов и в рамках различных технологических решений, в
том числе:
- статические двух- и многоязычные словари, формируемые на специализированном
подмножестве текстовых ресурсов (например, на двуязычных заголовках статей) с целью их
дальнейшего использования для кросс-языкового поиска по полным текстам [1],
- совокупность динамических одноязычных словоизменительных словарей, получаемых
путем программной генерации словоизменительных парадигм при импорте текстов в
электронную библиотеку и/или путем генерации парадигмы «на лету», непосредственно при
осуществлении пользовательского запроса (реализовано в ИС T-Libra);
- одно- и многоязычные тезаурусы, в том числе существующие международные
стандарты их проектирования и использования в информационных системах [2],
использование многоязычных тезаурусов для поиска в больших массивах информации [3], а
также для интеллектуализации поиска на основе «концептуального индексирования» [4].
Кратко рассмотрены направления деятельности («дорожки») по экспериментальной
оценке методов многоязычного поиска в рамках европейской программы CLEF (CrossLanguage Evaluation Forum) и международного семинара CLEF Workshop, присоединенного в
Европейской конференции по электронным библиотекам (ECDL), а также российской
программы РОМИП (Российская оценка методов информационного поиска) и семинара
РОМИП, присоединенного к Всероссийской конференции по электронным библиотекам
(RCDL) [5; 6; 7].
В докладе обосновывается утверждение, что именно современная электронная
библиотека
может
рассматриваться
как
универсальная
многофункциональная
информационная среда, в которой могут и должны быть реализованы все основные типы и
виды поиска, в том числе многоязычного – и для того, чтобы осуществлять эффективный
поиск и представление его результатов по всем типам и видам документов [8], которые ведь
de facto представлены на разных языках в традиционных («бумажных») библиотеках и уже
поэтому должны быть включены в соответствующую электронную библиотеку, и для того,
чтобы обеспечивать максимально гибкое и вариативное «моделирование пользователя» (user
modeling) и соответствующую функциональную организацию пользовательского запроса.
Задачи создания такого рода информационных систем широкого назначения,
взаимодействующих между собой с помощью унифицированных Веб-сервисов, особенно
актуальны для европейского сообщества в связи с растущей интеграцией разных культур в
рамках единого экономического и политического пространства Евросоюза. Но они важны
также и для более широкого диалога культур и языков (и соответствующих «культурных
текстов») в современном глобальном информационном пространстве.
В этом контексте далее рассматриваются вопросы текущей реализации и дальнейшего
развития многоязычного поиска в ИС T-Libra 6.x, предназначенной для создания
многофункциональных электронных библиотек с гибким тематизируемым полнотекcтовым
поиском и возможностями мультимодального расширения [9; 10; 11; 12; 13]. В их числе:
- подготовка и импорт многоязычных полнотекстовых ресурсов, включая проблему
шрифтов и их отображения в окне браузера при презентации результатов поиска;
- использование готовых и/или генерируемых при импорте электронных многоязычных
словарей, необходимых как для поддержки полнотекстового поиска общего назначения, так
и для обеспечения работы специализированных модулей и оболочек для различных
категорий пользователей;
- использование генерации «на лету» словоизменительной грамматической парадигмы
для терминов, введенных в поля формы пользовательского запроса;
- использование многоязычного тезауруса (тезаурусов) для поддержки полнотекстового
поиска, как в рамках адаптации к ИС T-Libra готовых тезаурусов, так и путем генерации
тезауруса средствами самой информационной системы;
- собственно многоязычный поиск и презентация его результатов, в том числе вопросы
оптимальной организации интерфейса для различных задач и различных категорий
пользователей;
- решение проблемы UNICODE на всех уровнях (подготовка и импорт ресурсов,
организация и/или генерация электронного словаря словоформ, подготовка и использование
тезауруса, полнотекстовый поиск и презентация его результатов в окне браузера).
Доклад сопровождается демонстрацией слайдов, а также примерами осуществления
двух типов многоязычного поиска в действующей версии ИС T-Libra v.6.2. на коллекции
полнотекстовых ресурсов на русском, украинском и английском языках.
Литература
1. Абрамова, Н.Н. Формирование многоязычных словарей и их использование при кроссязыковом поиске информации / Абрамова Н.Н., Глобус Е.И. [Электронный ресурс]. – Режим доступа:
http://company.yandex.ru/grant/2005/01_Abramova_102704.pdf
2. Аджиев, Алим Сапарович. Подходы к описанию и использованию тезаурусов в
информационных системах / Аджиев Алим Сапарович, Нгуен Хунь Мань // Электронные
библиотеки: перспективные методы и технологии, электронные коллекции. Труды 5-й Всероссийской
научной конференции. RCDL'2003, Санкт-Петербург, Россия, 2003 г. – С. 191-200. [Электронный
ресурс]. – Режим доступа: http://rcdl2003.spbu.ru/proceedings/F1.pdf
3. Добров, Б.В. Организация двуязычного поиска в Университетской Информационной Системе
«Россия» / Добров Б.В., Лукашевич Н.В. // Электронные библиотеки: перспективные методы и
технологии, электронные коллекции. Труды Четвертой Всероссийской научной конференции
RCDL’2002. Дубна, 15–17 октября 2002 г. - Том 2. – С. 148-158. [Электронный ресурс]. – Режим
доступа: http://rcdl2002.jinr.ru/Reports/Vol_2/vol2_148-158.pdf
4. Добров, Б.В. Тезаурус и автоматическое концептуальное индексирование в Университетской
Информационной Системе «РОССИЯ» / Добров Б.В., Лукашевич Н.В. // Электронные библиотеки:
перспективные методы и технологии, электронные коллекции. Труды Третьей Всероссийской
конференции. RCDL'2001. - Петрозаводск, 2001. - С.78-82. [Электронный ресурс]. – Режим доступа:
http://rcdl2001.krc.karelia.ru/papers/papers/dobrov_lukashevich/dobrov_paper.rtf
5. Агеев, М.С. Обзор исследований в рамках Cross-Language Evaluation Forum в 2006 году //
Российский семинар по Оценке Методов Информационного Поиска. Труды четвертого российского
семинара РОМИП'2006. (Суздаль, 19 октября 2006г.). Санкт-Петербург: НУ ЦСИ, 2006. 274 с. –
C.151-159. [Электронный ресурс]. – Режим доступа: http://romip.narod.ru/romip2006/14_uis_clef.pdf
6. Cross-Language Evaluation Forum (CLEF) // [Электронный ресурс]. – Режим доступа:
http://www.clef-campaign.org
7. Peters, Carol. What happened in CLEF 2006. Introduction to the Working Notes // Proceedings of
CLEF’2006. [Электронный ресурс]. – Режим доступа: http://www.clefcampaign.org/2006/working_notes/
workingnotes2006/petersCLEF2006.pdf
8. Ляпин, С.Х. Электронный документ в многофункциональной электронной библиотеке (на
пути к организационно-функциональной интеграции ресурсов и сервисов) // V міжнародна науковопрактична конференція «ДОКУМЕНТОЗНАВСТВО. БІБЛІОТЕКОЗНАВСТВО. ІНФОРМАЦІЙНА
ДІЯЛЬНІСТЬ: ПРОБЛЕМИ НАУКИ, ОСВІТИ ТА ПРАКТИКИ». Державна академія керівних кадрів
культури і мистецтв. Київ, Україна, 20-22 травня 2008 р. В докладе на пленарном заседании
обосновывается тезис об использовании электронной библиотеки в качестве универсальной
многофункциональной информационной среды для включения в нее документов различного типа,
вида и назначения.
9. Ляпин, С.Х. Методология и технология создания многоцелевой информационной среды TSystem на базе электронной библиотеки с гибким полнотекстовым поиском / Ляпин С.Х., Куковякин
А.В. // Труды Седьмой Всероссийской научной конференции «Электронные библиотеки:
перспективные методы и технологии, электронные коллекции», RCDL'2005, Ярославль, 4-6 окт. 2005
г. – Ярославль: Изд-во ЯрГУ, 2005. [Электронный ресурс]. – Режим доступа:
http://www.rcdl2005.uniyar.ac.ru/ru/RCDL2005/papers/sek2_1_paper.pdf;
см.
также:
www.elbib.ru/index.phtml?page=elbib/rus/journal/2006/part5/Lyapin
10. Ляпин, С.Х. Интеллектуализация многофункциональной электронной библиотеки:
концепция, методология, технология // Международная научная конференция «Интеллектуальные
информационные технологии в библиотечном деле», 11-12 октября 2005 г., Киев, Национальная
библиотека Украины им. В.И.Вернадского (доклад на пленарном заседании). [Электронный ресурс].
– Режим доступа: http://www.nbuv.gov.ua/new/05_kiev/plenar.html
11. Ляпин, С.Х. Гибкий поиск и его модификации в многофункциональной информационной
среде T-System / Ляпин С.Х., Куковякин А.В. // Материалы международной конференции «EVA-2005,
Москва», 28 ноября - 02 декабря 2005 г., г. Москва, Всероссийская государственная библиотека
иностранной литературы им. М.И.Рудомино. [Электронный ресурс]. – Режим доступа:
http://conf.cpic.ru/upload/eva2005/reports/tezis_412.doc.
12. Ляпин, С.Х. Расширение функциональности электронной библиотеки в составе
многоцелевой информационной среды: тематические коллекции и интерактивные экспозиции /
Ляпин С.Х., Куковякин А.В. // Материалы международной конференции «Роль бібліотек у
формуванні єдиного науково-інформаційного простору України», 10-11 октября 2006 г., Киев,
Национальная библиотека Украины им. В.И.Вернадского. [Электронный ресурс]. – Режим доступа:
http://www.nbuv.gov.ua/new/05_Kiev/plenar.html
13. Ляпин, С.Х. Информационная система T-Libra 6.х для создания многофункциональных
библиотек: новые проекты, новые задачи, новые возможности / Ляпин С.Х., Куковякин А.В. //
Материалы международной конференции EVA-2007 [Электронный ресурс]. – Режим доступа:
http://conf.cpic.ru/upload/eva2007/reports/ doklad_1246.doc
Download