Загорулько Ю.А., Боровикова О.И. Программная оболочка для

advertisement
УДК 004.822:004.89
ПРОГРАММНАЯ ОБОЛОЧКА ДЛЯ ПОСТРОЕНИЯ
МНОГОЯЗЫЧНЫХ ТЕЗАУРУСОВ ПРЕДМЕТНЫХ
ОБЛАСТЕЙ, ОРИЕНТИРОВАННАЯ НА ЭКСПЕРТОВ
Ю.А. Загорулько (zagor@iis.nsk.su),
О.И. Боровикова (olesya@iis.nsk.su)
Институт систем информатики им. А.П. Ершова СО
РАН, Новосибирск
В работе представлена программная оболочка, с помощью которой
эксперты-лингвисты могут без помощи программистов и инженеров
знаний построить многоязычный электронный тезаурус для
произвольной предметной области.
Введение
Чтобы справиться с постоянным ростом объемов информации,
представленной в текстовом виде и к тому же еще на разных языках,
требуются эффективные средства автоматической обработки и поиска
документов. Важным компонентом таких средств являются многоязычные
тезаурусы, которые в последнее время широко применяются не только для
индексирования документов и информационного поиска [Лукашевич,
2011], в том числе в сети Интернет [Браславский, 2001], но и для решения
задач автоматической обработки текста. Важную роль тезаурусы, наряду с
онтологиями [Guarino, 1998], играют и в качестве средства описания
предметной
области
(ПрО),
используемого
не
только
для
структурирования знаний, но и для целей обучения.
Ввиду указанных выше причин довольно часто возникает потребность
в многоязычных тезаурусах, представляющих терминологию той или иной
области знаний. Однако на данный момент отсутствуют доступные,
простые в использовании, гибкие, но достаточно мощные и надежные
средства разработки тезаурусов.
При этом под доступными средствами мы понимаем недорогие или
свободно распространяемые средства (с обязательной поддержкой
русского языка), под простыми в использовании – средства, которыми
могут легко воспользоваться эксперты предметной области, не прибегая к
помощи инженеров знаний и программистов, под гибкими – средства,
обеспечивающие возможность настройки тезауруса на требуемую
предметную область, под достаточно мощными и надежными – средства,
обеспечивающие разработчиков необходимым инструментарием для
представления всех базовых сущностей тезауруса и описания их свойств, а
также поддерживающие логическую целостность терминологической
системы тезауруса.
В докладе рассматривается программная оболочка для построения
многоязычных электронных тезаурусов для произвольных предметных
областей, разработанная с учетом описанных выше требований. При ее
разработке авторы опирались на отечественные и международные
стандарты [ГОСТ 7.24-2007, 2007; ГОСТ 7.25-2001, 2001; ISO 2788-1986,
1986;
ISO
5964-1985,
1985;
NSI/NISO
Z39.19-2005,
2005],
регламентирующие
структуру
одноязычных
и
многоязычных
информационно-поисковых
тезаурусов
(ИПТ),
т.е.
тезаурусов,
ориентированных на индексирование и информационный поиск
документов.
1. Информационная модель тезауруса
Прежде чем перейти к описанию информационной модели тезауруса,
уточним, что в данной работе понимается под тезаурусом. Основываясь на
определении, данном Н.В. Лукашевич в [Лукашевич, 2011], под
тезаурусом будем понимать словарь, в котором слова и словосочетания с
близкими по смыслу значениями сгруппированы в единицы, называемые
понятиями, концептами или дескрипторами, и в котором явно
указываются
семантические отношения между этими понятиями
(концептами, дескрипторами). Отсюда следует, что главным отличием
тезауруса от других видов словарей является то, что в нем смысл термина
представляется, главным образом, посредством соотнесения его с другими
терминами путем установления с ними семантических отношений.
Таким образом, в этой работе под многоязычным тезаурусом будет
пониматься словарь, основными единицами которого являются термины,
представляющие языковые выражения (слова и словосочетания) понятий
предметной области на нескольких языках, связанные между собой
семантическими отношениями. Для того чтобы тезаурус было легче
контролировать, а также иметь возможность использовать его для ручного
индексирования и получения сведений о представляемой им предметной
области, в него включаются определения (толкования) наиболее важных
терминов и описания их источников.
Информационная модель тезауруса должна обеспечивать структуры
для представления всех базовых сущностей тезауруса и отношений между
ними. Основу этой модели составляет онтология (будем называть ее
онтологией представления тезауруса), которая не только определяет
указанные выше структуры, но и обеспечивает поддержку логической
целостности его терминологической системы. Так как эта онтология
базируется
на
отечественных
и
международных
стандартах,
регламентирующих разработку ИПТ, она предоставляет все необходимые
структуры для построения отвечающих указанным стандартам тезаурусов.
Онтология представления тезауруса включает классы, описывающие
следующие сущности тезауруса: термины, источники терминов
(текстовые документы или коллекции текстов, в которых встречаются или
определяются термины) и области/подобласти знаний, с которыми могут
быть соотнесены термины. В онтологии также представлены отношения,
связывающие объекты перечисленных выше классов между собой (см.
Рис.1).
Рис. 1. Онтология представления тезауруса
Так как в ИПТ термины тезауруса, как правило, подразделяются на
дескрипторы (предпочтительные термины) и аскрипторы (текстовые
входы, которые при поиске и индексировании документов могут быть
заменены на соответствующие дескрипторы), класс онтологии «Термин»
включает два подкласса «Дескриптор» и «Аскриптор».
Основными атрибутами класса «Термин» являются: Название
термина, Язык термина, Комментарий, Автор словарной статьи
(задается для контроля процесса коллективной разработки тезауруса).
Классы «Дескриптор» и «Аскриптор», являясь подклассами класса
«Термин», наследуют его атрибуты. Кроме того, класс «Дескриптор»
включает дополнительные атрибуты: Определение термина (поясняет на
языке термина его смысл или значение) и Релятор (представляет собой
помету, введенную для различения омонимичных терминов (омографов)).
Класс «Источник терминов» имеет следующие атрибуты: Название,
Библиографическая ссылка, Язык, Тип (со значениями – монография,
научная статья, документация, учебник, словарь, тезаурус, интернетресурс, коллекция текстов и др.), Краткое описание и URL (адрес в сети
Интернет). Для коллекции текстов дополнительно может быть задано
количество содержащихся в ней текстов и словоупотреблений.
Для описания областей/подобластей знаний вводится класс
«Подобласть знаний», который включает такие атрибуты, как Название и
Описание подобласти знаний.
Онтология представления тезауруса включает также расширяемый
набор отношений, соответствующий указанным выше стандартам.
Между одноязычными дескрипторами и аскрипторами вводятся
отношения синонимии. Если дескриптор может однозначно во всех
контекстах заменить некоторый аскриптор, то для связи с ним может
использоваться отношение «Синоним», в противном случае – одно из
отношений «Используй альтернативно» или «Используй комбинацию».
Для отражения семантических связей между понятиями, выражаемыми
дескрипторами, вводятся иерархические и ассоциативные отношения, а
также отношения эквивалентности.
Онтология включает следующие иерархические отношения: «Выше»
(недифференцированная
иерархическая
связь),
«ВышеРод»
(устанавливается между двумя дескрипторами, когда объем понятия
нижестоящего дескриптора входит в объем понятия вышестоящего
дескриптора),
«ВышеЦелое»
(устанавливается
между
двумя
дескрипторами в том случае, когда нижестоящий дескриптор представляет
компонент объекта, обозначаемого вышестоящим дескриптором),
«ВышеКласс» (служит для задания связи между дескрипторами,
представляющими класс понятий и экземпляр этого класса).
Отношение «Ассоциируется с» служит для задания произвольных
ассоциативных связей между дескрипторами. Если в тезаурусе требуется
отразить более богатый набор отношений, специфичных для его ПрО, то
такие отношения могут быть введены в онтологию представления
тезауруса вместо отношения «Ассоциируется с».
Для указания эквивалентности дескрипторов, представленных на
разных языках, служит отношение «Эквивалент на другом языке». При
необходимости учитывать степень эквивалентности разноязычных
дескрипторов, этому отношению может быть приписан дополнительный
атрибут, отражающий эту характеристику, либо это отношение может
быть заменено набором отношений, соответствующих различным
степеням эквивалентности.
Для задания связи термина с источниками терминов служат отношения
«Встречается в», при котором можно указать частоту встречаемости
термина в источнике (в качестве значения атрибута Частота), и
«Определяется в», позволяющее связать термин-дескриптор, снабженный
толкованием-определением, с источником определения.
Для связывания дескрипторов с подобластями знаний используется
отношение «Соотносится с подобластью знаний». Для задания иерархий
на подобластях знаний служит отношение «Включает».
Для ряда отношений заданы математические свойства и обратные
отношения. Так, для иерархических отношений «Выше», «ВышеРод»,
«ВышеКласс», «ВышеЦелое» заданы свойства «транзитивность» и
«асимметричность», а также соответствующие обратные отношения
(«Ниже», «НижеВид», «ЭкземплярКласса», «НижеЧасть»). Отношения
«Эквивалент на другом языке» и «Ассоциируется с» объявлены
симметричными и антирефлексивными. Для отношений, выражающих
синонимию терминов «Синоним», «Используй альтернативно»,
«Используй комбинацию», заданы обратные отношения
«Смотри»,
«Сравни альтернативный выбор», «Сравни комбинацию».
2. Архитектура программной оболочки и средства наполнения
и дополнительной настройки тезауруса
Программная оболочка состоит из пользовательского интерфейса,
хранилища данных, в котором содержится онтология представления
тезауруса и его информационное наполнение (контент), а также
редакторов контента и онтологии, предоставляющих средства наполнения
и дополнительной настройки тезауруса на предметную область.
Для задания конкретных терминов, их источников и соотнесенных с
ними областей знаний, а также для установления связей между всеми
этими сущностями используется редактор контента, управляемый
онтологией представления тезауруса. Этот редактор обеспечивает
экспертов-лингвистов удобным web-интерфейсом для ведения тезауруса.
После ввода или редактирования терминов, источников и связей между
ними, новая информация становится сразу доступной пользователям через
пользовательский web-интерфейс.
Целостность и непротиворечивость терминологической системы
тезауруса обеспечивается встроенными в редактор контента механизмами
вывода и поддержки логической целостности тезауруса, работа которых
базируется на описаниях свойств классов и отношений, заданных в
онтологии представления тезауруса. В частности, на основе этих свойств
происходит корректное установление связей между терминами и при
необходимости осуществляется их автоматическое добавление и/или
удаление из контента тезауруса.
К сожалению, не все требования логической целостности системы
понятий тезауруса удалось формализовать в онтологии, поэтому в
оболочку были введены дополнительные средства отслеживания полноты
и логической целостности контента тезауруса в виде отдельного сервиса.
Этот сервис позволяет отследить и предъявить разработчику (1) «висячие»
аскрипторы, т.е. аскрипторы, не связанные ни с одним из дескрипторов,
(2) дескрипторы, не имеющие эквивалента на другом языке (других
языках), (3) дескрипторы, не имеющие определений, и т.п. Такой сервис
автоматически запускается в конце каждого сеанса редактирования
тезауруса, но по желанию разработчика может быть запущен в любое
время.
Для автоматизации и ускорения разработки тезауруса в оболочку в
качестве отдельного приложения включены средства извлечения
предметной лексики из текстов по тематике тезауруса [Сидорова, 2008].
Эти средства могут работать, как с отдельным текстом, так и корпусами
текстов, не только извлекая потенциальные термины будущего тезауруса,
но и обеспечивая разработчиков информацией о встречаемости терминов
в тексте (корпусе текстов).
Если разработчиков не устраивает имеющийся набор отношений и
сущностей тезауруса он может воспользоваться редактором онтологии,
чтобы выполнить дополнительную настройку тезауруса на предметную
область. При этом разработчикам предоставляются следующие
возможности по редактированию онтологии представления тезауруса:
переименование отношений и классов терминов; введение новых
отношений (включая описание их аргументов, атрибутов, и
математических свойств); редактирование свойств терминов и источников
терминов; введение новых классов сущностей и др.
3. Пользовательский интерфейс
Удобный
доступ
к
терминам
тезауруса
обеспечивается
пользовательским web-интерфейсом. В этом интерфейсе содержимое
тезауруса представляется пользователю в виде сети взаимосвязанных
информационных объектов, представляющих элементы тезауруса:
термины, соотнесенные с ними области знаний, а также описания
источников терминов и их определений.
При навигации по тезаурусу обеспечивается возможность выбора
необходимого пользователю термина, детального просмотра его описания
(тезаурусной статьи), а также источников, в которых встречается термин
и/или его определение, и соотнесенных с ним областей знаний.
Пользователь может указать, какой тип информации его интересует –
все термины, дескрипторы, аскрипторы или источники терминов. При
этом ему выдается упорядоченный по алфавиту полный список
имеющихся в тезаурусе объектов выбранного типа, который отображается
в виде html-страницы, содержащей набор ссылок на эти объекты.
Информация о конкретном объекте и его связях также отображается в
виде html-страницы. При этом объекты, связанные с данным объектом,
представляются на его странице в виде гиперссылок, по которым можно
перейти к их детальному описанию.
Дальнейшая навигация по тезаурусу представляет собой процесс
перехода от одних элементов тезауруса к другим по заданным между
ними связям, отражающим существующие между ними семантические
(между терминами) или библиографические (между терминами и
источниками) – отношения.
Кроме навигации по контенту тезауруса также обеспечивается как
простой поиск терминов и источников терминов по ключевым словам, так
и расширенный поиск, учитывающий тип и свойства термина (источника
терминов), а также фильтрация терминов (источников терминов) по
отдельным свойствам, таким как соотнесенность с подобластью знаний,
принадлежность конкретному автору, встречаемость в определенном
источнике терминов и т.п.
Заключение
В докладе представлена программная оболочка для построения
многоязычных электронных тезаурусов, общий состав и структура
которых удовлетворяют международным и отечественным стандартам.
Благодаря тому, что эта оболочка базируется на онтологии, с помощью
которой описывается информационная модель тезауруса, обеспечивается
простая настройка на ПрО, целостность и непротиворечивость
терминологической системы тезауруса, а также удобный доступ к его
контенту.
Данная программная оболочка позволяет создавать тезаурусы
двойного назначения, т.е. тезаурусы, рассчитанные не только на решение
задач индексирования и информационного поиска, но и на
непосредственное использование людьми, желающими обратиться к
системе понятий некоторой предметной области.
Для обеспечения возможности использования тезауруса из других
приложений оболочка включает программный интерфейс, который
предоставляет доступ к терминам тезауруса и описаниям источников
терминов. В частности, для каждого термина-дескриптора можно
получить его синонимы, эквиваленты на других языках, список
дескрипторов, связанных с ним иерархическими отношениями, список
соотнесенных с термином подобластей знаний, список источников
терминов, в которых описан данный дескриптор, и др.
Программная оболочка была использована для построения русскоанглийского тезауруса по компьютерной лингвистике [Загорулько и др.,
2011]. Благодаря наличию развитых средств настройки оболочка может
применяться при построении многоязычных тезаурусов для любых языков
и предметных областей.
Благодарности. Работа выполнена при финансовой поддержке РГНФ
(проект № 10-04-12108в) и программы президиума РАН «Математические
и методологические аспекты интеллектуальных информационных систем»
(интеграционный проект СО РАН № 15/10).
Список литературы
[Браславский, 2001] Браславский П.И. Построение запросов к машине поиска
Internet с помощью тезауруса // Электронные библиотеки: перспективные
методы и технологии, электронные коллекции. Сб. докладов Третьей
Всероссийской конференции RCDL’2001. – Петрозаводск: КарНЦ РАН, 2001.
[ГОСТ 7.24-2007, 2007] ГОСТ 7.24-2007. Система стандартов по информации,
библиотечному и издательскому делу. Тезаурус информационно-поисковый
многоязычный. Состав, структура и основные требования к построению
(введен в действие с 1 июля 2008 г.).
[ГОСТ 7.25-2001, 2001] ГОСТ 7.25-2001. Система стандартов по информации,
библиотечному и издательскому делу. Тезаурус информационно-поисковый
одноязычный. Правила разработки, структура, состав и форма представления
(введен в действие с 1 июля 2002 г.).
[Загорулько и др., 2011] Загорулько Ю.А., Боровикова О.И., Кононенко И.С.,
Соколова Е.Г. Подход к разработке русско-английского тезауруса по
компьютерной лингвистике // Труды XIII Всерос. науч. конференции
RCDL’2011 «Электронные библиотеки: перспективные методы и технологии,
электронные коллекции». – Воронеж: Издательско-полиграфический центр
Воронежского гос. университета, 2011.
[Лукашевич, 2011]
Лукашевич Н.В. Тезаурусы в задачах информационного
поиска. – М.: Изд-во МГУ, 2011.
[Сидорова, 2008] Сидорова Е.А. Многоцелевая словарная подсистема извлечения
предметной лексики // Труды международной конференции Диалог’2008
«Компьютерная лингвистика и интеллектуальные технологии». – М.: РГГУ,
2008. Вып. 7 (14).
[Guarino, 1998] Guarino N. Formal Ontology in Information Systems // Proc. of
FOIS'98, Trento, Italy, 1998 / Ed. N.Guarino. Amsterdam: IOS Press, 1998.
[ISO 2788-1986, 1986]
ISO 2788-1986. Documentation – Guidelines for the
establishment and development of monolingual thesauri. Ed. 2.
[ISO 5964-1985, 1985]
ISO 5964-1985. Documentation - Guidelines for the
establishment and development of multilingual thesauri, IDT (Revised by: ISO/DIS
25964-1 Under development).
[NSI/NISO Z39.19-2005, 2005]
NSI/NISO Z39.19-2005. Guidelines for the
Construction, Format, and Management of Monolingual Controlled Vocabularies
(Periodic Review).
Download