Загорулько Ю.А., Боровикова О.И., Загорулько Г.Б., Кононенко И

advertisement
РАЗРАБОТКА ПОРТАЛА ЗНАНИЙ ПО КОМПЬЮТЕРНОЙ
ЛИНГВИСТИКЕ1
Ю.А. Загорулько1, О.И. Боровикова1, Г.Б. Загорулько1,И.С. Кононенко1, Е.Г. Соколова2
1
Институт систем информатики имени А.П.Ершова СО РАН, Новосибирск
2
Российский государственный гуманитарный университет, Москва
Введение
Постоянно растущие потребности в средствах автоматической обработки документов и
естественно-языковых, в том числе речевых, интерфейсах, ставят на повестку дня проблему
организации эффективного доступа не только к публикациям, описывающим методы и подходы
к обработке текстов, но и разного рода словарям, программным компонентам и алгоритмам,
реализующим различные задачи обработки текста или речи. И хотя в настоящее время в
Интернете представлен большой объем информационных ресурсов по этой тематике, доступ к
ним значительно затруднен, так как они лишь частично систематизированы и при этом
рассредоточены по различным Интернет-сайтам, каталогам и электронным архивам.
Для решения этой проблемы разрабатываются различные интернет-ресурсы. Самым
известным из них является англоязычный каталог LINGUIST List (http://linguistlist.org/),
созданный для коммуникации и обмена знаниями между лингвистами и содержащий
информацию о публикациях, персоналиях, научных учреждениях, грантах, конкурсах,
проектах, фондах, конференциях и семинарах лингвистической тематики. К его российским
аналогам можно отнести портал "Лингвистика в России: ресурсы для исследователей"
(http://uisrussia.msu.ru/linguist), организованный в виде иерархического каталога ссылок,
тематические категории которого представлены разделами по компьютерной, теоретической и
прикладной лингвистике и их приложениям, и портал “Российская лингвистика (RUSLING)”
(http://rusling.narod.ru), создаваемый в Отделении лингвистических исследований ВИНИТИ
РАН и предлагающий обширный каталог ссылок на словари и корпуса текстов для различных
языков, а также сведения о российских лингвистах, предоставляя возможность их поиска по
области и объекту (языку) исследования.
Как правило, все интернет-ресурсы по данной тематике направлены либо на
информационную поддержку лингвистических сообществ, либо на описание и сохранение
общеязыковой лингвистической информации, но ни один из них не ориентирован на
интеграцию ресурсов по компьютерной лингвистике и обеспечение к ним содержательного
доступа широкому кругу пользователей.
1
Работа выполняется при финансовой поддержке РГНФ (проект № 07-04-12149)
Для решения этой проблемы нами разрабатывается специализированный интернет-портал
знаний. Как информационный ресурс такой портал знаний должен обеспечивать представление
научной дисциплины «компьютерная лингвистика» (КЛ) и участников научной деятельности в
рамках этой дисциплины, интеграцию доступных информационных ресурсов по компьютерной
лингвистике
в
единое
информационное
пространство,
содержательный
доступ
к
систематизированным знаниям и данным, относящимся к компьютерной лингвистике,
информационную поддержку пользователей и персонификацию пользовательского интерфейса.
Пользователями такого портала могут быть как научные работники, преподаватели и
студенты, исследующие, преподающие и изучающие эту дисциплину, так и специалисты,
разрабатывающие программные системы, предназначенные для обработки текстов, анализа и
синтеза речи.
1. Онтология портала знаний по компьютерной лингвистике
Чтобы портал знаний мог предоставлять пользователю описанные выше возможности, он
должен не только иметь гибкие средства представления разнородной информации и
содержательного доступа к ней, но и быть легко настраиваем на новую область знаний, а также
обеспечивать возможность оперативного управления своим информационным наполнением
(контентом). В связи с этим в качестве концептуальной основы портала знаний была выбрана
онтология [1].
Онтология портала включает универсальные (базовые) онтологии научной деятельности и
научного знания [2], а также онтологию научной дисциплины «компьютерная лингвистика».
Онтология научной деятельности является онтологией верхнего уровня и не зависит от
конкретной научной дисциплины. Она включает базовые понятия, относящиеся к организации
научно-исследовательской
деятельности,
такие
как
Персона,
Организация,
Событие,
Деятельность, Публикация. В эту онтологию также включено понятие Информационный
ресурс, которое служит для описания информационных ресурсов, представленных в сети
Интернет, а также понятие Новость, служащее для представления на портале новостей и
связывания их с другими понятиями базовых онтологий.
Онтология научного знания содержит метапонятия и отношения, задающие структуры для
описания предметной области (научной дисциплины) портала знаний, такие как Раздел науки,
Предмет исследования, Объект исследования, Метод исследования, Научный результат,
позволяющие выделить в данной науке значимые разделы и подразделы, задать типизацию
предметов, объектов и методов исследования, описать результаты научной деятельности.
Понятия
описанных
выше
онтологий
связаны
между
собой
ассоциативными
отношениями, выбор которых осуществлялся не только исходя из полноты представления
2
проблемной и предметной областей портала, но и из удобства навигации по его
информационному пространству и поиска информации.
Рис. 1 Ядро онтологии компьютерной лингвистики
Онтология компьютерной лингвистики строится на основе онтологии научного знания. В
связи с этим понятия онтологии КЛ организованы в 5 иерархий «общее-частное» (см. Рис.1),
связанных между собой ассоциативными отношениями, часть которых наследуется из базовых
онтологий, а часть отражает специфику данной предметной области.
3
Предметом исследования в КЛ являются Свойства и Системы языковых единиц,
Процессы, связанные с функционированием этих единиц в коммуникации, и Прикладные
процессы,
отвечающие
исследования
связана
определенному
ассоциативным
социальному
отношением
запросу.
«Аспект»
Иерархия
с
иерархией
предметов
объектов
исследования и отношением «Предмет изучения» с иерархий разделов науки.
В качестве базовых объектов исследования КЛ рассматривается Речевое произведение
(РП), как объективная форма существования и использования ЕЯ, и Структурные языковые
единицы, соответствующие различным языковым уровням: предложения, словосочетания,
слова, морфемы, звуки и пр. Класс понятий РП представлен в иерархии двумя подклассами:
Текст и Устная речь. Языковые единицы сгруппированы в соответствии с языковыми
уровнями в классы: Синтаксические единицы, Лексические единицы, Морфологические единицы
и Фонетико-фонологические единицы. Для представления связи между целостными РП и их
структурными единицами используется отношение «Включение».
Иерархия
методов
исследования
служит
для
систематизированного
описания
инструментов исследования, применяемых в компьютерной лингвистике. В этой иерархии были
выделены подклассы понятий Средства представления знаний, Грамматические формализмы,
Методы теоретической лингвистики, Формальные механизмы и методы обработки ЕЯ,
Методы оценки работы алгоритмов и систем.
В качестве главных разделов КЛ выделены Моделирование языка и языковой
деятельности и Создание прикладных систем. Класс понятий Моделирование языка и языковой
деятельности включает подклассы Автоматическая обработка текста (АОТ) и Речевые
технологии (РТ). Другой класс включает Прикладные системы АОТ и Прикладные системы РТ.
В иерархии научных результатов выделены такие классы, как Технологии и программные
продукты, Прикладные системы, Лингвистические ресурсы. Последний класс включает классы
Словари, Корпуса и Лингвистические БД.
2. Контент портала знаний
Вводя формальные описания понятий предметной области в виде классов объектов и
отношений между ними, онтология портала задает структуры для представления реальных
объектов и связей между ними. В соответствии с этим данные на портале представлены как
множество разнотипных информационных объектов (ИО) и связей, которые в совокупности
образуют информационное содержание или контент портала.
Каждый ИО соответствует некоторому классу онтологии (является экземпляром этого
класса) и имеет заданную этим классом структуру. Между конкретными информационными
4
объектами могут существовать связи, семантика которых определяется отношениями,
заданными между соответствующими классами онтологии.
В первую очередь на портале представлены знания об основных разделах компьютерной
лингвистики, о ее предметах и объектах исследования, используемых в ней моделях и методах,
разработанных прикладных и инструментальных системах, алгоритмах и лингвистических
ресурсах. Пользователи портала могут получить представление не только о компьютерной
лингвистике как научной дисциплине, но и найти информацию о выполняемой в этой области
научной деятельности. Это информация об ученых, исследовательских группах, организациях и
их деятельности, в которой особое место занимают научные и коммерческие проекты, в рамках
которых большей частью и создаются лингвистические знания и ресурсы.
К таким ресурсам относятся как технологии, программные продукты, прикладные
системы, так и чисто лингвистические ресурсы: словари, корпуса и лингвистические БД. Для
организации более эффективного доступа к таким ресурсам в контенте представлена
информация о различных аспектах их разработки: организациях, персонах и проектах, с
которыми связано их появление, а также о таких содержательных характеристиках ресурсов,
как отнесенность к разделу науки, объекту или предмету исследования, методам исследования.
Эта информация связывает ресурсы с остальными данными и знаниями, представленными в
контенте портала, что позволяет пользователю выделить группы ресурсов, созданные,
например, в ходе осуществления некоторой исследовательской деятельности (гранта, проекта,
конкурса) или с использованием определенного класса методов исследования.
Результаты деятельности в области компьютерной лингвистики находят отражение в
публикациях (текстовых ресурсах), доступ к которым также обеспечивается порталом.
Важным
компонентом
информационного
контента
портала
является
описание
информационных ресурсов, систематизированных в соответствии с онтологией портала. К
таким ресурсам относятся сайты организаций, конференций, проектов, порталы и каталоги, а
также отдельные страницы с материалами графического, мультимедийного или текстового
типа. Набор атрибутов и связей ресурса основан на стандарте Dublin Core [3]. Его атрибутами
являются: название, Интернет-ссылка (URL), язык, тип доступа и т.п.
Описание
ресурса
хранится
в
БД
портала
и
включает
экземпляр
понятия
Информационный ресурс и набор экземпляров отношений, связывающих это понятие с
другими понятиями онтологии (Исследователями, Публикациями, Событиями и т.п.).
3. Настройка базы знаний портала и управление его контентом
Для настройки базы знаний портала и управления его контентом используются
специализированные редакторы (редактор онтологий и редактор данных), реализованные как
5
web-приложения и доступные зарегистрированным пользователям через Internet, а также
коллекционер онтологической информации о ресурсах (см. Рис.2).
Настройка портала на область знаний осуществляется с помощью редактора онтологии,
который позволяет создавать, редактировать и удалять любые элементы онтологии (классы
понятий, отношения, домены), а также задавать и модифицировать иерархии понятий.
Рис. 2. Общая схема настройки и доступа к данным и знаниям портала.
Для более удобного представления информации пользователю портала в редактор
онтологий включены средства настройки визуализации знаний и данных, которые позволяют
для каждого класса онтологии задать шаблон визуализации объектов этого класса и шаблон
визуализации ссылок на эти объекты.
Управление контентом портала осуществляется с помощью управляемого онтологией
редактора данных, который позволяет создавать, редактировать и удалять информационные
объекты (экземпляры классов) и связи между ними.
Для
автоматизации
пополнения
контента
портала
знаний
релевантными
информационными ресурсами, был разработан коллекционер онтологической информации [4],
который осуществляет сбор, анализ, оценку релевантности, автоматическое индексирование и
классификацию интернет-ресурсов.
6
4. Обеспечение содержательного доступа к ресурсам по компьютерной лингвистике
Содержательный доступ к знаниям и информационным ресурсам по компьютерной
лингвистике
осуществляется
путем
навигации
по
дереву
понятий
онтологии
и
информационному пространству портала (по ассоциативным отношениям), а также через
развитые средства поиска (см. Рис.2).
Как было сказано выше, для конечного пользователя данные на портале представлены в
виде множества связанных информационных объектов. При навигации по информационному
пространству портала обеспечивается возможность выбора ИО, относящихся к интересующему
нас понятию, просмотра и фильтрации списков выбранных ИО, навигации по конкретным ИО,
а также просмотра описания выбранного информационного ресурса.
Вся информация о конкретном объекте и его связях отображается в виде HTML-страницы,
формат и наполнение которой зависят от свойств понятия, экземпляром которого является
данный объект, и заданного для него шаблона визуализации. При этом объекты, связанные с
данным объектом, представляются на его странице в виде гиперссылок, по которым можно
перейти к их детальному описанию.
Таким образом, навигация по порталу представляет собой процесс перехода от одних
информационных объектов к другим по заданным между ними связям. Например, при
просмотре информации о конкретном проекте мы можем видеть значения его атрибутов и его
связи с другими объектами. Используя представленные связи в качестве элементов навигации,
можно перейти к просмотру подробной информации как по прямым связям (об объекте
исследования, об используемых методах и научных результатах, полученных в ходе
выполнения проекта), так и по обратным (об участниках проекта, публикациях о проекте,
информационном ресурсе, описывающем данный проект).
При просмотре больших списков информационных объектов (например, списка
публикаций) можно воспользоваться механизмом фильтрации. Этот метод позволяет,
например, отфильтровать множество публикаций как по дате публикации (условия на атрибут),
так и по описываемому научному результату или объекту исследования (условия на связанный
объект).
При поиске информации пользователю предоставляется возможность формулирования
запроса в терминах предметной области портала. Такие запросы задаются через специальный
графический интерфейс, управляемый онтологией портала знаний. При этом пользователь
должен выбрать понятие, к которому относятся искомые информационные объекты, и
определить ограничения, которым должны удовлетворять атрибуты выбранного понятия, и его
связи с другими понятиями.
7
Заключение
В докладе описан портал знаний по компьютерной лингвистике, который представляет
знания об основных разделах КЛ, о ее предмете и объектах исследования, используемых
моделях и методах. Он содержит информацию о персоналиях и организациях, включенных в
процесс исследования по КЛ, и о выполняемых в этой области проектах. Пользователи портала
имеют содержательный доступ к информационным ресурсам, представляющим реальные
прикладные системы, технологии и программные продукты для обработки ЕЯ, лингвистические
ресурсы и базы данных.
Благодаря тому, что систематизация и структуризация знаний и данных по компьютерной
лингвистике выполнена на основе онтологии, доступ к этим знаниям и данным осуществляется
путем навигации по дереву понятий онтологии и информационному пространству портала (по
отношениям, представленным в онтологии), а также через средства содержательного поиска.
Пилотная версия портала знаний по компьютерной лингвистике разработана и доступна
по адресу http://speedy.iis.nsk.su/cl/.
При создании портала использовалась технология, разработанная в ходе построения
портала знаний по археологии [5]. На данный момент разработано представительное ядро
онтологии компьютерной лингвистики, включающее около 150 базовых понятий, и выполнено
начальное наполнение портала (около 1000 информационных объектов, связанных более 2000
отношений). Ближайшими целями авторов является разработка и подключение к порталу
знаний многоязычного тезауруса для поддержки взаимодействия с ним на двух языках (русском
и английском), доработка и развитие онтологии КЛ, а также сбор и интеграция в
информационное пространство портала всех наиболее значимых лингвистических ресурсов.
Список литературы
1. Guariano N., Giaretta P. Ontologies and Knowledge Bases. Towards a Terminological Clarification
// Towards Very Large Knowledge Bases: Knowledge Building and Knowledge Sharing.
Amsterdam: IOS Press, 1995. P. 25–32.
2. Загорулько Ю.А. Построение порталов научных знаний на основе онтологий //
Вычислительные технологии. т. 12, спецвыпуск 2, -2007. –С. 169–177.
3. Using Dublin Core. http://dublincore.org/documents/usageguide/
4. Боровикова О.И., Загорулько Ю.А., Сидорова Е.А. Подход к автоматизации сбора
онтологической информации для интернет-портала знаний // Компьютерная лингвистика и
интеллектуальные технологии: Труды международной конференции Диалог'2005
(Звенигород, 1-5 июня 2005 г.). – Москва: Наука, 2005. -С. 65–70.
5. Андреева О.А., Боровикова О.И., Загорулько Ю.А. и др. Археологический портал знаний:
содержательный доступ к знаниям и информационным ресурсам по археологии // Труды 10-й
нац. конф. по искусственному интеллекту с международным участием КИИ'2006. М.:
Физматлит, 2006. -Т.3, -С.832–840.
8
Download