об одном проекте формирования универсальной системы

advertisement
ОБ ОДНОМ ПРОЕКТЕ ФОРМИРОВАНИЯ УНИВЕРСАЛЬНОЙ СИСТЕМЫ
ДЕКЛАРАТИВНЫХ ЗНАНИЙ
М.Г. Мальковский
МГУ им.М.В.Ломоносова, Москва
malk@cs.msu.su
С.Ю. Соловьев
МСЦ РАН, Москва
soloviev@jscc.ru
Теоретически в сети Интернет можно найти ответ практически на любой разумный вопрос.
Проблему составляет даже не поиск информации, а отсутствие системы ее организации. Сегодня
остро ощущается дефицит конструктивных идей глобальной организации знаний. Однако по
отдельным видам знаний прикладные теории уже разрабатываются.
Во многих случаях недостаток знаний человек компенсирует обращением к
терминологическим словарям, содержащим, вообще говоря, слабо структурированный набор
статей, каждая из которых представляет собой определение одного термина. Особый интерес
представляют глоссарии - терминологические словари по частным вопросам; статьи глоссария в
совокупности описывают ту или иную предметную область. Познавательная сила глоссария
состоит в том, что расположенные рядом статьи человек может читать подряд, не выходя за
пределы интересующей его темы.
Обычно статьи глоссария в явном виде содержат указания на семантические связи с другими
статьями того же глоссария или с понятиями, выходящим за его рамки. Рассмотрим, например,
определение потребительского кредита:
Потребительский кредит - кредит, предоставляемый физическим лицам для приобретения
предметов личного потребления.. По форме погашения различают потребительские кредиты
с разовым погашением и потребительские кредиты с рассрочкой платежа.
Понятно, что человек способен выделить из этого определения по крайней мере шесть
понятий:
1. Кредит
2. Потребительский кредит
3. Потребительский кредит с разовым погашением
4. Потребительский кредит с рассрочкой платежа
5. Предметы личного потребления
6. Физические лица
и пять бинарных семантических отношений:
1. Потребительский кредит есть Кредит.
2. Потребительский кредит с разовым погашением есть Потребительский кредит
3. Потребительский кредит с рассрочкой платежа есть Потребительский кредит
4. Потребительский кредит относится-к Предметы личного потребления
5. Потребительский кредит относится-к Физические лица
По определению универсальное терминологическое пространство (УТП) есть абстрактное
хранилище всех терминологических статей, связанных семантическими отношениями.
Фактически УТП - семантическая сеть на множестве абсолютно всех терминов, выработанных
человечеством.
Исходя из определения УТП и реальных возможностей программных систем понимания
текстов, реализация УТП возможна только в виде юридического лица, обеспечивающего
непрерывное пополнение и развитие семантической сети. Не останавливаясь на вопросах
прибыльности такого бизнеса, отметим, что даже простая самоокупаемость возможно только в том
случае, когда построенная часть УТП становится доступной пользователям. С технической точки
зрения, для формирования УТП необходимо иметь технологию формирования с предсказуемой
производительностью.
Исходными данными для построения семантической сети являются специально
отобранные исходные глоссарии, соответствующие тактическим целям развития УТП.
Формированием семантической сети занимаются редакторы-эксперты, деятельность
которых поддерживается программным инструментарием, восходящим к системам извлечения
знаний. Работа редактора-эксперта по обработке исходного глоссария состоит в выделении и
документировании понятий и семантических связей между ними. Группировка осуществляется
посредством бинарных семантических связей типа "это-есть" и "относится-к". При этом каждый
термин, в том числе и понятийный, может иметь произвольное количество семантических связей.
При формировании семантической сети особый вид работы составляет интеграция вновь
поступившего и структурированного глоссария в ранее построенную семантическую сеть. В
процессе интеграции исходный глоссарий прекращает свое существование, как самостоятельная
информационная единица, и распределяется согласно семантическим отношениям между
понятийными терминами.
Часть семантической сети, удовлетворяющая условиям готовности, автоматически
транслируется в Интернет-ресурс, объединяющий в рамках единой навигационной и управляющей
системы тысячи относительно компактных глоссариев. Эти глоссарии формируются вокруг
понятийных терминов, которые и определяют темы (названия) глоссариев.
Описанная технология [1] реализована в виде Интернет-ресурса www.glossary.ru.
Статистика посещаемости свидетельствует о востребованности ресурса. Топология текущей
версии семантической сети с указанием терминов и понятий, приписанных вершинам, также
выложена на www.glossary.ru и доступна в формализованном электронном виде всем
исследователям без ограничений.
Литература:
Мальковский М.Г., Соловьев С.Ю. Универсальное терминологическое пространство. Труды
Международного семинара Диалог'2002 "Компьютерная лингвистика и интеллектуальные
технологии", т.1. М.: Наука, 2002, С. 266-270.
Download