Содержание - Ижевский государственный технический

advertisement
Государственное Образовательное Учреждение Высшего
Профессионального Образования
Ижевский Государственный Технический Университет
Факультет послевузовского и дополнительного профессионального
образования
ОТЧЁТ
На тему: «Разработка и моделирование алгоритмов синтеза для
формирования информационной базы знаний»
Аспирант:
Луговских Ю. А.
Научный руководитель:
канд. Техн. Наук
Моченов С. В.
Ижевск
2004 г.
Содержание
Введение
Актуальность работы
Объект исследования
Цель работы
Решаемые задачи
Предмет исследования
Методы исследования
Основные положения, выносимые на защиту.
Научная новизна.
Практическая ценность.
Достоверность и обоснованность результатов.
Реализация результатов работы.
Апробация работы.
Публикации.
Структура и объем работы.
База знаний (термины)
Введение
В Интернете и корпоративных сетях содержится огромное количество
информации в виде неформализованных текстов на естественном языке. Но
при существующих сегодня инструментах (программно-аппаратных
средствах) человеку приходится тратить огромное количество времени и
усилий для того, чтобы добыть знания, необходимые для решения
практических задач. Парадоксальность ситуации в том, что чем больше
информации предоставляет человеку компьютеризированный мир, тем более
недоступными становятся знания.
Для решения данной проблемы нужно иметь технологии извлечения
знаний из массивов текстовой информации. Знания – всегда знания о
некотором объекте. Поэтому знаниевые технологии должны в первую
очередь реконструировать описанные в тексте объекты, то есть –
обеспечивать обработку текстов по содержанию. Автор текста сообщает о
некотором реальном предмете, явлении, ситуации и т.п., выражая при этом
свою точку зрения, освещая ситуацию с определенной стороны.
Читателю важны знания о том, что описано в тексте, поэтому он
восстанавливает в мысли и понимании то, что «стоит за словами» объективное содержание текста, устройство самого предмета, явления,
ситуации. Кроме того, читателю бывает важно знать об источнике сведений и
вносить в картину ситуации поправку на точку зрения автора.
При отсутствии адекватных и эффективных инструментов по
извлечению знаний из текстов – пользователь вынужден более или менее
внимательно прочитывать тексты.
При работе с большим массивом текстов – это затруднительно и
пользователь обращается к инструментам, позволяющим сократить массив
документов за счет исключения мало информативных, повторяющихся,
неактуальных и т.п., - выполняет фильтрацию. При осуществлении
фильтрации средствами «дознаниевых» технологий (поиск и отбор по
ключевым словам, другим формальным признакам) – задача решается слабо,
а при ужесточении формальных критериев – резко возрастает риск
отбраковки полезных, информативных или даже ключевых документов.
Задачей автоматизированной системы, призванной помогать
пользователю в получении знаний из больших массивов текстовых
документов – является: в упрощенном варианте – выполнять эффективную
фильтрацию документов с низким риском отбраковки содержательнозначимых материалов; в развитом варианте – представлять пользователю
обобщенные знания об интересующем предмете (явлении, ситуации и т.п.) в
готовом виде (схемы, компактные отчеты, рефераты), с возможностью
обратиться к первоисточникам, из которых эти знания выделены.
Актуальность работы
Актуальность задачи автоматизированного синтеза текстовой
информации определяется быстро растущими объемами научной и
технической информации, требующей аналитического осмысления и
представления в компактном виде, удобном для последующего
использования в поисковых системах и построении профессиональных
систем знаний, формировании аналитических отчетов..
Объект исследования
Объектом исследования является текстовый документ, представленный
в определенных форматах.
Цель работы
Целью работы является научное обоснование методов компьютерного
синтеза текстовой информации и построение на их основе
профессиональной системы знаний.
Решаемые задачи.
Построение структурной модели синтезируемого текста как
совокупности связанных целевых функций (фрагментов-образов) в
соответствии с главной целью-образом, темой синтезируемого текста. Синтез
текста предполагает наличие некоторой постоянно обновляемой из
различных источников (универсальной системы знаний) в процессе синтеза
профессиональной системы знаний, определяющей основные понятия и
отношения, используемой при синтезе текста, и некоторого механизма
извлечения или синтеза (моделирования) новых знаний путем формирования
промежуточных образов-целей, разворачиваемых во фрагменты текста.
Структурная модель синтезируемого текста определяется как направленный
граф промежуточных образов-целей (дескрипторов фрагментов),
определяющий содержание и последовательность разворачиваемых
фрагментов текста (по типу оглавления или содержания в обычных книгах).
Разработка принципов формирования (синтеза) образа-цели на основе
сформированной профессиональной системы понятий и отношений. Образыцели разворачиваются далее во фрагменты-образы, детализирующие образы-
цели. Разработка критериев информативности синтезируемого текста,
достаточности описания содержания фрагмента-образа. При построении
критериев информативности текста можно использовать статистику
использования различных словосочетаний по отношению к ключевым
словам. Ключевые слова или ключевые словосочетания определяют понятие,
образ, о котором идет речь в тексте, т.е. определяют область интересов
автора или тему, проблему, раскрываемую в тексте. Однако динамика этой
проблемы, ее сущность раскрывается через вспомогательные словосочетания
связанные между собой некоторыми функциями, действиями.
Статистические оценки информативности текстов или фрагментов по
вспомогательным словосочетаниям и действиям. Количество предложений,
раскрывающих какое-либо понятие это тоже показатель сложности,
информативности сообщения. Определение понятия «Новое знание».
Критерии и принципы формирования новых знаний в профессиональной
области пользователя. Связь образа-цели с новым знанием. Новое знание,
новизна – свойства, атрибуты, понятия системы знаний, обеспечивающие
получение новых или принципиально новых качеств, характеристик системы,
реализуемых в процессе ее функционирования. Говорить о новизне
текстовой информации можно только исходя из целей, которые заложены в
эту информацию либо с позиций автора, либо с позиций исследователя,
который решает сходную задачу. Речь идет, в первую очередь, о научной
информации. Только в этом случае можно провести адекватное сравнение
текстов с точки зрения их новизны и информативности. Построение
иерархической базы дескрипторов по теме синтезируемого текста.
Определение достаточности профессиональной базы знаний для синтеза
новых знаний.Возможность применения интерактивного режима (подсказка)
по выбору образа- цели из профессиональной базы знаний.
Для построения системы синтеза профессиональной научной
информации необходимо: иметь набор базовых понятий, определяющих
область исследований, производить генерацию новых понятий на основе
формирования новых словосочетаний и допустимых действий с ними, с
учетом ограничений профессиональной области, осуществить генерацию
новых базовых понятий-целей и оценить, спроектировать возможность
достижения этих целей, например, по методу проб и ошибок.
АНАЛИЗ ТЕКУЩЕГО СОСТОЯНИЯ
Было рассмотрено множество систем, реализующих в какой-то степени
задачу разбора предложений или текстовых блоков в структуру, или
выделяющих основные части предложения.
В результате работы таких систем получается некоторая структура
текстового блока (предложения) из которой невозможно получить исходный
текст. Т.е. для прямого и обратного преобразования текста в структуру при
использовании рассмотренных систем необходимо хранить исходный текст.
Это даёт основание полагать что при увеличении базы данных (базы знаний)
будет расти и объём хранимой информации, что в свою очередь уменьшает
быстродействие (увеличивается время работы системы)
Для разработки или проектирования системы, позволяющей
преобразовывать текст в оптимизированную модель знаний и обратно
необходимо найти эту самую оптимизированную модель и механизм
преобразования.
Download