Общая схема организации компьютерных экспериментов по

реклама
УДК 004.896(06) Интеллектуальные системы и технологии
А.С. КЛЕЩЕВ, С.В. СМАГИН
Институт автоматики и процессов управления ДВО РАН, Владивосток
ОБЩАЯ СХЕМА ОРГАНИЗАЦИИ КОМПЬЮТЕРНЫХ
ЭКСПЕРИМЕНТОВ ПО ИССЛЕДОВАНИЮ СВОЙСТВ
МЕТОДОВ ИНДУКТИВНОГО ФОРМИРОВАНИЯ ЗНАНИЙ
В работе предлагается общая схема организации и проведения экспериментальных исследований свойств методов индуктивного формирования знаний в
рамках общего для таких исследований подхода.
На сегодняшний день предложены различные проблемно-независимые
и проблемно-ориентированные методы индуктивного формирования знаний (ИФЗ), которые решают задачу формирования базы знаний – в том
или ином представлении – на основе выборки [1,3]. При решении прикладных задач возникает необходимость выбора наиболее подходящего
метода ИФЗ и формирование выборки достаточного объема. Такой выбор
должен осуществляться исходя из условий и ограничений задачи, а также
из известных свойств методов ИФЗ. Основными свойствами методов индуктивного формирования знаний являются зависимость времени ИФЗ от
объема выборок примеров и выборок контрпримеров, а также скорость
сходимости метода при увеличении объема выборки.
Важной характеристикой каждого метода ИФЗ является устойчивость
значений свойств этого метода. Свойство метода устойчиво относительно
разных выборок одной и той же предметной области (ПО), если значения
этого свойства близки на разных выборках (этой ПО) одного и того же
объема, причем, чем больше объем выборок, тем значения ближе. Свойство метода устойчиво относительно свойств ПО, если значения этого
свойства близки на разных выборках (взятых из различных ПО) одного и
того же объема, причем, чем больше объем выборок, тем значения ближе.
В работе [4] предлагается общий подход к экспериментальному исследованию свойств методов индуктивного формирования знаний. В настоящей работе рассмотрена общая схема экспериментальных исследований
свойств методов ИФЗ в рамках предложенного подхода, причем все исследование разбито на ряд последовательно решаемых задач.
Первой задачей является явное описание класса баз знаний M. Это
описание может формироваться либо прикладным математиком с использованием методики прикладной математики (для проблемно-независимых
методов), либо инженером знаний и экспертом в этой ПО (для проблемноISBN 978-5-7262-0883-1. НАУЧНАЯ СЕССИЯ МИФИ-2008. Том 10
94
УДК 004.896(06) Интеллектуальные системы и технологии
ориентированных методов), как результат анализа системы понятий этой
ПО и построения онтологии ПО.
Второй задачей является разработка алгоритма генерации случайной
базы знаний (СБЗ) m на основе описания класса баз знаний M. Далее на
основе разработанного алгоритма должна быть реализована программа
генерации СБЗ, с помощью которой осуществляется генерация некоторой
СБЗ m. Рассматривая различные СБЗ m, совместно с описанием класса баз
знаний M, можно получать различные модели ПО одного и того же класса
(общность между ними определяется одним и тем же описанием М). Для
выяснения устойчивости метода ИФЗ относительно свойств ПО необходима генерация многих СБЗ.
Третьей задачей является разработка и реализация алгоритма генерации случайных выборок примеров и случайных выборок контрпримеров
различного объема на основе СБЗ m и описания класса баз знаний M.
Четвертой задачей является проведение серии экспериментальных исследований метода ИФЗ, входными данными для которых являются сгенерированные выборки примеров и контрпримеров, а результатом – индуктивно сформированные базы знаний (ИФБЗ).
Пятой задачей является вычисление внешней и внутренней оценок
ИФБЗ, на основе которых устанавливаются интересующие исследователя
зависимости, а также выясняется их устойчивость. Исследование качества
ИФБЗ целесообразно вести лишь в таком диапазоне объемов выборок, при
которых получаемый результат значимо меняется. Исследование устойчивости имеет смысл проводить на выборках различного объема только
до тех пор, пока различия между значениями соответствующих свойств
являются значимыми.
Работа выполнена при финансовой поддержке ДВО РАН в рамках
Программы Президиума РАН №14 “Фундаментальные проблемы информатики и информационных технологий”, проект “Интеллектуальные системы, основанные на многоуровневых моделях предметных областей”.
Список литературы
1. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. – Новосибирск: Издво Ин-та математики, 1999. 270 с.
2. Ryszard S. Michalski, Kenneth A. Kaufman. Data Mining and Knowledge Discovery: A
Review of Issues and a Multistrategy Approach, 1997.
3. http://citeseer.ist.psu.edu/michalski97data.html
4. Клещев А.С. Задачи индуктивного формирования знаний в терминах непримитивных онтологий предметных областей // НТИ. Сер. 2, 2003. № 8. С. 8-18.
5. Клещев А.С., Смагин С.В. Организация компьютерных экспериментов по индуктивному формированию знаний. – Владивосток: ИАПУ ДВО РАН, 2007. 36 с.
6. http://www.iacp.dvo.ru/is/publications/2007-Kleschev,Smagin-Organizing.pdf
ISBN 978-5-7262-0883-1. НАУЧНАЯ СЕССИЯ МИФИ-2008. Том 10
95
УДК 004.896(06) Интеллектуальные системы и технологии
ISBN 978-5-7262-0883-1. НАУЧНАЯ СЕССИЯ МИФИ-2008. Том 10
96
Скачать