2.5 Тема 5. Представление и формализация нечетких знаний

advertisement
ИНСТИТУТ УПРАВЛЕНИЯ, БИЗНЕСА И ПРАВА
В. В. Храмов
УЧЕБНО-МЕТОДИЧЕСКИЙ КОМПЛЕКС
ПО ДИСЦИПЛИНЕ
«Интеллектуальные информационные
системы»
для студентов специальности
«ПРИКЛАДНАЯ ИНФОРМАТИКА (В УПРАВЛЕНИИ)»
(очная, заочная формы обучения)
Ростов-на-Дону 2010 г.
Учебно-методический комплекс по дисциплине «Интеллектуальные
информационные системы » разработан в соответствии с требованиями
Государственного образовательного стандарта высшего профессионального
образования для студентов, обучающихся по специальности:
080801.65 – ПРИКЛАДНАЯ ИНФОРМАТИКА (В УПРАВЛЕНИИ).
Учебно-методический комплекс включает учебную программу курса,
планы
проведения
занятий,
список
основной
и
дополнительной
рекомендуемой литературы, перечень контрольных вопросов по дисциплине,
словарь основных терминов и понятий, содержит перечень компетенций,
требуемых для аттестации знаний по дисциплине.
Учебно-методический комплекс рекомендован к изданию кафедрой
«Информационные технологии» (протокол №1 от 31.08.2010 ) и утвержден
Учебно-методическим советом по дисциплинам Института управления,
бизнеса и права (протокол № 1 от 10.09.2010).
Составитель: к.т.н. Храмов В.В. (ИУБиП)
Рецензенты: д.т.н. проф. Строцев А.А.
к.т.н., проф. Филоненков А.И.
2
СОДЕРЖАНИЕ
C.
1
РАБОЧАЯ ПРОГРАММА .............................................................................. 5
1.1 ЦЕЛИ И ЗАДАЧИ ДИСЦИПЛИНЫ .....................................................................6
1.2 ТРЕБОВАНИЯ К УРОВНЮ УСВОЕНИЯ ДИСЦИПЛИНЫ...........................7
1.3 АУДИТОРНАЯ РАБОТА ........................................................................................8
1.4 САМОСТОЯТЕЛЬНАЯ РАБОТА....................................................................... 11
1.5 ТЕМЫ КУРСОВЫХ РАБОТ и УЧЕБНЫХ ПРОЕКТОВ ............................... 11
1.6 УЧЕБНО-МЕТОДИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ДИСЦИПЛИНЫ ............... 12
1.6.3 Информационно-методическое обеспечение ............................................ 12
2
ЛЕКЦИИ......................................................................................................... 14
2.1 Тема 1. Основные классы интеллектуальных информационных систем ... 14
2.2 Тема 2 Цели и концепция интеллектуальной информационной системы.... 17
2.3 Тема 3. Представление знаний в интеллектуальных системах...................... 22
2.4 Тема 4. Интеллектуальные системы поддержки принятия решений и
экспертные системы ............................................................................................... 31
2.5 Тема 5. Представление и формализация нечетких знаний .............................. 34
2.6 Тема 6. Обработка знаний и вывод решений в интеллектуальных системах40
Часть 2 .............................................................................................................................. 42
2.7 Тема 7. Business intelligence – основные понятия .............................................. 42
2.8 Тема 8. Хранилища данных................................................................................... 48
2.9 Тема 9. OLAP – системы........................................................................................ 58
2.10 Тема 10. Интеллектуальный анализ данных .................................................... 65
2.11 Тема 11. Задачи анализа данных ........................................................................ 73
2.12 Тема 12. Задачи интеллектуального анализа данных. Поиск ассоциативных
правил ........................................................................................................................ 74
2.13 Тема 13. Задачи интеллектуального анализа данных. Кластеризация ........ 77
3
ПРАКТИЧЕСКИЕ ЗАНЯТИЯ ...................................................................... 81
3.1 Лабораторная работа 1. Исследование вывода на продукционной модели
данных ....................................................................................................................... 81
3
3.2 Лабораторная работа 2. Исследование вывода цепочки правил при
недостаточной информации .................................................................................. 85
3.3 Лабораторная работа 3 Исследование способов моделирования нечетких
знаний и правил для решения интеллектуальных задач ................................. 89
3.4 Лабораторная работа 4 Подготовка базы фактов для экспертной системы . 96
3.5 Лабораторная работа 5. Исследование методов кластерного анализа при
интеллектуальной обработке данных в информационных системах .......... 106
3.6 Лабораторная работа 6 Импорт данных в Deductor Studio ............................ 110
3.7 Лабораторная работа 7 Создание многомерного хранилища данных......... 113
3.8 Лабораторная работа 8 Задачи визуализации в Deductor Studio ................... 117
3.9 Лабораторная работа 9 Многомерные отчеты и простая аналитика ........... 119
3.10 Лабораторная работа 10 Задачи сегментации и классификации................ 121
4
ПЛАН САМОСТОЯТЕЛЬНОЙ РАБОТЫ СТУДЕНТОВ ...................... 124
5
КОНТРОЛЬНЫЕ РАБОТЫ (ТОЛЬКО ДЛЯ ЗО) .................................... 124
6
КУРСОВЫЕ РАБОТЫ (УЧЕБНЫЕ ПРОЕКТЫ) .................................... 124
7
КОНТРОЛЬ ................................................................................................. 124
7.1 Структура и бальная оценка каждого модуля .................................................. 124
7.2 Тестовые задания: ................................................................................................. 125
8
КОНТАКТНАЯ ИНФОРМАЦИЯ ПРЕПОДАВАТЕЛЯ. ........................ 130
4
1 РАБОЧАЯ ПРОГРАММА
РАБОЧАЯ ПРОГРАММА ДИСЦИПЛИНЫ
«Интеллектуальные информационные
СД.Ф.2
системы»
(индекс)
(наименование)
СПЕЦИАЛЬНОСТЬ(И)
ПРИКЛАДНАЯ ИНФОРМАТИКА (В
УПРАВЛЕНИИ)
080801.65
(шифр)
(наименование)
СПЕЦИАЛИЗАЦИЯ(И)
IT-менеджмент
(шифр)
(наименование)
Управления и
информационных
технологий
«Информационные
технологии»
ОБРАЗОВАТЕЛЬНЫЙ
ПРОЕКТ
КАФЕДРА
(код)
ПЛАНОВЫЕ ПОКАЗАТЕЛИ
Всего часов на освоение учебного материала (по ГОС/по
Учебному плану)
Часов аудиторных занятий всего
Часов лекций с разбивкой по семестрам
Часов практических занятий с разбивкой по семестрам
Часов самостоятельной работы
Число контрольных работ с разбивкой по семестрам
Число курсовых работ с разбивкой по семестрам
Число зачетов с разбивкой по семестрам
Число экзаменов с разбивкой по семестрам
Число кредитов
Число модулей
(наименование)
Очная
форма
Заочная
форма
228
228
76
Заочная
сокр.
228
30
16
8
9
8
9
8
9
16
16
22
22
76
76
7
8
7
8
7
8
6
6
10
8
98
100
5
6
5
6
5
6
8
9
1
1
7
8
1
1
5
6
8
9
8
9
4
4
3
3
7
8
4
4
5
6
8
4
2
2
106
106
4
4
5
Автор рабочей программы
Храмов В.В.
(подпись)
(Ф.И.О.)
РАБОЧАЯ ПРОГРАММА СОСТАВЛЕНА НА ОСНОВАНИИ:
1.
Государственного образовательного стандарта высшего профессионального образования 17.03.2000г
(дата утверждения)
2.
Типовой программы
___.09.2007
(дата утверждения)
3.
Учебного плана
___.06.2010
(дата утверждения)
РАБОЧАЯ ПРОГРАММА ОБСУЖДАЛАСЬ И СОГЛАСОВАНА
КАФЕДРОЙ:
«Информационные технологии»
Строцев А.А.
(наименование)
(подпись зав. каф)
Протокол заседания кафедры № 2
(Ф.И.О.)
от 10.09.2010
УМС по экономике и управлению
(наименование)
Протокол УМС № 1
Киянова Л.Д.
(подпись председателя УМС)
(Ф.И.О.)
от …..09.2010
1.1 ЦЕЛИ И ЗАДАЧИ ДИСЦИПЛИНЫ
Целью изучения дисциплины является подготовка специалистов в
области автоматизации сложноформализуемых задач, и прежде всего задач
управления и экономики. Необходимо дать студентам знания:
– о
состоянии
и
тенденциях
развития
экономических
информационных систем;
– об информационной технологии решения задач управления,
связанной с использованием средств и методов искусственного
интеллекта;
– о
способах
разработки
информационных
(основные
сферы
и
систем
использования
различных
производственного
интеллектуальных
прикладных
цикла,
областях
финансово-
экономические информационные системы);
– об инструментарии интеллектуального анализа экономических
данных (business intelligence).
6
Задачей изучения дисциплины является освоение математических и
алгоритмических основ интеллектуальных информационных систем,
существующих и перспективных средств анализа экономических данных и
приобретение навыков их практического применения для решения
конкретных задач бизнеса.
1.2 ТРЕБОВАНИЯ К УРОВНЮ УСВОЕНИЯ ДИСЦИПЛИНЫ
В процессе изучения дисциплины студенты должны:
Иметь представление: о современных программном, методическим и
техническом обеспечениях интеллектуальных систем, об интеллектуальных
технологиях и перспективных прикладных сферах их применения.
Знать: основные теоретические и прикладные методы и модели анализа
и разработки информационных процессов в управленческой деятельности
Уметь: работать с различными моделями представления знаний и
обосновывать их выбор в практических условиях, адекватно формализовать
прикладные проблемы из профессиональной квалификационной сферы
деятельности,
формулировать
интеллектуальных
существующие
задачи
информационных
программные
пакеты,
и
ограничения
систем,
в
терминах
грамотно
применять
программировать
отдельные
приложения поддержки управленческой деятельности, работать с основными
инструментальными средствами анализа и проектирования интеллектуальных
систем.
Овладеть компетенциями IT-менеджера: начального уровня по
разработке
Интеллектуальные
информационные
системы
в
проекте
информационной системы (2 глава дипломного проекта)
7
1.3 АУДИТОРНАЯ РАБОТА
1.3.1 Лекции
№
п/п
Тема занятия
Краткое содержание
1
2
3
К-во
часов
О З С
4 5 6
Часть 1
1
Основные классы
интеллектуальных
информационных
систем
2
Цели и концепция
интеллектуальной
информационной
системы
3
Представление
знаний
в
информационных
системах
4
Интеллектуальные
системы
поддержки
принятия решений
и
экспертные
системы
5
Представление и
формализация
нечетких знаний
6
Обработка знаний
и вывод решений
в
интеллектуальных
системах
Итого за семестр
Назначение, задачи и общая характеристика курса,
общие понятия и определения. Первые экспертные и
советующие
системы.
Системы
поддержки
принятия экономических решений. Классификация
ИИС.
Основные
цели
интеллектуализации
информационных систем для бизнеса. Концепция
ИИС. Классификация проблем, возникающих в
экономике по уровню их формализуемости и
структурируемости. Идентификация проблем и
ситуаций.
Проблемы представления и моделирования знаний.
Продукционные модели. Логические модели.
Исчисление
высказываний
и
исчисление
предикатов. Семантические сети. Интенсиональные
и экстенсиональные модели семантических сетей.
Фреймы: структура, динамика.
ИИС для поддержки принятия решений: основные
компоненты,
общая
структура.
Условия
использования ИСППР на предприятии.
Экспертные системы (ЭС). Технология ЭСинженерия знаний. Основные понятия ЭС.
Функциональные возможности и характеристики
экспертных систем. ЭС как эргатическая система.
Место человека в экспертной системе. Области
применения ЭС. Статические и динамические ЭС.
Основные понятия и определения нечетких
множеств и нечеткой логики. Операции над
нечеткими
множествами.
Нечеткая
и
лингвистическая переменная. Нечеткие числа,
функции и проекции. Лингвистические критерии и
отношения предпочтения.
Методы вывода и поиска решений в продукционных
системах. Прямые и обратные цепочки вывода.
Методы и алгоритмы оптимального поиска решений
в пространстве состояний модели знаний о
предметной области. Особенности поиска решений
на основе семантических сетей и фреймов.
Исчисление высказываний и исчисление предикатов
в рамках нечеткой логики. Нечеткие базы данных и
базы знаний для экспертных систем в экономике.
2
2
2
2
-
-
4
2
2
2
-
2
1
2
4
1
2
16
6
8
8
№
п/п
Тема занятия
Краткое содержание
1
2
3
1
Основные
понятия
business
intelligence
(BI)
2
Хранилища данных
3
OLAP-системы
4
Интеллектуальный
анализ данных
5
Задачи
анализа
данных.
Классификация
и
регрессия
Задачи
анализа
данных.
Поиск
ассоциативных
правил.
Задачи
анализа
данных.
Кластеризация
6
7
К-во
часов
О З С
4 5 6
Часть 2
Основные
категории
BI
–
продуктов: 2
инструменты, приложения. Многомерные и
реляционные OLAP-механизмы, генераторы
запросов и отчетов, средства моделирования,
статистического анализа, визуализации и data
mining. Архитектура BI. Среда хранения и
доступ к информации. Метаданные.
Концепция хранилищ данных (ХД). Структура 2
СППР с физическим и виртуальным ХД.
Витрина данных. Архитектура ХД. Очистка
данных. ХД и анализ данных.
Многомерная
модель
данных.
Гиперкуб 2
данных:
срез,
вращение,
консолидация.
Концептуальное многомерное представление:
правила Кодда.
Архитектура OLAP-систем. МOLAP- и ROLAPсистемы.
Добыча данных - data mining: классификация 2
задач.
Классификация,
регрессия,
поиск
ассоциативных правил, кластеризация. Области
практического применения data mining. Методы
data mining: базовые, нечеткая логика,
генетические алгоритмы, нейронные сети.
Процесс обнаружения знаний.
Постановка задач и представление результатов. 2
Правила классификации, деревья решений,
математические
функции
и.методы
их
представления. Карта Кохонена.
Постановка и формализация задачи.
2
Сиквенциальный анализ. Разновидности задачи
и алгоритмы их решения. Формы визуализации
и представления результатов.
Постановка и формализация задачи. Меры
4
близости, основанные на расстояниях. Формы
представления результатов. Базовые алгоритмы
кластеризации. Иерархические алгоритмы:
агломеративные, дивизимные. Неиерархические
и нечеткие алгоритмы.
Итого за семестр
16
Итого за дисциплину
2
2
-
-
2
2
2
-
-
-
-
-
-
6
4
32 12 12
9
1.3.2 Практические занятия
№
п/п
Тема занятия
Краткое содержание
1
2
3
К-во
часов
О З С
4 5 6
Часть 1
1
2
Исследование
вывода на
продукционной
модели данных
Исследование
вывода
цепочки
правил при неполной
информации
Разработка
базы
фактов
для
экспертной
системы
4 Исследование
способов
формализации
нечетких знаний
5 Исследование
процедур
кластеризации
Итого
3
Разработка и исследование программы поиска
оптимального пути вывода цепочки правил в
пространстве состояний модели предметной области
4
-
-
Разработка и исследование набора процедур поиска
решения при неполной или нечеткой информации.
Разработка советующей системы типа «Помощник
сапера»
6
-
-
2
2
4
-
4
-
Разработка
базы
фактов
и
выбор
базы 2
детерминированных правил для экспертной системы
с оценкой достоверности на основе байесовского
подхода
Разработка программы моделирования нечетких 6
множеств и нечеткой логики: Операции над
нечеткими
множествами.
Лингвистическая
и
нечеткая и переменная. Нечеткие числа и функции .
Разработка и исследование программ кластеризации 4
многомерных данных с использованием различных
мер их близости
22
Часть 2
1 Импорт данных в Подготовка сценариев. Организация хранилища 4
Deductor Studio
данных. Ввод данных в ХД из разных допустимых
источников. Просмотр результатов импорта в ХД
2 Создание
Создание виртуального ХД. Выбор источников 6
многомерного
данных. Импорт данных. Исследование многомерной
хранилища
модели данных. Операции с гиперкубом данных: срез,
данных
вращение, консолидация. Работа с измерениями.
Извлечение данных из ХД и их анализ.
3 Многомерные
Преобразование дата/время. Формирование кросс- 6
отчеты и простая таблицы, кросс-диаграммы. Процедура фильтрации и
аналитика
редактирования кросс-диаграммы.
4 Исследование
Классификация, регрессия, поиск ассоциативных 6
задач
правил, кластеризация. Исследование возможностей
сегментации
и когнитивной компьютерной графики. Карты Кохонена
классификации
их модификация и редактирование.
Итого за семестр
22
Итого за дисциплину
10 2
-
-
-
2
-
-
-
-
8 2
44 18 4
10
1.4 САМОСТОЯТЕЛЬНАЯ РАБОТА
№
Кол-во часов
Содержание самостоятельной работы
О З
С
Форма
контроля
Часть1
1
2
Изучение материала по теме «Основные классы 12 12
интеллектуальных информационных систем»
Изучение материала по теме «Цели и концепция 12 14
12
Тест
1.1
модуля
14
интеллектуальной информационной системы»
3
4
5
6
Изучение материала по теме «Представление знаний в 12 18
информационных системах»
Изучение материала по теме «Интеллектуальные 12 20
системы поддержки принятия решений и экспертные
системы»
Изучение материала по теме «Представление и 14 20
формализация нечетких знаний»
Изучение материала по теме «Обработка знаний и 14 14
18
24
24
Тест модуля 1.2
и отчеты по
лабораторным
работам
14
вывод решений в интеллектуальных системах»
76 98
Итого
106
Часть2
1
12
12
2
Изучение материала по теме «Основные понятия 8
business intelligence (BI)»
8
Изучение материала по теме «Хранилища данных»
10
10
3
Изучение материала по теме «OLAP-системы»
18
18
4
Изучение материала
анализ данных»
1
4
«Интеллектуальный 1
6
20
20
5
Изучение материала по теме «Задачи анализа данных. 1
6
Классификация и регрессия»
Изучение материала по теме «Поиск ассоциативных 6
20
20
10
12
10
14
6
по теме
правил»
7
Изучение материала по теме «Кластеризация»
Итого за семестр
Итого за дисциплину
8
Тест модуля 2.1
и отчеты по
лабораторным
работам
Тест модуля 2.2
и отчеты по
лабораторным
работам
76 100 106
152 198 212
1.5 ТЕМЫ КУРСОВЫХ РАБОТ и УЧЕБНЫХ ПРОЕКТОВ
Основным
критерием
усвоения
дисциплины
«Интеллектуальные
информационные системы» является выполнение учебного проекта по темам.
Курсовых работ не предусмотрено.
11
1.6
УЧЕБНО-МЕТОДИЧЕСКОЕ
ОБЕСПЕЧЕНИЕ
ДИСЦИПЛИНЫ
1.6.1 Основная литература
№
п/п
Перечень литературы
Девятков В.В. Системы искусственного интеллекта. – М.: МГТУ им. Н.Э.Баумана,
2001.
Лорьер Ж. Системы искусственного интеллекта. – М.: Мир, 1991. – 568с.
Романов В.П. Интеллектуальные информационные системы в экономике : учебное
пособие / В.П. Романов - Москва : ЭКЗАМЕН, 2003. 496 c
Андрейчиков А.В., Андрейчикова О.Н.- Интеллектуальные информационные
системы.- М.:Прогресс , 2006.-423 с
Луценко Е.В. Интеллектуальные информационные системы: Учебное пособие. –
Краснодар: КубГАУ. 2004. – 633 с.
1
2
3
4
5
1.6.2 Дополнительная литература
№
п/п
Перечень литературы
Искусственный интеллект. Справочник в 3-х кн. – М.: Радио и связь, 1990.Кн.1.
Системы общения и экспертные системы, 464с.; Кн.2. Модели и методы, 304с.;
Кн.3. Программные и аппаратные средства, 368с.
Орловский С.А. Проблемы принятия решений при нечеткой информации. – М.:
Наука, 1981.- 208с.
Прикладные нечеткие системы. К. Асаи, Д. Ватада, С. Иваи и др.- М.: Мир, 1993.
– 368с.
Сотник С. Л., Конспект лекций по курсу "Основы проектирования систем
искусственного интеллекта". 1998. –187 с.
Терехов С.А. Лекции по теории и приложениям искусственных нейронных
сетей.,– Снежинск: ВНИИТФ: 2004. -200 с. (Компьютерное издание)
Вишневский А.В. Microsoft SQL Server. Эффективная работа.- СПб.: Питер,
2009.- 541с.
Цыганков В.Д. Нейрокомпьютер и его применение : пособие / В.Д. Цыганков Москва : Сол Систем, 1993. 117 c.
1
2
3
4
5
6
7
1.6.3 Информационно-методическое обеспечение
№
п/п
1.
Перечень
MS Office Word, MS Office Excel, MS Office Visio
2.
Deductor Studio
3.
MS SQL Server 2005
4.
Библиотека MSDN
5.
Материалы сервера ИУБиП
12
1.6.4 Интернет-ресурсы
http://www.iisys.ru/
http://www.itstan.ru/it-i-is/ekspertnye-intellektualnye-is-informacionnyesistemy.html
http://www.gorod-nevy.ru/
http://www.intelligentsystems.dk/en/methods.php
http://www.corportal.ru/Resources/DataTech/OLAP/
http://www.raai.org/
http://alicebot.blogspot.com/
http://www.olap.ru/desc/ibm/ibm.asp
http://www.itsec.ru/articles2/calendar/budusch_za_intellect_sist
13
2 ЛЕКЦИИ
Часть 1
2.1 Тема 1. Основные классы интеллектуальных информационных
систем
Прогресс в сфере экономики немыслим без применения современных
информационных технологий, представляющих собой основу экономических
информационных систем (ИС). ИС в экономике имеют дело с организацией и
эффективной обработкой больших массивов данных в компьютеризированных
системах предприятий, обеспечивая информационную поддержку принятия
решений менеджерами. Глобализация финансовых рынков, развитие средств
электронной коммерции и формирование в Интернете доступных для анализа
баз данных финансово-экономической информации, снижение стоимости
программной реализации ИС
привели к беспрецедентному росту их
использования в экономике. ИС позволяют объективно оценить достигнутый
уровень развития экономики, выявить резервы и обеспечить успех их
деятельности на основе применения правильных решений.
Интеллектуальные информационные системы (ИИС) — естественный
результат развития обычных информационных систем, сосредоточили в себе
наиболее наукоемкие технологии с высоким уровнем автоматизации не только
процессов подготовки информации для принятия решений, но и самих
процессов выработки вариантов решений, опирающихся на полученные
информационной
системой
данные.
ИИС
способны
диагностировать
состояние предприятия, оказывать помощь в антикризисном управлении,
обеспечивать
выбор
оптимальных
решений
по
стратегии
развития
предприятия и его инвестиционной деятельности. Благодаря наличию средств
естественно-языкового
интерфейса
появляется
возможность
непосредственного применения ИИС бизнес-пользователем в качестве средств
поддержки процессов анализа, оценки и принятия экономических решений.
ИИС применяются для экономического анализа деятельности предприятия,
14
стратегического планирования, инвестиционного анализа, оценки рисков и
формирования портфеля ценных бумаг, финансового анализа, маркетинга и
т.д.
Современная
динамично
изменяющаяся
бизнес-среда
требует
профессионалов, способных в дополнение к экономическим знаниям
применять современные информационные технологии, чтобы находить
инновативные способы реализации бизнес-процессов.
Работы в области искусственного интеллекта в течение довольно
длительного времени представлялись многим как причуды оторванных от
реальности информатиков-интеллектуалов, обучающих компьютер игре в
шахматы или распознаванию сцен, или же пытающихся создать автономно
ориентирующиеся в пространстве мобильные роботы. Механизмы, лежащие в
основе таких программ и систем, объявлялись неалгоритмизуемыми,
эвристическими, считались известными только посвященным, зачастую несли
в себе аромат таинственности и волшебства.
Наибольший эффект от внедрения ИИС достигается там, где при
принятии решений учитываются наряду с экономическими показателями
слабо формализуемые факторы — экономические, политические, социальные.
Так, в области экономического анализа и управления, менеджмента,
антикризисного управления, стратегического планирования, инновационного
менеджмента и инвестиционного анализа существует обширное поле
деятельности для применения интеллектуальных технологий и систем.
Поскольку в основе этих видов деятельности лежит проблема выбора
решений.
По мере совершенствования принципов логического и правдоподобного
вывода, применяемых в ИИС за счет использования нечеткой, модальной,
временной логики, байесовских сетей вывода, ИИС начинают проникать в
высокоинтеллектуальные области, связанные с разработкой стратегических
решений
по
совершенствованию
деятельности
предприятий.
Этому
15
способствуют более современные алгоритмы анализа и синтеза предложений
естественного языка, облегчающие общение пользователя с системой.
Включение в состав ИИС классических экономико-математических
моделей,
методов
линейного,
программирования
позволяет
квадратичного
сочетать
анализ
и
динамического
объекта
на
основе
экономических показателей с учетом факторов и рисков политических и
внеэкономических факторов, оценивать последствия полученных их ИИС
решений.
Наличие в составе ИИС объектно-ориентированной базы данных
позволяет однородными средствами обеспечить хранение и актуализацию как
фактов, так и знаний.
Проектирование ИИС как крупного программного комплекса как в
отношении его жизненного цикла, так и в отношении технологии
проектирования незначительно отличается от технологии проектирования ИС.
Основная специфика связана с разработкой базы знаний.
Классификация
интеллектуальных
информационных
систем
Нечеткие системы и
выводы
Теория
Демпстера-Шейфера
Марковские и байесовские
сети вывода
Казуальные деревья и
теория веры
Немонотонные,
временные и модальные
логики
по модели
знаний
Метод резолюций
исчисления предикатов
Настраиваемые
по
адаптивности
Обучаемые
Советующие
по
оперативности
Реальные во времени
Интегрированные
Сопрягаемые интерфейсом
по степени
интеграции
Автономные
ИИС инвестиций
ИИС риск-менеджмента
ИИС менеджмента
по областям
применения
Рисунок 1.1. Классификация интеллектуальных информационных систем
ИИС можно классифицировать по разным основаниям. Мы выберем в
качестве оснований классификации следующие: предметная область в
экономике, степень автономности от корпоративной ИС или базы данных, по
16
способу и оперативности взаимодействия с объектом, адаптивности, модели
знаний (рисунок 1.1).
На рисунке для примера приведены ИИС из областей менеджмента,
риск-менеджмента и инвестиций. По степени интеграции ИИС могут быть:
автономные в виде самостоятельных программных продуктов с собственной
базой данных; сопрягаемые с корпоративной системой с помощью средств
ODBC или OLE DB; полностью интегрированные. По оперативности принято
различать динамические и статические ИИС. Однако фактор времени всегда
является существенным в ИИС и полностью статических систем не может
быть по определению. Предлагается различать ИИС реального времени с
собственными сенсорами и эффекторами и советующие, в контур которых
вовлечен пользователь.
По адаптивности различаются обучаемые ИИС типа нейронных сетей,
т.е. системы, параметры, а возможно и структура которых могут изменяться в
процессе обучения или самообучения, и ИИС, параметры которых изменяются
администратором базы знаний. Наиболее часто используемые модели знаний
приведены непосредственно на рисунке 1.1.
.
2.2 Тема 2 Цели и концепция интеллектуальной информационной
системы
Реализация
в
экономической
модели
объекта
информатизации
позволяет строить классическую схему управления по следующим этапам:
 планирование работ;
 сбор и анализ данных о происходящих процессах;
 анализ соответствия фактических результатов плановым показателям;
 разработка организационных, финансовых, маркетинговых и иных
процедур, снижающих влияние неблагоприятных факторов: снижение
рыночного спроса или изменения стоимости комплектующих изделий;
 адаптация дальнейших планов работ с учетом сложившихся условий.
17
При всей своей очевидности такая схема управления на практике не
имеет универсальных решений. Она формируется с учетом специфики и
масштаба
бизнеса,
существующего
менеджмента,
уровня
детализации
решаемых задач.
Выработка решений в виде стратегии функционирования и развития
производится на основе миссии и целей предприятия с учетом доступных
ресурсов и результатов обработки данных обратной связи от объекта
управления. Высшее руководство, например, решает задачи определения
целей и выработки стратегий развития, формирования и совершенствования
организационной структуры, оценки позиций фирмы на рынке и поведения
конкурентов,
установления
ассортимента
выпускаемой
продукции,
организации деятельности аппарата управления компании в целом и т. п.
Менеджеры среднего уровня принимают решения, связанные с календарным
планированием производства, подбором и расстановкой кадров, реализацией
инноваций, систем материального стимулирования и т.д.
Будем считать, что в основе деятельности менеджера-пользователя
лежит процесс обнаружения, описания и разрешения проблемных ситуаций
(ПрС). Возникающие в объекте управления ПрС находят свое отражение в
базе данных в виде определенных значений атрибутов.
Лицо, принимающее решение (ЛПР), — это субъект решения, т.е.
руководитель или менеджер, наделенный надлежащими полномочиями и
несущий ответственность за последствия принятого им и реализованного
решения.
В своих действиях ЛПР опирается на собственные профессиональные
навыки, прошлый опыт, интуицию. Однако при сложных и нечетко
сформулированных задачах ЛПР не может использовать опыт, а опора только
на интуицию увеличивает риск принятия неверного или неоптимального
решения. В подобных ситуациях ЛПР вынужден привлекать к выработке
решения экспертов — специалистов в разных областях знаний, для анализа
проблемы и подготовки вариантов решений.
18
Принятие решения — это процесс выбора способа действий,
уменьшающего
расхождение
между существующим
(наблюдаемым) и
желаемым (возможно, идеальным) состояниями организации. Процесс
принятия решения состоит из упорядоченных определенным образом этапов
(процедур), содержание которых описывается в терминах цели, проблемы,
проблемной ситуации, альтернативы и самого решения как результата выбора
альтернативы (варианта действий).
Цель — под этим понимают ожидаемое и желаемое состояние системы,
в которое она должна перейти под действием управляющих воздействий и
внутренних законов движения экономического объекта.
Различают стратегические и тактические цели. Стратегические цели
носят более общий характер и рассчитаны на более длительный период
времени, чем тактические.
Проблема — это расхождение между фактически наблюдаемым и
желаемым или заданным состоянием управляемого объекта (организации).
Проблема возникает, если:
 функционирование организации в данный момент не обеспечивает
достижение стоящей перед нею цели;
 функционирование
организации
в
будущем
не
гарантирует
достижения поставленной цели;
 происходит пересмотр целей организации, вызванный, например,
изменением
общей
макроэкономической
ситуации,
рыночной
конъюнктуры и т.п.
Проблемная ситуация (ПРС) — это содержательное описание
проблемы совместно с комплексом условий, факторов и обстоятельств,
вызвавших её возникновение. Ситуационные факторы, породившие ту или
иную проблему, можно подразделить на внутренние и внешние по отношению
к организации (объекту управления).
Для каждой группы факторов имеются соответствующие модели
анализа и оценок.
19
Анализ проблемной ситуации — это совместное рассмотрение
проблемы в контексте вызвавших ее факторов.
Для краткости изложения будем именовать описывающие проблему
признаки, события, оценки и показатели породивших ее причин факторами
проблемы
(проблемной
представлены
ситуации).
численным
Факторы
значением,
проблемы
логическим
могут
быть
высказыванием,
лингвистической переменной или текстовым вербальным описанием.
С точки зрения точности формализации описания и последующего
выбора решения различают проблемы:
 структурированные;
 слабоструктурированные;
 неструктурированные.
Проблема
структурированная,
если
удается
представить
все
составляющие её элементы (признаки, проявления, причины, обстоятельства)
и зависимости между ними в формализованной (аналитической или
логической) форме.
Описание слабоструктурированных проблем возможно главным
образом в виде качественных зависимостей между ее элементами, информация
о
части
которых
может
отсутствовать.
С
точки
зрения
ЛПР,
слабоструктурированные проблемы отличаются наличием неопределенностей
как в характере зависимостей, так и в значениях их параметров.
Неструктурированной является проблема, для которой могут быть
определены зависимости лишь между классами объектов и отношений, к
которым они принадлежат.
Решение является реакцией организации на возникшую проблему: оно
всегда принимается там, где возникает ПРС. С содержательной точки зрения,
решение есть идентификатор программы или плана разрешения проблемной
ситуации.
При интерпретации данных сложных слабоструктурированных проблем
необходимо проанализировать результаты производственно-коммерческой
20
деятельности предприятия, в рамках которого на основе отчетных, плановых и
нормативных данных о его состоянии и функционировании, устанавливаются
отклонения и причины их возникновения.
На стадии структурирования и диагностики проблемы необходимо
привлечение специалистов различных служб и экспертов.
Процесс структуризации подразумевает решение следующих задач.
1. Классификация проблем по категориям (таксономия) — определение
того, на что влияет существование той или иной проблемы или под
влиянием каких сфер деятельности организации и внешних факторов они
находятся.
2. Идентификация переменных или факторов, составляющих сущность
проблемы, воздействующих на проблему или находящихся под ее
влиянием.
3. Оценка зависимостей между переменными — как они воздействуют друг
на друга.
Основной подход для решения задач первой группы — методология
ситуационного
анализа,
т.е.
разделение
проблем
и
источников
их
возникновения на внешние и внутренние. Предлагается использовать в
качестве
признаков
для
таксономии
проблем
основные
направления
деятельности (функциональные области) конкретного предприятия, а также
основные направления воздействия на него внешней среды.
Две другие задачи, которые приходится решать руководителю при
структуризации проблемной ситуации, связаны с идентификацией факторов
проблемы и определением существующих между ними взаимосвязей. В
качестве базовых факторов проблемы целесообразно рассматривать причины и
следствия их возникновения, а в качестве отношений между ними —
причинно-следственные взаимосвязи. Анализ ситуации позволяет построить
причинно-следственные
диаграммы
(«дерево
причин»)
и
диаграммы
зависимостей. Причинно-следственная диаграмма — формальное отображение
21
структуры ПРС в виде иерархически незамкнутого графа. Связь элементов —
подпроблем — отображается в виде отношения «причина—следствие».
Выявление проблем осуществляется нахождением отклонения от
определенных аналитических зависимостей между этими показателями и
дальнейшей их интерпретации.
Для
технико-экономических
показателей,
характеризующих
проблемную ситуацию, которые могут быть представлены статистическими
рядами данных, используются базовые статистические методы.
Логический анализ проблем-причин, показывает, что во многих случаях
они позволяют сформулировать варианты решения проблем более высокого
уровня. В качестве вариантов решений можно использовать классы стратегий,
предлагаемых в экономической литературе.
2.3 Тема 3. Представление знаний в интеллектуальных системах
2.3.1 Проблемы представления и моделирования знаний
Важное место в теории искусственного интеллекта занимает проблема
представления знаний.
Знания представляют собой совокупность сведений (у индивидуума,
общества или у системы ИИ) о мире (конкретной предметной области,
совокупности объектов или объекта), включающих в себя информацию о
свойствах объектов, закономерностях процессов и явлений, правилах
использования этой информации для принятия решений.
Первоначально вычислительная техника была ориентирована на
обработку данных. Это было связано как с уровнем развития техники и
программного обеспечения, так и со спецификой решаемых задач. Дальнейшее
усложнение
решаемых
задач,
их
интеллектуализация,
развитие
вычислительной техники ставят задачу создания машин обработки знаний.
Существенным
отличием
знаний
от
данных
является
их
интерпретируемость. Если для интерпретации данных необходимы
соответствующие программы и сами по себе они не несут содержательной
информации, то знания всегда содержательны. Другой отличительной чертой
знаний является наличие отношений, например, вида «тип — подтип»,
«элемент—множество» и т.д. Знания характеризуются наличием ситуативных
связей, определяющих ситуативную совместимость отдельных событий и
фактов, позволяющих устанавливать причинно-следственные связи.
22
Типы знаний, которые представляются в системах ИИ, охватывают
следующее:
 структуру, форму, свойства, функции и возможные состояния
объекта;
 возможные отношения между объектами, возможные события, в
которых эти объекты могут участвовать;
 физические законы;
 возможные эффекты действий и состояний, причины и условия
возникновения событий и состояний;
 возможные намерения, цели, планы, соглашения и т.д.
В общем виде модели представления знаний могут быть условно
разделены на концептуальные и эмпирические.
Концептуальная модель дает эвристический метод для решения
некоторой проблемы. Метод эвристичен, поскольку концептуальное описание
не дает гарантии того, что он может быть применен во всех соответствующих
практических
распознавание
ситуациях.
Концептуальная
проблемы,
позволяет
модель
делает
уменьшать
время
возможным
для
ее
предварительного анализа.
Практическое использование концептуальной модели влечет за
собой необходимость преобразования ее в эмпирическую. Знания могут быть
накоплены в виде эмпирических моделей, как правило, описательного
характера. Эти модели могут варьировать от простого набора правил до
полного описания того, как ЛПР решает задачу.
Модели
представления
знаний
можно
условно
разделить
на
основывается
на
декларативные и процедурные.
Декларативная
модель
представления
знаний
предположении, что проблема представления некоей предметной области
решается независимо от того, как эти знания потом будут использоваться.
Поэтому модель как бы состоит из двух частей: статических описательных
структур знаний и механизма вывода, оперирующего этими структурами и
23
практически независимого от их содержательного наполнения. При этом в
какой-то степени оказываются раздельными синтаксические и семантические
аспекты знания, что является определенным достоинством указанных форм
представления
из-за
возможности
достижения
их
определенной
универсальности.
Главное преимущество процедурных моделей представления знаний
заключается в большей эффективности механизмов вывода за счет введения
дополнительных знаний о применении, что однако снижает их общность.
Другое
важное
преимущество
заключено
в
выразительной
силе.
Процедурные системы способны смоделировать практически любую модель
представления знаний. Выразительная сила процедурных систем (проявляется
в расширенной системе выводов, реализуемых в них.
Необходимо отметить, что деление моделей представления знаний на
декларативные и процедурные весьма условно, так как в реальных системах
представления знаний используются в равной мере элементы и сочетания всех
указанных выше форм моделей представления знаний.
2.3.2 Продукционные модели
Продукционные модели в последнее время широко используются в
системах представления знаний.
Продукционные модели могут быть реализованы как процедурно, так и
декларативно. Их простота и строгая форма послужили основой ряда
интересных свойств, что сделало их удобным средством представления
знаний.
Продукционные модели — это набор правил вида «условия —
действие», где условиями являются утверждения о содержимом некой базы
данных, а действия представляют собой процедуры, которые могут изменять
содержимое БД.
Кроме того, со стороны компьютера имеется возможность определения
простого
и
точного
механизма
использования
знаний
с
высокой
однородностью, описанных по одному синтаксису. Эти две отличительные
24
черты, по-видимому, являются причинами столь широкого распространения
метода представлений знаний правилами.
2.3.3 Логические модели представления знаний
Исчисление предикатов
Классическим механизмом представления знаний в системах является
исчисление предикатов. В системах, основанных на исчислении предикатов,
знания представляются с помощью перевода утверждений об объектах
некоторой предметной области в формулы логики предикатов и добавления их
как аксиом в систему. Рассмотрим основные положения логики предикатов.
Пусть имеется некоторое множество объектов, называемых предметной
областью М. Знаки, обозначающие элементы этого множества, называют
предметными константами, а знак, обозначающий произвольный элемент
этого множества, — предметной переменной. Терм — это всякая предметная
область или предметная константа.
Если f — функциональная n-местная функция, и t1, t2, . . . , tn — термы,
то f(t1, t2, . . . , tn) есть терм.
Выражение Р(х1,х2,...,хn), где xi  1, n — предметные переменные, а Р
принимает значения 0 и 1, называется логической функцией или предикатом.
Переменные принимают значения из произвольного конечного и бесконечного
множества М.
Предикатом или логической функцией называется функция от любого
числа аргументов, принимающая истинные значения 1 и 0. Если в данном
выражении заменить хi на уi где уi, — предметные константы, то получим
элементарную формулу, т.е. предикатные буквы применимы также и к
предметным константам. Элементарные формулы иногда называют атомными.
Из элементарных формул с помощью логических связок  (или),  (и), 
(отрицание),  (импликация) строят предметные формулы (иногда их
называют правильно построенными формулами — ППФ). ППФ — один из
25
важных классов выражений в исчислении предикатов. Кроме логических
связок в рассмотрение вводят кванторы общности  или существования  .
Если Р — предикатная формула, а х — предметная переменная, то
выражения
 xP(x)
и  хР(х) также считаются предметными формулами. В
логике предикатов для компактной записи высказываний типа: «для любого х
истинно Р(х)» и «существует такое х, для которого истинно Р(х)» вводятся две
новые
дополнительные
существования
.
операции:
Посредством
высказывания записываются в виде
квантор
этих
общности
операций
 xP(x)

и
приведенные
квантор
выше
и  хР(х). Выражение  xP(x)
обозначает высказывание истинное, когда Р(х) истинно при всех x M и
ложно в противном случае.
Если Р(х) в действительности не зависит от х, то выражения  xP(x) и
 хР(х) обозначают то же, что и Р(х).
Конкретное вхождение переменной x в формулу Р называется
связанным, если оно либо непосредственно следует за каким-либо квантором,
либо содержится в области действия некоторого квантора  или  . Вхождение
переменной является свободным, если оно не является связанным. В
выражении  xP(x,y) x— связанная, у— связанная.
Связанной переменной называется переменная, если в Р имеется
вхождение этой переменной.
Под интерпретацией предикатных формул понимают конкретизацию
предметной области, соответствующей данной предметной формуле, и
установке соответствия между символами, входящими в предмет, и
элементами (а также функциями и отношениями), определяемыми в данной
предметной области.
2.3.4
Вывод на предикатах
Выводом системы представления знаний на предикатах являются
формулы, выводимые из аксиом с помощью правил вывода. Для организации
логического вывода могут использоваться правила.
Определим основные формы логического вывода.
26
Индукция — это форма мышления, посредством которой мысль
наводится на какое-либо общее правило, общее положение, присущее всем
единичным предметам какого-либо класса.
Дедукция— такая форма мышления, когда новая мысль выводится чисто
логическим путем (т.е. по законам логики) из предшествующих мыслей. Такая
последовательность мыслей называется выводом, а каждая компонента этого
вывода является либо ранее доказанной мыслью, либо аксиомой, либо
гипотезой. Последняя мысль данного вывода называется заключением.
2.3.5
Процесс стандартизации
Любую ППФ исчисления предикатов можно представить в виде
предложения, применяя к ней последовательность простых операций. Задача
состоит в том, чтобы показать, как придать произвольной ППФ форму
предложения. Этот процесс (преобразования ППФ в форму предложения)
состоит из следующих этапов:
1) исключение знаков импликации. В форме предложения в исчислении
предикатов явно используются лишь связки  и  . Знак импликации можно
исключить в исходном утверждении вместо А  В записать  A  B;
2) уменьшение области действия знаков отрицания. Надо, чтобы знак
отрицания  применялся не более чем к одной предикатной букве;
3)
стандартизация
переменных,
при
которой
осуществляется
переименование переменных с тем, чтобы каждый квантор имел свою
переменную.
Так,
вместо
xPx  xQx
следует
написать
xPx  y Q y ;
4) исключение кванторов существования;
5) приведение к предваренной нормальной форме (ПНФ), . На этом
этапе уже не осталось кванторов существования, а каждый квантор общности
имеет свою переменную
6) приведение матрицы к конъюнктивной нормальной форме (КНФ).
Любую матрицу можно представить в виде конъюнкций конечного множества
27
дизъюнкций предикатов и (или) их отрицаний. Говорят, что такая матрица
имеет КНФ. Заменить A  B  C на A  B A  C;
7) исключение кванторов общности;
8) исключение связок.
2.3.6 Фреймы
Для представления и описания стереотипных объектов, событий или
ситуаций были введены понятия «фреймы», которые являются сложными
структурами данных.
Фреймы
были
впервые
предложены
в
качестве
аппарата
для
представления знаний М. Минским в 1975 г. Согласно его определению,
фреймы — это минимальные структуры информации, необходимые для
представления класса объектов, явлений или процессов. В общем виде
фрейм может быть представлен в виде, показанном на рисунок 3.1 и описан
строкой:
<ИФ, (ИС, ЗС, ПП),..., (ИС, ЗС, ПП)>,
где ИФ — имя фрейма; ИС — имя слота; ЗС — значение слота; ПП —
имя присоединенной процедуры.
Фрейм
ИФ
ИС
...
ЗС
ИС
...
ИС
ЗС
ПП
ЗС
ПП
Рисунок 3.1. Схема фрейма
Слоты — это некоторые незаполненные подструктуры фрейма,
заполнение которых приводит к тому, что данный фрейм ставится в
соответствие некоторой ситуации, явлению или объекту.
28
В качестве данных фрейм может содержать обращения к процедурам
(так называемые присоединенные процедуры). Выделяют два вида процедур:
процедуры-демоны и процедуры-слуги. Процедуры-демоны активизируются
при каждой попытке добавления или удаления данных из слота (по
умолчанию). Процедуры-слуги активизируются только при выполнении
условий, определенных пользователем при создании фрейма.
Наибольшее
практическое
применение
во
фреймовых
системах
получили лишь отношения «абстрактное – конкретное». Но в некоторых
областях иногда требуется описывать и управлять структурированным
объектом. Поэтому в таких случаях не обойтись без обработки отношений
типа «целое - часть».
2.3.7 Семантические сети
Важной схемой представления знаний являются семантические сети.
Семантические сети не являются однородным классом схем представления.
Имеется лишь несколько общих черт, объединяющих ряд механизмов
представления, называемых семантическими сетями. Часто общей основой
являются лишь сходство формального обозначения (направленный граф с
помеченными вершинами и ребрами) и основной принцип, заключающийся в
том, что элементы знаний должны храниться смежно, если они семантически
связаны.
Семантическая сеть - это направленный граф с помеченными
вершинами и дугами, в котором вершины соответствуют конкретным
объектам, а дуги, их соединяющие, отражают имеющиеся между ними
отношения.
Отношения, используемые в семантических сетях, можно разделить на
следующие:
 лингвистические включающие в себя отношения типа «объект»,
«агент», «условие», «место», «инструмент», «цель», «время» и др.;
 атрибутивные, к которым относят форму, размер, цвет и т.д.;
 характеризации глаголов, т.е. род, время, наклонение, залог, число;
29
 логические, обеспечивающие выполнение операций для исчисления
высказываний (дизъюнкция, конъюнкция, импликация, отрицание);
 квантифицированные, т.е. использующие кванторы общности и
существования;
 теоретико-множественные, включающие понятия «элемент
множества», «подмножество», «супермножество» и др.
В качестве примера, рассмотрим представление знаний, содержащихся в
высказывании «Поставщик N отгрузил товар склада М автотранспортом. На
рисунке
представлена
3.2
интенсиональная,
а
на
рисунке
3.3
—
экстенсиональная семантическая сеть. Факты обозначим овалом, а понятия и
объекты прямоугольником.
Агент
Действие
Агент
Место
Инструмент
Рисунок 3.2. Интенсиональная семантическая модель
Поставщик N
Агент
Отгрузил
Товар
Со склада М
Действие
Агент
Место
Инструмент
Автотранспортом
Рисунок 3.3. Экстенсиональная семантическая сеть
30
2.4
Тема 4. Интеллектуальные системы поддержки принятия
решений и экспертные системы
2.4.1 Интеллектуальные информационные системы поддержки
принятия решений
Опыт эксплуатации информационных систем в организационных и
экономических системах показал, что наиболее важное значение должен иметь
в этих системах и в контуре управления — человек (управленец; лицо,
принимающее решение— ЛПР).
Информационная система поддержки принятия решений (ИСППР)
решений связывает интеллектуальные ресурсы менеджера со способностями и
возможностями компьютера для улучшения качества решений. Эти системы
предназначены для менеджеров, принимающих управленческие решения в
условиях полуструктурированных и слабо определенных задач.
Таким образом, дальнейшее развитие ИСППР привело к созданию
интеллектуальной ИСППР.
Подсистема обработки и решения задач распределена и функционально
встроена в другие подсистемы, реализуя свои отдельные специфические
функции в их рамках. Эта подсистема обладает основными способностями по
манипуляции и обработке задач для принятия решений.
2.4.2 Экспертные
системы
—
основная
разновидность
интеллектуальных систем
Экспертная система— это система, которая использует человеческие
знания, встраиваемые в компьютер, для решения задач, которые обычно
требуют
человеческой
экспертизы.
Хорошо
разработанные
системы
имитируют процесс рассуждения экспертов, используя это для решения
специфических задач.
31
Технологию построения ЭС часто называют инженерией знаний. Этот
процесс требует специфической формы взаимодействия создателя ЭС,
которого называют инженером знаний, и одного или нескольких экспертов в
некоторой предметной области. Инженер знаний «извлекает из экспертов
стратегии, эмпирические правила, которые они используют при решении
задач, описания, и встраивает эти знания в ЭС.
Другой уникальной чертой ЭС является ее способность объяснять свои
советы
или
рекомендации.
Объяснение
и
обоснование
производятся
подсистемой объяснений. Она дает возможность системе проверять свои
рассуждения и объяснять их действия.
2.4.3 Функциональные
возможности
и
характеристика
экспертных систем
Основными характеристиками ЭС являются:
накопление и организация знаний;

знания — основа ЭС, они являются явными и доступными, что
отличает эти системы от большинства традиционных программ;

применение для решения проблем высококачественного опыта
квалифицированных экспертов. Именно высококачественный опыт в
сочетании с умением его применять делает систему рентабельной. Этому
также способствует гибкость системы;
 наличие прогностических способностей. ЭС может объяснить каким
образом новая ситуация привела к изменениям;
 ведущие специалисты уходят, но их опыт остается и используется в ЭС;
ЭС можно использовать для обучения и тренировки.
2.4.4 Преимущества ЭС
Зачем разрабатывать ЭС? Не лучше ли обратиться к человеческому
(опыту, как это было в прошлом.
32
Обычно, большинство ЭС не содержат подсистему верификации знаний.
Существует также большие колебания в содержании и способностях каждой
компоненты.
Современные условия требуют от инженера знаний и способностей
взаимодействовать с одним или более людьми-экспертами при построении БЗ.
Инженер знаний помогает эксперту структурировать проблемную область
путем интерпретации и объединения ответов человека на вопросы, проводя
аналогии, предлагая контрпримеры и выявляя концептуальные трудности.
2.4.5 Области применения экспертных систем
ЭС могут быть классифицированы несколькими путями. Одним из них
является классификация по основным проблемным областям, на которые они
ориентированы. При этом проблемные области определяются основными
классами задач, эффективно решаемыми методами ЭС.
Системы
интерпретации
выявляют
описания
ситуации
из
наблюдений. Это категория включает наблюдения, понимание речи, анализ
образов, интерпретацию сигналов и многие другие виды интеллектуального
анализа. Системы интерпретации объясняют наблюдаемые данные путем
присвоения им символических значений, описывающих ситуацию.
Системы
предсказания
включают
прогнозирование
погоды,
демографические предсказания, экономическое прогнозирование, оценки
урожайности, а также военное, маркетинговое и финансовое прогнозирование.
Системы
менеджменте,
диагностики
электронике,
включают
механике
диагностику
и
программном
в
медицине,
обеспечении.
Диагностирующие системы обычно соотносят наблюдаемые поведенческие
отклонения с причинами, лежащими в их основе.
Системы проектирования разрабатывают конфигурации объектов,
которые удовлетворяют определенным требованиям задачи проектирования.
Такие задачи включают конструирование зданий, планировку расположения
оборудования и др.
33
Системы планирования специализируются на задачах планирования,
например, такой как автоматическое программирование. Они также работают
с
кратко-
и
долгосрочным
маршрутизацией,
разработкой
планированием,
продуктов,
управлением
военными
проектами,
приложениями,
производственным и финансовым планированием.
Системы мониторинга сравнивают наблюдения поведения системы со
стандартами, которые представляются определяющими для достижения цели.
Эти решающие выявления соответствуют потенциальным недостаткам на
предприятии. Существует много компьютерных систем мониторинга: от
контроля движения воздушных потоков до задач управления сбором налогов.
Системы управления и контроля адаптивно управляют всеобщим
поведением системы. Для осуществления этого система управления должна
периодически интерпретировать текущую ситуацию, предсказывать будущее,
диагностировать
причины
ожидаемых
проблем,
формулировать
план
устранения этих проблем и осуществлять мониторинг его выполнения для
обеспечения успеха.
Сегодня
ЭС
используются
многими
большими
и
средними
организациями как главный инструмент для улучшения производительности и
качества. Они являются также важным инструментом для поддержания
стратегических решений и реинжиниринга бизнес-процессов.
2.5 Тема 5. Представление и формализация нечетких знаний
Понятия, которыми оперирует человек в различных областях знаний,
являются по своей природе слишком сложными и многоплановыми для того,
чтобы использовать для их представления только традиционные, точные,
хорошо определенные модели и алгоритмы. Особый интерес теория нечетких
множеств вызывает в связи с исследованиями и разработками человекоориентированных социальных и управленческих систем, в частности,
экспертных систем. Рассмотрим основы нечетких множеств.
34
2.5.1 Основные определения нечетких множеств
Рассмотрим универсальное множество U={u}.
Нечетким подмножеством А на множестве U называется совокупность
пар
А={<μa(u),u>},
где μa: U → [0,1] — отображение множества U в единичный отрезок
[0,1], называемое функцией принадлежности нечеткого подмножества А.
Значение функции принадлежности μa(u) для элемента u U будем
называть степенью принадлежности. Переменная u называется базовой.
Интерпретацией степени принадлежности μА(u) является субъективная
мера того, насколько элемент u U соответствует понятию, смысл которого
формализуется нечетким множеством А.
Таким образом, нечеткое множество А области рассуждений U
характеризуются функцией принадлежности
μА: U → [0,1] , которая
каждому элементу и множества U ставит в соответствие число μА(u)
отрезка
[0,1],
описывающее
степень
принадлежности
элемента
из
и
подмножеству А.
Носителем нечеткого подмножества (далее: множества) А называется
множество таких элементов U, для которых μА положительна.
Точкой перехода А называется такой элемент множества U, степень
принадлежности которого множеству А равна 0,5.
Далее для краткости нечеткое подмножество А множества U будем
называть нечетким множеством А.
Одноточечным
нечетким
множеством
называется
множество,
носитель которого состоит из единственной точки. Если А — одноточечное
нечеткое множество, носителем которого является точка u, то записывается
это как:
A = μ/u,
где μ — степень принадлежности и множеству А. Определенное (четкое)
одноточечное множество обозначают через 1/u.
35
Нечеткое
множество
можно
рассматривать
как
объединение
составляющих его одноточечных множеств. Имея это ввиду, множество А
можно представить в следующем виде: A    A u  / u
U
где символ 
(интегрирование) обозначает операцию объединения
одноточечных нечетких множеств μA/u, u U . Если носитель А состоит из
конечного числа элементов, то интегрирование в
можно заменить
n
суммированием: A = μ1/u1 +...+ μn/un или A    i / ui
i 1
где число i i  1, n — степень принадлежности элемента Ui множеству А.
Знак плюс в обозначает объединение, а не арифметическое суммирование.
Степень
принадлежности
к
нечеткому
множеству
может
сама
представлять собой нечеткое множество.
Нечеткие степени принадлежности «мало», «средне» и «сильно»
являются при этом нечеткими подмножествами полного множества V,
определяемого следующим образом:
V=0+0,1+0,2+... +0,9+1
Сами эти подмножества определяются так:
мало=0,.5/0,2+0,7/0,3+1/0,4+0,7/0,5+0,5/0,6
средне=0,5/0,4+0,7/0,5+1/0,6+0,7/0,7+0,5/0,8
сильно=0,5/0,7+0,7/0,8+0,9/0,9+1/1
2.5.2 Операции с нечеткими множествами
Приведем
некоторые
из
основных
операций,
которые
можно
осуществлять над нечетким множествами.
1. Дополнение нечеткого множества обозначается символом ¬А и
определяется следующим образом:
A   1   A u  / u .
U
Операция дополнения соответствует логическому отрицанию. Например,
если А — название нечеткого множества, то «не А» понимается как ¬А.
36
2. Объединение нечетких множеств А и В обозначается А+В (или A  B )
и определяется:
A  B    A u    B u  / u
(5.1)
U
Объединение соответствует логической связке «или». Например, если А
и В — названия нечетких множеств, то запись «А или В» понимается как А +В.
При определении степени принадлежности элементов и новому
нечеткому множеству, выбирают большее из μA и μВ.
3. Пересечение А и В обозначается A  B и определяется следующим
образом: A  B    A u    B u  / u
(5.2)
U
Пересечение соответствует логической связке «и», т.е.
А и В = A B
(5.3)
При определении степени принадлежности элементов u новому
нечеткому множеству выбирают меньшее из μA и μВ..
4. Произведение А и В обозначается АВ и определяется формулой

AB    A u  B u  / u , если   0, то A    A u  / u
U
U
Декартово произведение нечетких множеств А1, ..., Аn универсальных
множеств U1,..., Un соответственно обозначается А1  ...  Аn и определяется как
нечеткое подмножество множества U1  …  Un с функцией принадлежности.
 A .... A u1 ,...,un    A u1   ...   A un 
1
n
1
(5.4)
n
таким образом
A1  ...  An 

U1...U n

A1
u1   ...   An u n / u1 ,...u n 
(5.5)
2.5.3 Нечеткая и лингвистическая переменные
~
Нечеткая переменная определяется кортежем X ,U , X
,
|где X — наименование нечеткой переменной,
U = {u} — область ее определения или универсальное множество
37
~
X    u / u — нечеткое множество на U, описывающее ограничения на
uU
возможные числовые значения нечеткой переменной.
Лингвистическая переменная определяется кортежем
X ,T ,U , G, M
|где X— наименование лингвистической переменной,
Т — множество ее значений или термов, представляющее собой
наименования нечетких переменных, областью определения каждой из
которых является U.
Например,
T={T1T2,T3,}, u0<u2<u1<u4<u3<ut, U=[u0,ut].
Пару точек (u0,ut) будем называть граничной парой. Без особой
необходимости не различают переменную и ее наименование. Множество Т
будем называть базовым терм-множеством лингвистической переменной;
G— синтаксическая процедура, описывающая процесс образования из
множества Т новых, осмысленных для данной задачи принятия решений
значений лингвистической переменной.
Множество
T*=T  G(T)
назовем
расширенным
терм-множеством
лингвистической переменной.
М — семантическая процедура, позволяющая приписать каждому
новому значению, образуемому процедурой G, некоторую семантику путем
формирования соответствующего нечеткого множества, т.е. отобразить новое
значение в нечеткую переменную. Пример лингвистической переменной.
2.5.4 Нечеткие числа и функции
В зависимости от характера множества U лингвистические переменные
могут быть разделены на числовые и нечисловые.
Числовой называется лингвистическая переменная, у которой
U  R1 , где R1   ,  
и которая имеет измеримую базовую переменную.
38
Нечеткие
переменные,
соответствующие
значениям
числовой
лингвистической переменной, называются нечеткими числами.
Если U   , то нечеткие числа будем считать дискретными, если же
U  R1 — то непрерывными. Приведенная выше лингвистическая пере- .
менная СКОРОСТЬ является числовой, а нечеткие переменные из ее терммножества— непрерывными нечеткими числами.
Примером нечисловой лингвистической переменной может служить
переменная
СЛОЖНОСТЬ,
формализующая
понятие
«сложность
разработки», со значениями НИЗКАЯ, СРЕДНЯЯ, УМЕРЕННАЯ, ВЫСОКАЯ.
Использование
лингвистической
основных
переменной
понятий
и
лингвистического
нечеткого
множества
подхода
—
с
—
целью
формализации нечетких описаний элементов задач принятия решений, а
именно, критериев, предпочтений ЛПР, случайных подходов, качественных
зависимостей между параметрами альтернатив и оценками исходов приводит к
необходимости рассмотрения лингвистических критериев и лингвистических
отношений предпочтения.
2.5.5 Лингвистические критерии и отношения предпочтения
Лингвистическим назовем критерий К, оценки по шкале которого
являются
значениями
одноименной
лингвистической
переменной
<К, Т(К), UK, GK, МК>. Согласно этому критерию обеспечивается переход от
словесного к числовому описанию лингвистического критерия.
Лингвистические критерии, как и соответствующие лингвистические
переменные, можно подразделить на числовые или с измеримой базовой
переменной, и нечисловые, не имеющие вой переменной. Примером
нечислового является критерий профессиональной пригодности со значениями
ХОРОШО, ПЛОХО, НЕДОСТАТОЧНО СООТВЕТСТВУЕТ В данном случае
точно неизвестно как выражается профессиональная пригодность в виде
функции тех или иных физических величин.
39
2.6 Тема 6. Обработка знаний и вывод решений в интеллектуальных
системах
2.6.1 Методы вывода и поиска решений в продукционных
системах
Методы вывода на основе прямой и обратной цепочек
При продукционном представлении область знаний представляется
множеством
продукционных
правил
ЕСЛИ
—
ТОГДА,
а
данные
представляются множеством фактов о текущей ситуации.
Механизм вывода сопоставляет каждое правило, хранящееся в БЗ с
фактами, содержащимися в БД. Когда часть правила ЕСЛИ (условие)
подходит факту, правило срабатывает и его часть ТОГДА (действие)
исполняется.
Сопоставление частей ЕСЛИ правил с фактами создает цепочку вывода.
Цепочка вывода показывает как ЭС применяет правила для получения
заключения. Для иллюстрации метода вывода на основе цепочки, рассмотрим
простой пример.
Допустим, БД первоначально включает факты A,B,C,D и Е, а БЗ
содержит только три правила:
Правило 1. Y&D →Z
Правило 2. Х&В&Е →Y
Правило 3. А → X.
Сначала срабатывает Правило 3 для вывода нового факта X из данного
факта А. Тогда Правило 2 выполняется для вывода факта Y из первоначально
фактов В и Е, а также уже известного факта X. И наконец, Правило 1
применяет первоначально известный факт D и только что полученный факт Y
для прихода к заключению Z.
ЭС может отразить свою цепочку вывода для объяснения, как было
достигнуто
отдельное
решение;
это
является
основной
частью
ее
объяснительных способностей.
40
Механизм вывода должен решать, когда правила должны сработать.
Существует два принципиальных способа, которыми правила могут быть
выполнены. Один называется прямая цепочка (условно-выводимая), а другая
обратная цепочка (целе-выводимая).
Рассмотренный пример использует прямую цепочку вывода.
2.6.2 Общие методы поиска решений в пространстве состояний
Методы перебора. Решение многих задач в интеллектуальных системах
можно определить как проблему поиска, где искомое решение — это цель
поиска, а множество возможных путей достижения цели представляет собой
пространство поиска (или пространство состояний). Поиск решений в
пространстве состоит в определении последовательности операторов, которые
преобразуют начальное состояние в целевое.
Поиск в глубину. При поиске в глубину прежде всего раскрывается та
вершина, которая имеет наибольшую глубину. Из вершин, расположенных на
одинаковой
глубине,
произвольно.
Для
выбор
вершины
сдерживания
для
раскрытия
возможности
определяется
следования
по
бесперспективному пути вводится ограничение на глубину. Вершины,
находящиеся на граничной глубине, не раскрываются.
Поиск в ширину. Вершины раскрываются в последовательности их
порождения. Поиск идет по ширине дерева, так как раскрытие вершины
происходит вдоль одного уровня. Целевая вершина выбирается сразу же после
порождения. При поиске в ширину возможно нахождение наиболее короткого
пути к целевой вершине, если такой путь есть.
Поиск на основе стоимости дуг. Во многих случаях дугам ставят в
соответствие некоторую стоимость, чтобы внести оценку для использования
соответствующего правила. При поиске целевой вершины стремятся найти
путь минимальной стоимости. Раскрытие вершин производится в порядке
возрастания
их
стоимости.
Для
каждой
вершины
нужно
помнить
минимальную стоимость пути, построенного от начальной вершины до нее.
41
Часть 2
2.7 Тема 7. Business intelligence – основные понятия
Понятие «business intelligence – BI» (бизнес-интеллект) определяется
как процесс, технологии, методы и средства извлечения и представления
знаний.
Business intelligence в широком смысле слова определяет:
 процесс превращения данных в информацию и знания о бизнесе для
поддержки принятия улучшенных и неформальных решений;
 информационные технологии (методы и средства) сбора данных,
консолидации информации и обеспечения доступа бизнес-пользователей к
знаниям;
 знания о бизнесе, добытые в результате углубленного анализа
детальных данных и консолидированной информации.
Как
процесс
BI
предполагает сбор
и
анализ многоаспектной
информации об исследуемой предметной области, выработку интуиции и
понимания для улучшенного и неформального принятия решений бизнеспользователями.
Business
Intelligence
обычно
описывает
результат
углубленного анализа детальных данных бизнеса, включает технологии баз
данных и приложений, а также практику анализа. Разработаны программные
приложения, которые обеспечивают пользователей возможностью проводить
такой процесс для ответа на вопросы бизнеса и для выявления значимых
тенденций или шаблонов в исследуемой информации.
Как информационные технологии BI предоставляет инструменты для
извлечения из данных значимой для бизнеса информации. В основе
технологии BI лежит организация доступа конечных пользователей и анализ
структурированных количественных по своей природе данных и информации
о бизнесе. BI порождает итерационный процесс бизнес-пользователя,
включающий доступ к данным и их анализ, и тем самым проявление
интуиции, формирование заключений, нахождение взаимосвязей, чтобы
эффективно изменять предприятие в положительную сторону. BI имеет
42
широкий спектр пользователей на предприятии, включая руководителей и
аналитиков. Инструменты business intelligence — программное обеспечение,
которое позволяет бизнес-пользователям видеть и использовать большое
количество сложных данных. Знания, основанные на данных «data-based
knowledge), получаются из данных с использованием инструментов BI и
процесса создания и ведения хранилища данных (data warehousing».
Как знания о бизнесе BI определяет знания, добытые с использованием
различных аппаратно-программных технологий. Такие технологии дают
возможность организациям превращать данные в информацию, а затем
информацию в знания». Здесь четко разграничиваются понятия «данные»,
«информация» и «знания». Данные понимаются как реальность, которую
компьютер записывает, хранит и обрабатывает — это «сырые данные».
Информация — это то, что человек в состоянии понять о реальности, а знания
— это то, что в бизнесе используется для принятия решений. В процессе
организации информации для получения знания часто применяют хранилища
данных, а для представления этого знания пользователям — инструменты
бизнес-интеллекта. Каждый год количество данных в мире удваивается, но от
этого мало пользы, хотя их можно превратить в полезную информацию и
знания — информация сама по себе не очень подходит для принятия решений
в виду ее огромного объема. Средства бизнес-интеллекта и хранилищ данных
призваны находить в кучах данных и информации то существенное, что
реально прибавляется к нашим полезным знаниям. Они не пытаются
полностью заменить человека, а используют для формирования гипотез
интуицию, основанную на его подсознании и личном опыте.
В настоящее время категории BI-продуктов включают:
 BI-инструменты;
o генераторы запросов и отчетов;
o инструменты оперативной аналитической обработки (online
analytical processing, OLAP);
o корпоративные BI-наборы (enterprise BI suites, EBIS);
43
o BI-платформы;
 BI-приложения.
BI-инструменты делятся на: генераторы запросов и отчетов; развитые
BI-инструменты, — прежде всего инструменты оперативной аналитической
обработки; корпоративные BI-наборы; BI-платформы. Главная часть BIинструментов делится на корпоративные BI-наборы и BI-платформы. Средства
генерации запросов и отчетов в большой степени поглощаются и замещаются
корпоративными BI-наборами. Многомерные OLAP-механизмы или серверы, а
также
реляционные
инфраструктурой
OLAP-механизмы
для
BI-платформ.
являются
BI-инструментами
Большинство
и
BI-инструментов
применяются конечными пользователями для доступа, анализа и генерации
отчетов по данным, которые чаще всего располагаются в хранилище, витринах
данных или оперативных складах данных.
Кроме перечисленных инструментов, в состав BI могут входить
следующие средства анализа:
 пакеты статистического анализа и анализ временных рядов и оценки
рисков;
 средства моделирования;
 пакеты для нейронных сетей;
 средства нечеткой логики;
 экспертные системы.
Дополнительно
нужно
отметить
средства
для
графического
оформления результатов:
 средства деловой и научно-технической графики;
 «приборные доски»;
 средства аналитической картографии и топологических карт;
 средства визуализации многомерных данных.
44
2.7.1 Архитектура business intelligence
Корпоративная BI-архитектура должна быть разработана после того,
как определены BI-потребности пользователей, но до выбора BI-инструментов.
Архитектура Business Intelligence определяет компоненты доставки BIинформации и компоненты BI-технологии (рисунок 1). После определения
профилей использования
BI-информации, может быть спроектирована
архитектура доставки информации, основанная на этих профилях и на
требуемом типе внедрения.
Рисунок 7.1. Архитектура Business intelligence
Архитектура BI-технологии определяет инфраструктуру и компоненты,
необходимые для поддержки внедрения, эксплуатации и администрирования
BI-инструментов и приложений, а также связи этих компонентов. Прочная
архитектура
BI-технологии
инфраструктуры
Инфраструктурный
и
будет
прикладных
слой
состоять
из
сервисов
(или
включает
двух
важных
слоев:
функциональности).
информационные
ресурсы,
администрирование и сети. На этом слое данные собираются, интегрируются и
становятся доступными. Хранилище данных является одним из возможных
компонентов инфраструктурного слоя. Для использования BI в оперативных
45
системах может потребоваться оперативный склад данных (operational data
store, ODS), возможно связанный с корпоративными структурами workflow.
Прикладные сервисы включают все BI-сервисы, такие как механизмы
запросов, анализа, генерации отчетов и визуализации, а также средства
безопасности и метаданные.
2.7.2 Среда хранения и доступ к BI-информации
Помимо традиционных решений по хранилищам данных Oracle9i и MS
SQL Server2000, растет число применений хранилищ ERP, например, SAP BW
для R/3, или PeopleSoft Enterprise Warehouse с BI-приложениями Enterprise
Performance Management. Однако в обоих случаях функциональность
привязана к конкретным системам ERP, а следовательно ограничена.
Быстро растет применение ROLAP для хранения BI-информации, из-за
удобства реляционных СУБД для приложений с очень большими базами
детальных данных и благодаря включению возможностей OLAP в СУБД.
Использование
МБД
и
OLAP
остается
неизменным
и
наиболее
преобладающим, т.к. они обеспечивают лучшую производительность и
функциональность там, где важны агрегированные данные и сложные
аналитические расчеты.
Неудивительно, что при дороговизне двухзвенных клиент-серверных
структур доступ к BI все чаще происходит через Web. Центр тяжести
перемещается на сервер, отражая тот факт, что важным элементом является
доступ
к
корпоративной
автономные
BI-информации,
же
ПК
явно
недостаточно функциональны. Популярна и растет доставка BI-отчетов по
электронной почте, а мобильные и беспроводные способы доставки пока
распространяются медленно.
Тенденции
Среди BI-инструментов наибольший рост испытывают EBIS, что
отражает
усилившуюся
конкуренцию
в
сегодняшней
экономике.
Использование инструментов для генерации запросов и отчетов, анализа
46
данных снижается, организации обновляют их и заменяют корпоративными
BI-наборами.
отчетность
и
Основные
инструменты
(незапланированные
запросы,
основной
OLAP-анализ)
все
наиболее
еще
остаются
распространенными, удовлетворяя большинство потребностей. Также растет
применение OLAP и других развитых BI-инструментов, подобных технологии
data mining. Однако автономные инструменты data mining исчезают, эта
технология поглощается и включается в другие BI-инструменты, например, в
расширения СУБД.
Ожидается, что в течение 5 лет такие возможности, как XML для
анализа (XML/A), BI Web-сервисы, совместная работа, беспроводные и
мобильные коммуникации объединятся в виде сетей бизнес-интеллекта (BI
networks), которые будут дополнены средствами мониторинга бизнес
Беспроводной и мобильный бизнес-интеллект. Другая устойчивая
тенденция по доставке BI-информации видна у поставщиков, дающим
возможность BI-продуктам доставлять отчеты посредством мобильной
технологии, включая персональных электронных помощников PDA, Internetтелефонов и пейджеров.
Мониторинг бизнес-деятельности. Новая технология BAM является
по существу операционным BI и сочетает интеграцию приложений реального
времени с возможностями бизнес-интеллекта. Используя транзакционные
данные, извлеченные из систем обработки транзакций в реальном времени, BIинструменты анализируют эти данные и выдают предупреждения о
критических
событиях
и
информацию
операционным
пользователям,
принимающим непосредственные решения.
47
2.8 Тема 8. Хранилища данных
2.8.1 Концепция хранилища данных
Стремление объединить в одной архитектуре СППР возможности OLTPсистем и систем анализа, требования к которым во многом противоречивы,
привело к появлению концепции хранилищ данных (ХД).
В основе концепции ХД лежит идея разделения данных, используемых
для оперативной обработки и для решения задач анализа. Это позволяет
применять структуры данных, которые удовлетворяют требованиям их
хранения с учетом использования в OLTP-системах и системах анализа. Такое
разделение позволяет оптимизировать как структуры данных оперативного
хранения (оперативные БД, файлы, электронные таблицы и т.п.) для
выполнения операций ввода, модификации, удаления и поиска, так и
структуры данных, используемые для анализа (для выполнения аналитических
запросов). В СППР эти два типа данных называются соответственно
оперативными источниками данных (ОИД) и хранилищем данных.
Хранилище данных – предметно-ориентированный, интегрированный,
неизменчивый, поддерживающий хронологию набор данных, организованный
для целей поддержки принятия решений
Рассмотрим свойства ХД более подробно.
Предметная ориентация – является фундаментальным отличием ХД от
ОИД. Разные ОИД могут содержать данные, описывающие одну и ту же
предметную область с разных точек зрения (например, с точки зрения
бухгалтерского учета, складского учета, планового отдела и т. п.). Решение,
принятое на основе только одной точки зрения, может быть неэффективным
или даже неверным. ХД позволяют интегрировать информацию, отражающую
разные точки зрения на одну предметную область.
При реализации в СППР концепции ХД данные из разных ОИД
копируются в единое хранилище. Собранные данные приводятся к единому
48
формату, согласовываются и обобщаются. Аналитические запросы адресуются
к ХД (рисунок 8.1).
Такая модель неизбежно приводит к дублированию информации в ОИД
и в ХД. Однако избыточность данных, хранящихся в СППР, как правило, не
превышает 1 %. Это можно объяснить следующими причинами.
Система поддержи принятия решений
Подсистема хранения информации
Оператор
Подсистема
ввода
(OLTP)
.
.
.
Подсистема
ввода
(OLTP)
Оперативный
источник
данных
.
.
.
Аналитические
запросы
Хранилище
данных
Данные
Подсистема
анализа
(OLAP,
Data Mining)
Аналитик
Оперативный
источник
данных
Внешний
источник
данных
Рисунок 8.1. Структура СППР с физическим ХД
При загрузке информации из ОИД в ХД данные фильтруются. Многие
из них не попадают в ХД, поскольку лишены смысла с точки зрения
использования в процедурах анализа.
Информация в ОИД носит, как правило, оперативный характер, и
данные, потеряв актуальность, удаляются. В ХД, напротив, хранится
историческая информация. С этой точки зрения дублирование содержимого
ХД данными ОИД оказывается весьма незначительным.
В ХД хранится обобщенная информация, которая в ОИД отсутствует.
Во время загрузки в ХД данные очищаются (удаляется ненужная
информация) и приводятся к единому формату. После такой обработки данные
занимают гораздо меньший объем.
Избыточность
информации
можно
свести
к
нулю,
используя
виртуальное ХД. В данном случае в отличие от классического (физического)
49
ХД данные из ОИД не копируются в единое хранилище. Они извлекаются,
преобразуются
и
интегрируются
непосредственно
при
выполнении
аналитических запросов в оперативной памяти компьютера. Фактически такие
запросы напрямую адресуются к ОИД (рисунок 8.2).
Система поддержи принятия решений
Подсистема хранения информации
Подсистема
ввода
(OLTP)
Оператор
.
.
.
Подсистема
ввода
(OLTP)
Оперативный
источник
данных
Виртуальное
хранилище
данных
.
.
.
Аналитические
запросы
Данные
Подсистема
анализа
(OLAP,
Data Mining)
Аналитик
Оперативный
источник
данных
Внешний
источник
данных
Рис 8.2 Структура СППР с виртуальным ХД
Основными достоинствами виртуального ХД являются:
минимизация объема памяти, занимаемой на носителе информацией;
работа с текущими, детализированными данными.
Однако такой подход обладает многими недостатками.
Снижения затрат на создание ХД можно добиться, создавая его
упрощенный вариант – витрину данных (Data Mart).
Витрина данных (ВД) – это упрощенный вариант ХД, содержащий
только тематически объединенные данные.
ВД максимально приближена к конечному пользователю и содержит
данные, тематически ориентированные на него (например, ВД для работников
отдела
маркетинга
может
содержать
данные,
необходимые
для
маркетингового анализа). ВД существенно меньше по объему, чем ХД, и для
50
ее реализации не требуется больших затрат. Они могут быть реализованы как
самостоятельно, так и вместе с ХД.
Самостоятельные ВД (рисунок 8. 3) часто появляются в организации
исторически и встречаются в крупных организациях с большим количеством
независимых подразделений, решающих собственные аналитические задачи.
Достоинствами такого подхода являются:
проектирование ВД для ответов на определенный круг вопросов;
быстрое внедрение автономных ВД и получение отдачи;
упрощение
процедур
заполнения
ВД
и
повышение
их
производительности за счет учета потребностей определенного круга
пользователей.
Система поддержи принятия решений
Подсистема хранения информации
Оператор
Подсистема
ввода
(OLTP)
.
.
.
Подсистема
ввода
(OLTP)
Оперативный
источник
данных
Витрина
данных
.
.
.
Данные
Аналитические
запросы
Оперативный
источник
данных
Витрина
данных
Данные
Подсистема
анализа
(OLAP,
Data Mining)
Подсистема
анализа
(OLAP,
Data Mining)
Аналитик
Аналитические
запросы
Внешний
источник
данных
Рис 8 3 Структура СППР с самостоятельными ВД
Недостатками автономных ВД являются
многократное хранение данных в разных ВД, что приводит к
увеличению расходов на их хранение и потенциальным проблемам, связанным
с необходимостью поддержания непротиворечивости данных,
отсутствие консолидированности данных на уровне предметной
области, а следовательно – отсутствие единой картины
51
В последнее время все более популярной становится идея совместить
ХД и ВД в одной системе. В этом случае ХД используется в качестве
единственного источника интегрированных данных для всех ВД (рис 8 4).
ХД
представляет
собой
единый
централизованный
источник
информации для всей предметной области, а ВД являются подмножествами
данных из хранилища, организованными для представления информации по
тематическим разделам данной области Конечные пользователи имеют
возможность доступа к детальным данным хранилища, если данных в витрине
недостаточно, а также для получения более полной информационной картины
Система поддержи принятия решений
Подсистема хранения информации
Оператор
Подсистема
ввода
(OLTP)
.
.
.
Подсистема
ввода
(OLTP)
Витрина
данных
Оперативный
источник
данных
.
.
.
Аналитические
запросы
Хранилище
данных
Витрина
данных
Оперативный
источник
данных
Данные
Данные
Подсистема
анализа
(OLAP,
Data Mining)
Подсистема
анализа
(OLAP,
Data Mining)
Аналитик
Аналитические
запросы
Внешний
источник
данных
Рисунок 8.4. Структура СППР с ХД и ВД
Достоинствами такого подхода являются:
простота создания и наполнения ВД, поскольку наполнение происходит
из единого стандартизованного надежного источника очищенных данных – из
ХД;
простота расширения СППР за счет добавления новых ВД;
снижение нагрузки на основное ХД.
К недостаткам относятся:
избыточность (данные хранятся как в ХД, так и в ВД);
52
дополнительные затраты на разработку СППР с ХД и ВД.
Подводя итог анализу путей реализации СППР с использованием
концепции ХД, можно выделить следующие архитектуры таких систем:
СППР с физическим (классическим) ХД (см. рисунок 8. 1);
СППР с виртуальным ХД (см. рисунок 8. 2);
СППР с ВД (см. рисунок 8. 3);
СППР с физическим ХД и с ВД (рисунок 8. 4).
В случае архитектур с физическим ХД и/или ВД необходимо уделить
внимание вопросам организации (архитектуры) ХД и переносу данных из ОИД
в ХД.
Организация ХД
Все данные в ХД делятся на три основные категории (рисунок 8. 5):
детальные данные;
агрегированные данные;
метаданные.
Система поддержи принятия решений
Подсистема хранения информации
Оператор
Подсистема
ввода
(OLTP)
.
.
.
Подсистема
ввода
(OLTP)
Оперативный
источник
данных
.
.
.
Обратный
поток
Агрегированные
данные
Выходной
поток
Входной
поток
Оперативный
источник
данных
Поток
обобщения
Подсистема
анализа
(OLAP,
Data Mining)
Аналитик
Детальные данные
Поток
метаданных
Репозиторий
метаданных
Архивные
данные
Архивные
данные
Внешний
источник
данных
Рисунок 8. 5. Архитектура ХД
Детальными являются данные, переносимые непосредственно из ОИД.
Они соответствуют элементарным событиям, фиксируемым OLTP-системами
53
(например, продажи, эксперименты и др.). Принято разделять все данные на
измерения и факты. Измерениями называются наборы данных, необходимые
для описания событий (например, города, товары, люди и т. п.). Фактами
называются данные, отражающие сущность события (например, количество
проданного товара, результаты экспериментов и т.п.). Фактические данные
могут быть представлены в виде числовых или категориальных значений.
Данные, поступающие из ОИД в ХД, перемещаемые внутри ХД и
поступающие из ХД к аналитикам, образуют информационные потоки (см.
рисунок 8. 5):
Процесс
переноса,
включающий
в
себя
этапы
извлечения,
преобразования и загрузки, называют ETL-процессом (Е – extraction, Т –
transformation,
L
–
извлечение,
loading:
преобразование
и
загрузка,
соответственно). Программные средства, обеспечивающие его выполнение,
называются ETL-системами. Рассмотрим более подробно этапы ETL-процесса
(рисунок 8. 6).
Извлечение данных – чтобы начать ETL-процесс, необходимо извлечь
данные из одного или нескольких источников и подготовить их к этапу
преобразования.
Система поддержи принятия решений
Подсистема хранения информации
Оперативный
источник
данных
Загрузка
структур, данных
Подсистема
ввода
(OLTP)
.
.
.
Преобразование
структур, данных
.
.
.
Данные
Оперативный
источник
данных
Извлечение
структур, данных
Оператор
Подсистема
ввода
(OLTP)
Хранилище
данных
Подсистема
анализа
(OLAP,
Data Mining)
Аналитик
Метаданные
Внешний
источник
данных
Рисунок 8. 6. ETL-процесс
Можно выделить два способа извлечения данных:
54
1. Извлечение данных вспомогательными программными средствами
непосредственно из структур хранения информации (файлов, электронных
таблиц, БД и т. п. Достоинствами такого способа извлечения данных являются:
отсутствие необходимости расширять OLTP-систему (это особенно
важно, если ее структура закрыта);
данные могут извлекаться с учетом потребностей процесса переноса.
2.
Выгрузка данных средствами OLTP − систем в промежуточные
структуры. Достоинствами такого подхода являются:
возможность использовать средства OLTP-систем, адаптированные к
структурам данных;
средства выгрузки изменяются вместе с изменениями OLTP-систем и
ОИД;
возможность выполнения первого шага преобразования данных за счет
определенного формата промежуточной структуры хранения данных.
Преобразование данных – после того как сбор данных завершен,
необходимо преобразовать их для размещения на новом месте. На этом этапе
выполняются следующие процедуры:
обобщение данных (aggregation) – перед загрузкой данные обобщаются.
Процедура
обобщения
относительно
небольшим
заменяет
числом
многочисленные
детальные
агрегированных
данных.
данные
Например,
предположим, что данные о продажах за год занимают в нормализованной
базе
данных
несколько
тысяч
записей.
После
обобщения
данные
преобразуются в меньшее число кратких записей, которые будут перенесены в
ХД;
перевод значений (value translation) – в ОИД данные часто хранятся в
закодированном виде для того, чтобы сократить избыточность данных и
память
для
их
хранения.
Например,
названия
товаров,
городов,
специальностей и т.п. могут храниться в сокращенном виде. Поскольку ХД
содержат обобщенную информацию и рассчитаны на простое использование,
закодированные данные обычно заменяют на более понятные описания;
55
создание полей (field derivation)– при создании полей для конечных
пользователей создается и новая информация. Например, ОИД содержит одно
поле для указания количества проданных товаров, а второе – для указания
цены одного экземпляра. Для исключения операции вычисления стоимости
всех товаров можно создать специальное поле для ее хранения во время
преобразования данных;
очистка данных (cleaning)– направлена на выявление и удаление
ошибок и несоответствий в данных с целью улучшения их качества Проблемы
с качеством встречаются в отдельных ОИД, например, в файлах и БД могут
быть ошибки при вводе, отдельная информация может быть утрачена, могут
присутствовать «загрязнения» данных и др. Очистка также применяется для
согласования атрибутов полей таким образом, чтобы они соответствовали
атрибутам базы данных назначения.
Загрузка данных – после того как данные преобразованы для
размещения в ХД, осуществляется этап их загрузки. При загрузке выполняется
запись преобразованных детальных и агрегированных данных. Кроме того,
при записи новых детальных данных часть старых может переноситься в
архив.
2.8.2 Очистка данных
Одной из важных задач, решаемых при переносе данных в ХД, является
их очистка. С одной стороны, данные загружаются постоянно из различных
источников, поэтому вероятность попадания «грязных данных» весьма высока,
с другой – ХД используются для принятия решений и «грязные данные» могут
стать причиной принятия неверных решений. Таким образом, процедура
очистки является обязательной при переносе данных из ОИД в ХД. Ввиду
большого спектра возможных несоответствий в данных их очистка считается
одной из самых крупных проблем в технологии ХД. Основные проблемы
очистки данных можно классифицировать по следующим уровням.
уровень ячейки таблицы;
уровень записи;
56
уровень таблицы БД;
уровень одиночной БД;
уровень множества БД.
Рассмотрим перечисленные уровни и соответствующие им проблемы
более подробно.
Уровень ячейки таблицы. На данном уровне задача очистки заключается
в анализе и исправлении ошибок в данных, хранящихся в ячейках таблиц БД.
Хранилища данных и анализ
Концепция ХД не является законченным архитектурным решением
СППР и тем более не является готовым программным продуктом. Цель
концепции ХД – определить требования к данным, помещаемым в ХД, общие
принципы и этапы построения ХД, основные источники данных, дать
рекомендации по решению потенциальных проблем, возникающих при их
выгрузке, очистке, согласовании, транспортировке и загрузке.
Необходимо понимать, что концепция ХД:
это не концепция анализа данных, скорее, это концепция подготовки
данных для анализа;
не предопределяет архитектуру целевой аналитической системы. Она
говорит о том, какие процессы должны выполняться в системе, но не о том,
где конкретно и как они будут выполняться.
Таким образом, концепция ХД определяет лишь самые общие принципы
построения аналитической системы и в первую очередь сконцентрирована на
свойствах и требованиях к данным, но не на способах их организации и
представления в целевой БД и режимах их использования. ХД – это концепция
построения аналитической системы, но не концепция ее использования.
57
2.9 Тема 9. OLAP – системы
2.9.1 Многомерная модель данных
В концепции ХД нет постановки вопросов, связанных с организацией
эффективного анализа данных и представления доступа к ним. Эти задачи
решаются подсистемами анализа. Следует выяснить, какой способ работы с
данными наиболее подходит пользователю СППР – аналитику.
Измерение – это последовательность значений одного из анализируемых
параметров. Например, для параметра «время» это последовательность
календарных дней, для параметра «регион» это, например, список городов.
Множественность измерений предполагает представление данных в
виде
многомерной
модели.
По
измерениям
в
многомерной
модели
откладывают параметры, относящиеся к анализируемой предметной области.
Каждое измерение может быть представлено в виде иерархической
структуры. Например, измерение «Исполнитель» может иметь следующие
иерархические уровни: «предприятие–подразделение–отдел–служащий».
На пересечениях осей измерений (Dimensions) располагаются данные,
количественно характеризующие анализируемые факты, – меры (Measures).
Это могут быть объемы продаж, выраженные в единицах продукции или в
денежном выражении, остатки на складе, издержки и т. п.
Рисунок 9. 1 – Представление данных в виде гиперкуба
58
Таким образом, многомерную модель данных можно представить как
гиперкуб (рисунок 9. 1). Ребрами такого гиперкуба являются измерения, а
ячейками – меры.
Над таким гиперкубом могут выполняться следующие операции:
1.
Срез (Slice) (рисунок
9. 2) – формируется подмножество
многомерного массива данных, соответствующее единственному значению
одного
или
нескольких
элементов
измерений,
не
входящих
в
это
подмножество.
Рисунок 9. 2 – Операция среза
2. Вращение (Rotate) (рис 9. 3) – изменение расположения измерений,
представленных в отчете или на отображаемой странице.
Рис 9. 3 Операция вращения
Например, операция вращения может заключаться в перестановке
местами строк и столбцов таблицы или перемещении интересующих
измерений в столбцы или строки создаваемого отчета, что позволяет
придавать ему желаемый вид.
Консолидация (Drill Up) и детализация (Drill Down) (рисунок 9. 4) –
операции, которые определяют переход вверх по направлению от детального
59
(down)
представления
данных
к
агрегированному
(up)
и
наоборот,
соответственно.
Рис 9. 4. Операции консолидации и детализации
2.9.2 Определение OLAP-систем
С
концепцией
многомерного
анализа
данных
тесно
связывают
оперативный анализ, который выполняется средствами OLAP-систем.
OLAP (On-Line Analytical Processing) – технология оперативной
аналитической обработки данных, использующая методы и средства для
сбора, хранения и анализа многомерных данных в целях поддержки процессов
принятия решений.
Основное
назначение
OLAP-систем
–
поддержка
аналитической
деятельности, произвольных (часто используется термин ad-hoc) запросов
пользователей – аналитиков. Цель OLAP-анализа – проверка возникающих
гипотез
2.9.3 Концептуальное многомерное представление
Двенадцать правил Кодда
Ниже перечислены 12 правил, изложенных Коддом и определяющих
OLAP.
1. Многомерность – OLAP-система на концептуальном уровне должна
представлять данные в виде многомерной модели, что упрощает процессы
анализа и восприятия информации.
60
2. Прозрачность – OLAP-система должна скрывать от пользователя
реальную реализацию многомерной модели, способ организации, источники,
средства обработки и хранения.
9. Доступность – OLAP-система должна предоставлять пользователю
единую, согласованную и целостную модель данных, обеспечивая доступ к
данным независимо от того, как и где они хранятся.
4. Постоянная производительность при разработке отчетов –
производительность OLAP-систем не должна значительно уменьшаться при
увеличении количества измерений, по которым выполняется анализ.
5. Клиент-серверная архитектура – OLAP-система должна быть
способна работать в среде «клиент-сервер», т.к. большинство данных, которые
сегодня требуется подвергать оперативной аналитической обработке, хранятся
распределено.
6. Равноправие измерений – OLAP-система должна поддерживать
многомерную модель, в которой все измерения равноправны.
7. Динамическое управление разреженными матрицами – OLAP-система
должна обеспечивать оптимальную обработку разреженных матриц.
8. Поддержка многопользовательского режима – OLAP-система должна
предоставлять возможность работать нескольким пользователям совместно с
одной аналитической моделью или создавать для них различные модели из
единых данных.
9. Неограниченные перекрестные операции – OLAP-система должна
обеспечивать сохранение функциональных отношений, описанных с помощью
определенного
формального
языка
между
ячейками
гиперкуба
при
выполнении любых операций среза, вращения, консолидации или детализации
10. Интуитивная манипуляция данными – OLAP-система должна
предоставлять способ выполнения операций среза, вращения, консолидации и
детализации над гиперкубом без необходимости пользователю совершать
множество действий с интерфейсом.
61
11. Гибкие возможности получения отчетов – OLAP-система должна
поддерживать различные способы визуализации данных, т.е. отчеты должны
представляться в любой возможной ориентации.
12. Неограниченная размерность и число уровней агрегации –
исследование о возможном числе необходимых измерений, требующихся в
аналитической модели, показало, что одновременно может использоваться до
19 измерений.
Дополнительные правила Кодда
Набор этих требований, послуживших де-факто определением OLAP,
достаточно часто вызывает различные нарекания, например, правила 1, 2, 3, 6
являются
требованиями,
а
правила
10,
11
–неформализованными
пожеланиями. Таким образом, перечисленные 12 требований Кодда не
позволяют точно определить OLAP. В 1995г. Кодд к приведенному перечню
добавил следующие шесть правил:
19.
Пакетное извлечение против интерпретации – OLAP-система
должна в равной степени эффективно обеспечивать доступ как к собственным,
так и к внешним данным.
14. Поддержка всех моделей OLAP-анализа – OLAP-система должна
поддерживать все четыре модели анализа данных, определенные Коддом:
категориальную, толковательную, умозрительную и стереотипную.
15. Обработка ненормализованных данных – OLAP-система должна
быть
интегрирована
с
ненормализованными
источниками
данных.
Модификации данных, выполненные в среде OLAP, не должны приводить к
изменениям данных, хранимых в исходных внешних системах.
16. Сохранение результатов OLAP: хранение их отдельно от исходных
данных – OLAP-система, работающая в режиме чтения-записи, после
модификации исходных данных должна результаты сохранять отдельно.
Иными словами, обеспечивается безопасность исходных данных.
17. Исключение отсутствующих значений – OLAP-система, представляя
данные пользователю, должна отбрасывать все отсутствующие значения.
62
Другими словами, отсутствующие значения должны отличаться от нулевых
значений.
18. Обработка отсутствующих значений –OLAP-система должна
игнорировать все отсутствующие значения без учета их источника. Эта
особенность связана с 17-м правилом.
2.9.4 Архитектура OLAP-систем
OLAP-система включает в себя два основных компонента:
OLAP-сервер – обеспечивает хранение данных, выполнение над ними
необходимых
операций
и
формирование
многомерной
модели
на
концептуальном уровне. В настоящее время OLAP-серверы объединяют с ХД
или ВД;
OLAP-клиент – представляет пользователю интерфейс к многомерной
модели данных, обеспечивая его возможностью удобно манипулировать
данными для выполнения задач анализа.
OLAP-серверы скрывают от конечного пользователя способ реализации
многомерной модели. Они формируют гиперкуб, с которым пользователи
посредством OLAP-клиента выполняют все необходимые манипуляции,
анализируя данные. Между тем способ реализации очень важен, т.к. от него
зависят такие характеристики, как производительность и занимаемые ресурсы.
Выделяют три основных способа реализации:
MOLAP–для
реализации
многомерной
модели
используют
многомерные БД;
–для
ROLAP
реализации
многомерной
модели
используют
реляционные БД;
HOLAP
–для
реализации
многомерной
модели
используют
и
многомерные и реляционные БД.
Часто в литературе по OLAP-системам можно встретить аббревиатуры
DOLAP и JOLAP
DOLAP – настольный (desktop) OLAP. Является недорогой и простой в
использовании OLAP-системой, предназначенной для локального анализа и
63
представления
данных,
которые
загружаются
из
реляционной
или
многомерной БД на машину клиента.
JOLAP – новая, основанная на Java, коллективная OLAP-APIинициатива, предназначенная для создания и управления данными и
метаданными на серверах OLAP. Основной разработчик – Hyperion Solutions.
Выводы
Из материала, изложенного в данной теме, следует:
 Для анализа информации наиболее удобным способом ее представления
является гиперкуб, ребрами которого - измерения. Это позволяет анализировать
данные сразу по нескольким измерениям, т. е. выполнять многомерный анализ.
 Над многомерной моделью – гиперкубом могут выполняться
операции: среза, вращения, консолидации и детализации. Эти операции и
многомерную модель реализуют OLAP-системы.
 OLAP– технология оперативной аналитической обработки данных.
Это класс приложений, предназначенных для сбора, хранения и анализа
многомерных данных в целях поддержки принятия решений.
 Для определения OLAP-систем Кодд разработал 12 правил, позднее
дополнил еще шесть и разбил 18 правил на четыре группы: основные
особенности, специальные особенности, особенности представления отчетов и
управление измерениями.
 Архитектура OLAP-системы включает OLAP-сервер и OLAP-клиент.
OLAP-сервер может быть реализован на основе многомерных БД (MOLAP),
реляционных БД (ROLAP) или сочетания обеих моделей (HOLAP).
 Достоинствами MOLAP являются высокая производительность и
простота использования встроенных функций.
 Достоинствами
ROLAP
являются
возможность
работы
с
существующими реляционными БД, более экономичное использование
ресурсов и большая гибкость при добавлении новых измерений.
64
2.10 Тема 10. Интеллектуальный анализ данных
2.10.1 Добыча данных – Data Mining
OLAP-системы предоставляют аналитику средства проверки гипотез при
анализе данных. При этом основной задачей аналитика является генерация
гипотез. Он решает ее, основываясь на своих знаниях и опыте. Однако знания
есть не только у человека, но и в накопленных данных, которые подвергаются
анализу. Такие знания часто называют «скрытыми», т.к. они содержатся в
гигабайтах и терабайтах информации, которые человек не в состоянии
исследовать самостоятельно. В связи с этим существует высокая вероятность
пропустить гипотезы, которые могут принести значительную выгоду.
Data Mining – исследование и обнаружение «машиной» (алгоритмами,
средствами искусственного интеллекта) в сырых данных скрытых знаний,
которые ранее не были известны, нетривиальны, практически полезны,
доступны для интерпретации человеком.
2.10.2 Задачи Data Mining
Классификация задач Data Mining
Методы DM помогают решить многие задачи, с которыми сталкивается
аналитик. Из них основными являются: классификация, регрессия, поиск
ассоциативных правил и кластеризация.
Задача классификации сводится к определению класса объекта по его
характеристикам. Необходимо заметить, что в этой задаче множество классов,
к которым может быть отнесен объект, заранее известно.
Задача регрессии, подобно задаче классификации, позволяет определить
по известным характеристикам объекта значение некоторого его параметра. В
отличие от задачи классификации значением параметра является не конечное
множество классов, а множество действительных чисел.
При поиске ассоциативных правил целью является нахождение частых
зависимостей (или ассоциаций) между объектами или событиями. Найденные
зависимости представляются в виде правил и могут быть использованы как
65
для лучшего понимания природы анализируемых данных, так и для
предсказания появления событий.
Задача кластеризации заключается в поиске независимых групп
(кластеров) и их характеристик во всем множестве анализируемых данных.
Решение этой задачи помогает лучше понять данные. Кроме того, группировка
однородных объектов позволяет сократить их число, а следовательно, и
облегчить анализ.
Перечисленные задачи по назначению делятся на описательные и
предсказательные.
Описательные (descriptive) задачи уделяют внимание улучшению
понимания анализируемых данных. Ключевой момент в таких моделях –
легкость и прозрачность результатов для восприятия человеком. Возможно,
обнаруженные
закономерности
будут
специфической
чертой
именно
конкретных исследуемых данных и больше нигде не встретятся, но это все
равно может быть полезно и потому должно быть известно. К такому виду
задач относятся кластеризация и поиск ассоциативных правил.
Решение предсказательных (predictive) задач разбивается на два этапа.
На первом этапе на основании набора данных с известными результатами
строится модель. На втором этапе она используется для предсказания
результатов на основании новых наборов данных. При этом, естественно,
требуется, чтобы построенные модели работали максимально точно. К
данному виду задач относят задачи классификации и регрессии. Сюда можно
отнести и задачу поиска ассоциативных правил, если результаты ее решения
могут быть использованы для предсказания появления некоторых событий.
2.10.3 Задача кластеризации
Задача кластеризации состоит в разделении исследуемого множества
объектов на группы «похожих» объектов, называемых кластерами. Часто
решение задачи разбиения множества элементов на кластеры называют
кластерным анализом.
66
Кластеризация может применяться практически в любой области, где
необходимо исследование экспериментальных или статистических данных.
Рассмотрим пример из области маркетинга, в котором данная задача
называется сегментацией.
Концептуально сегментирование основано на предпосылке, что все
потребители – разные. У них разные потребности, разные требования к товару,
они ведут себя по-разному: в процессе выбора товара, в процессе
приобретения
товара, в процессе использования
товара, в процессе
формирования реакции на товар. В связи с этим необходимо по-разному
подходить к работе с потребителями: предлагать им различные по своим
характеристикам товары, по-разному продвигать и продавать товары. Для того
чтобы определить, чем отличаются потребители друг от друга и как эти
отличия
отражаются
на
требованиях
к
товару,
и
производится
сегментирование потребителей.
2.10.4 Практическое применение Data Mining. Интернет -технологии
В системах электронного бизнеса, где особую важность имеют вопросы
привлечения
и
удержания
клиентов,
технологии
Data
Mining
часто
применяются для построения рекомендательных систем интернет-магазинов и
для
решения
проблемы
персонализации
посетителей
Web-сайтов.
Рекомендации товаров и услуг, построенные на основе закономерностей в
покупках клиентов, обладают огромной убеждающей силой.
Торговля
Для успешного продвижения товаров всегда важно знать, что и как
продается, а также, кто является потребителем. Исчерпывающий ответ на
первый вопрос дают такие средства Data Mining, как анализ рыночных корзин
и сиквенциальный анализ. Зная связи между покупками и временные
закономерности, можно оптимальным образом регулировать предложение. С
другой стороны, маркетинг имеет возможность непосредственно управлять
спросом, но для этого необходимо знать как можно больше о потребителях –
целевой аудитории маркетинга. Data Mining позволяет решать задачи
67
выделения групп потребителей со схожими стереотипами поведения, т. е.
сегментировать рынок. Для этого можно применять такие технологии Data
Mining, как кластеризацию и классификацию
Телекоммуникации
Телекоммуникационный
бизнес
является
одной
из
наиболее
динамически развивающихся областей современной экономики. Возможно,
поэтому традиционные проблемы, с которыми сталкивается в своей
деятельности любая компания, здесь ощущаются особо остро. Приведем
некоторые цифры. Телекоммуникационные компании работают в условиях
жесткой конкуренции, что проявляется в ежегодном оттоке около 25 %
клиентов.
Промышленное производство
Промышленное
применения
производство
технологий
Data
создает
идеальные
Mining. Причина
условия
– в самой
для
природе
технологического процесса, который должен быть воспроизводимым и
контролируемым. Все отклонения в течение процесса, влияющие на качество
выходного результата, также находятся в заранее известных пределах. Таким
образом, создается статистическая стабильность, первостепенную важность
которой отмечают в работах по классификации. Естественно, что в таких
условиях использование Data Mining способно дать лучшие результаты, чем, к
примеру, при прогнозировании ухода клиентов телекоммуникационных
компаний.
Медицина
В медицинских и биологических исследованиях, равно как и в
практической медицине, спектр решаемых задач настолько широк, что
возможно использование любых методологий Data Mining. Примером может
служить
построение
диагностической
системы
или
исследование
эффективности хирургического вмешательства.
Известно много экспертных систем для постановки медицинских
диагнозов. Они построены главным образом на основе правил, описывающих
68
сочетания различных симптомов отдельных заболеваний. С помощью таких
правил узнают не только, чем болен пациент, но и как нужно его лечить.
Правила
помогают
определять
процедурах,
выбирать
средства
медикаментозного
показания/противопоказания,
создавать
условия
ориентироваться
наиболее
воздействия,
в
лечебных
эффективного
лечения,
предсказывать исходы назначенного курса лечения и т. п. Технологии Data
Mining
позволяют
обнаруживать
в
медицинских
данных
шаблоны,
составляющие основу указанных правил.
Банковское дело
Классическим примером использования Data Mining на практике
является решение проблемы о возможной некредитоспособности клиентов
банка. Этот вопрос, тревожащий любого сотрудника кредитного отдела банка,
можно разрешить и интуитивно.
Использование технологии Data Mining позволяет сократить число
нарушений на 20–30 %.
Страховой бизнес
В страховании, так же как в банковском деле и маркетинге, возникает
задача обработки больших объемов информации для определения типичных
групп (профилей) клиентов. Эта информация используется для того, чтобы
предлагать определенные услуги страхования с наименьшим для компании
риском и, возможно, с пользой для клиента.
Другие области применения
Data Mining может применяться практически везде, где возникает задача
автоматического анализа данных. В качестве примера приведем такие
популярные направления, как анализ и последующая фильтрация спама, а
также разработка гак называемых виртуальных собеседников. Последние
сейчас являются не более чем экзотическим дополнением к интерфейсу
некоторых сайтов, но предполагается, что в будущем они могут заменить
собой call-центры компаний.
69
2.10.5 Методы Data Mining
Базовые методы
К базовым методам Data Mining принято относить прежде всего
алгоритмы, основанные на переборе. Простой перебор всех исследуемых
объектов требует O(2N) операций, где N– количество объектов. Следовательно,
с увеличением количества данных объем вычислений растет экспоненциально,
что при большом объеме делает решение любой задачи таким методом
практически невозможным.
2.10.6 Процесс обнаружения знаний
Основные этапы анализа
Для обнаружения знаний в данных недостаточно просто применить
методы Data Mining, хотя, безусловно, этот этап является основным в процессе
интеллектуального анализа. Весь процесс состоит из нескольких этапов.
Рассмотрим основные из них, чтобы продемонстрировать, что без специальной
подготовки аналитика методы Data Mining сами по себе не решают
существующих проблем.
Итак, весь процесс можно разбить на следующие этапы
понимание и формулировка задачи анализа;
подготовка данных для автоматизированного анализа (препроцессинг);
применение методов Data Mining и построение моделей;
проверка построенных моделей;
интерпретация моделей человеком.
На первом этапе выполняется осмысление поставленной задачи и
уточнение целей, которые должны быть достигнуты методами Data Mining.
Важно правильно сформулировать цели и выбрать необходимые для их
достижения методы, т. к. от этого зависит дальнейшая эффективность всего
процесса.
Второй этап состоит в приведении данных к форме, пригодной для
применения конкретных методов Data Mining. Данный процесс ниже будет
описан более подробно, здесь заметим только, что вид преобразований,
70
совершаемых над данными, во многом зависит от используемых методов,
выбранных на предыдущем этапе.
Третий этап – это собственно применение методов Data Mining
Сценарии этого применения могут быть самыми различными и включать
сложную комбинацию разных методов, особенно если используемые методы
позволяют проанализировать данные с разных точек зрения
Следующий этап – проверка построенных моделей. Очень простой и
часто используемый способ заключается в том, что все имеющиеся данные,
которые необходимо анализировать, разбиваются на две группы. Как правило,
одна из них большего размера, другая – меньшего
Последний этап – интерпретация полученных моделей человеком в
целях их использования для принятия решений, добавление получившихся
правил и зависимостей в базы знаний и т.д. Этот этап часто подразумевает
использование методов, находящихся на стыке технологии Data Mining и
технологии экспертных систем.
Подготовка исходных данных
Как уже отмечалось, для применения того или иного метода Data Mining
к данным их необходимо подготовить к этому. Например, стоит задача
построить фильтр электронной почты, не пропускающий спам. Письма
представляют собой тексты в электронном виде.
Выводы
Из материала, изложенного в данной теме, следует:
Интеллектуальный
1.
анализ
данных
позволяет
автоматически,
основываясь на большом количестве накопленных данных, генерировать
гипотезы, которые могут быть проверены другими средствами анализа
(например, OLAP).

Data Mining– исследование и обнаружение машиной (алгоритмами,
средствами искусственного интеллекта) в сырых данных скрытых знаний,
которые: ранее не были известны, нетривиальны, практически полезны,
доступны для интерпретации человеком.
71
3. Методами Data Mining решаются три основные задачи: классификация
и регрессия, поиск ассоциативных правил и кластеризация. По назначению
они делятся на описательные и предсказательные задачи. По способам
решения задачи разделяют на обучение с учителем и обучение без учителя.
4.
Задача классификации и регрессии сводится к определению
значения зависимой переменной объекта по его независимым переменным.
Если зависимая переменная принимает численные значения, то говорят о
задаче регрессии, в противном случае – о задаче классификации.
5.
При поиске ассоциативных правил целью является нахождение
частых зависимостей (или ассоциаций) между объектами или событиями.
Найденные зависимости представляются в виде правил и могут быть
использованы как для лучшего понимания природы анализируемых данных,
так и для предсказания событий.
6. Задача кластеризации заключается в поиске независимых групп
(кластеров) и их характеристик во всем множестве анализируемых данных.
Решение этой задачи помогает лучше понять данные. Кроме того, группировка
однородных объектов позволяет сократить их число, а следовательно,
облегчить анализ.
7. Методы Data Mining находятся на стыке различных направлений
информационных
технологий:
статистики,
нейронных
сетей, нечетких
множеств, генетических алгоритмов и др.
8. Интеллектуальный анализ включает в себя следующие этапы:
понимание и формулировка задачи анализа, подготовка данных для
автоматизированного анализа, применение методов Data Mining и построение
моделей, проверка построенных моделей, интерпретация моделей человеком.
9. Перед применением методов Data Mining исходные данные должны
быть преобразованы. Вид преобразований зависит от применяемых методов.
10. Методы Data Mining могут эффективно использоваться в различных
областях
человеческой
деятельности,
бизнеса,
медицины,
науки,
телекоммуникаций и др.
72
2.11 Тема 11. Задачи анализа данных
2.11.1
Задача классификации и регрессии
При анализе часто требуется определить, к какому из известных классов
относятся исследуемые объекты, т е. классифицировать их. Например, когда
человек обращается в банк за предоставлением ему кредита, банковский
служащий должен принять решение, кредитоспособен ли потенциальный
клиент или нет. Очевидно, что такое решение принимается на основании
данных об исследуемом объекте (в данном случае – человеке), его месте
работы, размере заработной платы, возрасте, составе семьи и т.п. В результате
анализа этой информации банковский служащий должен отнести человека к
одному из двух известных классов «кредитоспособен» и некредитоспособен».
2.11.2
Задача поиска ассоциативных правил
Поиск ассоциативных правил является одним из самых популярных
приложений Data Mining. Суть задачи заключается в определении часто
встречающихся наборов объектов в большом множестве таких наборов.
Данная
задача
является
частным
случаем
задачи
классификации.
Первоначально она решалась при анализе тенденций в поведении покупателей
в супермаркетах. Анализу подвергались данные о совершаемых ими покупках,
которые покупатели складывают в тележку (корзину). Это послужило
причиной второго часто встречающегося названия – анализ рыночных корзин
(Basket Analysis). Практическое применение Data Mining
2.11.3
Методы Data Mining
Базовые методы
К базовым методам Data Mining принято относить прежде всего
алгоритмы, основанные на переборе. Простой перебор всех исследуемых
объектов требует O(2N) операций, где N– количество объектов. Следовательно,
с увеличением количества данных объем вычислений растет экспоненциально,
что при большом объеме делает решение любой задачи таким методом
практически невозможным.
73
2.12 Тема
12.
Задачи
интеллектуального
анализа
данных.
Поиск
ассоциативных правил
2.12.1 Постановка задачи
Формальная постановка задачи
Одной из наиболее распространенных задач анализа данных является
определение часто встречающихся наборов объектов в большом множестве
наборов. Опишем эту задачу в обобщенном виде. Для этого обозначим
объекты,
составляющие
исследуемые
наборы
(itemsets),
следующим
множеством:
I = {i1,i2, ...,ij,, ...,in},
где ij — объекты, входящие в анализируемые наборы; n — общее
количество объектов.
2.12.2 Сиквенциальный анализ
При анализе часто вызывает интерес последовательность происходящих
событий. При обнаружении закономерностей в таких последовательностях
можно с некоторой долей вероятности предсказывать появление событий в
будущем, что позволяет принимать более правильные решения.
Сиквенциальный
анализ
актуален
и
для
телекоммуникационных
компаний. Основная проблема, для решения которой он используется, — это
анализ данных об авариях на различных узлах телекоммуникационной сети.
2.12.3 Разновидности задачи поиска ассоциативных правил
Во многих прикладных областях объекты множества I естественным
образом объединяются в группы, которые в свою очередь также могут
объединяться в более общие группы, и т. д.
Для
расширения
ассоциативных
правил
возможностей
в
анализа
исследуемые
с
наборы
помощью
можно
поиска
добавлять
дополнительные объекты. В общем случае они могут иметь природу,
отличную от основных объектов.
74
2.12.3 Представление результатов
Решение задачи поиска ассоциативных правил, как и любой задачи,
сводится к обработке исходных данных и получению результатов. Обработка
над исходными данными выполняется по некоторому алгоритму Data Mining.
Результаты, получаемые при решении этой задачи, принято представлять в
виде ассоциативных правил. В связи с этим при их поиске выделяют два
основных этапа:
 нахождение всех частых наборов объектов;
 генерация ассоциативных правил из найденных частых наборов объектов.
Ассоциативные правила имеют следующий вид:
если (условие) то (результат),
где
условие
—
обычно
не
логическое
выражение
(как
в
классификационных правилах), а набор объектов из множества I, с которыми
связаны (ассоциированы) объекты, включенные в результат данного правила.
2.12.4 Алгоритмы
Алгоритм Apriori
Выявление частых наборов объектов — операция, требующая большого
количества вычислений, а следовательно, и времени. Алгоритм Apriori описан
в 1994 г. Срикантом Рамакришнан (Ramakrishnan Srikant) и Ракешом
Агравалом (Rakesh Agrawal). Он использует одно из свойств поддержки,
гласящее: поддержка любого набора объектов не может превышать
минимальной поддержки любого из его подмножеств:
SuppF < SuppE при Е  F.
Разновидности алгоритма Apriori
Алгоритм AprioriTid является разновидностью алгоритма Apriori.
Отличительной чертой данного алгоритма является подсчет значения
поддержки кандидатов не при сканировании множества D, а с помощью
множества Сk , являющегося множеством кандидатов (k-элементных наборов)
75
потенциально частых, в соответствие которым ставится идентификатор TID
транзакций, в которых они содержатся.
Другой разновидностью алгоритма Apriori является алгоритм MSAP
(Mining Sequential Alarm Patterns), специально разработанный для выполнения
сиквенциального анализа сбоев телекоммуникационной сети.
Он использует следующее свойство поддержки последовательностей:
для любой последовательности Lk ее поддержка будет меньше, чем поддержка
последовательностей из множества Lk-1.
Выводы
Из материала, изложенного в данной теме, следует:
1. Задачей поиска ассоциативных правил является определение часто
встречающихся наборов объектов в большом множестве наборов.
2. Сиквенциальный
анализ
заключается
в
поиске
частых
последовательностей. Основным отличием задачи сиквенциального анализа
от поиска ассоциативных правил является установление отношения порядка
между объектами.
3. Наличие иерархии в объектах и ее использование в задаче поиска
ассоциативных правил позволяет выполнять более гибкий анализ и
получать дополнительные знания.
4. Результаты решения задачи представляются в виде ассоциативных правил,
условная и заключительная часть которых содержит наборы объектов.
5. Основными характеристиками ассоциативных правил являются поддержка,
достоверность и улучшение.
6. Поддержка (support) показывает, какой процент транзакций поддерживает
данное правило.
7. Достоверность (confidence) показывает, какова вероятность того, что из
наличия в транзакции набора условной части правила следует наличие • в
ней набора заключительной части.
8. Улучшение (improvement) показывает, полезнее ли правило случайного
угадывания.
76
2.13 Тема 13. Задачи интеллектуального анализа данных. Кластеризация
2.13.1 Постановка задачи кластеризации
Первые публикации по кластерному анализу появились в конце 30-х гг.
прошлого столетия, но активное развитие этих методов и их широкое
использование началось в конце 60-х—начале 70-х годов. В дальнейшем это
направление многомерного анализа интенсивно развивалось. Появились новые
методы, модификации уже известных алгоритмов, существенно расширилась
область применения кластерного анализа.
Кластеризация отличается от классификации тем, что для проведения
анализа не требуется иметь выделенную целевую переменную, с этой точки
зрения она относится к классу unsupervised learning. Эта задача решается на
начальных этапах исследования, когда о данных мало что известно. Ее
решение помогает лучше понять данные, и с этой точки зрения задача
кластеризации является описательной задачей (descriptive).
Для этапа кластеризации характерно отсутствие каких-либо различий
как между переменными, так и между записями. Напротив, ищутся группы
наиболее близких, похожих записей. Методы автоматического разбиения на
кластеры редко используются сами по себе, просто для получения групп
схожих объектов. Анализ только начинается с разбиения на кластеры. После
определения кластеров используются другие методы Data Mining, для того
чтобы попытаться установить, а что означает такое разбиение на кластеры,
чем оно вызвано.
Большое достоинство кластерного анализа в том, что он позволяет
производить разбиение объектов не по одному параметру, а по целому набору
признаков. Кроме того, кластерный анализ, в отличие от большинства
математико-статистических методов, не накладывает никаких ограничений на
вид рассматриваемых объектов и позволяет рассматривать множество
исходных данных практически произвольной природы.
77
2.13.2 Формальная постановка задачи
Дано — набор данных со следующими свойствами:
 каждый экземпляр данных выражается четким числовым значением;
 класс для каждого конкретного экземпляра данных неизвестен.
Найти:
 способ сравнения данных между собой (меру сходства);
 способ кластеризации;
 разбиение данных по кластерам.
Формально задача кластеризации описывается следующим образом.
Дано множество объектов данных I, каждый из которых представлен
набором атрибутов. Требуется построить множество кластеров
С и
отображение F множества I на множество С, т. е. F: I → С. Отображение F
задает модель данных, являющуюся решением задачи. Качество решения
задачи определяется количеством верно классифицированных объектов
данных.
Множество I определим следующим образом:
I= {i1, i2, . . . ,ij, . . . , in},
где ij — исследуемый объект.
2.13.3 Меры близости, основанные на расстояниях, используемые
в алгоритмах кластеризации
Расстояния между объектами предполагают их представление в виде
точек m-мерного пространства Rm. В этом случае могут быть использованы
различные подходы к вычислению расстояний.
Рассмотренные ниже меры определяют расстояния между двумя
точками, принадлежащими пространству входных переменных. Используются
следующие обозначения:
X Q  Rm
—
множество
данных,
являющееся
подмножеством
m-мерного вещественного пространства;
хi =(xi1, xi2, ...,xim) XQ, i = 1, Q — элементы множества данных;
78
x
1 Q
 xi — среднее значение точек данных;
Q i 1
S

1 Q
 xi  x xi  x — ковариационная матрица (m×n).
Q  1 i 1



Итак, приведем наиболее известные меры близости.
Евклидово расстояние. Иногда может возникнуть желание возвести в
квадрат стандартное евклидово расстояние, чтобы придать большие веса более
отдаленным друг от друга объектам. Это расстояние вычисляется следующим
образом: d 2 xi , x j    xit  x jt 
m
2
(13.1)
t 1
Расстояние по Хеммингу. Это расстояние является просто средним
разностей по координатам. В большинстве случаев данная мера расстояния
приводит к таким же результатам, как и для обычного расстояния Евклида,
однако
для
нее
влияние
отдельных
больших
разностей
(выбросов)
уменьшается (т. к. они не возводятся в квадрат). Расстояние по Хеммингу
вычисляется по формуле d H xi , x j    xit  x jt
m
(13.2)
t 1
Расстояние Чебышева. Это расстояние может оказаться полезным,
когда желают определить два объекта как «различные», если они различаются
по какой-либо одной координате (каким-либо одним измерением). Расстояние
Чебышева вычисляется по формуле
d  xi , x j   max xit  x jt .
1t  m
(13.3)
Расстояние Махаланобиса преодолевает этот недостаток, но данная
мера расстояния плохо работает, если ковариационная матрица высчитывается
на всем множестве входных данных. В то же время, будучи сосредоточенной
на конкретном классе (группе данных), данная мера расстояния показывает
хорошие результаты: d M xi , x j   xi  x j S 1 xi  x j t
(13.4)
Пиковое расстояние предполагает независимость между случайными
переменными, что говорит о расстоянии в ортогональном пространстве. Но в
практических приложениях эти переменные не являются независимыми:
79
d L xi , x j  
Любую
1 m xit  x jt

.
m t 1 xit  x jt
из
приведенных
(13.5)
мер
расстояния
можно
выбирать
с
уверенностью лишь в том случае, если имеется информация о характере
данных, подвергаемых кластеризации.
Так, например, пиковое расстояние предполагает независимость между
случайными переменными, что говорит о расстоянии в ортогональном
пространстве. Но в практических приложениях эти переменные не являются
независимыми.
2.13.4 Представление результатов
Результатом кластерного анализа является набор кластеров, содержащих
элементы исходного множества. Кластерная модель должна описывать как
сами кластеры, так и принадлежность каждого объекта к одному из них.
Для
небольшого
числа
объектов,
характеризующихся
двумя
переменными, результаты кластерного анализа изображают графически.
Элементы представляются точками, кластеры разделяются прямыми, которые
описываются линейными функциями.
Дивизимные алгоритмы
Дивизимные кластерные алгоритмы, в отличие от агломеративных, на
первом шаге представляют все множество элементов I как единственный
кластер. На каждом шаге алгоритма один из существующих кластеров
рекурсивно делится на два дочерних. Таким образом итерационно образуются
кластеры сверху вниз. Этот подход не так подробно описывается в литературе
по кластерному анализу, как агломеративные алгоритмы. Его применяют,
когда необходимо разделить все множество объектов I на относительно
небольшое количество кластеров.
80
3 ПРАКТИЧЕСКИЕ ЗАНЯТИЯ
Часть 1
Лабораторная работа 1. Исследование вывода на продукционной
3.1
модели данных
3.1.1 Цель занятия
Получить
навыки
исследования
способов
решения
типовых
интеллектуальных задач на основе информационных технологий
3.1.2 Задачи на занятие
1.
Провести
анализ
основных
существующих
способов
решения
интеллектуальных задач первого рода, применяемых в АСУ. Разработать
сводную таблицу сравнительных характеристик этих способов.
2. Разработать алгоритмы и программы на (любом) языке высокого уровня
реализующие
в интерактивном режиме выбор
допустимых
способов
программного
продукта
решений и сами эти решения.
3.
Решить
с
помощью
разработанного
индивидуальную задачу не менее чем тремя способами. Сравнить результаты
решения и дать их интерпретацию.
4.Оформить отчет (индивидуально для каждого студента) исследований и
защитить его.
3.1.3 Содержание отчета
Лабораторная
работа
предполагает
обязательное
использование
метода, основанного на алгоритме Дейкстра, метода равных цен и одного из
методов эвристического поиска, выполняется в течении 6 часов и включает
3 отчета, объединенных вместе и соответствующих исследованным
81
методам,
а
также
разработанной
общей
программной
оболочке
с
соответствующим интерфейсом.
В каждом отчете должны быть:

тема, цель и задачи лабораторного занятия;

схема алгоритма с необходимой детализацией операций;

распечатка программы и результаты контрольного счета;

электронный вариант (на рабочей дискете, флэш);

выводы.
Результаты брошюруются вместе и представляются преподавателю не
позднее начала пятого лабораторного занятия.
3.1.4
Особенности задач искусственного интеллекта
В конце 40-х годов один из разделов информатики, исследования которого
были посвященных решению с помощью ЭВМ интеллектуальных задач,
выделился в отдельное направление, получившее название «Искусственный
интеллект».
К
этой
категории
относят
неформализуемые
и
трудно
формализуемые задачи.
Задача считается неформализуемой, если для нее не существует (по крайней
мере, неизвестен) точный алгоритм решения.
Задача трудно формализуема, если алгоритм не обеспечивает получения
решения за допустимое время.
Решение интеллектуальных задач требует передачи машине способности
воспринимать,
анализировать
и
обобщать
информацию,
исследовать
интеллекта
исторически
конкретные ситуации и принимать
Исследования
в
области
искусственного
преследовали две основные цели.
1 Исследование процесса человеческого мышления с помощью его
моделирования на ЭВМ.
82
2 Создание программ, способных не хуже человека справляться с
интеллектуальными задачами.
3.1.5 Задача планирования в ИИС
Активное поведение можно подразделить на два класса: нецеленаправленное
(случайное) и целенаправленное. Термин "целенаправленное" означает, что
поведение или действие направлено на достижение некоторой цели, т.е.
некоторого конечного состояния.
Целенаправленное активное поведение, в свою очередь, можно подразделить
на 2 класса: "с обратной связью" (или "телеологическое") и "без обратной
связи". Термин "обратная связь" употребляется как в широком смысле
возвращения части выходной энергии в качестве входа (положительная
обратная связь), так и в более узком смысле для обозначения того, что
поведение объекта управляется величиной ошибки в положении объекта по
отношению к некоторой специфической цели (отрицательная обратная связь).
SS-проблема состоит в поиске пути, приводящего некоторую систему S из
начального состояния в заданное конечное состояние.
PR-проблема состоит в поиске декомпозиции исходной задачи на подзадачи,
приводящей к задачам, решение которых системе известно.
3.1.6 Поиск решений в пространстве состояний
Основой всех стратегий решения задач в области ИИ является метод поиска.
Искомое решение является целью поиска, а множество возможных путей
достижения цели представляет собой пространство поиска (или пространство
состояний).
Подход,
использующий
пространство
состояний,
очень
распространен в решении задач. В нем предполагается знание счетного
множества M состояний и множества F операторов, которое отображает
состояния множества M в себя, т.е. операторы можно рассматривать как
функции, определенные на множестве состояний и принимающие значения из
этого множества. Решение задач рассматривается как передвижение в
83
пространстве, определяемое множеством этих состояний, с целью достигнуть
желаемое множество целевых состояний.
Задача поиска в пространстве состояний формулируется следующим
образом. Пусть исходная задача описывается тройкой {S,F,T}, где S множество начальных состояний; F - множество операторов, отображающих
одни состояния в другие; Т - множество целевых состояний.
3.1.7
Вопросы для закрепления материала
1. Чем отличается целенаправленное поведение от нецеленаправленного?
2. Какими свойствами должна обладать система искусственного интеллекта?
3. Пояснить сущность процесса планирования в ИИС.
4. Что понимается под терминами SS-проблема и PR-проблема?
5. Перечислить методы решения SS-проблем.
6. Перечислить методы решения PR-проблем.
7. В чем состоит суть решения задач на основе стратегии поиска решений в
пространстве состояний ?
3.1.8 Индивидуальные задания
Вариант
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Количество вершин Количество
(не менее)
(не менее)
10
20
12
20
11
24
10
24
11
24
12
22
13
20
15
20
10
25
11
22
12
21
13
24
14
18
15
18
10
24
9
25
8
25
12
20
14
20
16
21
связей Тип графа
Направленный
Ненаправленный
84
3.2 Лабораторная работа 2. Исследование вывода цепочки правил при
недостаточной информации
3.2.1 Цель занятия
Получить навыки исследования способов логического вывода для решения
типовых интеллектуальных задач. Разработать алгоритм и программу
«Помощник сапера», которая считывает данные с экрана компьютера и на
основе процедур логики высказываний и логики предикатов находит
координаты необнаруженных мин в стандартной игре Windows «Сапер»
3.2.2 Задачи на занятие
1. Провести анализ основных существующих способов логического вывода
для решения интеллектуальных задач.
Разработать сводную таблицу
сравнительных характеристик этих способов.
2. Разработать алгоритмы и программы на (любом) языке высокого уровня
реализующие
в интерактивном режиме выбор
допустимых
способов
программного
продукта
логического вывода.
3.
Решить
с
помощью
разработанного
индивидуальную задачу.
3.2.3 Содержание отчета
В отчете должны быть:
- тема, цель и задачи лабораторного занятия;
- схема алгоритма с необходимой детализацией операций;
- выполненные контрольные задания;
- распечатка программы и результаты контрольного счета;
- электронный вариант (на рабочей дискете, флэш);
- выводы.
Результаты брошюруются и представляются преподавателю не позднее
начала очередного лабораторного занятия.
85
3.2.4 Краткие теоретические сведения
Логические рассуждения
Рассуждением или умозаключением обычно называют ряд мыслей,
изложенных в логически последовательной форме. Определение целевых
состояний осуществляется с помощью поиска или рассуждений в пространстве
состояний.
Формулы логики высказываний, составленные по этим правилам,
называют правильно построенными формулами или сокращенно формулам».
3.2.5 Исчисление высказываний
Логическим
исчислением,
или
просто
исчислением
называют
совокупность, которая включает в себя: алфавит (совокупность используемых
символов); синтаксические правила построения формул в алфавите; аксиомы
(общезначимые
исходные
формулы);
правила
вывода
по
аксиомам
производных формул или теорем.
3.2.6 Логика предикатов
Выразительные возможности логики высказываний невысоки. Требуется
слишком много формул логики высказываний для описания даже простых
сред. Например. В случае простой среды чудовища для того, чтобы указать
факт наличия или отсутствия любого объекта (чудовища, агента, ям, золота) в
какой-либо ячейке среды, пришлось ввести для каждого объекта множество
логических переменных. число которых совпадает с числом ячеек среды, и
сопоставить каждое местонахождение объекта в какой-либо ячейке с
координатами (i, j) истинному значению переменной, соответствующей
объекту и этой ячейке. Понятно, что число таких переменных равно числу
ячеек среды, умноженному на число объектов.
Предикатом называют высказывательную функцию, определенную на
множестве наборов значений объектных переменных. Эта функция может
принимать только два значения: Истина (И) и Ложь (Л), называемые
86
истинностными значениями. Отношения объектов среды представляются на
языке логии предикатов, как и на языке логики высказываний, в виде
определенных предложений (высказываний, формул логики предикатов),
использующих объектные переменные и объектные константы, а также ряд
других конструкций, включая уже известные связки и скобки.
3.2.7 Метод учета неопределенностей вывода решений на основе
коэффициентов уверенности Хаккермана
Можно использовать различные способы работы с неопределенными
данными и знаниями: вероятностную байесовскую логику, робастные методы
оценивания, нечеткую и многозначную логику
В задачах, которые решают
интеллектуальные
системы, иногда
приходится применять ненадежные знания и факты, которые трудно
представить двумя значениями - истина или ложь (1 или 0). Существуют
знания, достоверность которых, например 0.7.
Такую ненадежность представляют вероятностью, подчиняющейся
законам Байеса.
Одним из первых был разработан метод учета вывода на основе
использования коэффициентов уверенности.
Коэффициент уверенности CF принимает значение на отрезке [-1,1] (1 заведомо истинно, -1 - заведомо ложно).
3.2.8 Контрольные задания
1.Используя таблицы истинности, докажите общезначимость следующих
законов логики высказываний:
а) ¬(х^у) ≡ ¬ х v ¬у;
б) ¬(х v у) ≡ ¬х^¬у;
в) х^ (у v z) ≡ (х^у) v (х^z);
г) х v (у^ z) ≡ (х v у) ^ (х v z);
д) х  у ≡ ¬ х v у;
е) (х ≡ у) ≡ (х  у) ^ (у  х);
87
ж) х ≡ у ≡ (х ^ у) v ( ¬у^¬ х).
2.Определите, к какому типу (общезначимых, выполнимых или
невыполнимых) относятся следующие формулы и докажите это, используя
таблицы истинности или формулы из предыдущего упражнения:
а) Умный  Умный;
б) Умный ¬ Дурак;
в) (Умный ¬ Дурак.)  ( ¬ Умный  Дурак);
г) Умный v ¬ Дурак v Дурак;
д) (Умный ^ Способный)  ¬ Дурак ≡ (Умный  ¬ Дурак) v (Способный
 ¬ Дурак);
е) (Умный ¬ Дурак)  ((Умный ^ Способный)  ¬ Дурак).
3.Предполагая,
что
некоторая
среда
может
быть
описана
с
использованием только четырех логических переменных х, у, z, и, определите
сколько моделей может иметь среда для следующих формул:
а) х ^ у; б) х ^ у ^ z; в) х v у.
Индивидуальные задания для лабораторной работы
Вариа
нт
1
2
3
4
5
6
7
8
9
10
Количество
мин (не менее)
10
12
11
10
11
12
13
15
10
11
Сторона
поля
20
20
24
24
24
22
20
20
25
22
Обязательный
метод
Вариа
нт
11
12
13
14
Логика
15
высказываний 16
17
18
19
20
Количество
мин (не менее)
12
13
14
15
10
9
8
12
14
16
Сторона
поля
21
24
18
18
24
25
25
20
20
21
Обязательный
метод
Логика
предикатов
88
3.3 Лабораторная работа 3 Исследование способов моделирования
нечетких знаний и правил для решения интеллектуальных задач
3.3.1 Цель работы
Целью работы является получение студентами практических навыков
реализации систем поддержки принятия решений на базе нечеткой логики.
3.3.2 Основные теоретические сведения
Основой систем нечеткой логики является математическая теория нечетких
множеств, которая берет свое начало со статьи американского ученого Лотфи
Заде, опубликованной под названием "Fuzzy Sets" (нечеткие множества) в 1965
году в журнале Information and Control. В настоящее время эта теория
получила достаточно глубокое развитие, а системы на базе нечеткой логики
нашли широкое применение в промышленности от производства
фотоаппаратов, стиральных машин, микроволновых печей до управления
крупными промышленными производствами и систем поддержки принятия
Определение лингвистической переменной (формальное)
Лингвистической переменной называется пятерка (х, Т(х), Х, G, M), где х - имя
переменной; Т(х) - множество имен лингвистических значений переменной х,
каждое из которых является нечетким множеством на множестве Х; G есть
синтаксическое правило для образования имен значений х; М есть
семантическое правило для ассоциирования каждой величины значения с ее
понятием.
Это определение может вызвать ощущение, что лингвистическая переменная очень сложное понятие, но на самом деле это не так. Цель концепции
лингвистической переменной состоит в том, чтобы формальным образом
сказать, что переменная может принимать в качестве значений слова из
естественного языка. Например, если мы говорим "быстрая скорость", то
переменная "скорость" должна пониматься как лингвистическая переменная,
но это не означает, что переменная "скорость" не может принимать реальные
значения.
89
Определение лингвистической переменной (интуитивное)
Если переменная может принимать значения слов в естественном языке
(например, "маленький", "быстрый" и т.п.), то эта переменная определяется
как лингвистическая переменная. Слова, значения которых принимает
лингвистическая переменная, обычно обозначают собой нечеткие множества.
Лингвистическая переменная может принимать своими значениями либо
слова, либо числа.
Определение. Нечеткое множество - это такое множество, которое образуется
путем введения обобщенного понятия принадлежности, т.е. расширения
двухэлементного множества значений функции принадлежности {0,1} до
отрезка [0,1]. Это означает, что переход от полной принадлежности объекта
множеству к его полной непринадлежности происходит не скачком, как в
обычных "четких" множествах, а плавно, постепенно, причем степень
принадлежности элемента множеству выражается числом из интервала [0,1].
Таким образом, нечеткое множество A = {(x,
A(x))}
определяется
математически как совокупность упорядоченных пар, составленных из
элементов х множества Х и соответствующих им степеней принадлежности
A(x)
или непосредственно в виде функции
A:
X [0,1].Рассмотрим пример
нечеткого множества.
Пример 1. Множество высоких людей
Пусть х есть лингвистическая переменная, обозначающая "рост человека", а ее
функция принадлежности к множеству высоких людей
A:X
{0,1}, где Х -
множество, включающее в себя все возможные значения роста человека,
задана следующим образом:
Тогда множество "высоких людей" задается выражением A={x|
A(x)=1},
х
X.
90
принадлежности, определяемой для любого х Х как
Для этих t-норм справедливо неравенство
А В А В AB А В.
Определение 8. Треугольной конормой (t-конормой) называется двухместная
действительная функция
:[0,1]x[0,1] [0,1], удовлетворяющая следующим условиям:
1)
(1, 1)=1;
(0,
2)
(
(
3)
(
4)
(
A,
В)
A,
В)
A,
(
=
В,
A)=
С,
(
С))
D),
В,
=
(
A,
если
А)
0)=
A
(ограниченность);
С,
A
В
D
(монотонность);
(коммутативность);
( (
А,
В),
С)
(ассоциативность).
Простыми случаями t-конорм являются операции объединения,
алгебраической суммы (объединение II), ограниченной суммы (объединение
III) и сильной суммы (объединение IV).
Определение 9. Алгебраической суммой А В двух нечетких множеств А и В
на множестве Х является нечеткое множество на множестве Х с функцией
принадлежности, определяемой для любого х Х как
A
В(х)
=
А(х)+ В(х)- А(х) В(х).
Определение 10. Ограниченной суммой А В двух нечетких множеств А и В
на множестве Х является нечеткое множество на множестве Х с функцией
принадлежности, определяемой для любого х Х как
A
В(х)=min(1,
А(х)+
В(х)).
Определение 11. Сильной суммой А В двух нечетких множеств А и В на
множестве Х является нечеткое множество на множестве Х с функцией
принадлежности, определяемой для любого х Х как
91
Для этих t-конорм справедливо неравенство
А
В
А
В
А В
А
В.
Следует отметить, что в теории нечетких множеств оператор дополнения
также не является единственным. Помимо оператора 1-А существует целый
набор операторов отрицания. Наиболее общее определение функции
отрицания в нечетких множествах С:[0,1] [0,1] предполагает, что
выполняются, по крайней мере, два следующих свойства:
1) C(0)=1, C(1)=0;
2) C - невозрастающая функция, т.е. если
А
В,
то С(
А)
С(
В).
Определение 12. Разностью А-В двух нечетких множеств А и В на множестве
Х называется нечеткое множество на множестве Х с функцией
принадлежности, определяемой для любого х Х как
A-В(х)=max(0,
А(х)-
В(х)).
Определение 13. Концентрированием нечеткого множества А2 на множестве Х
называется нечеткое множество на множестве Х с функцией принадлежности
следующего вида:
- для любого х Х.
Результатом применения операции концентрирования к нечеткому множеству
А является уменьшение степени принадлежности элементов к этому
множеству, и происходит оно в квадратичной зависимости, т.е. если
то это уменьшение мало, а если
А(х)
А(х)
1,
0, то уменьшение велико.
В естественном языке применение операции концентрирования к значению
лингвистической переменной соответствует использованию усиления "очень".
Определение 14. Растяжением нечеткого множества
называется операция,
противоположная концентрированию. В естественном языке ее можно
сравнить с использованием слов "достаточно" или "более-менее" ("более92
менее близкий").
Системы нечеткой логики. Системами нечеткой логики называются системы,
которые оперируют с нечеткими понятиями, такими как нечеткие множества,
лингвистические переменные и т.п., и используют при этом нечеткую логику.
Системы нечеткой логики могут быть классифицированы по трем основным
типам:
1) простые системы нечеткой логики (pure Fuzzy Logic Systems);
2) нечеткие системы Такаги и Суджено (Takagi and Sugeno);
3) системы нечеткой логики с фаззификатором и дефаззификатором.
Простые системы нечеткой логики. Базовая конфигурация простой системы
нечеткой логики представлена на рисунке 5.
Базис нечетких правил содержит набор нечетких IF-THEN (ЕСЛИ-TO) правил,
а механизм нечеткого вывода на основе принципов нечеткой логики
использует эти IF-THEN-правила для отображения нечетких множеств из
входящего множества высказываний Х в нечеткие множества из множества
высказываний Y на выходе системы.
Системы нечеткой логики с фаззификатором и дефаззификатором имеют
несколько привлекательных черт:
во-первых, они пригодны для использования в технических системах, так как
их входные и выходные переменные принимают реальные значения;
во-вторых, они предоставляют возможность естественного перехода от
заключений эксперта к нечетким IF-THEN-правилам;
в-третьих, они предоставляют большую свободу в выборе фаззификатора,
механизма нечеткого вывода и дефаззификатора, т.е. можно подобрать
систему нечеткой логики, наиболее подходящую для решения конкретной
задачи;
в-четвертых, могут быть разработаны различные алгоритмы настройки таких
систем нечеткой логики, что позволяет эффективно объединять численную и
лингвистическую информацию.
93
Система работает следующим образом. Информационный поток
движется слева направо, от двух входов к одному выходу. Параллельная
природа выполнения правил является одним из важных аспектов систем
нечеткой логики. Вместо резкого переключения между моделями (правилами)
в точках перехода получается гладкий переход от области, в которой
поведение системы описывается одним правилом, к области, где оно
описывается другим правилом.
Для входов системы определены соответствующие им нечеткие множества и
заданы определяющие эти множества функции принадлежности. В данном
случае входы задаются на множестве чисел (баллов) от 0 до 10. Экспертом,
принимавшим участие в построении системы нечеткой логики, были заданы
три правила, использующие нечеткие множества, и определены функции их
принадлежности. Для наличия денег на счету заказчика (переменная "деньги")
- это нечеткие множества "маленькие", "средние" и "большие", для
переменной "бартер" - "плохой" и "хороший", для переменной
"платежеспособность" -"низкая", "средняя" и "высокая".
Прежде чем применить тот или иной метод импликации, необходимо
учитывать вес правила. Каждое правило может иметь свой вес (число от 0 до
1) в зависимости от того, насколько это правило является важным. Вес
правила накладывается на выход IF-части. В данном случае все правила
приняты равноценными, и вес каждого правила равен 1.
Метод импликации определяется как формирование вывода из правила на
основе заданных условий. Входом процесса импликации является число,
полученное из условий (степень истинности условия), а выходом - нечеткое
множество. Для данной системы нечеткой логики был выбран самый простой
и хорошо себя зарекомендовавший метод импликации по минимуму.
В случае, когда несколько правил работают параллельно, необходимо
объединить (агрегатировать) нечеткие множества, представляющие выходы
отдельных правил, в одно нечеткое множество для подготовки к
заключительному шагу - дефаззификации. Входом процесса агрегатирования
94
является набор нечетких множеств, полученных из каждого правила путем
импликации. Его выходом является одно нечеткое множество для каждой
выходной переменной. В данном случае для агрегатирования нечетких
множеств используется операция объединения.
Заметим, что так как методы агрегатирования являются оммутативными
(что должно выполняться всегда), то порядок, в каком стоят правила, не имеет
значения. Для иллюстрации работы системы на рисунке 9 заданы входы
"деньги=3" и "бартер=8". Выходом операции агрегатирования для заданных
входов является нечеткое множество с функцией принадлежности,
представленной на рисунке 10.
Дефаззификация выходного нечеткого множества методом центра тяжести
дает для приведенного примера выходное значение коэффициента
платежеспособности 0,8. Заметим, что все нечеткие множества заданы на
соответствующих множествах. Для денег и бартера - на множестве баллов от 1
до 10, для коэффициента платежеспособности - на непрерывном множестве от
0 до 1.
3 Порядок выполнения работы
3.1 Изучите список команд приложения FUZZY к пакету MATLAB и порядок
работы с ними (приложение А).
3.2 Просмотрите демонстрационные примеры работы с приложением FUZZY
(команда fisdemo).
3.3 Постройте функции принадлежности различных типов, используя команды
bell_1, bell_2, sigmoid, trapeze. Опишите, каким образом изменяется форма
функций принадлежности в зависимости от изменения параметров этих
функций.
3.4 Постройте функцию принадлежности нечеткого множества "высокие
люди", представленную на рисунке 1. Используя функцию grademf, получите
значения степени принадлежности этому множеству людей ростом 150, 155, •
, 210 см.
95
Полученные результаты представьте в виде таблицы.
3.5 Для рассмотренного на рисунке 2, б примера, используя функции union и
intersec, получите функции принадлежности нечетких множеств, являющихся
объединением и пересечением заданных нечетких множеств А и В. Используя
функции comple и not, получите дополнения для этих множеств.
3.6 Постройте функции принадлежности нечетких множеств, являющихся
объединением II (III, IV) и пересечением II (III, IV) нечетких множеств А и В,
используя описанные выше t-нормы и t-конормы (необходимо написать
собственные подпрограммы).
3.7 Для рассмотренного примера использования систем нечеткой логики для
реализации функций принятия решения (рисунки 8 - 10) напишите программу,
реализующую данную систему нечеткой логики в пакете MATLAB, используя
приложение FUZZY. Рассмотрите, каким образом значение на выходе системы
нечеткой логики зависит от использования того или иного типа
дефаззификатора.
3.8 Преобразуйте данную систему нечеткой логики к виду Такаги-Суджено и
реализуйте ее в пакете ReSolver (приложение Б)
4 Контрольные вопросы
4.1 Что такое нечеткие множества? Дайте определение и приведите примеры
нечетких множеств.
4.2 Какие логические операции с нечеткими множествами вы знаете?
4.3 Какие существуют системы нечеткой логики?
4.4 Какие вы знаете типы фаззификаторов и дефаззификаторов?
3.4 Лабораторная работа 4 Подготовка базы фактов для экспертной
системы
3.4.1 Цель работы
Целью работы является изучение основных принципов построения и
программирования простейших экспертных систем.
96
3.4.2
Краткие теоретические сведения
Структура экспертной системы
Под
экспертной
системой
(ЭС)
понимают
набор
программ,
выполняющий функции эксперта при решении задач из некоторой предметной
области. ЭС выдают советы, проводят анализ, дают консультации, ставят
диагноз. Главным достоинством ЭС, определяющим сравнительно высокий
интерес к ним как к методам искусственного интеллекта, является
возможность накопления знаний и сохранение их длительное время. В
отличии от человека к любой информации ЭС подходят объективно, что
улучшает качество проводимой экспертизы.
Структура
традиционной
статической
ЭС
включает
следующие
основные компоненты (см. рисунок 4.1):
- решатель (интерпретатор),
- рабочую память,
- базу знаний,
- компонент приобретения знаний,
- объяснительный компонент,
- диалоговый компонент.
Диалоговый
компонент
Рабочая
память
Объяснительный
компонент
Решатель
Компонент
приобретения
знаний
База знаний
Рисунок 4.1 – Структура ЭС
В базе знаний содержатся факты, на основе которых производится
выработка решения. Решатель – алгоритм, программа, набор правил, по
которым осуществляется решение задачи. Процесс рассуждений реализуется
на основе базы знаний и рабочей памяти. Решатель выполняет две функции:
во-первых, просмотр существующих фактов из рабочей памяти и правил из
97
базы знаний и добавление (по мере возможности) в рабочую память новых
фактов и, во-вторых, определение порядка просмотра и применения правил.
Одним из распространенных алгоритмов решателя является байесовский
алгоритм. На диалоговый компонент возложена задача ведения диалога о
решаемой задаче на языке пользователя (эксперта). Компонент приобретения
знаний как программный модуль может в ЭС отсутствовать. Его задача –
приобретать в ходе диалога новые знания. Наличие объяснительного
компонента дает ЭС способность при решении задачи следовать линии
рассуждений,
понятной
пользователю
(эксперту),
и
объяснять
ход
рассуждений.
Система функционирует в следующем циклическом режиме:
1) Диалоговый компонент запрашивает данные или результатов
анализов, наблюдений (этот этап может быть реализован в виде системы
вопросов к пользователю) и помещает их в рабочую память.
2)
Решатель
интерпретирует
результаты
с
помощью
правил,
извлеченных из базы знаний.
3) В случае нехватки информации для окончательного решения процесс
продолжается до тех пор, пока не поступит достаточное количество
информации.
В любой момент времени в системе существуют три типа знаний:
- статические знания о предметной области, после того как эти знания
выявлены, они уже не изменяются;
- динамические знания о предметной области, они обновляются по мере
выявления новой информации;
- рабочие знания - знания, применяемые для решения конкретной задачи
или проведения консультации.
Все перечисленные выше знания хранятся в базе знаний. Для ее
построения требуется провести опрос специалистов, являющихся экспертами в
конкретной предметной области, а затем систематизировать, организовать и
98
снабдить эти знания указателями, чтобы впоследствии их можно было легко
извлечь из базы знаний.
Динамическая ЭС отличается от статической наличием двух
дополнительных компонентов [1]:
- подсистемы моделирования внешнего мира;
- подсистемы связи с внешним окружением, осуществляющей связь с
внешним миром посредством датчиков и контроллеров.
Продукционные системы
База знаний - наиболее важная компонента экспертной системы, на
которой основаны ее «интеллектуальные способности». Существует несколько
способов представления знаний в ЭС, однако общим для всех них является то,
что знания представлены в символьной форме (элементарными компонентами
представления знаний являются тексты, списки и другие символьные
структуры). Тем самым, в ЭС реализуется принцип символьной природы
рассуждений, который заключается в том, что процесс рассуждения
представляется как последовательность символьных преобразований.
Наиболее распространенный способ представления знаний - в виде
конкретных фактов и правил, по которым из имеющихся фактов могут быть
выведены новые. Факты представлены, например, в виде троек:
(АТРИБУТ ОБЪЕКТ ЗНАЧЕНИЕ).
Такой факт означает, что заданный объект имеет заданный атрибут
(свойства) с заданным значением. В более простых случаях факт выражается
неконкретным значением атрибута, а каким либо простым утверждением,
которое может быть истинным или ложным.
Наиболее простым с точки зрения построения и широко используемым
типом моделей принятия решений являются продукционные системы (ПС).
Они представляют собой структурированные наборы продукционных правил
(ПП) вида
PR = <S, N, F, A  C, W>,
99
где S - сфера применения данного правила; N - номер или имя правила; F
- предусловие применения (условие активизации), содержащее информацию
об истинности и приоритетности данного правила; A  C - ядро ПП; W постусловие.
Сфера применения S обозначает принадлежность ПП какому-либо
определенному этапу функционирования ПС или состоянию процесса
принятия решения.
В состав правил могут входить условия активизации F, которые
представляют
собой
либо
переменную,
либо
логическое
выражение
(предикат). Когда F принимает значение «истина», ядро продукции может
быть активизировано. Если F «ложно», то ядро не активизируется.
Постусловие W описывает, какие изменения следует внести в ПС,
и актуализируется только после того, как ядро продукции реализовалось.
Интерпретация ядра может быть различной в зависимости от вида
А и С, находящихся по разные стороны знака секвенции «».Наиболее часто
в ПС используют ПП вида
«если А то С»,
где А и С - логические выражения, которые могут включать в себя
другие выражения; А называется антецедентом, С - консеквентом.
Прежде всего, все ядра делятся на два типа: детерминированные и
недетерминированные. В детерминированных ядрах при актуализации ядра и
при выполнимости А правая часть ядра выполняется обязательно («если А, то
С»); в недетерминированных ядрах С может выполняться с определенной
вероятностью. Недетерминированное ядро может выглядеть так:
«если А, то возможно С».
Возможность может определяться некоторыми оценками реализации
ядра. Например, если задана вероятность выполнения С при актуализации А,
то ПП может быть таким:
«если А, то с вероятностью Р выполнить С».
100
Оценка реализации ядра может быть лингвистической, связанной с
лингвистической переменной:
«если А, то с большей долей уверенности возможно С».
К недетерминированным ПП относятся т.н. прогнозирующие ПП, в
которых описываются, например, последствия ожидаемые при актуализации
А: «если А, то с вероятностью Р можно ожидать С».
Таким образом, секвенция «» в детерминированных ядрах реализуется
с необходимостью, а в недетерминированных - с возможностью.
Детерминированные
ПП
могут
быть
однозначными
и
альтернативными. Во втором случае в правой части ядра указываются
альтернативные возможности выбора, которые оцениваются специальными
весами выбора. В качестве таких весов могут использоваться вероятностные,
лингвистические, экспертные и прочие оценки.
ПП
могут
быть
доопределены
логическими
выражениями,
определяющими инициируемые процедуры, которые имеют место в случае
отсутствия ее активности:
«если А то С1 иначе С2».
Продукционные
правила,
используемые
в
СУ,
учитывают
накладываемые ограничения, а также показатели эффективности, по которым
определяются
управляющие
воздействия
и
которые
часто
являются
неизмеряемыми лингвистическими переменными.
Достоинствами ПС являются:
-
удобство
описания
процесса
принятия
решения
экспертом
(формализация его интуиции и опыта);
- простота редактирования модели;
- прозрачность структуры.
ПС в качестве моделей применимы в следующих случаях:
- не могут быть построены строгие алгоритмы или процедуры принятия
решений, но существуют эвристические методы решения;
101
- существует, по крайней мере, один эксперт, который способен явно
сформулировать свои знания и объяснить свои методы применения этих
знаний при принятии решения;
- пространство возможных решений относительно невелико (число
решений счетно);
- задачи решаются методом формальных рассуждений;
- данные и знания надежны и не изменяются со временем.
3.4.3 Экспериментальная часть
Задания, порядок выполнения работы и содержание отчета
При выполнении лабораторной работы используется программа
Mini Expert System («Малая экспертная система» вер. 1.0), описание работы с
которой приведено ниже.
Общее задание на лабораторную работу:
1) В соответствии с вариантом составить список вопросов, необходимых
для получения определенного решения и список вариантов ответов. Списки
оформить в виде текстового файла с расширением .DAT (см. примеры из
программы Mini Expert System).
2) Отладить экспертную систему, проверить ее работоспособность на
примерах.
Содержание отчета:
- задание,
- списки вопросов и вариантов ответов (распечатка .DAT-файла),
- протоколы проверки работоспособности на примерах.
Варианты заданий:
Вариант 1. Идентификация типа транспортного средства (велосипед,
мотоцикл, мотороллер, телега, карета, автобус, грузовик, легковые: пикап,
седан, хэтчбек, кабриолет…).
Вариант 2. Проведение летнего отдыха (дома, в саду, в пешем походе, в
местном санатории, на Черном море, на Средиземном море, в круизе на
теплоходе, на горном курорте, в африканских странах и т.д.).
102
Вариант 3. Выбор принтера (или к.-л. другой техники по выбору) для
покупки (матричного, струйного, лазерного).
Вариант 4. Где поужинать вечером? (дома, у друзей, в столовой, в кафе,
в ресторане, в клубе).
Вариант 5. Выбор телевизора для дома (диагональ, тип, цена, и т.д.).
Вариант 6. Покупка квартиры в г. Уфе (цена, площадь, престижность
района, экологическая ситуация в районе, транспорт, тип дома и т.д.).
Вариант 7. Идентификация заглавных букв греческого алфавита.
Вариант 8. Идентификация садовых растений (огурцы, томаты, лук,
яблоня, вишня, смородина, крыжовник и т.д.).
Подготовка базы знаний
Программа Mini Expert System представляет собой простую экспертную
систему, использующую байесовскую систему логического вывода. Она
предназначена для проведения консультации с пользователем в какой-либо
прикладной области (на которую настроена загруженная база знаний) с целью
определения вероятностей возможных исходов и использует для этого оценку
правдоподобности некоторых предпосылок, получаемую от пользователя.
На первом этапе создания базы знаний необходимо сформулировать
знания о рассматриваемой области в виде двух наборов: Q = {qj} – набор
вопросов (симптомов, свидетельств) и V = {vi} - набор вариантов исхода
(вариантов решения), а также двух матриц вероятностей: Py = {pyij} и Pn =
{pnij} размером mn, где pyij – вероятность получения положительного ответа
на j-й вопрос, если i-й исход верен, pnij – вероятность получения
отрицательного ответа на j-й вопрос, если i-й исход верен, n и m – количества
вопросов и исходов соответственно. Кроме того, каждому исходу ставится в
соответствие априорная вероятность данного исхода Р, т.е. вероятность исхода
в случае отсутствия дополнительной информации.
В процессе работы ЭС решатель, пользуясь данными наборами и
матрицами и теоремой Байеса, определяет апостериорную вероятность
103
каждого исхода, то есть вероятность, скорректированную в соответствии с
ответом пользователя на каждый вопрос:
Pапостер. 
Py ij  Pi
Py ij  Pi  Pn ij  (1  Pi )
.
То есть, вероятность осуществления некой гипотезы при наличии
определенных
подтверждающих
свидетельств
вычисляется
на
основе
априорной вероятности этой гипотезы без подтверждающих свидетельств и
вероятностей осуществления свидетельств при условиях, что гипотеза верна
или неверна.
Исходная информация оформляется в виде текстового файла с
расширением .DAT со следующей структурой:
Описание базы знаний, имя автора, комментарий и т.д.
(можно в несколько строк; эта информация выводится после загрузки
базы знаний; данная секция заканчивается после первой пустой строки)
Вопрос № 0 (любой текст, заканчивающийся переносом строки)
Вопрос № 1
Вопрос № 2
...
Вопрос № N (после последнего вопроса следует одна пустая строка, и
вторая секция заканчивается)
Исход № 0, P [ , i, Py, Pn ]
Исход № 1, P [ , i, Py, Pn ]
Исход № 2, P [ , i, Py, Pn ]
...
Исход № M, P [ , i, Py, Pn ]
В последней секции перечисляются исходы и соответствующие им
элементы матриц вероятностей. Каждый исход задаётся в отдельной строке,
перечисление заканчивается с концом файла.
В начале описания правила вывода задаётся исход, вероятность которого
меняется в соответствии с данным правилом. Это текст, включающий любые
104
символы, кроме запятых. После запятой указывается априорная вероятность
данного исхода P. После этого через запятую идёт ряд повторяющихся полей
из трёх элементов. Первый элемент i – номер соответствующего вопроса.
Следующие два элемента Pyij и Pnij – соответственно вероятности получения
ответа «Да» на этот вопрос, если возможный исход верен и неверен. Эти
данные указываются для каждого вопроса, связанного с данным исходом.
Примечание: P <= 0.00001 считается равной нулю, а P >= 0.99999 –
единице, поэтому не следует указывать такие значения – исход с подобной
априорной вероятностью обрабатываться не будет.
Например:
Грипп, 0.01, 1,0.9,0.01, 2,1,0.01, 3,0,0.01
Здесь сказано: существует априорная вероятность P = 0,01 того, что
любой наугад взятый человек болеет гриппом.
Первому вопросу (i = 1) соответствует запись «1,0.9,0.01». Отсюда
следуют значения Pyi1 = 0,9 и Pni1 = 0,01, которые означают, что если у
пациента грипп, то он в девяти случаях из десяти ответит «Да» на этот вопрос,
а если у него нет гриппа, он ответит «Да» лишь в одном случае из ста (т.е.
данный симптом встречается довольно редко при других болезнях). Ответ
«Да» подтверждает гипотезу о том, что у него грипп. Ответ «Нет» позволяет
предположить, что человек гриппом не болеет.
Для второго вопроса имеем запись «2,1,0.01». То есть, если у человека
грипп, то этот симптом обязательно должен присутствовать (Pyi2 = 1) и он
обязательно ответит «Да». Соответствующий симптом может иметь место и
при отсутствии гриппа (Pni2 = 0,01), но это маловероятно.
Примечание: При большом количестве вопросов нет необходимости в
каждой строке последней секции перечислять их все, тем более, если ответ на
какой-либо вопрос не влияет на вероятность данного исхода.
3.4.4 Работа с программой Mini Expert System.
Запускающим файлом программы является MiniES.exe. После запуска
появляется диалоговое окно, кнопки на котором выполняют функции:
105
«Загрузить базу знаний» - загрузка заранее подготовленного .DAT-файла;
«Начать консультацию» - запуск решателя, ответы на задаваемые вопросы
вводятся в нижнее поле по шкале от -5 (однозначно нет) до 5 (однозначно да).
3.4.5 Контрольные вопросы
1. Что такое экспертная система?
2. Как функционирует экспертная система? Какие функции выполняет
каждый элемент системы?
3. К какому типу относятся ядра продукций в разработанной Вами ЭС?
4. Приведите пример одного продукционного правила,
соответствующего разработанной базе знаний.
5. Как осуществляется приобретение знаний в разработанной ЭС?
6. В чем отличие однозначных и альтернативных продукционных
правил?
7. В чем достоинства и недостатки представления знаний в виде
продукционных систем?
3.5
Лабораторная работа 5. Исследование методов кластерного анализа
при интеллектуальной обработке данных в информационных системах
3.5.1 Цель работы: Ознакомление с проблемой кластерного анализа при
интеллектуальной обработке данных в информационных системах; изучение
алгоритмов
остовного
кластеризации,
дерева;
использующих
приобретение
навыков
построение
в
минимального
программной
реализации
изученных алгоритмов в компьютерном проведении кластерного анализа.
3.5.2 Общие сведения о кластерном анализе
Хорошо известно, что новые знания о предметной области (ПО)
управления лежат в основе принятия эффективных революционных решений
во всех сферах организационного и технического управления. Возможность
получения новых знаний, путем извлечения полезной информации из
совокупности данных, описывающих ПО управления, представляет собой
существенное достижение современных информационных технологий,
106
Слово кластер английского происхождения (cluster) и переводится как
сгусток, пучок, группа объектов, характеризуемых общими свойствами.
Родственными понятиями, используемыми в литературе вместо понятия
кластер, являются - класс, таксон, страта, сегмент. Поэтому для задачи
кластерного анализа могут также употребляться и следующие термины:
автоматическая
классификация,
обучение
без
учителя,
самообучение,
таксономия, стратификация, сегментация.
Кластерный анализ может быть применён к любой предметной области,
где необходимо исследовать объекты, заданные экспериментальными или
статистическими данными. Применение кластерного анализа не требует
предварительных знаний об анализируемых данных, что позволяет его
использовать для данных практически произвольной природы. Поэтому задача
кластерного анализа обычно решается на начальных этапах исследования,
когда о данных мало чего известно. Её решение помогает лучше понять
природу анализируемых объектов.
Большая практическая ценность кластерного анализа заключается в том,
что он может производить группировку объектов не только по одному
параметру, но и по целому набору признаков. Это открывает широкие
возможности для проведения кластерного анализа записей в хранилищах и
базах данных на основе количественных и качественных значений атрибутов
данных (полей записей).
3.5.3 Формализация задачи кластеризации
В процессе кластеризации осуществляется группировка объектов, к
которым можно отнести всё, что угодно, включая наблюдения и события.
Состояние исследуемого объекта может быть описано с помощью
вектора дескрипторов или многомерного набора зафиксированных на нём
признаков:
X ={x1,x2,…,xp}
Тогда Xt - результат измерения этих признаков на i-ом объекте. Часть
признаков может носить количественный характер и принимать любые
107
действительные значения. Другая часть носит качественный характер и
позволяет упорядочивать объекты по степени проявления какого-либо
качества (например, бинарный признак, отображающий присутствие или
отсутствие данного свойства).
3.5.4 Содержание работы и рабочее задание
В
данной
лабораторной
работе
предлагается
программно
реализовать один из алгоритмов кластерного анализа в соответствии с
заданными вариантами предметной области, осуществить компьютерное
проведение самого кластерного анализа.
В ходе работы необходимо выполнить следующее рабочее задание:
1.
Изучить различные виды алгоритмов кластерного анализа,
отличающиеся по алгоритмами построения минимального основного дерева.
2.
Изучить заданный вариант предметной области кластеризации,
представленный в таблице данных
3.
Выполнить следующие этапы программной реализации алгоритма
кластерного анализа:
- составить алгоритм работы программы;
- создать интерфейс программы, позволяющий реализовать кластерный
анализ;
- в соответствии с заданным вариантом предметной области программно
реализовать один из алгоритмов кластерного анализа;
- ввести исходные данные предметной области в программу;
- получить результаты компьютерного проведения кластерного анализа
при разных значениях исходных данных.
3.5.5 Варианты заданий
Вариант 1. Студенческий состав.
Признаки к варианту 1:
1. Рост (см);
2. Вес (кг);
108
3. Возраст (лет);
4. Уровень интеллекта (IQ);
5. Образование (среднее, высшее, ученая степень).
Таблица 5.1. Условные значения признаков к варианту 1
Фамилия
Иванов
Петров
Сидоров
Степанов
Фёдоров
Вес
Возраст
Рост(см) (кг)
(лет)
165
65
182
112
169
95
176
74
189
82
18
65
27
32
40
Уровень
интеллекта
70
142
100
94
82
Образование
Среднее
Уч. Степень
Высшее
Высшее
Среднее
Вариант 5. Кредитная информация.
Признаки к варианту 2:
1. Возраст (лет);
2. Заработок (руб);
3. Кредитная история;
4. Семейное положение;
5. Образование (среднее, высшее, ученая степень).
Таблица 5.2. Условные значения признаков к варианту 2
Фамили Возраст Заработок
я
(лет)
(руб)
Иванов
23
15000
Петров
50
40000
Сидоров
34
16000
Фёдоров
29
20000
Яковлев
42
18000
Кредитная
история
нет
есть
есть
нет
есть
Семейное
положение
Женат
Женат
Холост
Холост
Холост
Образовани
е
Высшее
Высшее
Среднее
Среднее
Уч. Степень
8. СОДЕРЖАНИЕ ОТЧЕТА
Отчет должен содержать:
1. Название, цель работы, вариант задания.
2. Листинг программы кластерного анализа.
3. Результаты работы программы (скриншоты).
109
Часть 2
3.6 Лабораторная работа 6 Импорт данных в Deductor Studio
3.6.1
Цель
лабораторной
работы:
Освоить
технологию
импорта данных в аналитическую программу Deductor Studio.
3.6.2 Общие сведения
Основные модули
Вся работа по анализу данных в Deductor Studio базируется на
выполнении следующих действий:
импорт данных;
обработка данных;
визуализация;
экспорт данных.
Рисунок 6.1 Структура функционирования Deductor Studio
На рисунок 6.1 показана схема функционирования Deductor Studio.
Отправной точкой для анализа всегда является процедура импорта данных.
Полученный набор данных может быть обработан любым из доступных
способов. Результатом обработки также является набор данных, который в
110
свою очередь опять может быть обработан. Импортированный набор данных, а
также данные, полученные на каждом этапе обработки, могут быть
экспортированы. Результаты каждого действия можно отобразить различными
способами. Способ возможных отображений зависит от выбранного метода
обработки данных. Например, нейросеть содержит визуализатор «Граф
нейросети», специфичный только для нее. Есть способы визуализации,
пригодные почти для всех методов обработки, например, в виде таблицы,
диаграммы или гистограммы.
Последовательность действий, которые необходимо провести для
анализа данных называется сценарием. Сценарий можно автоматически
выполнять на любых данных.
3.6.1 Подготовка сценариев
Перечисленные выше действия реализуются с помощью четырех
мастеров: импорта, обработки, визуализации и экспорта. Для построения
сценария достаточно использовать только эти мастера и ничего более.
Сценарий отображается на панели сценариев (рисунок 6.2). Показать
или скрыть эту панель можно, выбрав пункт «Сценарии» меню «Вид» или
нажав на кнопку
на панели инструментов. Сверху на панели сценариев
расположены кнопки для вызова мастеров.
Рисунок 6.2 Панель сценариев
111
Построение сценария начинается с вызова мастера импорта. Мастер
импорта предназначен для автоматизации получения данных из любого
источника, предусмотренного в системе.
Рисунок 6.3. Представление View_Product
Далее
необходимо
импортировать
полученное
представление
View_Product в систему анализа данных.
3.6.2 Задание на лабораторную работу
1. Изучить теоретический материал.
2. Осуществить импорт данных из базы Northwind.
3. Продемонстрировать результаты работы преподавателю.
112
3.7 Лабораторная работа 7 Создание многомерного хранилища данных
3.7.1
Цель
лабораторной
работы:
Освоить
технологию
интегрирования и просмотра отчетов из Windows-приложений, а также
настройки отчетов на этапе выполнения с использованием развитой объектной
модели.
3.7.2 Многомерное представление данных
Deductor
Warehouse
-
многомерное
хранилище
данных,
аккумулирующее всю необходимую для анализа предметной области
информацию.
Вся информация в хранилище хранится в структурах типа «звезда», где
в центре расположены таблицы фактов, а «лучами» являются измерения
(рисунок 7.1).
Рисунок 7.1. Архитектура хранилища данных типа «звезда»,
Такая архитектура хранилища наиболее адекватна задачам анализа
данных. Каждая «звезда» называется процессом и описывает определенное
действие, например, продажи товара, отгрузки, поступления денежных средств
и прочее. В Deductor Warehouse может одновременно храниться множество
процессов, имеющие общие измерения, например, «Товар», фигурирующий в
«Поступлении» и в «Отгрузке» (рисунок 7.2).
113
Рисунок 7.2. Архитектура Deductor Warehouse
Измерения могут быть как простыми списками, например, дата, так и
содержать дополнительные столбцы, называемые свойствами. Например,
измерение «Товар» может состоять из следующих полей: «Наименование
товара» - собственно измерение (первичный ключ), «Вес», «Объем» и прочее свойства данного измерения.
Хранилище данных Deductor Warehouse имеет структуру, приведенную
на рисунок 7.3.
Рисунок 7.3. Структура хранилища данных
Физически – это реляционная база данных, содержащая таблицы для
хранения информации и таблицы связей, обеспечивающие целостное хранение
сведений. Поверх реляционной базы данных реализован специальный слой,
который преобразует реляционное представление к многомерному.
Многомерное представление используется потому, что оно намного
лучше реляционного соответствует идеологии анализа данных. Благодаря
этому слою, пользователь оперирует многомерными понятиями, такими как
114
измерение, факт, а система автоматически производит все необходимые
манипуляции, необходимые для работы с реляционной СУБД.
Deductor Warehouse прозрачно для пользователя проводит все
необходимые операции по созданию и подключению к реляционной СУБД
Firebird. Пользователю остается лишь создать или подключить хранилище
данных к Deductor Studio.
Deductor Warehouse реализует универсальное многомерное хранение,
т.е. может содержать множество процессов с различным количеством
измерений и фактов. Настройка процессов, задание измерений, свойств и
фактов может осуществляться с помощью Редактора хранилища Deductor
Studio, либо при загрузке в хранилище данных. Вся работа с хранилищем
осуществляется Deductor Studio.
3.7.3 Подключение к Deductor Warehouse
Перед началом работы с существующим хранилищем данных нужно
зарегистрировать его в Deductor Studio, сообщив местонахождение и
параметры
подключения
к
базе
данных.
Эти
действия
называются
подключением к хранилищу данных. Мы только что проделывали подобные
шаги при создании нового хранилища. Подключение существующего
хранилища проводится аналогично.
Для того чтобы изменить настройки существующего хранилища
данных, достаточно двойным щелчком на узле нужного хранилища открыть
окно настроек, описанное в предыдущем разделе.
После настройки всех необходимых параметров можно проверить
доступ к новому хранилищу данных. Для этого следует воспользоваться
кнопкой
, в результате чего будет предпринята попытка соединения с
базой данных хранилища. Если соединение будет успешным, то появится
сообщение «Соединение успешно протестировано» и хранилище будет готово
к работе
115
3.7.4 Загрузка данных в хранилище
При
первоначальном
информацией
о
товарах
последовательности
наполнении
рекомендуется
действий
пустого
хранилища
придерживаться
(рисунок
2.20).
Перед
данных
определенной
этим
следует
определиться, какие поля являются измерениями, а какие – фактами, какие
таблицы представляют собой процессы.
Рисунок 7.4. Последовательность загрузки данных в хранилище.
Под процессом понимается определенное действие, например, продажи
товара, отгрузки, поступления денежных средств и прочее. Можно сказать, что
с каждым процессом связан определенный бизнес-процесс.
Измерение
может
иметь
свойства.
Соответственно,
загружать
измерения отдельно вне процесса имеет смысл, если оно имеет свойства. При
загрузке
процесса
измерение
со
свойствами
загружается
по
его
идентификатору, а при загрузке измерения загружаются также и его свойства.
3.7.5 Задание на лабораторную работу
1. Проведите построение многомерного куба данных для таблиц Товары
и группы.
2.
Постройте кросс-таблицы и кросс-диаграммы.
3. Для базы данных Northwind проведите анализ поставок в разрезе
Клиентов (Customers), Продуктов (Products) и Продавцов (Shippers).
116
3.8
Лабораторная работа 8 Задачи визуализации в Deductor Studio
3.8.1 Цель лабораторной работы:
Научиться выбирать и применять методы визуализации на примере
задачи банковского кредитования (скоринга)
3.8.2
Основные положения
Мастер визуализации
Мастер визуализации поможет Вам в интерактивном пошаговом режиме
выбрать и настроить наиболее удобный способ представления данных. В
зависимости от выбранного способа представления будут настраиваться
различные параметры, а Мастер, соответственно, будет содержать различное
число шагов.
Из списка доступных в системе способов представления данных
щелчком мыши выберите нужные:
Data Mining:
Диаграмма рассеяния (ДР)- диаграмма, показывающая отклонение
(рассеяния)
результатов
обработки
данных
относительно
эталонных.
Применяется для нейронных сетей и деревьев решений.
ДР служит для наглядной оценки качества обучения модели с помощью
результатов сравнения непрерывных значений выходного поля и непрерывных
значений того же поля, но рассчитанных моделью. На диаграмме рассеяния
отображаются выходные значения для каждого из примеров обучающей
выборки, координаты которых по оси Х - это значение выхода на обучающей
выборке (эталон), а по оси Y - значение выхода, рассчитанное обученной
моделью на том же примере. Прямая диагональная линия представляет собой
ориентир (линию идеальных значений). Чем ближе точка к этой линии, тем
меньше ошибка модели.
Настройку параметров диаграммы можно вызвать с помощью кнопки на
панели инструментов.
117
Дерево правил - Отображение в иерархическом виде (в виде дерева)
ассоциативных правил. Содержит всегда два уровня. На первом – условие, на
втором – следствие правила (или наоборот).
Дерево правил - это всегда двухуровневое дерево. Оно может быть
построено либо по условию, либо по следствию. При построении дерева
правил по условию, на первом (верхнем) уровне находятся узлы с условиями,
а на втором уровне - узлы со следствием.
3.8.3 Задание на лабораторную работу
Вариант № 1
Постройте многомерный отчет и кросс-диаграмму распределения по
целям кредитования.
Постройте модель дерева решений для оценки кредитоспособности
заемщика для сегмента 0.
Вариант № 2
Постройте многомерный отчет и кросс-диаграмму распределения
заемщиков по возрастным группам.
Постройте модель дерева решений для оценки кредитоспособности
заемщика для сегмента 1.
Вариант № 3
Постройте многомерный отчет и кросс-диаграмму возрастных групп, на
которые приходится 50% выдаваемых кредитов.
Постройте модель дерева решений для оценки кредитоспособности
заемщика для сегмента 2.
Вариант № 4
Постройте многомерный отчет и кросс-диаграмму распределения
заемщиков по целям кредитования и полу заемщика.
Постройте модель дерева решений для оценки кредитоспособности
заемщика для сегмента 3.
118
3.9 Лабораторная работа 9 Многомерные отчеты и простая аналитика
3.9.1 Цель лабораторной работы:
Освоить и закрепить навыки создания хранилища данных и извлечения
из него информации, построения многомерных отчетов, кросс-диаграмм и их
анализа.
3.9.2 Основные положения
Для выполнения заданий понадобятся сведения из лабораторной
работы № 8 и дополнительные обработчики:
преобразование даты/времени;
фильтрация.
Обработчик «Преобразование даты/времени»
Разбиение даты служит для анализа всевозможных показателей за
определенный период (день, неделя, месяц, квартал, год). Суть разбиения
заключается в том, что на основе столбца с информацией о дате формируется
другой столбец, в котором указывается, к какому заданному интервалу
времени принадлежит строка данных. Тип интервала задается аналитиком,
исходя из того, что он хочет получить – данные за год, квартал, месяц, неделю,
день или сразу по всем интервалам.
Проанализируем объемы заказов для продуктов и магазинов по дням
года. Для этого в качестве измерений в строках будем использовать Код
продукта, Код магазина и День заказа (день года), а в качестве факта количественные характеристики заказа.
3.9.3 Обработчик «Фильтрация»
С помощью операции фильтрации можно оставить в таблице только те
записи, которые удовлетворяют заданным условиям, а остальные скрыть.
Сделаем выборку из таблицы за период с 01.07.1996г. по 01.08.1996г.
Для фильтрации данных используется мастер обработки
119
3.9.4 Задание на лабораторную работу
1. Построить куб по следующим измерениям (Клиент, Продукт, Магазин,
Дата заказа- день года), в ячейках которого отображается сумма заказа за все
периоды, имеющиеся в базе данных.
2. Какой магазин имеет наибольшую сумму заказов?
3. Какой клиент имеет максимальную сумму заказов?
4. Какой продукт имеет максимальную сумму заказов?
5. Постройте кросс-диаграмму сумм заказов: по магазинам, по клиентам, по
продуктам.
6. Сделайте то же, что в п.1 - 5, но в разрезе недель.
7. Сделайте то же, что в п.1 - 5, но в разрезе месяцев.
8. Найти сумму максимальной и средней стоимости заказа за последний
месяц от имеющихся данных.
9. Сформируйте многомерный отчет и график заказов для 20 наиболее
заказываемых продуктов.
12. Сделайте то же, что в п. 9 за последние три недели от имеющихся
данных.
13. Сформируйте многомерный отчет и график заказов для 10 клиентов,
имеющих заказы продуктов на максимальную сумму.
14. Сделайте то же, что в п. 13 за последние 10 дней от имеющихся данных.
15. Сформируйте многомерный отчет и график заказов для 5 магазинов,
имеющих заказы продуктов на максимальную сумму.
16. Сделайте то же, что в п. 15 за последний месяц от имеющихся данных.
17. Сформировать отчет по продуктам, дающие 50% объема заказов.
18. Сформировать отчет по магазинам, дающие 50% объема заказов.
19. Сформировать отчет по клиентам, дающие 50% объема заказов.
20. Сделать то же, что и п. 17, но за последнюю неделю.
21. Сделать то же, что и п. 18, но за последний месяц.
22. Сделать то же, что и п. 19, но за последние десять дней месяца
имеющихся данных.
120
3.10 Лабораторная работа 10 Задачи сегментации и классификации
3.10.1 Цель лабораторной работы:
Научиться применять методы Data Mining для решения задач
сегментирования
и
классификации
на
примере
задачи
банковского
кредитования (скоринга)
3.10.2 Основные положения
Data Mining в банковском кредитовании
Одной из важнейших задач в банковском кредитовании является анализ
потенциальных заемщиков. В настоящее время большинство российских
банков решают вопрос снижения своих кредитных рисков путем простого
переноса их на поручителей заемщика. В современных российских условиях
стремительного спроса на услуги банковского кредитования банк, который
умеет оценить кредитный риск как можно точнее, получит преимущество над
конкурентами, дополнительную прибыль, возможность управлять уровнем
риска. Одним из доступных инструментов для оценки кредитного риска,
особенно в условиях отсутствия экспертов по оценке риска, являются методы
Data Mining.
3.10.3 Обработчик и визуализатор «Дерево решений»
В папке \Lab3 расположено 2 файла:
WhCredit.gdb – хранилище данных, содержащее информацию о выдаче
и возврате кредитов физическим лицам (кредитная история);
Credit.ded – файл сценария Deductor 4.
Сценарий в файле Credit.ded (настроен на хранилище данных с именем
Credit) производит сегментацию заемщиков на 6 кластеров с помощью
самоорганизующихся карт. Сегментирование производилось по следующим
входным параметрам:
 цель кредитования;
 сумма кредита;
121
 срок кредита;
 возраст;
 среднемесячный доход;
 среднемесячный расход;
 количество иждивенцев.
Запустите сценарий сегментации (рисунок 10.1). Проинтерпретируйте
результаты сегментации, проведя визуальный анализ карт признаков. Дайте
каждому сегменту заемщиков название. Оцените численность каждого
сегмента и постройте соответствующую диаграмму. Постройте дерево
решений для объяснения результатов сегментации
Рисунок 10.1. Результаты сегментации.
Для построения дерева решений выделите узел «Сегментация
заемщиков» и с помощью мастера обработки запустите процесс построения
дерева решений.
Кроме дерева решений классификацию можно представить в виде
правил, таблиц сопряженности и условий «Что-Если». Для этого необходимо
настроить представление полученного правила решений с помощью мастера
визуализации
122
3.10.4 Задание на лабораторную работу
Вариант № 1
Постройте многомерный отчет и кросс-диаграмму распределения по
целям кредитования.
Постройте модель дерева решений для оценки кредитоспособности
заемщика для сегмента 0.
Вариант № 2
Постройте многомерный отчет и кросс-диаграмму распределения
заемщиков по возрастным группам.
Постройте модель дерева решений для оценки кредитоспособности
заемщика для сегмента 1.
Вариант № 3
Постройте многомерный отчет и кросс-диаграмму возрастных групп, на
которые приходится 50% выдаваемых кредитов.
Постройте модель дерева решений для оценки кредитоспособности
заемщика для сегмента 2.
Вариант № 4
Постройте многомерный отчет и кросс-диаграмму распределения
заемщиков по целям кредитования и полу заемщика.
Постройте модель дерева решений для оценки кредитоспособности
заемщика для сегмента 3.
Вариант № 5
Постройте многомерный отчет и кросс-диаграмму распределения
заемщиков по целям кредитования и должностям.
Постройте модель дерева решений для оценки кредитоспособности
заемщика для сегмента 4.
Для каждой модели проведите оценку качества и точности. Результатом
проделанной работы должен стать сценарий Deductor.
123
ПЛАН САМОСТОЯТЕЛЬНОЙ РАБОТЫ СТУДЕНТОВ
4
План самостоятельной работы студента приведен в п. 1.4 настоящего
УМК
5
В
КОНТРОЛЬНЫЕ РАБОТЫ (ТОЛЬКО ДЛЯ ЗО)
качестве
контрольной
работы
студентов
заочного
отделения
принимаются выполненные проекты по практическим занятиям дневного
отделения пп. 0-Error! Reference source not found..
6
КУРСОВЫЕ РАБОТЫ (УЧЕБНЫЕ ПРОЕКТЫ)
Не предусмотрены
7
КОНТРОЛЬ
7.1 Структура и бальная оценка каждого модуля
Структура и бальная оценка включает баллы за посещаемость,
домашнюю работу, аудиторную работу, итоговый контроль, работу в форуме,
защиту проектных работ и др.
Таблица 7.1
Семестр/год
2 семестр/4 курс, 1 семестр/5 курс
Модуль
Форма аттестации
Неделя
Минимальное
количество
баллов
Баллы
Часть 1
Аттестация 1
1
Аттестация 2
2
Итоговая аттестация
3
Аттестация 1
1
Аттестация 2
2
Итоговая аттестация
3
Рейтинг
Неделя 10
Рейтинг
Неделя 15
Рейтинги
Зачет
Неделя 20
20
30
20
30
20
40
20
30
20
30
20
40
Часть 2
Рейтинг
Неделя 10
Рейтинг
Неделя 15
Рейтинги
Зачет
Неделя 20
Примечание. 1.Аттестационные мероприятия проводятся очно.
2. Рейтинг включает сдачу и защиту плановых лабораторных работ и тестовый контроль
124
7.2 Тестовые задания:
№1 2.1 /1 УС: 1 АБ Время: 0,5 мин
Человек, который за годы обучения и практики научился чрезвычайно
эффективно решать задачи, относящиеся к конкретной предметной
области — …
Эталон ответа: эксперт
№2 1.2.3.1 УС: 2 АБ Время: 0,5 мин
Эмпирическое правило, упрощающее или ограничивающее поиск
решений в предметной области —…
Эталон ответа: эвристика
№3 1.1.1.1/1 УС: 2 АБ Время: 0,5 мин
Внутреннее активное стремление овладеть своими собственными
представлениями, понятиями, побуждениями чувств и воли,
воспоминаниями, ожиданиями — …
Эталон ответа: мышление
№4 1.1.1.1.2 УС: 2 АБ Время: 0,5 мин
Проверенный практикой результат познания действительности, верное ее
отражение в мышлении человека — …
Эталон ответа: знание
№5 4.1.2.1 УС: 2 АБ Время: 0,5 мин
Переход из состояния возможности в состояние действительности, в
сетевом планировании — отражение в сетевом графике выполненных
работ — …
Эталон ответа: актуализация
№6 1.1.1.2/2 УС: 2 АБ Время: 0,5 мин
Информационная база, отражающая опыт конкретных людей,
человечества в целом, в решении творческих задач в выделенных сферах
деятельности— база …
Эталон ответа: знаний
№7 1.1.2.1 УС: 2 АБ Время: 0,5 мин
Последовательность значений одного из анализируемых параметров
многомерной базы данных— …
Эталон ответа: измерение
№8 1.1.2.1/2 УС: 2
АБ
Время: 0,5 мин
125
Множественность измерений предполагает представление данных в виде
«…»
модели
Эталон ответа: многомерной
№9 1.1.2.1/3 УС: 2 АБ Время: 0,5 мин
Каждое измерение многомерной базы данных может быть представлено
в виде «…» структуры
Эталон ответа: иерархической
№10 1.1.2.1/4 УС: 2 АБ Время: 0,5 мин
Ячейки многомерной модели данных, представленной в виде гиперкуба
являются «…»
Эталон ответа: мерами
№11 1.2.1 УС: 2 АБ Время: 0,5 мин
Среда называется <…>, если за время между получением агентом
восприятия и выработкой им решения она не изменилась
Эталон ответа: статической
№12 1.2.1/2 УС: 2
АБ
Время: 0,5 мин
Среды, порождающие бесконечное число восприятий, реакций или того
и другого называют ….
Эталон ответа: непрерывными
№13 1.2.1/3 УС: 2
АБ
Время: 0,5 мин
Среда, в которой агент формирует строго одну реакцию.
Эталон ответа: детерминированная
№14 1.2.1./4 УС: 2
АБ
Время: 0,5 мин
Среда называется <…>, если за время между получением агентом
восприятия и выработкой им решения она изменилась
Эталон ответа: динамической
№15 1.2.2.1/1 УС: 2
АБ
Время: 0,5 мин
Набор символов, принадлежащих определенному множеству
126
Эталон ответа: алфавит
№16 1.3.1.1.2 УС: 2
АБ
Время: 0,5 мин
Раздел языка определяющий смысл этих предложений, сопоставляя
символы языка с объектами реального мира, а предложения — отношения
между объектами.
Эталон ответа: семантика
№17 1.1.1.2/2 УС: 2
АБ
Время: 0,5 мин
Агент состоит из знаний и <…>, работающего с этими знаниями.
Эталон ответа: решателя
№18 1.2.2.4 УС: 2
Таблицы
в
АБ
логике
Время: 0,5 мин
высказываний,
позволяющие
доказать
общезначимость формулы называют таблицами <…>
Эталон ответа: истинности
№19 1.2.2.1 УС: 2
АБ
Время: 0,5 мин
Раздел языка, описывающий допустимые в языке предложения,
состоящие из цепочек символов, принадлежащих алфавиту
Эталон ответа: синтаксис
№20 1.2.2.4/2
УС: 2
АБ
Время: 0,5 мин
Формулы, истинные на всех наборах значений своих аргументов,
называют < …>
Эталон ответа: общезначимыми
№21 1.2.2.3 УС: 2 АБ Время: 0,5 мин
Формула, в которой существуют наборы значений ее аргументов, на
которых она принимает истинное значение, и наборы значений, на
которых она принимает ложное значение - < …>.
Эталон ответа: выполнимая
127
№22 2.1.1 УС: 2
АБ
Время: 0,5 мин
Специфическое знание, необходимое для решения задачи, извлеченное
из обучения, чтения и опыта называют < …>.
Эталон ответа: экспертным
…………………………
№79
4.1.2.2/4 УС: 2
С
Время: 0,5 мин
Недостатками подхода, при котором имеется хранилище данных (ХД) и
витрины данных (ВД) для информации по разделам данной области, являются:
а) увеличение объема данных, хранимых в ВД
б) дополнительные затраты на разработку систем поддержки принятия
решений с ХД и ВД
в) увеличение нагрузки на основное ХД
г) избыточность (данные хранятся как в ХД, так и в ВД)
Эталон ответа: а), б)
№80 4.1.2.2/5 УС: 2
С
Время: 0,5 мин
Данные в хранилище данных делятся на следующие категории:
а) детальные данные
б) агрегированные данные
в) метаданные
г) временные данные
Эталон ответа: а), в)
№81 4.1.2.2/5 УС: 2
С
Время: 0,5 мин
Агрегированные данные в хранилище данных подразделяются на
следующие типы:
а) аддитивные
б) транзитивные
128
в) полуаддитивные
г) неаддитивные
Эталон ответа: а), в)
№82
4.1.2.2/6 УС: 2
С
Время: 0,5 мин
Метаданные описывают:
а) объекты предметной области, информация о которых хранится в
хранилище данных
б) категории пользователей, использующих данные
в) местоположение серверов, рабочих станций и оперативные источники
данных
г) системных администраторов
д) размещенные на серверах и рабочих станциях программных средств и
распределение данных
Эталон ответа: а), б), в), д)
№83
4.1.2.2/7 УС: 2
С
Время: 0,5 мин
Данные, поступающие из оперативных источников данных в хранилища
данных, образуют следующие информационные потоки:
а) входной
б) виртуальных данных
в) метаданных
г) обобщения
Эталон ответа: а), б), в)
№84 1.1.2.3/1
УС: 2
АБ
Время: 0,5 мин
Семантические сети в зависимости от типа вершин различают:
а) интесиональные
б) экстенсиональные
в) рефлексивные
Эталон ответа: а), б)
129
№85
4.1.2.2/8 УС: 2
С
Время: 0,5 мин
Виды условий инвариантности:
а) гарантия
б) выражение защищенности;
в) выражение уверенности;
г) качество
Эталон ответа: а), в)
8
КОНТАКТНАЯ ИНФОРМАЦИЯ ПРЕПОДАВАТЕЛЯ.
Храмов Владимир Викторович
e-mail: vxpamov@inbox.ru
моб. Тлф. 89094315511
130
Download