Элементарный курс теории принятия решений

реклама
РОССИЙСКАЯ АКАДЕМИЯ НАУК
ВЫЧИСЛИТЕЛЬНЫЙ ЦЕНТР
Н.Н. АПРАУШЕВА
ЭЛЕМЕНТАРНЫЙ КУРС
ТЕОРИИ ПРИНЯТИЯ
РЕШЕНИЙ
Вычислительный центр РАН
Москва 2000
УДК 1502
Ответственный редактор
доктор физ.–матем. наук В.В. Нечаев
В работе кратко изложены такие темы, как элементы теории эвристических решений, принятие решений в распознавании образов, общие
математические методы принятия решений, в основе которых лежит байесовский подход. Она написана на основе курса лекций, прочитанных автором студентам-кибернетикам Московского института радиотехники, электроники и автоматики (МИРЭА), и доступна широкому кругу читателей.
Рецензенты: С.К. Дулин,
Л.З. Яшин
Научное издание
 Вычислительный центр РАН, 2000
2
Св. план 2000, поз.39.
«… все оттенки смысла
умное число передает.»
Н.С. Гумилев
Введение
Теория принятия решений (ТПР) – новое научное направление, объединяющее, казалось бы, далекие друг от друга области научного знания
(психологию, нейрофизиологию, биологию, кибернетику, математику и
др.) [1].
Проблема
принятия
решения
(ПР)
проявилась
как
научно-
практическая задача при построении автоматизированных систем управления (АСУ) в различных отраслях народного хозяйства (промышленности,
транспорте, строительстве и др.). При построении АСУ возникла необходимость воспроизведения мыслительных функций мозга на вычислительных машинах, т. е. проблема построения искусственного интеллекта. При
этом центром внимания естественно встала проблема выявления и познания
механизмов мозга на всех этапах его функционирования (от восприятия к
действиям), построение на этой основе непротиворечивых теорий, проверяемых через наблюдение и эксперименты.
В решении проблемы воспроизведения высших мыслительных
функций мозга на вычислительных машинах наиболее существенный
вклад может дать естественно-научный, системно-структурированный
подход, эффективность которого подтверждалась в разное время выдающимися результатами (синтез мочевины, самосборка некоторых вирусов и
пр.). Первоначально проблема ПР рассматривалась как раздел общей теории управления, но постепенно она приобрела самостоятельное значение.
3
Это повлекло за собой выделение и разработку разных уровней и аспектов
ПР, а именно: биологических, психологических, кибернетических, нейрофизиологических и т. д.
При биологическом подходе к проблеме ПР рассматриваются вопросы функциональной целесообразности и адаптивного поведения живых систем.
Психологический аспект принятия решения человеком затрагивает
целый комплекс проблем: соотношения процесса ПР с нейрофизиологическим и поведенческим уровнями жизнедеятельности человека.
При кибернетическом подходе к проблеме ПР исследуются принципы функционирования различных систем, принимающих решения (живые
системы, системы “человек-машина”, коллективы людей, автоматы), рассматриваются подходы к построению кибернетических моделей таких систем.
Заинтересованность представителей различных областей научного
знания в разработке теории ПР создает определенные трудности (в каждой
науке формируется свой специфический подход к проблеме, используется
свой язык, понятийный аппарат и методы исследования). Но, с другой стороны, объединение в рамках общей теории представителей разных наук
создает благоприятные условия для плодотворных научных исследований.
Существует ряд общих вопросов, требующих совместных исследований
специалистами различных областей, к ним относятся:
1. Определение понятия “принятие решения”. Специалисты разных
наук вкладывают в этот термин различный смысл. Область явлений, о которых можно говорить как о принятии решений, еще не определена достаточно строго.
2. Познание механизмов ПР в деятельности человека и в биологических системах. Изучение поведения биологических систем и целенаправленной деятельности человека должно быть основной линией в разработке
4
проблемы ПР. Существенная роль принадлежит исследованиям коллективных решений, процессов и механизмов ПР группами людей, объединенных совместной деятельностью.
3. Формализация процесса ПР (выбор целесообразного языка).
4. Взаимодействие человека и информационно-логических машин в
процессе ПР.
Комплексные исследования по проблеме ПР у нас в стране в течение
многих лет возглавлял академик П.К. Анохин.
В этой работе кратко освещены такие разделы ПР, как элементы
теории эвристических решений, принятие решений в распознавании образов, общая математическая теория принятия решений с использованием
байесовского подхода.
5
Глава 1. Элементы теории эвристических решений (ЭР)
§1. Строгие и эвристические методы ПР
Среди методов ПР выделяют два основных вида: строгие и эвристические методы [2]. Эффективное использование ЭВМ для решения научнотехнических задач основано, главным образом, на ряде допущений, упрощающих представления о моделируемых реальных процессах. Такое абстрагирование позволяет подобрать для рассматриваемого физического
процесса адекватную математическую модель, разработать на этой основе соответствующие алгоритмы, составить программу и с помощью ЭВМ
получить приемлемое решение. Существенный момент в таком способе
решения – простота моделируемого процесса, однозначность решения и
точное знание степени его применимости.
Но в ряде случаев трудно, а иногда и невозможно построить адекватную математическую модель исследуемого процесса, что связано с его
сложностью, отсутствием необходимой и достаточной информации. При
этом всякое упрощение такого процесса, его идеализация, попытка абстрагирования для использования подходящего математического аппарата часто выхолащивает сущность исследуемого процесса и снижает ценность
результата.
Между тем человек, встречаясь в своей повседневной практике с подобными задачами, решает их без применения сложных математических
средств и без достаточного количества текущей информации. Более того,
иногда принимаемые им решения оказываются лучше и эффективнее решений, полученных с помощью математических методов. Эти соображения выдвигают необходимость разработки качественно новых методов решения задач с помощью ЭВМ путем моделирования отдельных сторон процесса
творческого мышления человека, методов, обеспечивающих эффективное
решение особо сложных задач, в частности, в условиях неполной текущей
6
информации. Такие задачи возникают в экономике, медицине, при исследовании Космоса, где мы имеем дело с функционированием систем, зависящих от
многих разнообразных переменных.
Методы решения таких задач в условиях, когда из-за их сложности и недостаточности информации нельзя точно очертить границы их применимости и
оценить допустимые ошибки, называются эвристическими.
Эвристические методы предполагают изучение принципов переработки информации, осуществляемой человеком на различных этапах его деятельности при
решении конкретной задачи, и построение на этой основе программ, реализуемых на ЭВМ. Этот процесс – эвристическое программирование.
Характерная особенность эвристического программирования – широкое
изучение приемов работы человека при решении задач в условиях неполной
информации, накопление особенностей о процессах решения аналогичных задач (формирование опыта) и моделирование всего процесса переработки информации человеком путем расчленения его на так называемые элементарные
информационные процессы.
Поскольку в основе эвристических методов лежит процедура поиска, эвристическое программирование иногда обеспечивает решение задачи
в условиях неопределенности. Однако после выбора перспективного
направления следует строгое решение, которое и приводит к окончательному результату. Именно сочетание обоих методов (эвристического и
строгого) обусловливает эффективность рассматриваемого процесса в
рамках конкретной человеческой деятельности.
Нет резкой и четкой границы между эвристическими и строгими методами. Более того, по мере развития науки многие эвристические методы решения формализуются, приобретают необходимую строгость и переходят в
класс строгих. Пример: решение задач кавалером де Мере (XVII в.), эвристические приемы, интуиция которого по отгадыванию очков при игре в
кости базировались на наблюдениях. Создание теории вероятностей поз-
7
волило формализовать этот процесс отгадывания, дало ему количественную оценку. (Задача кавалера де Мере: что вероятнее, при одном бросании
четырех игральных костей хотя бы на одной получить единицу или при 24
бросаниях двух игральных костей хотя бы один раз получить две единицы
[3].)
Вся история науки повторяет приведенную схему:
1) накопление и систематизация знаний,
2) выработка “чутья” (интуиции),
3) формализация процесса,
4) алгоритм принятия решения.
Это не означает, что эвристические методы исчерпали себя: с расширением круга наших знаний неизбежно расширяется и область вновь
возникающих проблем.
§2. Общая структура процесса принятия решения
Рассмотрим по Л.Д. Фогелю три типа решений, принимаемых человеком: дедуктивные, абдуктивные, индуктивные [2].
1. Дедуктивные решения (ДР) (deductio – выведение), входящие в
класс строгих, отличаются полной определенностью. ДР представляют
собой процесс выведения некоторого заключительного утверждения
(следствия) из одного или нескольких исходных утверждений, посылок по
некоторому правилу, закону (например, в соответствии с законами логики). Обычная функциональная зависимость, когда по заданному значению
аргумента xi и оператору R определяется значение функции
yi=R(xi),
является примером ДР. Дедуктивные решения охватывают широкий класс
преобразований, осуществляемых в технике, природе и обществе. При ДР
теоретически возможно по заданным операторам и известным значениям
8
входов определить выходные реакции. ДР достаточно подробно описаны в
специальной литературе (теория автоматического регулирования, теория
конечных автоматов и др.).
2. Абдуктивные решения (АР) (abducere – отводить) входят как в
класс строгих, так и в класс эвристических решений и отличаются большой неопределенностью. АР представляют собой процесс выявления
наиболее вероятных исходных утверждений (посылок, причин) из некоторого заключительного утверждения на основе обратных преобразований.
АР строятся на основе использования прошлого опыта. Пусть, например,
между некоторыми множествами посылок xi (xiX) и следствий yi (yiY)
обнаружена причинно-следственная связь R. Тогда наиболее вероятной
причиной появления нового следствия yi (yiY) является посылка
xi = R–1(yi).
Если оператор R известен, то известен и обратный оператор R–1 и
абдуктивное решение является строгим. АР часто встречается в науке и
повседневном опыте. Пример: определение температуры тела t по длине
столбика ртути в термометре l. Установлен физический закон: l=R(t), в
практике: t= R-1 (l). Другие примеры: анализ хозяйственной деятельности
предприятия, изучение космических лучей (наблюдаем следствие Y, находятся исходные посылки, причины X).
3. Индуктивные решения (ИР) (inductio – наведение, побуждение)
входят в класс эвристических решений, отличаются большой неопределенностью. ИР представляют процесс выявления наиболее вероятных закономерностей, связей, действий, существующих между исходными утверждениями. ИР выявляют оператор R по входным xi и выходным yi
сигналам,
yi = R(xi).
ИР наиболее свойственно мышлению. Ребенок, поставив перед собой задачу построить домик yi из кубиков xi, предпринимает некоторые
9
действия R, yi=R(xi). К этой же категории решений относятся действия
врача при лечении больного, руководителя организации при выполнении
задания. Выявляемый этим способом оператор R неоднозначен, при его
определении возможен некоторый произвол, уменьшающийся по мере
накопления опыта и рассмотрения решения на нескольких уровнях.
Мозг рассматривается как самоорганизующаяся система и считается,
что в его основе лежит иерархия соподчиненных алгоритмов, в которой
выделяют три уровня:
нижний – уровень систем условных и безусловных рефлексов,
средний – уровень системы правил процесса обучения,
высший – уровень, формирующий и корректирующий предыдущий
уровень.
Эвристические способности человека – результат одновременного
обобщения данного события на различных уровнях. При этом решение,
полученное на более высоком уровне, доминирует над решением более
низкого уровня, отбрасывая его, если оно оказывается неверным, и
направляя усилия на поиски новых решений.
Пример: дана последовательность
1, 2, 3,… .
(1.1.)
Найти следующую цифру этой последовательности. Если эта цифра 4, то
имеем
1, 2, 3, 4, ...,
последовательность целых чисел. Но если будет сообщение “неверно”, то
возможно решение 1, 2, 3, 5, ...,
последовательность простых чисел.
Живой организм использует абстракцию того уровня, который порождает модель, адекватную ситуацию, в которой он находится.
Важное значение в теории ЭР представляет исследование элементарных информационных процессов (ИЭИП) на разных уровнях. ИЭИП –
факторизация, дробление, программирование мыслительного процесса.
10
Главная задача этого исследования – выявление правил объединения элементарных информационных процессов в сложные программы. Эти исследования исходят из предположения о возможности изучения работы мозга
с различной степенью детальности, что соответствует описанию информационных процессов на разных уровнях.
Иерархия соподчиненных алгоритмов головного мозга позволяет
выделить правила переработки информации, которые обеспечивают формирование целесообразного поведения живого организма при изменении
среды. При более детальном рассмотрении внешней среды и ее связей с
живым организмом возможно построение формальной модели эвристической деятельности – теории поиска в абстрактном лабиринте, постановки
проблемы отбора достоверной и непротиворечивой информации, непосредственно связанной с целью. При этом рассматриваются не только процессы, происходящие в мозге, но и те изменения, которые происходят во
внешней среде в результате активных действий живого организма (прямая
и обратная связь). Такой подход позволяет моделировать отдельные аспекты мышления при решении конкретных задач, выявлять новые закономерности высшей нервной деятельности.
Дадим схематическую классификацию рассмотренных видов решений.
ТР
Дедуктивные
Абдуктивные
Индуктивные
решения ДР
решения АР
решения ИР
Теория строгих решений
Теория эвристических решений
§3. Центральная проблема теории ЭР
11
Центральное место в теории ЭР занимает проблема опознавания ситуаций и явлений окружающего мира, представляющая собой обобщение
частных проблем распознавания образов (РО).
Суть этих проблем: 1) живому организму генетически передается
наследственная информация только в общих чертах с чрезвычайно малой
степенью организации мозга; 2) в дальнейшем при активном общении с
внешней средой тем или иным способом (обучения, проб и ошибок и пр.)
происходит некоторая организация мозга, накопление опыта. Эти соображения о работе головного мозга обычно кладутся в основу устройств,
предназначенных для РО. Отметим общие черты функционирования
устройств по распознаванию образов:
1. Устройство (первоначально с помощью извне, например человека)
обеспечивает разбиение рассматриваемых объектов на классы (множества
похожих объектов). Сведения о том, по какому принципу в данной задаче
необходимо осуществить разбиение на классы, устройство выявляет самостоятельно, обобщая отдельные примеры, предъявляемые ему на стадии
“обучения”.
2. В процессе “экзамена” устройство производит классификацию новых объектов, а высокая оценка (“поощрение”, производимое извне)
улучшает классификацию.
Положительное решение этой проблемы связано с решением многих
актуальных проблем нашего времени (медицинской и технической диагностики, образования понятий и т. д.).
§4. Краткая история развития ЭР
Первые попытки формализации творческой деятельности относятся
к глубокой древности. Созданием формализованных методов решения математических задач занимались ученые древней Греции (Платон, Евклид,
Аполоний, Аристей и другие, V-III в. до н.э.).
12
Позднее попытки создания стройной системы эвристических методов (ЭМ) принадлежат Декарту во Франции, Лейбницу в Германии, XVII в.
Известная работа Декарта “Правила для направления ума” представляет
интерес и в наши дни.
Далее вопросами формализации творческой деятельности интересовались такие ученые, как Больцано, Гельмгольц (XIX в.), Пуанкаре (XIX-XX
вв.), один из авторов теории относительности.
Сложность проблематики, тесная взаимосвязь между точными и общественными науками, отсутствие широких экспериментальных возможностей не позволили этим крупнейшим ученым дать стройное и систематическое изложение ЭМ.
Бурное развитие ЭМ в XX в. связано с созданием и использованием
ЭВМ. Быстродействие, гибкая логика, большая память и другие качества
ЭВМ обусловливают их успешное применение.
В нашей стране развитие теории ЭМ принадлежит таким ученым,
как академики А.И. Берг, В.М. Глушков (проблемы дедуктивного вывода),
Д.Е. Охоцимский (проблемы построения роботов), Н.М. Амосов, Л.Г. Кузин
(модели личности), Г.С. Поспелов (искусственный интеллект), А.В. Напалков (алгоритмический анализ мозга), В.Н. Пушкин (сопоставление возможностей ЭВМ и человека) и др.
Глава 2. Принятие решений в распознавании образов
§ 1. Понятие о распознавании образов, классификации
Под распознаванием образов (РО), или классификацией понимается
упорядочивание объектов по их схожести, выделение групп объектов с
общими свойствами. Под объектами подразумеваются предметы, явления,
процессы, ситуации, действия и т.д. Такие термины, как распознавание
образов, классификация, кластер-анализ, таксономия, ботриология, будем
считать в первом приближении синонимами [4-6].
13
Множество объектов с похожими свойствами соответственно называется образом, классом, кластером, таксоном. Общепринятого строгого
определения класса, кластера не существует. Интуитивно ясно, что элементы одного кластера ближе друг к другу в каком-то смысле, чем к другим элементам, не принадлежащим этому кластеру.
РО – научное направление, возникшее около 40 лет назад и получившее бурное развитие в связи с использованием ЭВМ. РО можно считать одной из ветвей кибернетики.
Классификация является фундаментальным свойством всех живых
организмов. Если бы живые организмы не были способны собирать сходные раздражители в группы (классы), для которых нужна та или иная реакция, то они были бы плохо приспособлены к выживанию. Поэтому классификация – вполне естественная деятельность всех живых организмов.
Пример: все домашние животные разделяют людей на два класса: хозяев,
не хозяев.
С другой стороны, классификация – интеллектуальная деятельность
высокого уровня, необходимая для понимания природы. Факты и явления
должны быть упорядочены прежде, чем мы можем их понять, разработать
общие принципы, объясняющие их появление и видимый порядок. Поэтому и утверждается, что классификация – один из фундаментальных процессов в науке и практике.
Примеры:
1. Распознавание слов, произносимых разными дикторами. Здесь
класс – одно слово, произносимое разными дикторами (число классов равно числу слов).
2. Распознавание диктора по голосу не зависимо от того, что он говорит. Здесь класс – множество слов, произносимых одним диктором.
3. Распознавание болезни – медицинская диагностика. Здесь класс –
множество людей, переболевших одной болезнью. Нового пациента нужно
14
отнести к одному из известных классов (поставить диагноз).
В распознавании образов можно выделить два основных этапа.
1. Обучение – выделение общего образа, класса как совокупности
признаков объектов, его составляющих.
2. Распознавание – отнесение объекта к одному из известных классов
(классификация).
Различают три основных режима классификации или распознавания:
1. Распознавание с обучением, с учителем.
2. Распознавание без обучения, без учителя или самообучение, автоматическая классификация.
3. Распознавание с частичным обучением.
В распознавании с обучением все классы ω1, ω2, ..., ωк заданы, описаны своими характерными признаками. Некоторый объект Х нужно отнести
к одному из имеющихся классов. Самое простое описание классов – представление их обучающими выборками:
{Х11, Х21, ..., Хn1}  ω1,
{ Х12, Х22, ..., Хn2}  ω2,
(2.1)
. . . . . . . . . . . . . . . .
{ Х1к, Х2к, ..., Хnк} ωк .
В распознавании без обучения данное множество объектов
Х(n)= {Х1, Х2, ..., Хn}
нужно разделить на классы – непересекающиеся подмножества с общими
свойствами,
X ( n )   i ,
i  1, 2, ..., k,
i
i  s  ,
i, s  1, 2, ..., k.
При этом возможны два случая: число классов k задано, число классов неизвестно.
В распознавании с частичным обучением нужно выяснить, есть ли
среди данных классов объектов ω1, ω2, ..., ωк совпадающие (эквивалентные)
классы или все они различны.
15
Классы ωi, ωs будем называть эквивалентными, если они состоят из
очень близких в некотором смысле объектов (рис. 2.1). Не эквивалентные,
различные классы ωi, ωs изображены на рис. 2.2.
ωi = ωs
ωi
Рис. 2.1
ωs
Рис. 2.2
Примеры:
1. Медицинская диагностика – распознавание в режиме с обучением.
Один класс – признаки какой-то одной болезни. Постановка диагноза новому пациенту – отнесение его к одному из имеющихся классов по совокупности признаков, характеризующих состояние его организма.
2. Классификация людей по внешним признакам, классификация
растений, животных – классификация без обучения, в режиме самообучения.
3. Среди множества образцов рукописных текстов выделить образцы, написанные одним и различными почерками, – классификация с частичным обучением.
§2. Условия применимости математических
методов классификации
При разработке методов классификации на ЭВМ необходимо оценить сходство между объектами количественно. Для этого можно использовать мнения людей, что часто применяется социологами. Но непрактично и ненаучно получать оценки таксономического сходства внутри
16
множества объектов с помощью группы субъектов. В научной практике
избегают использовать суждения, основанные на большинстве голосов или
популярности [5].
Для количественной оценки сходства объектов используют детальное описание их свойств, которые необходимо задать числами. Каждый
объект Хj из данного множества Х(n) задается в виде вектора значений
свойств-признаков,
Хj=(xj1, xj2, ..., xjp),
j=1, 2, ..., n, p1.
(2.2)
Получается матрица данных размерностью np,
 x 11 , x12 , ..., x1p 


 x 21 , x 22 , ..., x 2p  ,
. . . . . . . . 


 x n1 , x n2 , ..., x np 
(2.3)
номер строки которой – номер объекта, номер столбца – номер признака
каждого объекта.
От природы основных признаков объекта зависят важные теоретические
выводы. Объекты, подлежащие классификации, представлены в пространстве
признаков. Формально это признаковое пространство является p-мерным. Но
в связи с корреляцией (зависимостью) между признаками оно может быть
преобразовано в пространство меньшей размерности.
Обычной математической основой для классификации объектов являются функции на парах элементов (Xi,Xj), i,j=1,2,…,n, вычисляемые по
их признакам [4-6]. В результате получается матрица сходства rij или различия uij между всеми возможными парами (Xi,Xj). Эти коэффициенты бывают трех видов.
1. Коэффициенты типа расстояния имеют общий вид
 p
rm    x is  x js
 s1
17
m



1/ m
,
(2.4),
где xis – значение s-го признака для элемента Xi, p – число признаков,
m – положительное целое число. При m = 1 – манхэттеновское расстояние,
при m = 2 – евклидово расстояние.
2. Коэффициент ассоциативности (КА)
a(Xi,Xj)=pc/p,
pc – число совпадающих признаков элементов Xi, Xj, p – общее число признаков. КА используется для элементов, представленных в виде двоичного
кода или словесных обозначений.
3. Коэффициент корреляции (КК) между векторами Xi, Xj определяет
меру их угловой близости и выражается через их нормированное скалярное произведение
X i , X j  
X i , X j 
Xi  X j
, i, j = 1,2,…,n,
(2.5a)
или
p
X i , X j  
 x is x js
s 1
p
p
2
2
 x is   x js
s 1
s 1
, i, j =1,2,…,n.
(2.5b)
4. Условная вероятность принадлежности элемента X к классам
1,2,…,k , Р(X/t), t =1,2,…,k, используется в том случае, когда известны, хотя бы приближенно, законы распределения вероятностей значений
признаков объектов в каждом классе.
5. Линии регрессии применяются в том случае, когда элементы классов концентрируются вдоль некоторых линий (рис.2.3), приближенные
уравнения которых находятся по данным наблюдениям.
При решении различных задач классификации в зависимости от вида
признаков, описывающих классы, используются и различные виды расстояний (метрик) r(Xi,Xj). Но все они должны удовлетворять следующим
18
условиям:
r(Xi,Xj)  0 – неотрицательность,
r(Xi,Xj) = 0 тогда и только тогда, когда Xi=Xj – аксиома тождества,
r(Xi,Xj) = (Xj,Xi) – аксиома симметрии,
r(Xi,Xj)  r(Xi,Xs) + r(Xs,Xj) – аксиома треугольника.
x2
x2=y(x1)
x2=(x1)
1
2
x1
0
Рис. 2.3
Кроме отмеченных выше видов расстояний в классификаии
используются следующие:
rmax  max x is  x js ,
i s  p
  X i  X j  1 X i  X j  '.
(2.6a)
 - расстояние Махаланобиса [7], в котором  - ковариационная матрица
каждого класса, значок «’» обозначает транспонирование, (Xi-Xj) – векторстрока, (Xi-Xj)’ – вектор-столбец. Если матрица  диагональная, на главной диагонали ее стоят дисперсии признаков 12,22,…,Р2, то расстояние
Махаланобиса принимает вид

x i1  x j1 2 x i2  x j2 2
12

 22
 ... 
x ip  x jp 2
 2p
.
(2.6b)
Далее для проведения классификации математическими методами
необходимо задать математическое правило классификации, соответственно
19
связанное с выбранной мерой близости объектов. Поэтому классификация
проводится по расстояниям, коэффициентам ассоциативности и корреляции,
по вероятностям, по линиям регрессии. Например, при классификации по
расстоянию два объекта Xi, Xj относятся к одному классу s, s{1,2,…,k}, если r(Xi,Xj)r0, r0 – заданное пороговое значение расстояния для каждого класса; при классификации по вероятности объект X относят к тому классу i0,
для которого условная вероятность максимальна,
max PX i   PX i 0 , i 0  1,2,..., k.
1i  k
(2.7)
Итак, для проведения классификации объектов математическими методами необходимо составить их описание числовыми признаками, задать
меру их близости и правило классификации.
§3. Критерий оптимальной классификации
При проведении классификации данного множества объектов с использованием различных методов и алгоритмов, как правило, получаются
различные результаты. Естественно оптимальным вариантом классификации считать тот вариант, который содержит наименьшее число ошибок.
Поэтому за критерий качества классификации принимается минимум вероятности ошибки классификации Рош. Этот критерий применим лишь в
случаях, когда можно найти оценку величины Рош. Но во многих ситуациях
это невозможно, и тогда при выборе наилучшей классификации используют функционалы качества разбиения, среди которых выделим три основных вида: функционалы от внутриклассовых расстояний Ф(rij(o)) , функционалы от межклассовых расстояний U(rij()), функционалы смешанного
типа V(rij(o), rij()). Как правило, функционалы Ф(rij(o)) минимизируются, а
функционалы U(rij()) максимизируются. Конкретные выражения этих
функционалов даны в §7.
20
§4. Основные условия, гарантирующие оптимальную
классификацию
Для получения оптимальной классификации необходимо выполнение следующих условий:
1. Представление объектов в виде p–мерных векторов (р1) должно достаточно полно отражать основные свойства каждого класса. К примеру,
если множество наблюдений содержит всю информацию, получаемую с
черно–белого телевизора, то при этом невозможно построить алгоритм
выделения "красных" входных сигналов.
2. Должны быть заданы представительные (репрезентативные) подмножества наблюдений каждого класса. Если наблюдения, по которым изучаются характеристики класса, не представляют множество других элементов класса, то после обучения будут получены очень неполные (и
возможно ошибочные) знания об этом классе и нельзя ожидать хорошего распознавания.
3. При выборе расстояния (метрики) в пространстве наблюдений ( пока
неизвестным способом) объекты, относящиеся к одному классу, должны быть близки один к другому. На рис.2.4,а представлен случай, когда
расстояние Евклида неприемлемо, так как существуют точки, для которых внутриклассовые расстояние больше
межклассовых, например
r(X1,X2)>r(X2,X3), X1,X21, X32.
Здесь целесообразно использовать расстояние Махаланобиса (2.6),
которое ввиду диагональности ковариационной матрицы примет вид
( x 11  x 21 ) 2 ( x 12  x 22 ) 2
 ( X1 , X 2 ) 

,
12
 22
(X 2 , X 3 ) 
( x 21  x 31 ) 2
12

( x 22  x 32 ) 2
 22
.
Для всех точек представленного множества внутриклассовое рас-
21
стояние Малаханобиса не больше межклассового.
Для сближения точек каждого класса можно задать преобразование –
сжатие пространства к внутренним точкам (рис.2.4,б). Если бы пространство наблюдений было упругим и гибким, как резина, то это преобразование отражало бы характер деформации различных областей пространства,
при
котором
точки
одного
класса
максимально
сближаются
[4].Вопрос о выборе наилучшей метрики или наилучшего преобразования, сближающего точки одного класса, остается открытым.
4. Среди имеющихся решений (вариантов классификации) можно указать
наилучшее. В практике оптимальное решение неизвестно, и применяются хорошие решения.
5. При формировании набора признаков, описывающих классы, предпочтение следует отдавать информативным признакам. Признак называется информативным, если он содержит информацию о различии
x2
X2
2
2
X3
X1
x1
1
x1
1
X2
а
б
Рис. 2.4
классов. На рис. 2.4 информативным признаком является признак x2 , а неинформативным – x1 . Неинформативный признак не содержит информации о различии классов.
§ 5. Алгоритмы классификации в режиме с обучением
22
Задача классификации в режиме с обучением уже была сформулирована: имеется k классов
1 ,  2 ,...,  k , k  2 ,
(2.8)
описанных своими основными признаками, новый объект X нужно отнести
к одному из имеющихся классов. Дадим описание нескольких алгоритмов,
по которым проводится классификация в этом режиме.
5.1. Алгоритм классификации по расстоянию
Для простоты и наглядности рассмотрим случай p = 2, k = 2. Пусть
классы 1, 2 представлены своими обучающими выборками
{Хi1 }  1, i1  1,2,..., n1,
{Хi 2 }  2 , i 2  1,2,..., n 2 ,
(2.9)
n1 – число наблюдений класса 1 , n2 – число наблюдений класса 2. Новое
наблюдение X нужно отнести только к одному классу 1 или 2. На
рис. 2.5 представлена описанная ситуация.
x2
Г
x
Y
1
2
R1
R2
0
x1
Рис. 2.5
Зададим
на
множестве
Хn X(n) = 1  2 расстояние r(Xi , Xj),
Xi , Xj  X(n) , n=n1+n2, и вычислим среднее расстояние от испытуемой точки X до всех точек каждого класса:
r1 ( X, {X i1 }) 
1 n1
 r ( X, X i1 ) ,
n 1 i1 1
23
r2 (X,{X i2 }) 
1 n2
 r ( X, X i 2 ) .
n 2 i2 1
Если имеем
r1 < r2 ,
(2.10 a)
то наблюдаемая точка X относится к классу 1. Если
r2 < r1 ,
(2.10 b)
r2 = r1 ,
(2.11)
то точка Х относится к 2. Если
то точку X можно отнести к любому из имеющихся классов. Уравнение
(2.11) есть уравнение границы классов Г. Граница Г делит пространство
признаков R на два подпространства R1 и R2 , которые содержат классы,
1  R 1 ,
2  R 2 .
Так что, если испытуемая точка X попадает в область R1 (R2), то
естественно считать, что она принадлежит классу 1 (2).
Замечание. Если для испытуемой точки Y (рис. 2.5) имеет место одно из соотношений (2.10), (2.11) но значения r1 и r2 очень велики, например
больше минимального диаметра классов d1 , d2
min(r1 , r2)  min(d1 , d2),
то не следует относить ее к одному из данных классов [6]. В этом случае
правильным является решение: точка Y представляет новый класс 3 . Поэтому для принятия правильного решения по соотношениям (2.10), (2.11)
вводится порог rпор для значений r1 , r2 ,
min(r1 , r2)  rпор ,
Например, можно положить
rпор =   min(d1 , d2), 0,5 <  < 1.
5.2. Корреляционный алгоритм
Этот метод состоит в определении корреляции рассматриваемого
24
объекта с каждым из эталонов, представляющих классы. Эталоны – векторы средних значений элементов каждого класса. Решающее правило: объект X относится к тому классу, для которого коэффициент корреляции
наибольший.
Классы 1, 2 представлены своими обучающими выборками (2.9),
изображенными на рис. 2.6.
Эталоны классов 1, 2 — их средние значения определяются по
формулам
1 
1 n1
 Хi1 ,  2 
n1 i 1
1 n2
 Хi .
n 2 i1 1 2
Корреляция объектов–векторов определяется косинусом угла между
ними. Косинус угла между векторами находится из их скалярного произведения: X, 1  X 1 cos1 , X, 2   X 2 cos2 .
1
x2
Г
1
1

X
1
2
2
2
2
0
x1
Рис. 2.6
Отсюда имеем
cos1 
X, 1
x 1
,
cos2 
X, 2 
x 2
.
Скалярное произведение векторов
X  x1 , x2 ,
1  11 , 12 ,
2  21 , 22 
и их модули выражаются через их координаты:
25
(2.12)
X, 1  x111  x2 12 , X, 2   x121  x2 22 ,
X  x12  x 22 ,
2
2
i  i1  i2 , i  1,2.
Вычислив cos 1 , cos 2 по формулам (2.12), переходят к их сравнению. Если cos 1  cos 2 (1  2) , то элемент X относится к классу 1.
Если
cos 2  cos 1 (2  1) , то элемент X относится к классу 2
(рис. 2.6). Если
cos 1  cos  2 ,
(2.13)
то элемент X можно отнести к любому из классов 1, 2. Уравне –
ние (2.13) - уравнение границы классов Г.
Решения, получаемые с помощью корреляционного метода, базируются на угловой близости точек X, μ1, μ2. Метод полезен, если каждый из
углов 1, 2, охватывающий подмножества наблюдений из одного класса,
мал по сравнению с углом между эталонами  (рис. 2.6),
1   , 2  .
(2.14)
Но если хотя бы одно из соотношений (2.14) не выполняется, то корреляционный метод неприменим, он может дать большие ошибки, так как
часть точек из класса 1 будет отнесена к классу 2 (рис.2.7).
Г
х2
1
1
2
1
2
2

0
х1
Рис. 2.7
Корреляционный метод часто применяют при распознании букв ма-
26
шинописного текста.
5.3. Регрессионный алгоритм
Регрессионный алгоритм (РА) применяется в случае, когда обучающие выборки классов (2.9) сосредоточены вдоль некоторых линий, называемых линиями регрессий (рис. 2.3, 2.8). Если линии регрессий являются
прямыми (рис. 2.8), то зависимость между координатами каждой точки из
одного класса (1 и 2) можно представить в виде
x
x
i2
 a xi1  b   i ,
j2
 с x j1  d   j ,
i  1,2,..., n1 ,
(2.15а)
j  1,2,..., n2 ,
(2.15б )
где i –– отклонение ординаты точки Xi  ( xi1 , xi 2 ) от ординаты точки
~
X i  ( xi1 , a xi1  b), i  1,2,..., n1 . Аналогично j –– отклонение ординаты
~
точки X j  (x j1 , x j2 ) от ординаты точки X j  (х j1 , cx j1  d), j  1,2,..., n 2
(рис. 2.8).
Каждая прямая регрессии ( 1 ,  2 ) проходит через средние точки соответствующего класса. Из уравнений (2.15) имеем
 x
i

j

x
i2
 a xi1  b,
i  1,2,..., n1 ,
(2.16а)
j2
  x j1  d ,
j  1,2,..., n2 .
(2.16б )
х2
Г1
xi2
i
1
2

j
xj2
Г2
2
0
1
xi1
xj1
Рис. 2.8
27
x1
Неизвестные коэффициенты a, b и c, d в системах (2.16) определяются методом наименьших квадратов (МНК), минимизирующим сумму квадратов отклонений от каждой прямой регрессии [4, 8, 9].
Для системы уравнений (2.16a) имеем
n1
n1
i 1
i 1
  i2   ( x i 2 x i1  b) 2 .
(2.17a)
Для удобства введем обозначение:
n1
(a , b)   ( x i 2 x i1  b) 2 .
i 1
(2.17б)
Минимум функции (a , b) находится из необходимых условий ее экстремума:
(a , b)
 0,
a
(a , b)
 0.
b
Продифференцировав функцию (a, b) по a и b и приравняв полученные
выражения частных производных к нулю, после простых алгебраических
операций получим систему нормальных уравнений
n1
 n1
 n1

2


(
x
)
a

x
b

xi1 xi 2 ,
 i1

  i1 
i 1
 i 1
 i 1 
 n
n
 1 x a  n b  1 x .

i1 
1
i2
 
i 1
 i 1 
(2.18)
Из системы (2.18) легко находятся оценки параметров a и b, являющиеся
функциями наблюдений:
~
~
a  a( X1 , X 2 ,..., X n1 ) , b  b( X1 , X 2 ,..., X n1 ) .
Доказано, что при значениях a и b, определяемых из уравнений (2.18),
функция (a, b) (2.17) имеет минимум [7].
28
Аналогично методом наименьших квадратов из уравнений (2.16б)
оцениваются значения параметров с, d.
~
c  cX1 , X 2 ,..., Xn 2 ,
~
d  dX1 , X 2 ,..., X n 2 .
Таким образом, получаются уравнения линий регрессий, описывающих классы 1 и 2,
~
x2  ~
a x1  b ,
~
x 2  ~c x 1  d.
Поиск уравнения регрессии для каждого класса относится к процессу
обучения. Чтобы отнести испытуемое наблюдение X к одному из имеющихся классов, необходимо вычислить расстояния от точки X до линий регрессий  1 и  2 , r(x,  1 ), r(x,  2 ) соответственно.
Если r(X,  1 ) < r(X,  2 ), то Х относится к классу 1.
Если r(X,  2 ) < r(X,  1 ), то X относится к классу 2.
Если
r(X,  1 ) = r(X,  2 ),
(2.19)
то X можно отнести к любому из классов 1, 2. Уравнение (2.19) – уравнение границы классов 1, 2, уравнение биссектрис Г1 , Г 2 углов между
прямыми  1 и  2 . Если линии регрессии  1 и  2 параллельны, то границей
классов 1, 2 является прямая Г, параллельная прямым  1 ,  2 и равноудаленная от них.
Регрессионный алгоритм неприменим, если один из классов попадает в точку пересечения линий регрессии (рис. 2.9). В этом случае РА дает
большую ошибку, значительная часть точек класса 2 по правилу классификации относится к классу 1.
При p  3 в случае линейной регрессии имеем систему уравнений:
x i1  a 1 x i 2  a 2 x i3  ...  a p1x ip  a p   i , i = 1, 2, …, n1 .
29
Оценки для неизвестных параметров a1, a2, …, ap находятся методом
наименьших квадратов.
Одна из основных задач регрессионного анализа – задание уравнения
регрессии
x s  y( x1 ,..., x s1 , x s ,..., x p ) , s  1,2,..., p,
наиболее согласующегося с исходными наблюдениями (2.9). Проверка такой согласованности проводится по статистическим критериям [8].
x2
Г1
1
2
1
Г2
Г2
2
Г1
x1
0
Рис. 2.9
В научно-практических исследованиях широко используются такие
виды регрессий, как полиномиальные, экспоненциальные, логарифмические, тригонометрические и др.
§6. Классификация как задача статистической
проверки гипотез
Рассматривается классификация в режиме с обучением. Для простоты и наглядности положим k = 2, p = 2. Классы 1 , 2 представлены
своими обучающими выборками (2.9). Кроме того, известен закон распределения вероятностей значений признаков в каждом классе, т.е. заданы
30
функции распределений вероятностей [4]:
F1 (X)  P(  X) , F2 (X)  P(  X) .
Предположим, что
F1 (X) 
X
 f1 (X)dX ,
F2 (X) 

X
 f 2 (X)dX ,

где f1(X), f2(X) – функции плотностей вероятностей в классах 1 , 2 соответственно (рис. 2.10).
P(x)
0
x1
f1(x)
x2
f2(x)
1
Г
2
Рис. 2.10
Наблюдаемый объект X  ( x1 , x 2 ) может принадлежать только одному из двух классов 1 или 2 . Необходимо сформулировать правило, по
которому вектор X был бы отнесен к 1 или к 2 с минимальной вероятностью ошибки классификации Pош.
В сформулированных выше условиях задача классификации сводится к задаче статистической проверки двух гипотез H1 и H2,
H1 : X  1 ,
H 2 : X  2 .
В процессе принятия решения возможны ошибки 1-го и 2-го родов.
31
Вероятность ошибки 1-го рода – вероятность отклонить гипотезу Н1 в то
время, когда она истинна. Вероятность ошибки 2-го рода – вероятность
принять гипотезу Н2 в то время, когда истинной является гипотеза Н1. Эти
два вида ошибок часто неодинаково важны для лица, принимающего решение. Поэтому вводятся цены ошибок 1-го и 2-го рода. Пример из гидролокации: пусть 1 – множество сигналов, создаваемых подводной лодкой,
2 – множество других морских сигналов, не создаваемых подводной лодкой. Ошибка 1-го рода – пропустить сигнал подводной лодки (пропуск цели), ошибка 2-го рода – принять морской шум за сигнал подводной лодки
(ложная тревога). В этом случае ошибка 1-го рода имеет бóльший вес, чем
ошибка 2-го рода.
Пусть c1 – цена ошибки 1-го рода, c2 – цена ошибки 2-го рода, 1 –
априорная вероятность класса 1, 2 – априорная вероятность класса 2,
1+2=1 (1 – вероятность того, что любое наблюдение Х1 без учета
функции распределения F1(X)). Проекция линии пересечения поверхностей
f1(x) и f2(x) на плоскость R делит ее на две полуплоскости R1 и R2,
R=R1  R2, R1  R2=  .
Тогда, если наблюдаемый вектор XR1, то X будет отнесен к классу 1, а
если X R 2 , то X будет отнесен к классу 2. Вычислим вероятность правильной и неправильной классификаций вектора X. Если X1, то вероятность его правильной классификации равна
P11  1  f1 (X)dX ,
R1
а вероятность его неправильной классификации равна
P12  1  f1 (X)dX .
(2.20)
R2
Аналогично, если X2, то вероятности его правильной и неправильной классификации равны соответственно
32
P22   2  f 2 (X)dX ,
R2
P21   2  f 2 (X)dX .
(2.21)
R1
Вероятность ошибки 1-го рода задается формулой (2.20), вероятность ошибки 2-го рода – формулой (2.21). В соответствии с теорией статистических решений целесообразно ввести решающее правило
классификации, минимизирующее риск [4]
  c1P12  c 2 P21 .
Используя выражения (2.20), (2.21), имеем
  c11  f1 (X)dX  c 2  2  f 2 (X)dX .
R2
(2.22)
R1
Так как
 f i (X)dX  1, i  1,2 ,
R2 = R \ R1,
R
то первый интеграл в выражении (2.22) представим в виде
 f1 (X)dX  1   f1 (X)dX .
R2
(2.23)
R1
На основании равенства (2.23) выражение (2.22) преобразуется к виду
  c11   (c 2  2 f 2 (X)  c11f1 (X))dX .
R1
Так как c11  0 , то необходимым условием минимума функции 
является отрицательность подынтегральной функции,
с2 2 f 2 X   с1 1 f 1 X   0 .
Из последнего выражения имеем
с1 1 f 1 X  с2 2 f 2 X ,
33
или
f 1 X   c2 2 .
f 2 X  c1 1
(2.24a)
Правая часть в (2.24а) –– коэффициент подобия
T
c 2 2 ,
c1 1
который является постоянным для данного выбора с1, с2. Если
c1  с2 , 1  2 , то Т=1 . Если имеет место неравенство (2.24а), то наблюдаемый вектор Х относится к классу 1. Если выполняется неравенство
f 2 X   c1 1 ,
f 1 X  c2 2
(2.24б)
то наблюдаемый вектор Х относится к классу 2. Если выполняется равенство
f 1 X   c2 2 ,
f 2 X  c1 1
(2.24в)
то наблюдаемый вектор Х относится к одному из классов 1, 2. Уравнение (2.24в) –– уравнение границы классов 1, 2. Сформулированное решающее правило относится к так называемым правилам Байеса [4,7].
Провести классификацию наблюдаемого вектора Х можно и по другому правилу, по максимуму его апостериорной вероятности. При условиях
нашей
задачи
можно
вычислить
апостериорную
вероятность
P(X / i ), i  1,2 , принадлежности вектора Х к классу i [7]:
P(X / i ) 
i f i X 
2
 s f s X 
.
s 1
Тогда вектор Х относится к тому классу i0 , для которого значение апостериорной вероятности максимально. (2.7). Это правило не учитывает цен
ошибок 1–го и 2–го родов c1 и с2 .
К описанной здесь методике удается свести многие практические за34
дачи, формулируя их в терминах статической теории решений. Полезность
этой теории и ее методов ограничивается допущением, что плотности вероятностей f 1 X  и f 2 X  известны. В некоторых случаях это действительно имеет место.
Если функции
f 1 X , f 2 X  неизвестны, то получают их оценки
~ X  ~ X  по обучающим выборкам
f1 , f 2
аппроксимационными метода-
ми [4,7]. Распознание базируется на сопоставлении уже полученных оце~
нок ~
f 1 X  и f 2 X  для исследуемого объекта Х пространства R по правилам [2.24].
Байесовское решающее правило принимает простой вид в случае,
когда f 1 X , f 2 X  –– плотности вероятностей нормальных распределений
с равными ковариационными матрицами  и различными векторами средних значений i [7,9] :
 X    1 X    
i
i 

exp 
f i X  
1
, i  1,2 .
2
2


 2 



1
2
В этом случае уравнением границы (2.24в) является линейная функция.
Прологарифмировав равенство (2.24в),
c  
 X  
n f 1
  n 2 2  ,
 f 2 X  
 c1 1 
(2.25)
и проведя в его левой части умножения матриц, после приведения подобных членов с учетом (2.25) получим линейное уравнение
X
1

μ1  μ 2 

1
1  2 1 1  2   nT .
2
Первое слагаемое в левой части последнего равенства называется линейной дискриминантной функции Фишера [9],
1
 ( X)  X 

1  2 .
35
Неравенство (2.24а) в этом случае принимает вид
X
1
 μ  μ   1  μ  μ 1  μ  μ   nT .
1
2
2
1
2
1
2
Область наилучшей классификации определяется так:
 1

1
1
R1 : X μ1  μ 2   μ1  μ 2  μ1  μ 2   nT ,
2
(2.26а)
 1

1
1
R 2 : X μ1  μ2   μ1  μ2  μ1  μ 2   nT .
2
(2.26б)
В случае неизвестных параметров распределений 1, 2 , 1, 2 , 
находят их оптимальные оценки по обучающим выборкам (2.9) [7]:
~

n1
n2
~
1  , ~
2  , n  n1  n 2 ,
n
n
(2.27а)
~  1
~  1

Xi, 
Xj ,


1
2
n1 Xi1
n 2 X j2
(2.27б)


1 
~ 
~
~
~ 




X
X
i  1  X i  1  
j   2  X j   2  .

n  2  Xi1
X j2

(2.27в)
~
Оценка ковариационной матрицы  в (2.27в) получена по двум обучающим выборкам (2.9). Оценки параметров в (2.27) используются в правилах классификации (2.26). Области наилучшей классификации определяются неравенствами
~ 1 ~ ~  1 ~ ~ ~ 1 ~
~

 2   1  2   1  2   nT ,
R1 : X  
1
2
~ 1 ~ ~  1 ~ ~ ~ 1 ~
~

 2   1  2   1  2   nT .
R 2 : X  
1
2
Формирование правил классификации для k  3 принципиально не
отличаются от рассмотренной нами ситуации двух классов. Классификационные функции принимают вид [4,7]
 f (X)  
1

  X   i   s  1  i   s ' , i,s = 1,2,…,k.
u is  n i
r

 f s (X)  
36
Области оптимальной классификации определяются из неравенств
c 
R i : u is  n  i i , , s  1,2,..., k.
 s c s 
Классификационная функция uis связана с i-м и s-м классами. Так
как каждая такая функция линейна, то область Ri ограничена гиперплоскостями (рис. 2.11 ) .
Ли-
нейная
дискрими-
нантная
функция
(ЛДФ)
широко ис-
пользу-
ется в ме-
дицин-
ской
гности-
ке
диа-
Рис. 2.11
(МД).
коллективов во всем мире
Сотни
работают над проблемой автоматизации
МД. Испытаны различные математические методы, разные эвристические
подходы, моделирующие деятельность врача. По ряду соображений
наиболее перспективным методом в решении такой задачи является использование ЛДФ [10].
Для удобства в выражениях (2.26) введем обозначения:
W'  
1
1  2  , a  nT  1 1  2 1 1  2 
2
.
Тогда неравенство (2.26) – правило классификации примет вид
XW '  a ,
где X=(x1,x2,…,xp) – симптомы, признаки отдельного пациента, W’ – коэффициенты, учитывающие диагностическую ценность признаков. Для ис-
37
следуемого пациента Х имеем
(X, W' )  x 1 w 1  x 2 w 2  ...  x p w p .
Чтобы отнести пациента Х к одному из классов 1 (рак) или к 2 (не
рак) достаточно сравнить полученное значение (Х,W’) с пороговым значением a и принять решение:
1, если (,W’)> a ,
2, если (,W’) a.
Значение параметров W, a вычисляются по картам обследования пациентов в поликлинике из класса 1 и класса 2.
§7. Алгоритмы автоматической классификации (АК)
Синонимами термина «автоматическая классификация» будем считать следующие термины: «классификация без обучения, без учителя»,
«самообучение», «кластерный анализ», «таксономия» [5, 6].
Постановка задачи АК. Имеется множество n объектов
X ( n )  X1 , X 2 ,...,X n ,
(2.28)
каждый из которых описан p числовыми признаками
Xj=(xj1, xj2, …, xjp), p  1, j = 1, 2,…,n.
Множество (2.28) будем считать выборкой из некоторой генеральной совокупности. Требуется разделить множество X(n) на k классов (k < n) – непересекающихся подмножеств, каждое из которых состоит из элементов с
похожими свойствами,
X
(n )
k
  i , i  s   , i,s  {1,2,…,k}.
i 1
Выделение классов на множестве X(n) позволяет значительно сократить его описание без большой потери информации. Вместо перечисления
всех объектов можно дать список k (k<n) «типичных» или «эталонных»
представителей классов, перечислить номера (имена) объектов, входящих
38
в состав каждого класса, их средние или максимальные отличия их свойств
от свойств «эталонных». При небольшом числе классов описание данных
становится обозримым и легко интерпретируемым.
Алгоритмы АК отличаются друг от друга процедурой группировки и
критерием качества классификации. Классы могут иметь различную форму. Классы простой сферической формы можно выделить, пользуясь алгоритмами семейства FOREL, а классы более сложной (произвольной) формы – алгоритмами семейства KRAB, JOINT.
7.1. Алгоритм FOREL
Алгоритмы этого семейства выделяют классы простой сферической
формы. Число классов задается исследователем или выбирается автоматически. Для проведения классификации множества X(n) можно использовать
евклидово расстояние между объектами. Объекты одного класса попадают
в одну гиперсферу с определенным центром  и заданным радиусом r0.
Изменяя радиус r0, можно получить разное число классов k.
При фиксированном радиусе r0 алгоритм FOREL работает следующим образом. Выбирается произвольная точка Xj  X(n) , и в нее помещается центр  (0) гиперсферы S радиуса r0, S0(  (0) , r0). Определяются внутренние точки гиперсферы:
{X i : r ( (0) , X i )  r0 },
i  {1,2,..., n} .
Вычисляется центр тяжести внутренних точек
 (1) 
1
 Xi .
n1 X i S 0
Строится новая гиперсфера радиуса r0 с центром в точке  (1) , S1(  (1) , r0).
Находятся внутренние точки гиперсферы S1 и их центр тяжести
 ( 2) 
1
 Xi .
n 2 XiS1
Процедура повторяется до тех пор, пока не перестанут изменяться коорди-
39
наты центра тяжести  ( t ) , т.е. до выполнения неравенства r(  ( t ) ,  ( t 1) )   ,
t = 1,2,…,  – заданное малое положительное число. При этом гиперсфера
останавливается в области локального экстремума плотности точек множества X(n). Внутренние точки остановившейся гиперсферы St((t), r0) образуют класс 1, 1=(t). Элементы класса 1 из дальнейшего рассмотрения
исключаются.
Затем выбирается произвольная точка XiX(n) \ 1, i{1, 2,…, n}, в
нее помещается центр гиперсферы радиуса r0, и процедура выделения
классов повторяется до тех пор, пока все множество X(n) не будет разделено на классы.
Очевидно, количество полученных классов k тем больше, чем меньше радиус r0. Желательное для исследователя количество классов k может
быть найдено соответствующим подбором радиуса r0.
Доказано, что алгоритм FOREL дает решение за конечное число шагов. Однако очевидно, что это решение бывает неединственно, оно зависит от выбора начального положения центра гиперсферы. Выбор наилучшего решения из многих возможных делается по значению функционала
от внутриклассовых расстояний,
k
Ф( Х j ,  S )    r ( X j ,  S ) ,
(2.29)
s 1X js
где S – центр класса S. Оптимальным вариантом классификации считается тот, при котором функционал Ф(Xj, S) принимает наименьшее значение. Выбор такого критерия обосновывается распространенными интуитивными
правилами
«ручной»
группировки.
Обычно
специалисты
объединяют в одну группу объекты мало отличающиеся друг от друга или
от «типичного» объекта (ближайшего к центру класса).
7.2. Алгоритм Мак-Кина
40
Из данной выборки (2.28) случайным образом отбирается k объектов, которые принимаются за центры классов, обозначим их через
~ ~
~
Х1, Х 2 , ..., Х k .
Для каждого выбранного объекта находится ближайший элемент
выборки Xic (ближайший сосед):
~
~
Xic  arg min r(Xi , X j ), Xi  X j , j  1, 2, ..., n .
j
~
Xi , Xic объединяются в один класс, если расстояние между ними не больше заданного порогового значения r0. При этом вычисляются новые центры классов. Если это расстояние больше r0, то выбранный объект образует
новый класс. Если расстояние между центрами двух классов меньше другого априорно заданного порогового значения r'0 (r0 > r'0), то соответствующие классы объединяются.
Процесс продолжается до полного перебора точек множества (2.28).
Результат классификации зависит от порядка первоначального выбора
объектов исследуемого множества, от заданных пороговых значений r 0, r'0.
В качестве критерия качества
классификации можно взять минимум
функционала (2.29).
В [6] описаны и другие алгоритмы (Болла и Холла, Себестиана,
Дженси), аналогичные алгоритму Мак-Кина.
7.3. Алгоритм KRAB
Этот алгоритм предназначен для выделения классов довольно причудливой формы (рис. 2.12), которые не может выделить ни один из алгоритмов семейства FOREL [5]. На рис. 2.12 человек довольно легко выделит
три класса, три таксона. При этом интересно установить, какие критерии
качества таксономии он использует, как он определяет наиболее «естественное» число таксонов, их форму и границы. Ответив на эти вопросы,
можно составить алгоритм, моделирующий действия человека, проводя-
41
щего классификацию на плоскости. Естественно предположить, что человек использует некоторую меру близости точек r, считая, что таксономия
тем лучше, чем меньше расстояние между точками одного таксона. Он тем
увереннее делает таксономию, чем дальше одни группы близких точек отстоят от других групп, т.е. мера взаимной удаленности таксонов  тоже играет важную роль.
x2
Г
0
x1
Рис. 2. 12
x
Рис. 2. 13
Психологические эксперименты показали, что человек невсегда объединяет точки в таксон по правилу: «ближний к ближнему».
На рис. 2.13 пятая по счету слева точка ближе к четвертой точке, чем
к шестой. Однако при разделении этого множества точек на два таксона
люди обычно проводят границу Г между четвертой и пятой точками. Повидимому, человек обращает внимание на локальные изменения (скачки)
плотности точек .
Если подобрать подходящие меры для измерения величин r, , , то
можно добиться совпадения результатов автоматической и ручной классификаций.
Эксперименты показали, что хорошее совпадение получается, если в
основу алгоритма таксономии положить меры, использующие свойства
кратчайшего незамкнутого пути (КНП). КНП – это граф, который соединяет
все точки множества X(n) и при этом не имеет циклов, а сумма длин всех его
ребер минимальна. Существует эффективный алгоритм построения КНП [5,
42
11]. Пример КНП для точек рис. 2.14,а дан на рис. 2.14,б.
х2
х2
i
0
а
0
х1
б
min
х1
Рис. 2. 14
Если разрезать k–1 ребер КНП (т.е. удалить их), то будет выделено k
таксонов. Мерой близости объектов внутри одного таксона можно считать
среднюю длину ребер КНП, соединяющего все точки данного таксона,
1 n s 1
r s  n  1  i , s = 1, 2, …, k,
i 1
s
где  i – длина i–го ребра, n s – число объектов в таксоне s .Общей мерой
близости внутренних точек таксонов будем считать среднюю длину всех
внутренних ребер
r
1 k
 rs .
k s1
Среднее расстояние между таксонами определяется по КНП как
средняя длина ребер, соединяющих таксоны

1 k 1
 .
k  1 s1 s
Через КНП определяется и мера локальной "неоднородности" расстояний между точками i. Для каждого i–го ребра длины i фиксируется
43
прилегающее к нему ребро минимальной длины min, тогда
i 
min
i
, i  {1, 2, …, n – 1}.
Чем меньше i, т.е. чем больше различие в длинах соседних ребер, тем с
большим основанием можно считать, что граница между таксонами пройдет по ребру i.
Задается пороговое значение 0  1. Если
i  0, i 1, 2, …, n-1,
(2.30)
то граница между таксонами пройдет по ребру i , т.е.
 i   S , s1, 2, …, k–1.
i , для которых выполняется условие (2.30), обозначим через *i . Тогда мера неоднородности на границах таксонов представима в виде

1 k 1 *
 S .
k  1 S1
Общий критерий качества в алгоритме KRAB – максимум функционала

V  ln   .
 r 
(2.31)
Проверка на двухмерных примерах показала, что чем лучше таксономия, тем больше значение функционала V в (2.31).
Алгоритм КРАВ работает так. Вначале проводится КНП между всеми точками данного множества. Если число таксонов задано, то путем перебора находятся такие k–1 ребер, проведение границ по которым дает
максимальное значение функционала V в (2.31).
Если число объектов и количество таксонов велико, перебор становится слишком трудоемким. Для его сокращения используется предварительный отбор ребер претендентов, по которым могут пройти границы.
Это делается путем отбора таких ребер, для которых  i   0 ,  0 – некото-
44
рое пороговое значение, которое варьируется. Из рассмотрения исключаются ребра, размер которых меньше ребер, примыкающих к ним.
§8. Предварительное обнаружение классов
и оценивание их числа
Результаты классификации реальных объектов, проводимой при помощи математических методов и алгоритмов, зависят как от используемых
методов, так и от пороговых значений параметров конкретного метода.
При этом не исключено формальное разделение исследуемого множества
объектов на группы, не являющиеся классами. Поэтому до проведения
классификации необходимо знать, а имеет ли данное множество наблюдений классы или оно однородно (т.е. представляет собою один класс). Кроме того, полезно иметь такую информацию о структуре этого множества,
как: степень удаленности классов друг от друга, их количество, их диаметры, центры тяжести классов, существование различия в плотностях точек
классов и др. [12]. Получение такой информации намного упростит решение конкретной задачи классификации, например поможет выбрать оптимальный алгоритм классификации, точно задать пороговые значения, что
сократит объем работ.
Такой предварительный анализ структуры данного множества проводится по гистограммам расстояний между всеми его точками. Исследование гистограмм данного множества наблюдений целесообразно изложить,
начиная с одномерного случая.
8.1. Одномерное пространство
Пусть множество Х(n) представляет собой одномерную выборку
(р = 1) :
X( n )  x1 , x 2 , ..., x n 
(2.32a)
с плотностью вероятности f (x) [8, 9]. Упорядочив элементы множества
45
Х(n) по возрастанию
x (1)  x ( 2 )  ...  x ( n ) ,
(2.32б)
получим вариационный ряд (ВР). Значения x(1), x(n) отложим на числовой
оси, отрезок [x(1), x(n)] разделим на t равных частей, t  3 (рис. 2.15). Длина
каждого полученного отрезка (xi, xi+1), i = 1, 2, …, t равна
 
Пусть
x ( n )  x (1)
t

 ,   x ( n )  x (1) .
t
ni – число членов ВР (2.32б), попавших в i-й полуинтервал
[xi, xi+1), i = 1, 2, …, t. Тогда оценка вероятности Pi попадания в i-й полуинтервал случайной величины  равна
~ ni
.
Pi 
n
(2.33)
Построим в каждом полуинтервале [xi, xi+1), прямоугольник с высотой hi и основанием   такой, чтобы его площадь Si,
Si    h i , i  1, 2, ..., t ,
(2.34)
~
была равна Pi в (2.33).
~
Pi  Si , i  1, 2, ..., t .
(2.35)
Из равенств (2.33) – (2.35) имеем
hi 
ni
, i  1, 2, ..., t .
 n
~
Так строится гистограмма f ( x ) плотности вероятности f(x) данных
наблюдений, один из видов которой представлен на рис. 2.15. Отметим,
что последним из полученных интервалов гистограммы должен быть отрезок [xt, xt+1], xt+1 = x(n), x1 = x(1).
Число интервалов, на которые делится отрезок [x(1), x(n)], задается исследователем. Эти интервалы могут быть разной длины.
~
f (x)
f(x)
46
hi
При увеличении объема наблюдений n и уменьшении длины интер~
вала   гистограмма f ( x ) стремится к функции f (x) ,
~
lim f ( x )  f ( x ) .
n
 l 0
Если исследуемое множество (2.32) состоит из классов, далеко отстоящих друг от друга (рис. 2.16), то его гистограмма имеет достаточно
глубокий локальный минимум (ЛМ), изображенный на рис. 2.17.
Пусть ЛМ наблюдается в промежутке [xq, xq+1]. Фиксируются два
ближайших к нему максимума, из которых выделяется наименьший,
наблюдаемый в промежутке [xu, xu+1). Далее исследуется [xq, xu+1) полуинтервал.
47
0
1
2
x
Рис. 2.16
~
f (x)
x(1) 0
f0(x)
xq
xq+1
x
xu
xu+1
x(n) x
*
Рис. 2.17
Определение 2.1. ЛМ гистограммы называется статистически значимым (СЗЛМ), если на отрезке [xq, xu+1] отвергается гипотеза H0 о равномерном распределении подвыборки множества (2.32), принадлежащей полуинтервалу [xq, xu+1). H0: f(x) = f0(x),
1

 ( x  x ) , x  [ x q , xu 1 ],
f 0 ( x)   u 1
q

0,
x  [ x q , xu 1 ] .

Определение 2.2. ЛМ гистограммы называется статистически незначимым, если на отрезке [xq, xu+1] принимается гипотеза H0 о равномерном
распределении подвыборки множества (2.32), принадлежащей [xq, xu+1).
Проверка гипотезы Н0 проводится с использованием известных статистических критериев 2, 2, Вилкоксона, знаков и др. [12].
Если гистограмма исследуемого множества имеет хотя бы один
СЗЛМ, то это множество содержит классы, далеко отстоящие друг от дру~:
га. Число классов k оценивается по числу СЗЛМ гистограммы m
~  1.
km
48
Число далеко удаленных друг от друга классов определяется равенством
~  1.
k уд  m
За границы классов принимаются середины тех отрезков гистограммы, в которых наблюдается ее СЗЛМ [6, 12]. На рис. 2.17 точка x* –
граница классов 1, 2.
~
f (x)
0
x1
xt+1
x
Рис. 2.18
Если гистограмма исследуемого множества наблюдений не имеет
ЛМ (рис. 2.15) или все ее ЛМ статистически незначимы (рис. 2.18), то это
множество однородно, т.е. представляет собою один класс, или содержит
классы, недалеко отстоящие друг от друга.
8.2. Многомерное пространство
Если число признаков p каждого объекта данного множества наблюдений (2.28) p  2, то предварительную информацию о наличии классов, их
числе, степени их удаленности друг от друга и др. можно получить, по крайней мере, тремя способами.
1. Построение и анализ гистограммы каждого признака xs, s = 1, 2, …, p
[6, 8]. Каждая такая гистограмма может дать оценку снизу для числа классов
~  1, s  {1, 2, ..., p} , m – число СЗЛМ гистограммы s-го признака.
k, k  m
S
s
Тогда имеем
~ .
k  mmax  1, mmax  max m
S
S
2. Построение и
анализ
многомерных гистограмм. Строятся t
49
p-мерных интервалов, t = t1t2…tp, ts – число интервалов, на которое разбиваются значения s-го признака, s = 1, 2, …, p. Подсчитывается число
точек множества (2.28), попавших в каждый p-мерный
интервал ni, i =
1, 2, …, t. Затем выделяются интервалы, содержащие наибольшее число
точек, по правилу ni  n0, n0 – некоторое заданное пороговое значение.
Вычисляются центры тяжести таких интервалов, эти интервалы объединяются в один класс по расстоянию между их центрами по правилу
«ближний к ближнему». Кроме того, фиксируются интервалы, содержащие наименьшее число точек, n i  n '0 , n '0 – другое пороговое значение.
По таким интервалам проводятся границы между классами [6]. Интервалы, для элементов которых имеет место неравенство n 0  n i  n '0 , объединяются с интервалами с наибольшим содержанием точек по правилу
«ближний к ближнему». Предварительный анализ многомерных интервалов – очень трудоемкий процесс, практически не осуществимый при
больших значениях n и p.
3. Анализ одномерной гистограммы расстояний между всеми различными
точками данного множества [12]. Рассмотрим этот метод подробно.
На множестве X(n) в (2.28) задается подходящее расстояние r (метрика)
и
находятся
расстояния между
всеми
его
точками
rij = r(Xi, Xj),
i, j = 1,2, …, n, которые можно записать в виде квадратной матрицы
0

 r21
r
 n1
r12
r13
0
rn 2
r23
rn 3
...
...
...
r1n 

r2 n  .
0 
(2.36)
В силу свойств расстояния имеем
rii = 0, rij= rji, i,j = 1, 2, …, n.
Поэтому в матрице (2.36) достаточно исследовать множество элементов, стоящих выше или ниже главной диагонали, например
50
{rij}, i  j, i  1, 2, ..., n  1,
j  2, 3, ..., n .
(2.37)
Упорядочив элементы множества (2.37) по возрастанию, получим
основной вариационный ряд (ОВР) множества X(n)
r(1)  r(2)  …  r(s) ,
s
n(n  1)
2
(2.38)
Сначала предположим, что плотности классов множества Х(n) статистически равны, т.е. отличаются незначительно. Очевидно, если множество Х(n) имеет классы, далеко отстающие друг от друга, то гистограмма
его ОВР имеет хотя бы один СЗЛМ.
Определение 2.3.
Пара точек однородна, если эти точки принадле-
жат одному какому-то классу s, Xi, Xj  s, s {1,2, …, k}.
Определение 2.4.
Пара точек (Xi, Xj) неоднородна, если эти точки
принадлежат разным классам, Xi  s,
Xj  t, s = t, s, t {1,2, …, k}.
На рис. 2.19 изображено множество Х(n), состоящее из трех классов,
далеко отстоящих друг от друга. Гистограмма ОВР множества Х(n) имеет
один СЗЛМ (рис. 2.20), наблюдаемый на отрезке [rq, rq+1].
Расстояние между точками каждой однородной пары rij( 0 ) меньше
расстояния между точками каждой неоднородной пары riu( Н ) ,
rij( 0 ) < riu( Н ) ,
так что некоторая точка отрезка [rq, rq+1] является границей множеств расстояний между точками однородных пар { rij( 0 ) } и неоднородных пар { riu( Н ) }.
Левый конец отрезка [rq, rq+1] можно считать оценкой (приближенным значением) наибольшего диаметра классов dmax,
~
d max  rq .
(2.39)
На рис. 2.21. представлено множество Х(n), состоящее из трех классов, далеко отстоящих друг от друга. Гистограмма ОВР такого множества
имеет два СЗЛМ (рис. 2.22). Первый СЗЛМ (нумерация идет слева напра-
51
во) наблюдается в промежутке [rq, rq+1]. Расстояние между точками почти
каждой однородной пары лежит на отрезке [r1, rq], а расстояния между
точками каждой неоднородной пары лежат на отрезке [rq+1, r(s)], причем на
отрезке [rq+1, ru] находятся расстояния между точками из классов 1, 2 и
2, 3, а на отрезке [ru+1, r(s)] – расстояния между точками из классов 1, 3.
Можно привести пример, когда гистограмма ОВР множества Х(n), состоящего из трех далеко отстоящих друг от друга классов имеет три СЗЛМ
[12].
Если данное множество Х(n) однородно или состоит из классов, близко расположенных друг другу (рис. 2.23), то гистограмма его ОВР не содержит ни одного СЗЛМ и имеет вид, аналогичный представленным на
рис. 2.15, 2.18.
Из наших рассуждений делаем следующие выводы:
1. Если гистограмма ОВР данного множества Х(n) имеет хотя бы один
СЗЛМ, то в этом множестве есть классы, далеко отстоящие друг от друга, и
оценка наибольшего диаметра таких классов определяется равенством (2.39).
2. Если гистограмма ОВР данного множества Х(n) не имеет ни одного
СЗЛМ, то это множество однородно или состоит из классов, близко расположенных друг к другу.
3. Если гистограмма ОВР имеет «длинный хвост», то множество Х(n)
содержит резко выделяющиеся наблюдения (рис. 2.24), которые можно считать классами с малым числом элементов (рис. 2.25).
Отметим, что исследование структуры множества Х(n) по ОВР можно
проводить и в одномерном случае, предварительно задав на этом множестве
подходящую метрику.
2
dmax
1
3
Рис. 2. 19
52
~
f (r )
r(1)
0
rq rq+1
r(s)
r
Рис. 2.20
1
2
3
Рис. 2.21
~
f (r )
0
r(1)
r(s)
ru ru+1
rq rq+1
r
Рис. 2.22
x2
x2
1
2
1
0
x1
а
Рис. 2.23
53
0
x1
б
~
f (r )
x2
1
2
r
0
0
Рис. 2.24
3
x1
Рис. 2.25
8.3. Оценивание числа классов
Полагаем, что классы исследуемого множества имеют статистически
(почти) равные плотности точек, а на гистограмме ОВР этого множества
наблюдается хотя бы один СЗЛМ (рис. 2.22).
Оценим число классов k множества Х(n) по числу СЗЛМ гистограммы
~ - число наблюдаемых СЗЛМ на гистограмме ОВР, а m –
его ОВР. Пусть m
максимальное число СЗЛМ этой гистограммы, которое обусловлено наличием k классов, далеко отстоящих друг от друга. Очевидно,
m  C 2k 
k(k  1)
.
2
Тогда
~  k (k  1) .
m
2
Решая это квадратное неравенство, получим
~ ) 12
1  (1  8m
k
.
2
(2.40)
Переходя в неравенстве (2.40) к целочисленным решениям, получим
54
1


~
2
1

(
1

8
m
)
k  E
   1 ,


2


(2.41)
где  – малое положительное число, Е[Y] – целая часть Y.
Оценку снизу для числа классов можно получить другим способом,
по числу однородных пар. Число пар точек множества Х(n) равно n2, пусть
n0 – число его однородных пар. Тогда оценка вероятности того, что произвольная пара (Xi, Xj) точек множества Х(n) однородна, равна
~ n0
P0  2 .
n
(2.42)
Оценим число однородных пар по ОВР. На гистограмме ОВР фиксируем первый СЗЛМ (нумерация идет слева направо), на рис. 2.22 первый
СЗЛМ обнаруживается на отрезке [rq, rq+1]. Очевидно, все r(i) ОВР, которые
удовлетворяют неравенству
r(i)  rq , i = 1, 2, …, i0,
являются расстояниями между точками однородной пары. Тогда число однородных пар, оцениваемое по ОВР, равно i0,
i 0  arg max ri   rq .
i
Учитывая, что в ОВР входят лишь все те элементы матрицы (2.36),
которые стоят выше ее главной диагонали, имеем
n 0  2i 0  n ,
n в
(2.43)
правой части (2.43) – это число однородных пар вида (Xi, Xi),
i = 1, 2, …, n. В силу равенств (2.42), (2.43) имеем
~ 2i 0  n 
.
P0 
n2
(2.44)
~
Найдем P0 через априорные вероятности классов 1, 2, …, k.
i  0,
k

i 1
i
 1.
(2.45)
Вероятность того, что произвольная пара точек (Xi, Xj) однородна и обе
55
точки Хi, Хj принадлежат одному какому-то классу s, s {1,2,…, k}, равна
s2. Тогда вероятность того, что произвольная пара точек (Хi, Хj) однородна, равна 12  22  ...  S2 . Функция
k
P0 (1 , 2 , ..., k )   S2
S1
обладает тем свойством, что ее минимум при условиях (2.45) равен 1/k и
достигается в точке [12]
1 = 2 = … = k =
1
,
k
min P0 (1 , 2 , ..., k ) 
 ,  , ..., 
1
2
k
1
.
k
Тогда имеем
1
P0 (1 , 1 , ..., k )  .
k
(2.46)
На основании соотношений (2.44), (2.46) получим
n2
k
,
2i 0  n
или в целочисленном виде
 n2

k  E
   1 ,
 2i 0  n

(2.47)
где  – некоторое малое положительное число, E[Y] – целая часть Y.
Неравенства (2.41), (2.47) оценивают число классов снизу. Дадим для
числа k оценку сверху через число инвариантных пар [12].
Определение 2.5. Пара точек (Хi0, Хj0) инвариантна, если каждая из
них является ближайшей соседней точкой для другой.
r (Х i 0 , Х j0 )  min r (Х i 0 , Х j ),
j  i0 ,
j  1, 2, ..., n ,
r (Х i 0 , Х j0 )  min r (Х i , Х j0 ),
i  j0 ,
i  1, 2, ..., n .
j
i
Каждое множество точек имеет хотя бы одну инвариантную пару.
Например, в множестве X(n) инвариантной является та пара точек, расстоя56
ние между которыми равно r(1), r(1) – первый член ОВР этого множества.
Каждый класс S  X(n), s = 1, 2, …, k, имеет хотя бы одну инвариантную
пару точек. Если ninv– число инвариантных пар множества X(n), то для числа его классов k имеем
k < ninv.
(2.48)
Эксперименты показали, что каждый класс имеет не менее одной инвариантной пары точек и число инвариантных пар ninv растет с увеличением элементов n множества X(n), составляя от него 25–30%. Так что оценка
(2.48) удобна лишь при небольших значениях n, n  30.
Отметим, что оценки для числа классов (2.41), (2.47), (2.48) можно
использовать и в одномерном случае, если на данном множестве (2.32)
предварительно задать подходящую метрику и построить гистограмму его
ОВР.
8.4. Обнаружение классов с резко различающимися
плотностями точек
Локальные минимумы гистограммы ОВР могут порождаться существованием в множестве X(n) как классов, далеко отстоящих друг от друга,
так и классов с резко различающимися плотностями точек (РРПТ). Поэтому для корректного использования оценок для (2.41), (2.47) необходимо
разделить множество X(n) на такие подмножества, в которых классы имеют
статистически равные плотности точек.
Для обнаружения классов с резко различающимися плотностями точек строится вариационный ряд минимальных расстояний. Минимальное
расстояние от точки Хi – это расстояние от Хi до ее ближайшей соседней
точки,
ri min  min r (Х i , Х j ),
1 j n
Хi , Х j  X (n ) , i  j .
Определение 2.6. Вариационный ряд минимальных расстояний ВРmin – это
57
упорядоченное по возрастанию множество минимальных
расстояний
{ri min}, i=1, 2 , …, n,
(1)
( 2)
(n)
.
ВР min : rmin
 rmin
 ...  rmin
Для обнаружения классов с РРПТ при больших значениях n (n  30)
строится гистограмма ВРmin. Если на этой гистограмме наблюдается хотя
бы один СЗЛМ или «длинный хвост», то множество X(n) содержит классы с
РРПТ (рис. 2.27, 2.24).
~ (r )

x2
1
0
2
x1
0
r
Рис. 2.27
Рис. 2.26
Обнаружить классы с РРПТ можно и другим способом, применимым
и для малых значениях n. Рассматривается последовательность отношений
i 
( i 1)
rmin
, i  1, 2, ..., n  1 .
(i )
rmin
(2.48)
Если в последовательности (2.48) есть элементы, удовлетворяющие
соотношению
 i  1 , i = 1, 2, ..., n – 1,
(2.49)
то множество Х(n) содержит классы в РРПТ. Если неравенство (2.49) выполняется  раз, то множество Х(n) имеет не менее  + 1 классов с РРПТ,
k   + 1.
В этом случае для дальнейшего исследования структуры множества
Х(n) его необходимо разделить на  + 1 подмножеств с почти равными
плотностями точек. Каждое из этих подмножеств может быть объединением классов.
58
Глава 3. Общая математическая теория принятия решений
Рассматривается элементарная теория принятия решений (ТПР) в
условиях неопределенности и риска. Предполагается, что человек находится как бы в состоянии игры с природой. А так как природа не может
быть сознательным противником, то критерий минимального гарантированного результата (критерий максимина) в ТПР не может иметь большого значения в отличие от теории игр. Этот критерий в игре с природой
слишком пессимистичен [13].
Основное внимание будет уделено более реалистичному байесовскому подходу, который позволяет рассматривать процесс ПР как процесс
обучения. Проведя достаточно большое число экспериментов и используя
формулу Байеса, можно, хотя бы теоретически, сколь угодно точно оценить вероятности возможных состояний природы. А это ставит лицо, принимающее решение (ЛПР), в условия, близкие к достоверным.
Как уже отмечалось, принятие конкретного решения человеком в той
или иной области базируется на его практическом опыте, знании существа
дела, интуиции.
Математическая теория принятия решения – дополнительное средство, помогающее принимать решение. Полезность этой теории состоит в
том, что она дает правильную ориентацию человеку, настраивает его на
количественный лад. Она формализует процесс ПР, а это открывает большие возможности применения ЭВМ.
Наиболее важными особенностями ситуации ПР являются следующие:
1. Наличие не менее двух взаимоисключающих вариантов, из которых должен быть выбран только один.
2. Наличие критерия, позволяющего количественно оценивать имеющиеся варианты, и по этим оценкам осуществлять выбор.
59
Вопрос о критериях является наиболее сложным. Обычно трудно
приписать каждому варианту определенное числовое значение. В большинстве практических случаев эти числовые значения можно задавать
весьма приближенно и, к тому же, относительно.
Математическую теорию ПР можно рассматривать как часть математической статистики. Раздел «Теория статистической проверки гипотез»
относится с точностью до терминов к ТПР. С другой стороны, ТПР можно
рассматривать как часть теории исследования операций, поскольку в обеих
теориях из множества вариантов согласно некоторому критерию выбирается наилучший.
Теория принятия решений, как и родственная ей теория игр, – раздел
прикладной математики, в котором исследуется весьма широкий класс задач оптимизации. Центральное место в ТПР играют байесовские стратегии, позволяющие рассматривать процесс принятия решений как своеобразный обучающий процесс.
§1. Принятие решений в условиях неопределенности
Пусть имеется совокупность действий, операций
а1, а2, ..., аm,
m  2,
(3.1)
которые может совершить человек для достижения поставленной цели,
причем одну и только одну операцию аi, i{1, 2, ..., m}, выбирает человек,
принимающий решение.
Кроме того, представлен перечень объективных условий, например,
состояний природы
Q1, Q2, ..., Qn,
(3.2)
одно из которых Qj, j{1, 2, ..., n}, будет иметь место в действительности.
Для каждой операции аi, i = 1, 2, ..., m, при любом условии Qj,
j = 1, 2, ..., n, задана полезность (выгода, доход) в некоторых единицах ij.
60
Величины ij, играющие роль платежей в теории игр, обычно задаются из
эвристических, субъективных соображений. При этом возникают специфические трудности при их числовой оценке, обусловленные такими факторами, как болезни, удовольствия, престиж, репутация и т.д. Величины ij
можно задавать относительно, поэтому их называют показателями предпочтительности.
Все перечисленные условия, при которых принимается решение,
представлены в табл. 3.1.
Таблица 3.1
Объективные
условия
Операции
a1
a2
…
am
Q1
Q2
…
Qn
11
21
…
m1
12
22
…
m2
…
…
…
…
1n
2n
…
mn
Если ЛПР не располагает никакой информацией о состояниях природы (3.2), то имеем ситуацию принятия решения в условиях неопределенности. Рассмотрим три известных подхода ПР в этой ситуации.
1.1. Критерий максимина
Для каждой операции аi, i = 1, 2, ..., m, находим наихудший исход,
min  ij   ij 0 ,
j
j0  1, 2, ..., n.
(3.3а)
Затем определяется то значение i0, при котором величина  ij 0 максимальна,
max ij  i j ,
i
0
0 0
i 0  1, 2, ..., m.
(3.3.б)
Принимаемое решение – выбор наилучшей операции a i из множества
0
исходных (3.1). Равенства (3.3а), (3.3б) можно объединить в одно
max min  ij   i j .
1im 1 j n
0 0
61
(3.4)
Рассмотренная операция максимин соответствует лучшему из худших исходов. Критерий максимина является чисто перестраховочным, поскольку природа не может быть сознательным противником. Максиминную операцию использует только крайний пессимист, не желающий идти
ни на какой риск. Обычно такие люди довольствуются малым и предпочитают спокойную жизнь.
1.2. Критерий минимакса сожалений
Определение 3.1. Сожаление в ТПР – потери в результате упущенных
возможностей.
Пусть природа находится в состоянии Qs, найдем максимальный
элемент s-го столбца табл. 3.1,
s  1, 2, ..., n.
max is  i s ,
1i  m
Мера сожаления определяется как разность
 is   i s   is , i  1,2,..., m, s  1,2,..., n,
где  is  0;  is  0, если i  i s ;  is  0, если i  i s . Тогда при состоянии природы Qs лучшей операцией является a i s : для нее сожаление равно
нулю. Изменяя последовательно значения s, s = 1,2,…, n, получим сожаление для каждой операции ai, i=1,2,…, m, при любом состояния природы
Qs, s=1,2,…, n. Матрица сожалений представлена в табл. 3.2.
Для принятия решения к табл. 3.2 применяется критерий минимакса
(minmax): для каждой операции ai, i=1,2,…, m, находится наибольшее сожаление,
max  is   is i , i  1,2,..., m.
1 s  n
Таблица 3.2
Qj
Q1
Q2
62
…
Qn
ai
11
21
…
m1
a1
a2
…
am
12
22
…
m2
…
…
…
…
1n
2n
…
mn
Затем среди членов последовательности { is i } , i=1,2,…, m, s = 1,2,…, n,
находится минимальный
min  is i   i 0 s 0 .
1 i  m
Последние два равенства соединим в одно:
min max is  i 0s 0 .
1 i  m 1 s  n
Принимаемое решение – наилучшая операция a i 0 , i 0   1,2,...,m .
1.3. Критерий равновозможных состояний
По этому критерию выбирается та операция ai0, для которой сумма
полезностей
n
Ai    is
s 1
максимальна,
A i 0  max A i .
1 i  m
1.4. Решение конкретной задачи
Рассмотрим на конкретном примере принятие решений по трем описанным критериям. Пусть m=3, n=2 и матрица полезностей представлена в
табл. 3.3.
Qs
ai
a1
a2
a3
Q1
Q2
1
10
0
11
6
14
Таблица 3.3
63
Таблица 3.4
Например, ai – i-й вариант технологического
процесса для изготовления некоторых изделий, Q1 –
возникновение дефицита в ближайшие два года на
сырье, из которого изготовляются детали, Q2 – отсут-
Qs
ai
a1
a2
a3
Q1
Q2
9
0
10
3
8
0
ствие такого дефицита.
1. Применяя операцию максимина, получим
min(1, 11)  1, min(10, 6)  6, min( 0, 14)  0, max(1, 6, 0)  6.
Максиминной операцией является операция а2, гарантирующая
6 единиц полезности.
2. Для использования критерия минимакса сожалений необходимо
для данных табл. 3.3 найти матрицу сожалений. Сначала находим максимальный элемент каждого столбца этой таблицы:
max ( 1, 10, 0 )  10,
max ( 11, 6, 14 )  14.
Тогда матрица сожалений примет вид, представленный в табл. 3.4.
Применяя к данным этой таблицы критерий минимакса, получим
max(9, 3) = 9, max(0, 8) = 8, max(10, 0) = 10, min(9, 8, 10) = 8.
Следовательно, операцией, соответствующей минимаксу сожалений,
является операция а2.
3. По критерию равновозможных состояний для данных табл. 3.3
имеем
Аi = 1+11 = 12, A2 = 10+6 = 16, A3 = 0+14 = 14, max(12, 16, 14)  16 .
состояний природы является операция а2. В рассмотренном примере все
три критерия дали один и тот же ответ: операция а2 является оптимальной,
она гарантирует 6 ед. полезности.
Если выбрать операцию а1, то в случае везения получим 11 ед. полезности, а в случае невезения – всего 1 ед. полезности. Если выбрать операцию а3, то в случае везения имеем 14 ед. полезности, а в случае невезения –
64
0 ед. полезности. Операция а2 гарантирует наибольшую полезность, 6 ед.
Конкурирующие операции а1 и а3 гарантируют меньшие полезности: 1 ед.
и 0 ед. соответственно.
§ 2. Принятие решений в условиях риска
Ситуация ПР в условиях риска возникает в случаях, когда известны
априорные вероятности состояний природы
р(Q1), р(Q2), … , р(Qn),
n
 p (Q j )  1 .
j1
(3.5)
Естественно воспользоваться этой дополнительной информацией. С
этой целью для каждой операции аi находят взвешенные суммы полезностей
n
~
Ai   p(Q j ) ij , i=1,2, …, m ,
j1
(3.6)
и выбирают в качестве наилучшей ту операцию a i 0 , для которой взвешенная сумма полезностей в (3.6) максимальна,
~
~
max (A i)  A i 0 .
1im
Пусть в рассмотренном выше примере р(Q1)=0.25, р(Q2)=0.75. По
данным табл. 3.3 имеем
~
А1 = 10.25 + 110.75 = 8.5,
~
А 2 = 100.25 + 60.75 = 7.0,
~
А 3 = 00.25 + 140.75 = 10.5,
max (8.5; 7.0; 10.5) = 10.5.
Следовательно, наилучшей операцией является операция а3, если
р(Q1)=0.25, р(Q2)=0.75. Но при других значениях априорных вероятностей
65
состояний природы возможен и другой выбор. Используя данные табл.3.3
и формулу (3.6) для каждой операции аi, i = 1,2,3, имеем
~
А1 (p) = р +11(1 – p) = 11 – 10p,
~
А 2 (p) = 10p +6(1 – p) = 6 + 4p,
~
А 3 (p) = 14(1 – p) = 14 – 14p.
~
На рис.3.1 даны графики функций Аi (р) , i = 1, 2, 3.
~
Аi
16
~
А3
14
12
10
~
А1
В
8
~
А2
6
4
2
0
4
9
0
1
р
Рис.3.1
~
~
4
9
Прямые А 3 , А 2 пересекаются в точке В, при р  , вычисленном из
равенства 6 + 4р = 14 – 14р. Из рис. 3.1 следует, что при 0  p 
операцией является
а3, а при
4
9
лучшей
4
 p  1 лучшей операцией является
9
а 2.
4
безразлично, какую операцию а2 или а3 использовать. Опера9
цию а1 применять невыгодно.
При р 
Если р=0 или 1, то имеем ситуацию ПР в условиях достоверности.
При р=0 лучшая операция – а3, при р=1 лучшая операция – а2.
66
§3. Принятие решений при проведении эксперимента
3.1. Принятие решений в условиях неопределенности
Человек, прежде чем принять решение, пытается получить некоторую информацию о состоянии природы экспериментальным путем. Предполагается, что проведение эксперимента не требует никаких затрат,
Пусть проведен эксперимент, имеющий t исходов – возможных прогнозов состояния природы,
Z=(z1, z2,…, zt),
t  n.
Известна условная вероятность Р(zβ/Qj) -го результата эксперимента
при состоянии природы Qj,
Pj= Р(zβ/Qj), =1,2,…,t, j=1,2,…,n.
(3.7)
Множество значений Pj можно представить в виде матрицы размера
t·n, данной в табл. 3.5.
Для использования информации, полученной в результате эксперимента, введем понятие стратегии.
67
Таблица 3.5
Qj
Q1
Q2
…
Qn
P11
P21
…
Pt1
P12
P22
…
Pt2
…
…
…
…
P1n
P2n
…
Ptn
Z
z1
z2
…
zt
Определение 3.2. Стратегия - это соответствие последовательности
t результатов эксперимента последовательности t операций,
(z1, z2,…, zt)→ (ai, aj,…, ak).
(3.8)
Выражение (3.8) подразумевает, что
z1→ ai, i 1,2,...m,
z2→ aj, j 1,2,...m,
……………………
zt→ ak, k 1,2,...m.
Число возможных стратегий  определяется формулой
 = mt,
m – число операций, t - число результатов эксперимента. При m=2, t=3
всевозможные стратегии представлены в табл.3.6.
Таблица 3.6
Si
z
z1
z2
z3
S1
S2
S3
S4
S5
S6
S7
S8
a1
a1
a1
a1
a1
а2
a1
а2
a1
a1
а2
а2
а2
a1
a1
а2
a1
а2
а2
а2
a1
а2
а2
а2
Задача ПР формулируется так: какую одну из операций a1,a2,…, am
68
следует выбрать в зависимости от одного из результатов эксперимента z1,
z2,…, zt.
Для принятия решения находим усредненные полезности стратегий
Si, i= 1,2, …, , при состояниях природы Qj, j=1, 2, …, n,
t
U(Si,Qj)=  αi β j Pβ j , i= 1,2, …, ,
j=1, 2, …, n,
(3.9)
 1
где αiβj - полезность β-й компоненты i-й стратегии при состоянии природы
Qj, Pβj – условная вероятность β-го результата эксперимента при состоянии
природы Qj. Стратегия Si определена множеством операций, значения αi β j
берутся из таблицы полезностей значения Pβj – из табл. 3.5. Полученные
значения усредненных полезностей U(Si,Qj) можно записать в виде матрицы размера n·. Для принятия решения – выбора наилучшей стратегии
можно воспользоваться уже рассмотренными критериями: максимина, минимакса сожалений и равновозможных состояний.
Рассмотрим конкретный пример. Предполагаются лишь два состояния
природы: Q1 - теплая погода, Q2 – холодная погода,
и - только две операции: a 1 – одеться для теплой погоды, a 2 –одеться для
холодной погоды. Эта ситуация характерна для туристов. Матрица полезности дана в табл.3.7.
Таблица 3.7
Qj
Q1
Q2
a1
10
0
a2
4
7
ai
Таблица 3.8
Qj
z
z1
z2
z3
Q1
Q2
0.6
0.2
0.2
0.3
0.5
0.2
Критерий максимина гарантирует 4 ед. полезности и рекомендует
выбирать операцию а2. Критерий минимакса дает этот же ответ.
Но есть возможность воспользоваться данными прогноза погоды (в
этом и состоит эксперимент), которые могут быть трех видов:
z1 – ожидается теплая погода,
69
z2 – ожидается холодная погода,
z3 – прогноз неизвестен.
Из прошлого опыта известны условные вероятности этих трех видов прогноза для каждого состояния природы Pj , =1,2,3, j =1,2, представленные
в табл. 3.8.
Для каждой из 8 стратегий и каждого из 2–х состояний природы
определим взвешенные суммы полезностей по формуле (3.9), используя
данные табл. 3.6 – 3.8,
U(S1,Q1) =100.6 + 100.2 +100.2 =10,
U(S2,Q1) =100.6 + 100.2 +40.2 = 8.8,
U(S3,Q1) =100.6 + 40.2 + 100.2 = 8.8,
........................................................
U(S8,Q1) = 40.6 + 40.2 + 40.2 = 4,
U(S1,Q2) = 00.3 + 00.5 +00.2 = 0,
.........................................................
U(S8,Q2) = 70.3 + 70.5 + 70.2 = 7.
Все вычисленные значения U(Si,Qj), i = 1,2,…8, j = 1, 2, помещены в
табл.3.9, [13].
Таблица 3.9
Si
Qj
Q1
Q2
S1
10
0
_
S2
8.8
1.4
S3
8.8
3.5
S4
7.6
4.9
_
S5
6.4
2.1
_
S6
5.2
3.5
S7
5.2
5.6
S8
4
7
Из табл. 3.9 предварительно следует исключить плохие стратегии –
те стратегии, обе компоненты которых не больше () соответствующих
компонент какой–либо другой стратегии. Ввиду того, что S 2  S3 , S5  S 4 ,
S6 ≤ S7, стратегии S 2 , S5 , S6 исключаются из рассмотрения (в табл. 3.9 они
помечены знаком "–").
К оставшимся допустимым стратегиям S1 , S3 , S 4 , S 7 , S8 можно применить известные нам критерии. Используя критерий максимина, имеем
min (10, 0)  0 , min (8.8, 3.5)  3.5 ,
70
min (7.6, 4.9)  4.9 , min (5.2, 5.6)  5.2 , min (4, 7)  4 ,
max (0, 3.5, 4.9, 5.2, 4)  5.2 .
Следовательно, наилучшей стратегией является стратегия S7, гарантирующая 5.2 ед. полезности. Для сравнения максиминная операция a 2 гарантирует лишь 4 ед. полезности. Так как S7 = (a2, a2, a1), то в силу (3.8)
имеем
z1, z2 , z3  a2 , a2 , a1 .
Это значит, что при прогнозе z1 выбирается операция а2, при прогнозе
z2
– a2, при прогнозе z3 – a1, т.е. максиминная стратегия S7 рекомендует одеваться тепло, если прогноз – теплая или холодная погода, и одеваться легко, если прогноз неизвестен. Последнее утверждение весьма непрактично.
Максиминная стратегия S7 при неблагоприятном стечении обстоятельств может привести и к худшему результату, чем максиминная операция a 2 . Например, имеет место холодная погода Q2 . Тогда согласно максиминной операции a 2 турист получит 7 ед. полезности (табл. 3.7). С
другой стороны, если результат прогноза будет z3 (прогноз неизвестен) и
согласно стратегии S7 будет выбрана операция a1 (одеться легко),то он получит 0 ед. полезности. Это явление –– типичное для теории игр и теории
принятия решений. S7 гарантирует лишь среднюю полезность в 5.2 ед.
3.2. Использование смешанной стратегии
Определение 3.3. Стратегия S* называется смешанной, если она представлена в виде выпуклой комбинации двух других стратегий,
S* = сSm1 + (1 - с)Sm2, 0<с<1, m1, m2  {1, 2, …, t}.
Это определение базируется на понятии выпуклой комбинации точек
[14]. Переход к смешанной стратегии осуществляется с целью повышения
гарантированной средней полезности.
Стратегии рассмотренного выше примера изобразим точками на
71
плоскости
координатами u1  U(Si , Q1) , u2  U(Si , Q2) , i=1,3,4,7,8
с
(рис. 3.2).
u1
12
10
8
S8
S*
6
S4
S7
S3
4
2
u1
S1
0
0
2
4
6
8
10
12
Рис. 3.2
По рис. 3.2 видно, что если взять в определенных пропорциях стратегии S4 и S8, то получим смешанную стратегию, лучшую по сравнению со
стратегией S7. Проведем биссектрису I координатного угла и найдем точку
пересечения ее с отрезком [S4, S8] –– точку S* .
Запишем
уравнение
прямой,
проходящей
через
две
точки:
S4(7.6; 4.9), S8 (4;7) [15],
u1  4
u 7 ,
 2
7.6  4 4.9  7
которое приводится к виду
7 u1  12 u2  112  0 .
Из этого уравнения находим координаты точки S* , для которой u1  u 2 ,
* 112 112
,
).
S(
19 19
Так как
112
 5.89 , то стратегия S* лучше стратегии S7, гарантирующей
19
5.2 ед. полезности, S*>S7.
72
Теперь остается представить стратегию S* в виде выпуклой комбинации стратегий S4, S8,
S* = cS4 + (1 – c)S8, 0 < c <1.
(3.10)
Для определения значения параметра c достаточно записать уравнение
(3.10) для абсцисс входящих в него точек
112 38

– +4(1 - c),
19
5
из которого получаем с =
10
. Тогда равенство (3.10) принимает вид
19
*
S 
10
9
S4  S8 .
19
19
(3.11)
Так как S4  (a1 , a 2 , a 2) , S8  (a 2 , a 2 , a 2) , то в силу равенства (3.11) имеем
9
 10

*
S   a1  a 2 , a 2 , a 2  .
19
 19

Практически смешанную стратегию S* можно реализовать так. Если
результат эксперимента есть z2 или z3, то используется операция a2.
Если же результат эксперимента есть z1, то с помощью подходящего
случайного механизма с вероятностью
роятностью
10
используется операция a1 и с ве19
9
–– операция а2. Основой случайного механизма могут
19
служить 19 одинаковых карточек, на 10 из которых записан символ а 1, а на
9 –– символ а2. Из этого набора 19 карточек случайно выбирается одна, и
используется та операция, символ, которой изображен на этой карточке.
3.3. Принятие решений в условиях риска
К условиям, перечисленным в п. 3.1, добавляется еще одно – значения априорных вероятностей состояний окружающей среды (природы):
p(Q1), p(Q2), ..., p(Qn).
73
(3.12)
Тогда для каждой стратегии Si , i  1,2,...,, определяется усредненная по
~
всем состояниям природы средняя полезность U(S
i ) по формуле
n
~
U(S i )   U(S i , Q j )p(Q j ),
i  1,2,..., , ,
(3.13)
j1
U(Si,Qj) – полезность стратегии Si при состоянии природы Q j , которая
~
находится по формуле (3.9). Затем из множества {U(S
i )} , i  1,2,...,  , выде-
ляется максимальный элемент,
~
~
max(U(S i ))  U(S i0 ) ,
0i  
i 0 {1, 2,...,  } .
Определение 3.4. Стратегия Si , обладающая максимальной средней
0
~
полезностью U(Si ) , называется байесовской стратегией,
~
~
U(Si0 )  U(Si ) , i  1,2,...,  .
Пусть в рассмотренном ранее примере р(Q1) = 0.6, p(Q2) = 0.4. Используя данные табл. 3.9 и формулу (3.13), вычислим среднюю полезность
для каждой допустимой стратегии,
~
U(S1 ) = 100.6 + 00.4 = 6,
~
U(S 3 ) = 8.80.6 + 3.50.4 = 6.68,
~
U(S 4 ) = 7.60.6 + 4.90.4 = 6.52,
~
U(S 7 ) = 5.20.6 +5.60.4 =5.36,
~
U(S 8 ) = 40.6 + 70.4 =5.2 .
Затем найдем наибольшее число из полученных пяти чисел,
max( 6, 6.68, 6.52, 5.36, 5.2)  6.68.
Следовательно, оптимальной стратегией является стратегия S3 , обладающая максимальной средней полезностью, равной 6.68 ед.
Заметим, что стратегия S3 является байесовской для конкретных
значений априорных вероятностей: р(Q1) = 0.6, p(Q2) = 0.4. При других
74
значениях р(Q1), р(Q2) байесовской может быть и другая стратегия. Так,
при р(Q1) = 0.5, p(Q2) = 0.5 байесовской является стратегия S4 .
Проведение эксперимента в рассмотренной ситуации выгодно. Действительно, если эксперимент не проводить, то по данным табл. 3.7 имеем
~
U(a 1 )  10  0.6  0  0.4  6,
~
U(a 2 )  4  0.6  7  0.4  5.2 .
Байесовской операцией (стратегией) является операция а1, средняя полезность которой равна 6 ед.
Для дальнейших рассуждений нам понадобится объединить выражения (3.13), (3.9) в одно,
n
t
~
U(Si )   p(Q j )  P(z / Q j ) i j .
j=1
=1
Меняя порядок суммирования в правой части последнего равенства, получим
t  n

~
U(S i )    p(Q j ) P(z  / Q j ) i j  , i = 1,2,...,t .
=1  j=1

(3.14)
Из этого равенства следует, что при выборе оптимальной стратегии S i0
~
максимизация U(Si ) сводится к максимизации выражения в квадратных
скобках в правой части (3.14), т.е. для каждого результата эксперимента zβ
максимизация полезности Uβ(ai) сводится к выбору такой операции a i , которая максимизирует выражение в квадратных скобках.
3.4. Использование формулы Байеса
В общем случае число допустимых стратегий Si, i = 1, 2,…,  , может
быть очень велико, и поэтому пользоваться формулой (3.13) затруднительно. Эта трудность обходится с помощью формулы Байеса [3, 8, 13]. Проводя эксперимент, оценивают новые апостериорные вероятности состояний
природы P(Qj/z), j = 1, 2, …, n,
= 1, 2, …, t. Используя эти уточненные
75
вероятности состояний природы, находят оптимальную операцию ai, i 
{1, 2, …, m}, обычным способом. Для простоты предположим, что распределения дискретные. Согласно формуле Байеса для апостериорной вероятности состояния природы Qj при результате эксперимента z имеем

 PPzzQ j pQ j , j= 1, 2,…,n,  =1, 2,…, t,
P Q j z 

(3.15)

P z  Q j – известная условная вероятность получить результат экспери-
мента z при состоянии природы Qj, p(Qj) – априорная вероятность состояния природы Qj, P(z) – полная вероятность результата эксперимен-та z
Pz  
n
Pz
 
Qj p Qj .

(3.16)
j 1
Фиксируя , {1, 2,…, t}, для каждой операции ai, i =1, 2, … ,m,
находим среднюю полезность U (ai ) по формуле
U  a i  
n
 PQ
j
z    ij ,
(3.17)
j1


P Q j z  – условная вероятность, определяемая из равенства (3.15),  i j –
полезность операции a i при состоянии природы Qj. Далее при фиксированном значении  находим
max U a i   U (a i  ) .
l i  m
Операцию a i  , i {1, 2,…, m}, считаем оптимальной для данного результата эксперимента z, {1, 2,…, t},


a i   arg max U a i  .
li  m
Покажем, что таким путем получается байесовская стратегия
SB = (a i1 , a i 2 ,..., a i  ,..., a i t ) .
76
В силу формул (3.15) – (3.17) имеем
U a i  
n

j 1
Pz Q j 
Pz 
1 

pQ j   ij 
Pz  

n

j 1

Pz Q j  pQ j   ij  . (3.18)

Из этого равенства следует, что для каждого результата эксперимента z максимизация полезности U(ai ) сводится к отысканию такой операции a i   которая максимизирует выражение в квадратных скобках в его
правой части
В формулах (3.14), (3.18) для каждого результата эксперимента мак~
симизация U(Si ) , U (ai) сводится к нахождению такой операции a i  , которая максимизирует выражения в квадратных скобках, стоящих в их правых
частях. А так как эти максимизирующие операции совпадают, то оба метода приводят к одному и тому же результату, что и требовалось доказать.
Затем находится максимальная усредненная по всем результатам
эксперимента средняя полезность по формуле
t
~
~
u   P(zβ )  max Uβ (a i ), i=1,2,…,m,
(3.19)
i
β 1
где U(ai) определяется из равенства (3.17).
Отметим, что при отыскании оптимальной стратегии в вычислительном отношении проще использовать формулы (3.17), (3.15), а не формулы (3.13), (3.9).
В нашей задаче найдем оптимальную стратегию SB, используя второй метод, т.е. формулы (3.15) и (3.17).
Для = 1 находим U1(a1),U1(a2),
2
U1 (a1 ) 
2
 P (Q / z )
j
1
U1 (a 2 ) 
1j ,
j 1
 P (Q / z )
j
j 1
77
1
2 j,
P(Q1 / z1 ) 
P(z1 / Q1 )
p(Q1 ) ,
P(z1 )
P(z1 )  P(z1 / Q1 )p(Q1 )  P(z1 / Q 2 )p(Q 2 ) , P(Q 2 / z1 )  1  P(Q1 / z1 ) ,
P(z1 )  0.6  0.6  0.3  0.4  0.48 ,
P(Q1 / z1 ) 
0.6  0.6
 0.75 ,
0.48
P(Q 2 / z1 )  1  0.75  0.25 ,
U1 (a1 )  0.75  10  0.25  0  7.5 ,
U1 (a 2 )  0.75  4  0.25  7  4.75 ,
max U1 (a i )  7.5 ,
i = 1, 2.
i
Следовательно, при z1 оптимальной операцией является а1, дающая
7.5 ед. полезности, P(z1) = 0.48.
Для =2 находим U2(a1), U2(a2),
2
U 2 (a 1 ) 
2
 P (Q / z )
j
2
U 2 (a 2 ) 
1j ,
j 1
P(Q1 / z 2 ) 
 P (Q / z )
j
2
2j
,
j 1
P(z 2 / Q1 )
p(Q1 ) ,
P( z 2 )
P(z 2 )  P(z 2 / Q1 )p(Q1 )  P(z 2 / Q2 )p(Q2 ) , P(Q 2 / z 2 )  1  P(Q1 / z 2 ) ,
P(z 2 )  0.2  0.6  0.5  0.4  0.32 ,
P(Q1 / z 2 ) 
0.2  0.6
 0.375 ,
0.32
P(Q 2 / z 2 )  1  0.375  0.625 ,
U 2 (a1 )  0.375 10  0.625  0  3.75 ,
U 2 (a 2 )  0.375  4  0.625  7  5.875 ,
max U 2 (a i )  5.875 ,
i = 1, 2.
i
Следовательно, при z2 оптимальной операцией является a2, дающая
5.875 ед. полезности, P(z2)=0.32.
Для =3 находим U3(a1), U3(a2),
78
2
U 3 (a 1 ) 
2
 P ( Q / z )
j
3
U 3 (a 2 ) 
1j ,
j 1
P(Q1 / z 3 ) 
 P (Q / z )
j
3
2j
,
j 1
P(z 3 / Q1 )
p(Q1 ) ,
P( z 3 )
P(z 3 )  P(z 3 / Q1 )p(Q1 )  P(z 3 / Q 2 )p(Q 2 ) , P(Q 2 / z 3 )  1  P(Q1 / z 3 ) ,
P(z 3 )  0.2  0.6  0.2  0.4  0.20,
P(Q1 / z3 ) 
0.2  0.6
 0.6 ,
0.20
U 3 (a1 )  0.6  10  0.4  0  6 ,
PQ 2 / z 3   1  0.6  0.4,
U 3 (a 2 )  0.6  4  0.4  7  5.2 ,
max U3 (a i )  6 , i = 1, 2.
i
Следовательно, при z3 оптимальной операцией является a1, дающая 6
ед. полезности, P(z3)=0.20.
Оптимальной, байесовской стратегией является стратегия
S B  (a1 , a 2 , a1 ) ,
совпадающая со стратегией S3, полученной при использовании формул
(3.9), (3. 13).
Вычислим максимальную (усредненную по трем результатам эксперимента) среднюю полезность по формуле (3.19),
~
~
u  0.48  7.5  0.32  5.875  0.20  6  6.68 ,
~
что совпадает со значением U(S3 ) , полученным ранее.
79
§4. Принятие решений при проведении
нескольких экспериментов
4.1. Постановка задачи и методы ее решения
Пусть имеется возможность провести второй эксперимент Y, не зависимый от первого Z. Тогда можно уточнить апостериорные вероятности
состояний природы. За априорные вероятности состояний природы во 2-м
эксперименте принимаются их апостериорные вероятности, полученные на
основании 1-го эксперимента. Далее по формуле Байеса с использованием
результата 2-го эксперимента находятся новые, уточненные значения апостериорных вероятностей состояний природы [13].
Эксперименты Z, Y считаем независимыми, т.е.
P( Z, Y / Q j )  P( Z / Q j ) P(Y / Q j ) ,
(3.20)
где P( Z, Y / Q j ) – вероятность того, что результат 1-го эксперимента есть Z,
а результат 2-го эксперимента есть
Y при состоянии природы
Q j , j  1, 2, ..., n . Аналогичный смысл имеют условные вероятности
P( Z / Q j ), P(Y / Q j ) для 1-го и 2-го экспериментов.
Докажем, что апостериорная вероятность Q j при одновременном
использовании результатов двух экспериментов Z, Y P(Q j / Z, Y) равна
апостериорной вероятности
при их последовательном использовании
P(Q j / Z, Y) ,
P(Q j / Z, Y)  P(Q j / Z, Y) .
Для P(Q j / Z, Y) по формуле Байеса имеем
P(Q j / Z, Y) 
P( Z, Y / Q j )
P( Z, Y)
p (Q j ) 
P ( Z / Q j ) P ( Y / Q j ) p(Q j )
n
 P ( Z / Q j ) P ( Y / Q j ) p(Q j )
j1
80
.
(3.21)
С другой стороны, при последовательном использовании результатов 1-го и 2-го экспериментов, Z и Y, мы проводим вычисления в такой последовательности.
P (Q j / Y ) 
P(Y / Q j )
P(Y)
p (Q j ) .
(3.22)
Чтобы использовать результаты 1-го эксперимента, в правую часть (3.22)
вместо априорных вероятностей p(Q j ) подставляем апостериорные вероятности P(Q j / Z) , вычисленные на основе 1-го эксперимента по формуле
Байеса (3.15). Тогда выражение (3.22) преобразуется к виду
(3.23)
P(Q j / Z , Y ) 
P(Y / Q j ) P(Q j / Z )
n
 P(Y / Q ) P(Q
j 1

P( Z , Y / Q j ) p(Q j )
P( Z , Y )
j
j
/ Z)

P(Y / Q j ) P( Z / Q j ) p(Q j ) / P( Z )
n
 P(Y / Q ) P( Z / Q ) p(Q ) / P( Z )
j 1
j
j
j

что и требова-
 P(Q j / Z , Y ) ,
лось доказать. Последние два выражения в (3.23) получены на основании
равенства (3.20), (3.15) и (3.16) соответственно.
Пусть 1-й эксперимент имеет три исхода z,  = 1, 2, 3, а 2-й – два
исхода y,  = 1, 2. Тогда все возможные комбинации исходов экспериментов z, y можно представить в виде матрицы
 z1y1 z1y 2 


z
y
z
y
 2 1 2 2.
z y z y 
 3 1 3 2
Получается большее разнообразие исходов экспериментов, чем в
случае проведения только одного эксперимента.
Далее поступаем аналогично случаю проведения только одного экс81
перимента. Для каждого результата объединенного эксперимента ZY
находим для каждой операции ai, i = 1, 2,…, m, среднюю полезность
n
U  (a i )   P(Q j / z y  )  ij .
(3.24)
j1
По максимуму средней полезности выделяем оптимальную операцию a i ,

a i  arg max U (a i ) .
1i  m
Изменяя , , находим байесовскую стратегию. При  = 1, 2, 3,
 = 1, 2 имеем
z1y1  a i11 , z1y 2  a i12 ,
z 2 y1  a i 21 , z 2 y 2  a i 22 ,
z3 y1  a i 31 , z1y 2  a i 32 .
Далее средняя максимальная полезность находится по формуле
~
U(a i  )   P(z y  ) max U (a i ) .
(3.25)
i
, 
Если провести третий эксперимент, дающий дополнительную информацию о состоянии природы, то по формулам Байеса можно уточнить
вероятности состояний природы и повысить среднюю полезность принимаемого решения.
Проведя достаточно большое число разных экспериментов, можно с
вероятностью, близкой к единице, узнать истинное состояние природы. При
этом первоначальные значения априорных вероятностей состояний природы не имеют большого значения. Следовательно, при проведении серии
экспериментов процесс принятия решений можно рассматривать как процесс обучения: каждый дополнительный эксперимент как бы уменьшает
степень неопределенности относительно внешней среды и, следовательно,
82
позволяет принимать в среднем более правильные решения.
Если априорные вероятности какого-либо состояния природы равны
единице, то никакого обучения не происходит, ибо в этом случае апостериорные вероятности совпадают с априорными.
Пусть, например, p(Q1) = 1, p(Qj) = 0, j = 2, 3, … , n. Тогда по формуле Байеса получаем
P (Q j z  ) 
1, если j  1,
p (Q j )  
P(z Q j )
0, если j  2, 3, ..., n,
P(z Q j )
т.е. равенство апостериорных и априорных вероятностей.
Отсюда следует практический вывод: если нет полной уверенности
относительно истинного состояния природы и для прояснения обстановки
возможно провести эксперимент, то не следует одну из априорных вероятностей полагать равной единице.
4.2. Решение конкретной задачи
Рассмотрим конкретный пример: к условиям задачи, рассмотренной
в §3, добавим информацию, даваемую 2-м экспериментом y,  = 1, 2. Значения условных вероятностей P( y  / Q j ), j  1, 2 , записаны в табл. 3.10.
1. Для  = 1,  = 1 имеем
2
U11 (a1 )   P(Q j / z1y1 ) ij .
j1
На основании формул (3.21),
(3.16), (3.20) получим
P(z1y1 / Q1 )
P(Q1 / z1y1 ) 
p(Q1 ),
P(z1y1 )
Таблица 3.10
Qj
y
y1
y2
2
P(z1y1 )   P(z1y1 / Q j ) p(Q j ),
j1
P(z1y1 / Q j )  P(z1 / Q j ) P( y1 / Q j ).
83
Q1
Q2
0.8
0.2
0.3
0.7
Используя данные таблиц из 3.7, 3.8, 3.10, получим
P(z1y1 / Q1 )  0.6  0.8  0.48,
P(z1y1 / Q 2 )  0.3  0.3  0.09,
P(z1y1 )  0.48  0.6  0.09  0.4  0.324,
0.48  0.6 8
  0.9,
0.324
9
8 1
P(Q 2 / z1y1 )  1    0.1.
9 9
P(Q1 / z1y1 ) 
Используя данные табл. 3.7 и формулу (3.24), имеем
8
1
80
U11 (a1 )   10   0 
 9,
9
9
9
8
1
39
U11 (a 2 )   4   7 
 4.3,
9
9
9
max (9; 4.3)  9.
Следовательно, при  = 1,  = 1 оптимальной операцией является
операция a1,
z1y1  a1,
U11 (a1) 
80
,
9
P(z1y1)  0.324 .
2. Аналогично для  = 1,  = 2 имеем
2
U12 (a 1 )   P(Q j / z1 y 2 ) 1 j ,
j1
P(z1y 2 / Q1 )  P(z1 / Q1 ) P( y 2 / Q1 )  0.6  0.2  0.12,
P(z1y 2 / Q 2 )  P(z1 / Q 2 ) P( y 2 / Q 2 )  0.3  0.7  0.21,
2
P(z1y 2 )   P(z1y 2 / Q j ) p(Q j )  0.12  0.6  0.21  0.4  0.156,
j1
0.12  0.6 6
  0.46,
0.156
13
6 7
P(Q 2 / z1y 2 )  1    0.54,
13 13
P(Q1 / z1y 2 ) 
84
6
7
60
 10   0 
 4.6,
13
13
13
6
7
73
U12 (a 2 )   4   7 
 5.6,
13
13
13
U12 (a1 ) 
max (4.6; 5.6)  5.6.
Следовательно, при  = 1,  = 2 оптимальной операцией является
операция a2,
z1y 2  a 2 ,
U12 (a 2 ) 
73
,
13
P(z1y 2 )  0.156 .
Аналогично проводятся вычисления при  = 2,  = 1;  = 2,  = 2;
 = 3,  = 1;  = 3,  = 2. Результаты вычислений, представленные в табл.
3.11, заимствованы из [13].
Таблица 3.11
zy
P
aopt
U(aopt)
z1y1
0.324
a1
80
9
z1y2
0.156
a2
73
13
z2y1
0.156
a1
80
13
z2y2
0.164
a1
269
41
z3y1
0.12
a1
40
5
z3y2
0.08
a2
61
10
Оптимальную стратегию можно записать так:
z1y1  a1,
z1y2  a 2 ,
z 2 y1  a1,
z 2 y2  a1,
z3y1  a1,
z3 y 2  a 2 .
На основе формулы (3.25) и данных табл. 3.11, вычислим среднюю
полезность оптимальной стратегии
80
73
80
269
40
~
U  0.324   0.156   0.156   .164 
 0.12 

9
13
13
41
5
61
 0.08   7.24.
10
Как и следовало ожидать, средняя полезность увеличилась (с 6.68 до
7.24) при использовании добавочного эксперимента.
Проведение эксперимента позволяет уточнить вероятности состоя85
ний природы и, следовательно, принять решение, соответствующее большей средней полезности. Но проведение эксперимента требует определения затрат. И если эти затраты превысят прирост средней полезности, вызванный экспериментом, то его проводить не следует. Принятие решений
при проведении экспериментов с учетом их стоимости детально изложено
в работе [13].
В заключение автор выражает сердечную благодарность
студентам МИРЭА А.В. Данченкову, И.В. Малевой, В.В. Медведевой., А.А.
Мустонен, Т.Е. Никитиной, Т.В. Никифоровой, А.А. Шевченко, взявшим
на себя огромный труд по подготовке рукописи к печати.
86
СПИСОК
используемых сокращений
АК
– автоматическая классификация,
АР
– абдуктивные решения,
АСУ
– автоматизированная система управления,
ВР
– вариационный ряд,
ВРmin
– минимальный вариационный ряд,
ДР
– дедуктивные решения,
ИЭИП – исследование элементарных информационных процессов,
ИР
– индуктивные решения,
КА
– коэффициент ассоциативности,
КК
– коэффициент корреляции,
КМ
– корреляционный метод,
КНП
– кратчайший незамкнутый путь,
ЛДФ
– линейная дискриминантная функция,
ЛМ
– локальный минимум,
ЛПР
– лицо, принимающее решение,
МД
– медицинская диагностика,
МНК
– метод наименьших квадратов,
ОВР
– основной вариационный ряд,
ПР
– принятие решений,
РА
– регрессионный алгоритм,
РО
– распознавание образов,
РРПТ – резко различающиеся плотности точек,
СВ
– случайная величина,
СЗЛМ – статически значимый локальный минимум,
ТПР
– теория принятия решений,
ТР
–
теория решений,
87
ЭВМ
– электронно-вычислительные машины,
ЭИП
– элементарные информационные процессы,
ЭМ
– эвристические методы,
ЭР
– эвристические решения.
88
Литература
1. Проблемы принятия решения. М.: Наука, 1976.
2. Александров Е.А. Основы теории эвристических решений. М.: Сов. Радио, 1975.
3. Гнеденко Б. В. Курс теории вероятностей. М.: Физматиз, 1961.
4. Себестиан Г.С. Процессы принятия решений при распознавании образов. Киев: Техника, 1965.
5. Загоруйко Н.Г., Елкина В.Н., Лбов Г.С. Методы обнаружения эмпирических закономерностей. Новосибирск: Наука СО, 1985.
6. Дюран Б., Оделл П. Кластерный анализ. М.: Статистика, 1975.
7. Андерсон Т. Введение в многомерный статистический анализ. М.: Физматиз, 1963.
8. Вентцель Е. С. Теория вероятностей. М.: Наука, 1969.
9. Крамер Г. Математические методы статистики. М.: Мир, 1975.
10. Шнепс М.А. Математика и здравоохранение. // Новое в жизни, науке,
технике. Сер. Математика, кибернетика, 1982, №4.
11. Прим Р. К. Кратчайшие связывающие сети и некоторые обобщения.
Кибернетический сборник. М.: Наука, 1961, №2. С. 95-107.
12. Апраушева Н.Н. Новый подход к обнаружению кластеров. М.: ВЦ
РАН, 1993.
13. Саульев В. К. Математическая теория принятия решений. М.: МАИ,
1974.
14. Гасс С. Линейное программирование. М.: Наука, 1963.
15. Бугров Я.С., Никольский С.М. Элементы линейной алгебры и аналитической геометрии. М.: Наука, 1988.
89
Содержание
Введение
Глава 1. Элементы теории эвристических решений
§1. Строгие и эвристические методы ПР
§2. Общая структура процесса принятия решения
§3. Центральная проблема теории ЭР
§4. Краткая история развития ЭР
Глава 2. Принятие решений в распознавании образов
§1. Понятие о распознавании образов, классификации
§2. Условия применимости математических методов
классификации
§3. Критерий оптимальной классификации
§4. Основные условия, гарантирующие оптимальную
классификацию
§5. Алгоритмы классификации в режиме с обучением
5.1. Алгоритм классификации по расстоянию
5.2. Корреляционный алгоритм
5.3. Регрессионный алгоритм
§6. Классификация как задача статистической проверки
гипотез
§7. Алгоритмы автоматической класcификации
7.1. Алгоритм FOREL
7.2. Алгоритм Мак-Кина
7.3. Алгоритм KRAB
§8. Предварительное обнаружение классов и оценивание
их числа
8.1. Одномерное пространство
8.2. Многомерное пространство
8.3. Оценивание числа классов
8.4. Обнаружение классов с резко различающимися
плотностями точек
Глава 3. Общая математическая теория принятия решений
§1. Принятие решений в условиях неопределенности
1.1. Критерий максимина
1.2. Критерий минимакса сожалений
1.3. Критерий равновозможных состояний
1.4. Решение конкретной задачи
§2. Принятие решений в условиях риска
§3. Принятие решений при проведении эксперимента
3.1. Принятие решения в условиях неопределенности
3.2. Использование смешанной стратегии
3.3. Принятие решения в условиях риска
90
3
6
6
8
11
12
13
13
16
20
21
22
23
24
27
30
38
39
41
41
45
45
49
54
57
59
60
61
62
63
63
65
67
67
71
73
3.4. Использование формулы Байеса
§4. Принятие решения при проведении нескольких
экспериментов
4.1. Постановка задачи и методы ее решения
4.2. Решение конкретной задачи
Список используемых сокращений
Литература
91
75
80
80
83
87
89
Скачать