ВАРИАЦИОННЫЕ МЕТОДЫ КЛАССИФИКАЦИОННОГО АНАЛИЗ ДАННЫХ Бауман Е.В.(ВАВТ,ИПУ), Дорофеюк А.А.(ИПУ) Задачи структурного (классификационного) анализа данных 1. Классификация. Разбить множество объектов на группы схожих. 2. Группировка параметров. Набор параметров, описывающих систему, необходимо разбить на группы связанных и выделить из каждой группы наиболее существенный параметр. 2 3. Кусочная аппроксимация. Требуется так разбить пространство входных параметров, чтобы сложная во всем пространстве зависимость выходного параметра от вектора входных была простой в пределах каждой области. 4 Постановка задачи. • 1). Классифицируемое множество объектов. • 2). Класс допустимых классификаций. • 3). Критерий качества классификации. 5 1). Классифицируемое множество объектов: произвольное множество X с законом распределения P A ,A X. 2). Класс допустимых классификаций. Размытой классификацией множества X на r классов называется вектор-функция H x h1 x ,..., hr x x - функция принадлежности iк -му классу) такая, что для любого x значение H x принадлежит некоторому ( hi V т.е. H ( x) V R . Класс допустимых классификаций: V множеству r 6 3). Критерий качества классификации. За критерий качества принимается произвольный выпуклый функционал H , определенный на L2 X , P r Задача построения размытой классификации H max H V 7 Виды функционалов 1. Классификация евклидова пространства X R m с заданным законом распределения r P(x) 1 H x i hi x dP x , 2 i 1 X где i xhi x dP x X hi x dP x X - среднее i-го класса. 8 2. Экстремальная группировка параметров X x ,..., x - набор параметров, описывающих поведение n объектов. P x . H x , f h x , где x , f - коэффициент корреляции между 1 m j r 2 j 1 m m j i t i i 1 j 1 i параметром x f i j и фактором f i , равным arg max x , f hi x . m f j 1 j t 9 3. Кусочно-линейная аппроксимация X R m - пространство входных параметров с заданным законом распределения y y x P(x) - выходной параметр. Для каждого i-го класса классификации H с помощью линейной регрессии строится линейная функция ci , x d i . Функционал качества аппроксимации: r 3 H y x ci , x d i hi x dP x . i 1 X 2 Виды размытости классификации 1. Четкая классификация r V1 : hi x 0;1, hi x . i 1 1 0 2. Размытая классификация по Беждеку V2 : hi x 0;1, r hi x , 0 1. i 1 1 1 3. Классификация с размытыми границами r 1 2 V3 : hi x 0;1, a hi x r 1a a 1 i 1 2 2 2 4. Качественная размытая классификация V4 : hi x 0; 1k ; k2 ;...; r hi x , 0 1. i 1 ;1, k 1 k 1 3 14 5. Классификация с перекрывающимися классами 1k , i (i1 ,..., ik ) V5 H h1 ,..., hr : (i1 ,..., ik ) hi 0, i (i1 ,..., ik ) 1 5 Вид оптимальной классификации H F - опорная к F x f1 x ,..., f r x , если r x H F x arg max hi f i x h1 ,...,hr V H max H и grad H . Тогда H H Теорема 1. Пусть F i 1 F Алгоритм классификации при известном законе распределения (конечная выборка объектов) H 0 ... ... H n Fn grad H n H n1 H Fn ... Теорема 2. - выпуклый, ограниченный в силу алгоритма H n слабо сходится к стационарной точке функционала. 1 6 Критерий качества классификации, зависящий от моментов классов 1 7 k X Пусть z x отображение множества вZ R . Z - спрямляющее пространство. pi hi x dP x , M i z x hi x dP x X X H p1 , M 1 ,..., pr , M r . 4 H H - выпуклая функция r(k+1)-мерного вектора. (1) Вид оптимальной классификации функционала (1) d1 , c1 ,..., d r , cr , d i R , ci R H - линейная с вектором , если 1 k r H x arg max hi ci , z x d i h1 ,...,hr V i 1 H max H и grad , H . Тогда H H . Теорема 1. Пусть 1 8 Классификация по бесконечной выборке объектов S x1 ,..., xn ,... выборка по P A . Задача. По S максимизировать H . Ограничения на закон распределения: 1). A : P z x A 0, 2). c, d Pc, z x d 0 0. 1 9 20 Алгоритм n n 1 1 1 n 1 i 1 n i n hi xn , n n 1 n 1 1 1 mi 1 n mi n z xn hi xn , , m ,.., , m , n n grad , n n 1 n 1 n r H n H n . n r Здесь - оценка p m - оценка M n n - оценка H . n i n i , n i n i , 21 Сходимость алгоритма Теорема 3. - дважды непрерывно дифференцируема и сильно выпукла п.н. п.н. H n lim n C S lim n n C S - стационарное значение функции ; если при этом число классов равно 2, то H n lim n п.н 2 n 0 Система анализа данных «АНАЛИТИК» • Вид обрабатываемых данных. Куб данных таблица «объекты-параметры», развернутая во времени. • Основные модули: предобработки, экстремальной группировки параметров, классификации объектов, анализа множества полученных классификаций, кусочной аппроксимации и рекуррентных алгоритмов. • Выдача результатов: в том числе на карту. 22 Схема обработки данных в системе «АНАЛИТИК» Исходные данные Предобработка Экстремальная группировка параметров Информативные параметры Интегральные показатели Одномерная классификация Многомерная классификация Качественные интегральные показатели, Лингвистическое описание данных Описания классификаций, функции принадлежностей Анализ множества полученных классификаций Модели зависимостей Рекуррентные алгоритмы Кусочная аппроксимация 23 Развертка куба данных 24 25 Предобработка • • • • • • Выбор текущего подкуба данных Создание производных показателей Описательная статистика Выявление выбросов в данных Заполнение пропусков в данных Нормирование данных 26 Группировка параметров пар об - вр - T выявление структуры набора параметров вне зависимости от времени. пар - вр T об учитывает сдвиг времени параметров друг относительно друга. Результаты: группы параметров + интегральные показатели (информативные для классификации). 27 Классификация объектов пар об - вр - T выявление режимов работы объектов, не зависящих от времени. В результате один объект в разные моменты времени может попасть в разные классы. пар - вр T об в один класс попадают объекты, с одинаковой динамикой изменения показателей работы. Результаты: функции принадлежностей объектов к классам + центры классов. 28 Кусочная аппроксимация пар об - вр . Используется только T Начальное разбиение входов – результаты классификации. Результаты: функции принадлежностей объектов к классам + регрессионные модели зависимостей внутри классов. 29 Анализ множества полученных классификаций За счет большого числа свободных параметров алгоритмов получается много результирующих классификаций. С помощью классификационных методов можно структурировать это множество. Результат: набор информативных классификаций 30 Рекуррентные алгоритмы Если данные об исследуемой системе поступают последовательно во времени (например, статистические данные о деятельности предприятий), то используются рекуррентные алгоритмы классификации и кусочной аппроксимации, позволяющие корректировать решающие правила и локальные модели в соответствии с новой информацией.