Ковшов Николай Вадимович

на правах рукописи Ковшов Николай Вадимович РАЗРАБОТКА И ИССЛЕДОВАНИЕ ГЕНЕТИЧЕСКИХ АЛГОРИТМОВ ОБУЧЕНИЯ В МОДЕЛЯХ ВЫЧИСЛЕНИЯ ОЦЕНОК специальность 05.13.18 математическое моделирование, численные методы и комплексы программ АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Москва-2007 Работа выполнена на кафедре вычислительной математики Московского физикотехнического института (государственного университета) Научный руководитель: доктор физико-математических наук, член-корреспондент РАН, профессор Холодов Александр Сергеевич Официальные оппоненты: доктор физико-математических наук Обухов Юрий Владимирович кандидат физико-математических наук Виноградов Александр Петрович Ведущая организация: Факультет вычислительной математики и кибернетики Московского государственного университета имени М.В. Ломоносова (ВМК МГУ) Защита состоится « 26 » октября 2007 г. в 9.00 часов на заседании диссертационного совета К 212.156.02 при Московском физико-техническом институте (государственном университете), по адресу: 141700, Московская область, г. Долгопрудный, Институтский пер., д. 9, ауд. 903 КПМ. С диссертацией можно ознакомиться в библиотеке МФТИ Автореферат разослан « 19 » сентября 2007 г. Ученый секретарь диссертационного совета кандидат физико-математических наук 2 Федько О.С. Общая характеристика работы Актуальность темы В данной диссертационной работе рассматривается задача обучения и распознавания по прецедентам в модели вычисления оценок. Под обучением понимается нахождение систем предикатов специального вида (логических закономерностей), выполняющихся на максимальных подмножествах объектов одного класса. Для поиска таких предикатов разработан и исследован генетический алгоритм. Данная задача является актуальной вследствие повышенного интереса в научной среде к методам интеллектуального анализа данных: кластеризации, классификации, прогноза и т.д. Растущие потребности прикладных наук, а также электронной промышленности требуют решения все большего количества задач данного типа. Построение надежных алгоритмов классификации позволяет решать такие важные задачи как распознавание изображений и рукописных шрифтов, распознавание болезней по медико-диагностическим данным, распознавание типов радиосигналов для радиотелескопов, прогнозирование свойств химических соединений, проектирование алгоритмов для сенсорных систем, создание спам-фильтров для почтовых клиентов и многие другие. Цель работы Целью данной диссертационной работы является разработка и исследование генетических алгоритмов обучения в моделях вычисления оценок, обоснование эффективности данного подхода, а также создание новых решающих правил распознавания. Практическая ценность работы Практическая ценность работы заключается в том, что предложенные математические модели и алгоритмы могут быть успешно применены для решения задач классификации и прогнозирования. С помощью разработанного автором программного комплекса были получены решения многих прикладных задач, в частности задачи прогнозирования типа кристаллической решетки неорганических соединений. Эти результаты могут быть в дальнейшем использованы при создании новых химических соединений для микроэлектронной промышленности. Данный программный комплекс используется в учебном процессе кафедры информатики Московского физико-технического института в качестве демонстрационного пособия по предмету «Методы анализа данных и распознавания». Научная новизна работы заключается в следующем: 1. Для процесса обучения в моделях вычисления оценок предложен новый способ представления логических закономерностей. 3 2. Разработан алгоритм генетического поиска экстремума критерия оптимальности предикатов. Исследована роль параметров генетического алгоритма при решении данной задачи. 3. Для генетического алгоритма создана новая модель кроссовера, учитывающая особенности взаимного расположения объектов обучающей выборки. 4. Для задач с неразличимыми классами получена теоретическая оценка количества локальных экстремумов критерия оптимальности. 5. Разработаны новые типы оценок объекта за классы и построены решающие правила для этих оценок. Публикации Результаты диссертации опубликованы в [1-8], работа [2] – из списка изданий, рекомендованных ВАК РФ. В совместных работах автору принадлежит разработка и исследование математических моделей обучения и распознавания по прецедентам, модификации генетического алгоритма, а также их программная реализация и тестирование. Апробация Основные результаты работы докладывались и обсуждались на следующих научных конференциях и семинарах:  Математические Методы Распознавания Образов ММРО-11 (Пущино 2003);  7th International Conference on Pattern Recognition and Image Analysis PRIA7 (St. Petersburg, Russian Federation 2004);  Научные конференции МФТИ (Долгопрудный, 2005-2006);  Технологии Microsoft в теории и практике программирования (Москва, 2005);  6th WSEAS Int. Conf. on Applied Computer Science ACS06 (Tenerife, Canary Islands, Spain 2006);  Научные семинары кафедр вычислительной математики и информатики МФТИ (Долгопрудный, 2003-2007);  Научные семинары отдела математических проблем распознавания и методов комбинаторного анализа Вычислительного центра РАН (Москва, 2004-2007). Структура и объем диссертации Диссертация состоит из введения, пяти глав и заключения. Общий объем диссертации составляет 131 страницу, включая 28 иллюстраций и 25 таблиц. Список использованных источников содержит 92 публикации отечественных и зарубежных авторов. 4 Краткое содержание работы Во введении обсуждается актуальность темы диссертации, описывается научная новизна и практическая ценность работы. В первой главе приводится общая постановка рассматриваемой задачи. Предполагается, что исследуемое множество объектов (ситуаций, процессов, событий или явлений) M представимо в виде объединения l подмножеств Ki , называемых классами: M  l i 1 Ki . Задана начальная информация I0 о классах и описание I (S ) произвольного объекта S из M . Требуется по информации I0 и I (S ) для i  1,2,..., l определить значения свойств S  Ki  - характеристик принадлежности объекта классу. Предполагается, что описания объектов I (S ) определяются наборами значений p числовых   признаков x1, x2 ,..., x p , а начальная информация I0 (обучающая, эталонная информация) задается выборкой описаний  I (S ), I (S ),..., I (Sm )  , где 1 2   таблицы Tpml , в которой I (S )   x1  S  , x2  S  ...x p  S   , в виде числовой представлены объекты всех l классов с известным распределением их по классам. Задача распознавания произвольного объекта S некоторым r алгоритмом распознавания A записывается в следующем виде: Ar ( L0 , I (S ))   A ,  A  1A , 2A ,...,lA , iA  iA ( I (S )) {0,1, } . Здесь     jA  1 соответствует отнесению объекта в класс Ki   jA  1 - решению S  Ki   jA  1 - отказу от распознавания данного объекта. Пусть S t  K  - фиксированный объект обучения (эталон), который мы будем называть опорным вектором. Рассмотрим следующее параметрическое множество элементарных предикатов: 1, c1  x  c 2 j j j P(c1j , c 2j , x j )   иначе. 0, Здесь   c1j  c2j  , j  1,2,..., n , - параметры предикатов. Определение. Предикат P(c1, c2 , x)  &P(c1j , c2j , x j ), j  1,2,..., n называется допустимым для класса K  , если 5 (1.1) St  K : P(c1, c2 , St )  1 St  K  P(c1, c2 , St )  0 (1.2) Предикат называется логической закономерностью класса K  , если St  K : P(c1, c 2 , St )  1 St  K  P(c1, c2 , St )  0  ( P(c1, c2 , x))  max  ( P(d 1, d 2 , x)) 1 2 (1.3) {P ( d ,d , x )} где   P  - критерий оптимальности предиката. Критерий  ( P(c1, c2 , x))  {Si : Si  K , P(c1, c 2 , Si )  1} (1.1) называется стандартным критерием оптимальности. В результате процесса обучения создается несколько (по числу классов) покрытий элементов обучающей выборки признаковыми интервалами, представленными в виде предикатов, причем каждый элемент обучающей выборки принадлежит одному и только одному из данных покрытий. На этапе распознавания для каждого распознаваемого объекта проверяется принадлежность его найденным признаковым интервалам (предикатам) и, исходя из этих данных, в простейшей постановке вычисляются оценки G (S ) для данного объекта по всем классам задачи. После вычисления оценок проводится голосование – объект относится к некоторому классу, если его оценка за этот класс больше, чем оценки за все остальные классы. В случае же, когда такой оценки не существует, алгоритм дает “отказ” от распознавания данного объекта. Таким образом, модель классификации по логическим закономерностям можно разбить на несколько независимых составляющих: - Принцип построения покрытия класса K признаковыми интервалами (предикатами), в том числе определение критерия оптимальности для предикатов. - Метод поиска предикатов, удовлетворяющих критерию оптимальности и создающих необходимое покрытие класса. - Принцип вычисления оценок G (S ) . - Применение решающих правил. Пусть фиксирован некоторый класс, содержащий N  обучающих объектов. Предлагается рассматривать предикаты определенного типа, а именно предикаты, которым соответствуют признаковые интервалы минимального объема, содержащие при этом некоторый фиксированный (свой для каждого предиката) набор объектов. Устанавливается взаимное соответствие между предикатами данного типа и бинарными векторами 6 длины N  . При этом каждому предикату будет соответствовать бинарный вектор, в котором на i-й позиции будет стоят «1», если объект S i находится внутри соответствующего признакового интервала и «0», иначе. Рис. 1-а, 1-б и комментарий к ним иллюстрируют принцип создания и кодирования предикатов, а также показывают, что установленное соответствие не является взаимно однозначным. Рис. 1-a Рис. 1-б Рис. 1-а, 1-б: иллюстрация принципа построения и кодирования предикатов. Точками обозначены объекты рассматриваемого класса, крестиками – объекты остальных классов. На рис. 1-б изображены объекты двух классов, причем объекты первого класса пронумерованы. Изображенному на рис. 1-б предикату будет соответствовать бинарный вектор 111110  , а сам изображенный предикат будет соответствовать векторам 111110  , 110110  , 111010  , 110010  . Для создания покрытия класса введем нумерацию предикатов в порядке их построения, и для каждого предиката кроме первого переопределим критерий оптимальности (1.4) следующим образом:  ( Pi (c1, c2 , x))  {S j : S j  K , Pi (c1, c 2 , S j )  1} , если j : l  i  Pi (c1, c 2 , S j )  1, Pl (c1, c 2 , S j )  0, иначе (1.5)  ( Pi (c1, c2 , x))  0 В процессе обучения на основе критерия (1.5) для каждого класса создается покрытие класса системой признаковых интервалов (предикатов). Данное покрытие является результатом обучающего процесса и используется в дальнейшем распознавании. В главе 2 описываются особенности задачи поиска логических закономерностей в признаковом пространстве, в том числе проводится теоретическая оценка числа локальных экстремумов задачи с неразличимыми 7 классами. На основе сформулированного в главе 1 принципа кодирования предикатов предлагается проводить поиск оптимального предиката посредством генетического алгоритма с ценовой функцией вида (1.4). Предлагаются средства улучшения работы ГА, учитывающие особенности поставленной задачи. Проводится оценка взаимосвязи между такими параметрами генетического алгоритма, как размер популяции, коэффициент мутации, длина хромосомы. Кодирование хромосом генетического алгоритма осуществляется согласно принципу, обозначенному в главе 1. Хромосомами представлены проекции предикатов на множество бинарных векторов фиксированной длины. Гены хромосом соответствуют объектам обучающей выборки. Целевая функция ГА соответствует критерию оптимальности (1.4). Задача поиска оптимального предиката в признаковом пространстве с ЦФ вида (1.4) обладает несколькими характерными особенностями, требующими особого подхода к получению решения. Среди характерных особенностей задачи следует отметить 1) Сильное взаимное влияние генов друг на друга. Наличие или отсутствие некоторого гена может отличать лучшую хромосому популяции от хромосомы с нулевой ЦФ. 2) Сравнительно малое число хромосом ГА, на которых ЦФ отлична от нуля. Для подавляющего большинства задач общее количество хромосом с нулевым значением ЦФ будет многократно превышать количество хромосом с ненулевой ЦФ. 3) Большое количество локальных экстремумов задачи. В главе 2 выполняется оценка числа локальных экстремумов для одной модельной задачи. Берется случайная выборка из объектов, равномерно распределенных в единичном кубе признакового пространства и разделенных на 2 класса. Классы в данной задаче неразличимы и закономерности отсутствуют, а потому логично предположить, что поиск логических закономерностей здесь наиболее затруднен. Полученная же оценка количества локальных экстремумов такой задачи может считаться достижимой оценкой для задач широкого класса. Если положить p за количество признаков и N за число объектов в каждом классе, итоговая оценка количества локальных экстремумов задачи выглядит следующим образом:   p N  m     p N  1     N   m  1     m2  T   CmN 1      1   p  m 1   m  1     1   m  1       m  1      N m (2.1) Ниже приводится таблица некоторых значений для данной оценочной формулы. 8 Далее для сравнения приводятся результаты, полученные методом простого перебора на выборках небольшого ( N  25 ) размера. Сравнительный анализ показывает, что формула (2.1) хорошо описывает поведение числа локальных экстремумов задачи, хотя и является несколько заниженной. Количество Количество объектов N признаков p 5 10 16 24 50 100 2 2.2 5.1 10.8 18 47 100 5 1.8 5.1 24.4 52 873 4324 10 1.2 3.4 18.8 109 4394 9.1e+5 15 1 2.1 8.4 69 5624 1.1e+7 25 1 1.2 3.2 20 5139 3.6e+7 50 1 1 1.1 3 698 3.1e+7 100 1 1 1 1 10 5.3e+5 Таблица 1. Зависимость значения теоретической оценки количества локальных экстремумов от параметров N и p . В ячейках таблицы – значения, полученные по формуле (2.1). Количество Количество объектов N признаков p 5 10 16 24 2 3, 1, 3 5, 7, 8 15, 9, 9 19, 19, 21 5 3, 5, 1 9, 5, 4 33, 34, 24 89, 75, 114 10 1, 1, 1 4, 5, 4 37, 14, 50 307, 241, 144 15 1, 1, 1 1, 1, 3 7, 1, 10 149, 115, 295 25 1, 1, 1 1, 1, 1 1, 3, 1 8, 31, 16 50 1, 1, 1 1, 1, 1 1, 1, 1 1, 1, 1 Таблица 2. Значения экспериментального количества локальных экстремумов при различных параметрах N и p . В каждой из ячеек таблицы содержатся 3 значения, полученные в трех независимых запусках (на трех различных случайно сгенерированных выборках). Также в главе 2 предлагается адаптированный к задаче метод кроссовера, основная идея которого заключается в следующем – каждый раз при процедуре кроссовера хромосомы меняются не просто случайными участками, а некоторой группой объектов, которые в признаковом пространстве располагаются близко друг от друга. Предлагается проводить однородный кроссовер, для которого вероятность обмена битами зависит от нормированного на единицу расстояния от текущего объекта/бита до некоторого фиксированного для данной пары хромосом объекта, являющегося «центром кластера». Данный «центр кластера» выбирается каждый раз заново для каждой скрещиваемой пары. Предлагаются формулы для определения функции расстояния и вероятности обмена битами. Тестирование на искусственных наборах данных и на практических задачах 9 показало надежность данного метода кроссовера и его преимущество перед другими, классическими схемами. Далее приводятся стратегии автоматического выбора коэффициента мутации и размера популяции, обеспечивающие стабильную сходимость генетического алгоритма. Описывается разработанный “ЭСС-критерий” остановки ГА, который принимает решение об остановке генетического алгоритма исходя из динамики средней ЦФ популяции. При превышении экпоненциального скользящего среднего средней ЦФ популяции над средней ЦФ популяции генетический алгоритм переходит в состояние с пониженной дизруптивностью оператора мутации. В случае, если в данном состоянии в течение десяти итераций не происходит роста наилучшей ЦФ популяции, алгоритм прекращает работу. Экспериментально показано, что данный критерий остановки ГА адаптируется к сложности задачи и работает лучше, чем традиционные критерии, использующиеся для генетических алгоритмов. Глава 3 содержит описание алгоритма распознавания. Результатом процесса обучения на обучающей выборке является построение покрытий классов некоторым набором допустимых предикатов P ji (S ) . Процесс распознавания некоторого нового объекта S , чья принадлежность тому или иному классу неизвестна, сводится в простейшем случае к процедуре взвешенного голосования по предикатам. В рамках данной процедуры вначале вычисляются оценки предиката за каждый из классов задачи Gi    ij Pji ( S ) , где  ij – некоторые параметры. После расчета оценок за j классы по этим оценкам проводится процедура голосования. Объект S относится к тому классу, оценка за который превышает все оценки данного объекта за другие классы, либо, если такого класса не существует, алгоритм выдает «отказ» от распознавания объекта. Данный метод расчета оценки Gi1    ij Pji ( S ) можно считать каноническим. j В главе предлагается 2 новых метода получения оценок для объекта за классы. На основе значений оценок 3 типов формируются решающие правила, использующие все три оценки. Первый из методов назван оценкой «по принадлежности снаружи» В рамках данного метода рассчитывается оценка Gi2    ij   Pji S  j Здесь предикат P определяется следующим образом: i jS 10 Pji (c1 , c 2 , x)  &P(c1k , ck2 , xk ), k  1, 2,..., n k S   S1 , S 2 ...S n   ck1  min  c1k , Sk    2 2 ck  max  ck , S k  PjSi (c1 , c 2 , x)  &P(ck1 , ck2 , xk ) (3.1) k Функция   P i  определяется следующим образом:   P i   1 , если предикат P i является допустимым для класса K i и   P i   0 в противном случае. На практике приведенные формулы означают следующее. Строится, соответствующий признаковой окрестности минимального объема, который одновременно содержит внутри себя объект S и предикат Pji . В случае, если построенный предикат PjSi является допустимым для класса K i , полагаем, что объект S принадлежит предикату Pji «снаружи». Общая оценка за класс для объекта складывается из значений всех предикатов класса. Второй из методов получения оценки объекта за класс назван оценкой «по частичной принадлежности». Он может быть сформулирован следующим образом:    Gi3     ij H   P(c1k , ck2 , Sk )       Pji S  j   k  (3.2) 0, x  0 , а 0    n – некоторое  x, x  0 где функция H определяется как H  x    пороговое значение, не зависящее от номера класса. На практике формула рассчитывает количество признаков, по которым объект находится внутри ограничений, задаваемых предикатом. Пороговое значение – это количество признаков, начиная с которого можно считать, что объект «частично принадлежит» предикату. Экспериментальные исследования показали, что для наиболее эффективной работы алгоритма значение порога для количества признаков следует брать в пределах 2 5 n    n . При меньших 3 6 значениях порога качество распознавания несколько ухудшается, а при больших существует опасность потерять «уникальность» данной оценки, так как она практически повторяет «каноническую» оценку (3.1), переходя в нее при   n 1. Пусть имеются 3 оценки Gi1 , Gi2 , Gi3 , полученные разными методами – традиционной оценкой, оценкой «по принадлежности снаружи», оценкой «по частичной принадлежности». Предлагается использование двух различных решающих правил, из которых следует отнесение объекта к тому или иному классу. 11 Решающее правило 1. Суть первого правила заключается в сравнении результатов голосования для трех типов оценок и выборе из них наиболее достоверного результата исходя из априори заданного порядка приоритетности оценок. Пусть методом голосования получены номера классов, к которым относят объект оценки трех различных типов – G1 , G 2 , G 3 . Результирующая оценка G  S  выводится из трех полученных оценок согласно следующему решающему правилу: - Если голосование по оценкам двух типов относит объект к некоторому классу, объект следует отнести к этому классу. - Если результаты голосования по всем трем оценкам различны, следует выбрать результат голосования по той оценке, которая имеет больший приоритет и при этом не дает отказ от распознавания. - Если все 3 метода дали отказ от распознавания, алгоритм дает отказ от распознавания. Наилучшим порядком приоритетности предлагается считать G1 , G 3 , G 2 в порядке убывания. Решающее правило 2. Второй вариант построения решающего правила заключается в голосовании по взвешенным суммам трех оценок. Пусть для некоторого объекта получены значения оценок трех типов за разные классы Gi1 , Gi2 , Gi3 . Нормализуем оценки таким образом, чтобы сделать их сравнимыми, то есть так, чтобы границы всех оценок лежали на отрезке 0, 1 . Для оценок Gi1 , Gi2 введем значения коэффициентов  ij  1/ ni , а для оценки Gi3 положим Gi3  Gi3 . Окончательная оценка за класс является в общем случае n  взвешенной суммой трех нормализованных оценок 3 Gi  S     ik Gik (3.3) k 1 В дальнейшем, принятие решения относительно того, к какому классу отнести объект, производится посредством простого голосования по оценкам объекта за классы Gi  S  . Если не указано обратного, полагается, что  ik  1 . Ниже приводится пример, иллюстрирующий улучшение качества распознавания, достигаемое введением решающих правил, учитывающих оценки разных типов. Итоговое количество ошибок получается значительно меньшим, чем количество ошибок, полученное по каждой отдельно взятой оценке. В качестве тестовой задачи взята прикладная задача распознавания сегментированного изображения. В задаче 7 классов, соответствующих следующим объектам: кирпичная кладка, листва, небо, бетон, окно, грунтовая дорога, трава. В каждом из классов контрольной и обучающей выборки по 150 объектов. Объекты описываются 18-ю вещественнозначными признаками. 12 Голосование по оценке G1 Отнесено в класс: Из класса 1 Из класса 2 Из класса 3 Из класса 4 Из класса 5 Из класса 6 Из класса 7 Ошибочно отнесено 1 133 0 0 0 0 0 0 0 2 0 129 0 0 0 0 0 0 3 0 0 117 1 3 0 1 5 4 0 1 8 135 1 0 2 12 5 0 0 11 1 134 0 0 12 6 0 0 0 0 0 142 0 0 7 0 0 1 1 2 0 137 4 отказы 17 20 13 12 10 8 10 90 6 0 0 0 5 1 149 0 6 7 0 0 2 1 0 0 106 3 отказы 87 17 5 4 4 1 37 155 6 0 0 0 0 0 150 0 0 7 0 0 7 4 2 0 140 13 отказы 1 0 3 0 2 0 0 6 Голосование по оценке G 2 Отнесено в класс: Из класса 1 Из класса 2 Из класса 3 Из класса 4 Из класса 5 Из класса 6 Из класса 7 Ошибочно отнесено 1 63 0 26 17 29 0 7 79 2 0 133 2 7 0 0 0 9 3 0 0 95 1 2 0 0 3 4 0 0 12 115 0 0 0 12 5 0 0 8 0 114 0 0 8 Голосование по оценке G 3 Отнесено в класс: Из класса 1 Из класса 2 Из класса 3 Из класса 4 Из класса 5 Из класса 6 Из класса 7 Ошибочно отнесено 1 146 0 1 0 0 0 0 1 2 1 146 1 1 0 0 0 3 3 0 0 109 2 13 0 1 16 13 4 1 4 20 143 2 0 9 36 5 1 0 9 0 131 0 0 10 Итого, первой оценкой допущена 121 ошибка, второй оценкой допущено 120 ошибок и третьей оценкой допущено 85 ошибок. Количество ошибок распознавания После применения решающих правил Класс : 1 2 3 4 5 6 7 отказы Ошибки (РП1) 2 1 11 22 15 1 7 0 Ошибки (РП2) 26 6 12 18 9 1 4 6 Всего ошибок (РП1): 59 Всего ошибок (РП2): 76 Заканчивает третью главу сравнительный анализ предложенных решающих правил, а также приводятся достоинства и недостатки трех типов оценок. В четвертой главе рассматриваются детали имплементации разработанных алгоритмов. Разработанные в диссертационном исследовании алгоритмы и методы были реализованы автором в программном комплексе «Genesis» на языке Fortran-90, а также в качестве модуля к программному комплексу «Recognition» на языке Visual C++ 6.0. Первый программный комплекс «Genesis» содержит возможность задания пользователем типов генетических операторов, различных параметров ГА и решающих правил. Фактически, пользователь программы может с помощью набора входных файлов полностью определять структуру генетического алгоритма. Второй программный комплекс содержит, наряду с изложенным в работе методом, другие методы распознавания, прогнозирования и кластеризации, а также имеет графический интерфейс, через который можно задавать входные данные – набор параметров обучения и распознавания, а также обучающую и контрольную выборки. На рис 2 представлено окно задания параметров обучения для модуля Genesis программного комплекса «Recognition». Сам программный комплекс «Recognition» был представлен на многих отечественных и международных конференциях, а также применяется в учебном процессе кафедры информатики Московского физико-технического института. 14 Рис. 2 Задание параметров для этапа обучения в модуле Genesis программного комплекса «Recognition». Далее в главе 4 проводится оценка вычислительной сложности представленных алгоритмов. Если ввести следующие обозначения: l количество классов в задаче, p - количество признаков в задаче, N - общее количество объектов обучающей выборки, то можно получить следующую оценку для числа машинных операция для процесса распознавания T   150 N 2 p l (4.1)   где параметр 0    1 зависит от «сложности» задачи и равен отношению количества предикатов, составляющих покрытие класса, к количеству объектов в классе. Положив наиболее характерные значения параметров   1/ 2, l  10, p  50 , можно получить следующую оценку:  T    25000 N 2.5  (4.2) При N  100 это выражение дает T   2.5*109 операций, то есть порядка 1 секунды расчета на современном мощном ПК. При N  400 формула даст уже около 30 секунд расчета, при N  1600 расчет займет около 15 минут, при N  6400 - 7.5 часов и т. д. Для задач с  , близких к единице, рост затрат машинного времени будет существенно большим. Кроме того, данные оценки занижены в 2-5 раз, так как каждая из 15 элементарных процедур, количество которых оценивает формула (4.2), на самом деле содержит несколько вычислительных операций. Рост машинного времени, необходимого для выполнения процесса обучения, настолько резко зависит от объема обучающей выборки, что уже при значениях N , близких к тысяче, затраты машинного времени становятся неадекватно большими. Поэтому предлагается использовать следующий прием, названный методом дробления выборки. Суть метода такова: вместо выполнения одного процесса обучения на выборке размера N алгоритм проходит процесс обучения S раз на подвыборках обучающей выборки размера NS . Каждый раз подвыборка обучающей выборки определяется заново случайным образом, но так, чтобы доля объектов, принадлежащих разным классам, сохранялась. Объединение результатов каждого из запусков процесса обучения, представленных в виде наборов предикатов, является, таким образом, общим результатом обучения. Для данного метода получена оценка необходимого количества повторов обучения на подвыборках обучающей выборки, при которых можно утверждать, что с вероятностью  каждый объект обучающей выборки вошел в одну из подвыборок. Для этого количество повторов должно быть равно  1   1  1  1  1  N  S   ln 1 exp    ln       ln    N     N    1   (4.3) Для больших выборок N  1000 использование этого метода дает многократное ускорение без какого-либо существенного ухудшения качества распознавания. В качестве примера была рассмотрена прикладная задача распознавания для космической техники, в обучающей выборке которой было 43500 объектов. Процесс обучения занял 44 минуты, а результаты распознавания попали в диапазон, заданный авторами таблицы. Для вычислительной сложности распознавания получена следующая оценка количества машинных операций: T   N 3 p  .   В пятой главе содержится описание всех тестовых задач, применявшихся для тестирования разработанных алгоритмов и методов, описанных в предыдущих главах. Приведены экспериментальные результаты сравнения качества распознавания предложенного метода с классическими методами, реализованными в программном комплексе «Recognition», а именно  Алгоритм вычисления оценок  Двумерные линейные разделители  Линейный дискриминант Фишера  Линейная машина  Логические закономерности 16  Многослойный перцептрон  Q ближайших соседей  Метод опорных векторов  Статистически взвешенные синдромы  Голосование по тупиковым тестам Были продемонстрированы надежность и высокое качество распознавания разработанного метода, позволившие ему получить высокие либо наилучшие результаты практически во всех рассмотренных прикладных задачах. Также было проведено исследование задачи прогнозирования кристаллической решетки химических соединений. В ходе исследования были удалены несущественные признаки задачи, также задача была разбита на 2 независимые составляющие – прогнозирование существования химического соединения и прогнозирование кристаллической решетки соединения при условии, что данное соединение существует. После удаления малозначимых признаков общее количество признаков задачи составило 30, число классов (типов кристаллической решетки) – 11. На предоставленных обучающей и контрольной выборках с помощью разработанного метода были получены высокие результаты, имеющие практическую ценность. Ниже приводятся таблицы результатов, полученных при решении задачи различными методами. Первая таблица относится к задаче прогнозирования существования химических соединений, вторая таблица – к задаче прогнозирования типа кристаллической решетки. Ошибочно отнесено в класс Метод 1 2 Всего В процентах АВО 16 28 44 19.1% ДЛР 32 10 42 18.3% Дискриминант Фишера 26 28 45 23.5% Линейная машина 18 15 33 14.3% Логические закономерности 30 10 40 17.4% Перцептрон 21 27 48 20.9% Q ближайших соседей 28 11 39 17.0% Метод опорных векторов 16 18 34 14.8% СВС 35 6 41 17.8% Тупиковые тесты 32 24 56 24.3% Генетический метод 18 11 29 12.6% Таблица 2: прогнозирование существования химических соединений. 17 Ошибочно отнесено в класс Метод 1 2 3 4 5 6 7 8 9 10 11  % АВО 1 1 11 4 1 0 0 0 5 0 9 32 26.4 ДЛР 0 0 9 5 0 25 0 7 7 0 0 53 43.8 Дискриминант Фишера 0 0 25 18 0 0 0 0 5 0 0 48 39.7 Линейная машина 1 0 12 8 1 1 1 1 11 2 2 40 33.1 Логические закономерности 6 3 2 5 4 2 1 1 9 4 15 52 43 Перцептрон 0 0 26 1 0 6 0 4 0 0 20 57 47.1 Q ближайших соседей 1 0 0 5 1 0 2 1 15 1 6 32 26.4 Метод опорных векторов 1 0 8 2 0 0 1 0 11 1 3 27 22.3 СВС 1 1 1 4 2 3 0 0 9 14 11 46 38 Тупиковые тесты 0 4 9 0 10 3 0 1 0 10 16 53 46.8 Генетический метод 0 0 14 8 1 1 0 0 7 0 3 34 28 Таблица 3: прогнозирование кристаллической решетки химических соединений. Разработанный метод дал наилучшие результаты при решении первой части задачи. При решении второй части задачи результаты метода несколько уступают результатам, полученным с помощью метода вычисления оценок, метода Q ближайших соседей и метода опорных векторов, при этом дополняя их в области 11-го и 9-го класса. В заключении приведены основные результаты и намечено направление дальнейшего развития данной работы. Основные результаты работы 1. Разработана новая математическая модель обучения, основанная на генетическом поиске логических закономерностей в признаковом пространстве. 2. Для предложенной модели разработаны генетические алгоритмы поиска экстремумов критерия оптимальности. В частности, разработан новый «кластерный» метод кроссовера, учитывающий взаимное расположение объектов классов. 3. Для выборок с неразличимыми классами получена теоретическая оценка зависимости количества локальных экстремумов задачи поиска логических закономерностей от числа признаков и количества объектов. Проведена экспериментальная проверка найденной оценки. 4. Предложены новые эффективные формулы вычисления оценок объектов за классы и решающие правила, учитывающие значения оценок, 18 полученных с помощью этих формул. Экспериментальная проверка решающих правил показала их высокую эффективность. 5. Проведена оценка вычислительной сложности представленных алгоритмов и предложен метод дробления выборки для решения задач большой размерности. 6. Разработан программный комплекс, в котором были реализованы представленные в работе модели и алгоритмы. С его помощью проведено экспериментальное сравнение разработанных алгоритмов с классическими алгоритмами классификации. Показана эффективность алгоритмов при решении прикладных задач распознавания образов. 7. Предложенные модели, алгоритмы и комплекс программ использованы для решения прикладной задачи прогнозирования типа кристаллической решетки неорганических соединений. Список публикаций по теме диссертации 1. Н.В. Ковшов, В.В. Рязанов Генетический алгоритм поиска логических закономерностей по прецедентам для решения задач распознавания // Доклады 11-ой Всероссийской конференции «Математические методы распознавания образов» – М. – 2003, С. 106-108. 2. Kovshov, N. V. Moiseev, V. A. Ryazanov, V. V. Algorithms for Detecting Logical Dependences in Recognition by Precedents // Pattern Recognition and Image Analysis – 2005 – Vol.15, Part 1, P. 65-68. 3. Kovshov, N. V. Moiseev, V. A. Ryazanov, V. V. Algorithms for logical regularities search in supervised classification by precedents // Special Issue Proceedings of PRIA-7-2004 7th International Conference on Pattern Recognition and Image Analysis: New Information Technologies St. Petersburg, Russian Federation, October 18–22, Part I – 2004 – P. 65-69. 4. Северов Д.С., Ковшов Н.В., Миненко М.И. Математическое моделирование работы вычислительных сетей, использующих протоколы TCP и UDP // Современные проблемы фундаментальных и прикладных наук: Труды XLVIII научной конференции. – М.:МФТИ – 2005 – С. 30-32. 5. Ковшов Н.В., Миненко М.И. Сетевая вычислительная модель интенсивных информационных потоков // Доклады конференции «Технологии Microsoft в теории и практике программирования» – М.: Ин-т. им. Баумана – 2005 – C. 96-97. 6. Ковшов Н.В. Расчет приливной волны (бора) в речных дельтах посредством одномерной модели на графах // Современные проблемы фундаментальных и прикладных наук: Труды 49 научной конференции МФТИ – М.: МФТИ – 2006 – С. 295-297. 7. Kovshov N. V., Ryazanov V. V. About One Approach for Detecting Logical Dependencies in Recognition by Precedents Based on the Genetic Algorithm // Proceedings of the 6th WSEAS International Conference on Applied Computer Science, Tenerife, Canary Islands, Spain – 2006 – P. 25-28. 19 8. Kovshov N. V., Ryazanov V. V. About One Approach for Detecting Logical Dependencies in Recognition by Precedents Based on the Genetic Algorithm // WSEAS transactions on computer research – 2006 – Issue 2, Vol.1 – P. 152155. 20 Ковшов Николай Вадимович Разработка и исследование генетических алгоритмов обучения в моделях вычисления оценок Автореферат Подписано в печать 06.09.07 Формат 60x84 1/16. Печать офсетная. Усл. печ. Л. 1,0. Уч.-изд. Л. 1,0. Тираж 80 экз. Заказ №ф-245 Государственное образовательное учреждение высшего профессионального образования Московский физико-технический институт (государственный университет) Отдел автоматизированных издательских систем «ФИЗТЕХ-ПОЛИГРАФ» 141700, Московская обл., г. Долгопрудный, Институтский пер., 9 21

Ковшов Николай Вадимович

Похожие документы

Разделы

Поддержка

Ковшов Николай Вадимович

Похожие документы

Добавить этот документ в коллекции

Добавить этот документ в сохраненные

Предложите, как улучшить StudyLib