На правах рукописи Зарипова Юлия Хайдаровна СИНТЕЗ

advertisement
На правах рукописи
Зарипова Юлия Хайдаровна
СИНТЕЗ АЛГОРИТМОВ НЕЙРОСЕТЕВОГО РАСПОЗНАВАНИЯ
ОБРАЗОВ И ВОССТАНОВЛЕНИЯ ЗАВИСИМОСТЕЙ
В УСЛОВИЯХ НЕПАРАМЕТРИЧЕСКОЙ НЕОПРЕДЕЛЕННОСТИ
Специальность 05.13.01. – «Системный анализ, управление и
обработка информации (в науке и промышленности)
по техническим наукам»
Автореферат
диссертации на соискание ученой степени
кандидата технических наук
Нижний Новгород 2010
Работа выполнена на кафедре «Электроника и сети ЭВМ»
Нижегородского государственного технического университета им. Р.Е. Алексеева
Научный руководитель:
доктор технических наук, профессор
Милов Владимир Ростиславович
Официальные оппоненты: доктор физико-математических наук,
Яхно Владимир Григорьевич
кандидат технических наук,
Бухнин Алексей Викторович
Ведущая организация:
ГОУВПО Московской области
Международный университет природы,
общества и человека «Дубна»
Защита состоится «23» декабря 2010 г. в 13 часов в ауд. 1258 на
заседании диссертационного совета Д212.165.05 при Нижегородском
государственном техническом университете им. Р.Е. Алексеева по адресу:
603950, г. Нижний Новгород, ГСП-41, ул. Минина, 24.
С диссертацией можно ознакомиться в библиотеке Нижегородского
государственного технического университета им. Р.Е. Алексеева.
Автореферат разослан «___» ноября 2010 г.
Ученый секретарь
диссертационного совета Д212.165.05
2
Суркова А.С.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы
В различных областях человеческой деятельности повседневно возникают задачи поддержки принятия решений, выявления закономерностей,
анализа данных, прогнозирования, диагностики и распознавания образов.
Для решения этих задач необходимы универсальные и надежные подходы,
использующие в качестве исходной информации эмпирические данные об
объектах или процессах. Выборки эмпирических данных в виде наборов
векторов признаков объектов могут быть использованы для решения таких
задач, как распознавание образов; прогнозирование ситуаций или процессов; кластерный анализ; выявление значимых признаков и т.д.
Большой вклад в развитие теории машинного обучения, распознавания образов, классификации и восстановления зависимостей внесли отечественные ученые: Айзерман М.А., Браверман Э.М., Розоноэр Л.И., Мазуров
В.Д., Ивахненко А.Г., Лбов Г.С., Вайнцвайг М.Н., Глушков В.М., Михалевич В.С., Пугачев В.С., Айвазян С.А., Вапник В.Н., Рудаков К.В. Рязанов
В.В., Дюкова Е.В., Журавлев Ю.И., Сенько О.В., Воронцов К.В., Загоруйко
Н.Г., Миркес Е.М., и многие другие исследователи России и СНГ.
Один из подходов к построению прогностических моделей представляют нейронные сети (НС), которые благодаря способности к обучению находят применение для решения различных практических задач, в том числе
для идентификации нелинейных систем, прогнозирования, обнаружения
сигналов, а также в системах связи и управления. Первые результаты в области искусственных нейронных сетей получены зарубежными учеными W.
McCulloch, W. Pitts, F. Rosenblatt, D. Hebb. Дальнейшие исследования в области нейронных сетей, в том числе алгоритмов их обучения и применения
для распознавания образов и восстановления зависимостей проводили отечественные ученые Галушкин А.И., Круглов В.В., Борисов В.В., Горбань А.Н.,
Аведьян Э.Д., Терехов В.А., Головко В.А., а также зарубежные ученые J.
Hopfield, Т. Kohonen, D.J.C. MacKay, C. Bishop, S. Haykin, M.E. Tipping и др.
Возможностей отдельного типа нейросетевых прогностических моделей, как правило, недостаточно для универсального использования в практической деятельности, поскольку разнообразные типы НС демонстрируют
свою эффективность на различных типах задач. В связи с этим возникает необходимость создания информационно-аналитической системы, включающей разнообразные подходы и обладающей возможностью автоматического
выбора как типа прогностической модели, так и алгоритма ее обучения.
Несмотря на заметный прогресс в области нейросетевых технологий и
множество успешных практических применений НС, отсутствуют однозначные рекомендации по их практической реализации.
Таким образом, актуальным является исследование, направленное на
формирование методов автоматизации выбора из нескольких возможных вариантов решения, наиболее подходящего для поставленной задачи.
3
Важной задачей при построении прогностических моделей является
выбор исходного описания объектов. Существует ряд принципиальных и
технических проблем, связанных с процедурами снижения размерности при
большом количестве признаков, а также при обучении прогностических моделей в условиях сравнительно малых обучающих выборок. Кроме того,
существуют сложности, связанные с решением задач при наличии непрерывных и номинальных признаков.
Повышение эффективности алгоритмов обучения НС необходимо для
обеспечения высокой достоверности принятия решений в информационноаналитических системах. Таким образом, разработка алгоритмов снижения
размерности, а также обучения НС для задач с разнородными входными
данными с учетом специфики отдельных видов НС, в частности процедур
структурной оптимизации, является актуальной.
Цель и задачи диссертационной работы
Целью работы является повышение эффективности аналитической обработки информации, а также достоверности принимаемых решений с использованием нейросетевых процедур распознавания образов и восстановления зависимостей.
Поставленная цель достигается решением следующих задач.
1. Сформировать архитектуру системы обработки информации и принятия
решений на основе интеллектуализации процедур выбора прогностических моделей с учетом специфики отдельных задач анализа данных.
2. Разработать информативные показатели качества решения задач классификации и восстановления зависимостей, предназначенные для
сравнительного анализа эффективности алгоритмов синтеза нейросетевых прогностических моделей.
3. Синтезировать процедуры отбора атрибутов, работоспособные при
большом количестве признаков.
4. На основе байесовской методологии разработать алгоритмы структурно-параметрического синтеза нейронных сетей с учетом особенностей
их архитектуры для решения задач классификации и восстановления
зависимостей.
5. Сформировать способ синтеза прогностических моделей и выявления
скрытых закономерностей при наличии как непрерывных, так и номинальных признаков.
Методы исследования
В диссертационной работе методы исследования базируются на
сочетании теории искусственного интеллекта, теории искусственных
нейронных сетей, теории информации, теории статистических решений,
байесовской
методологии,
а
также
методах
оптимизации
и
математического моделирования.
4
1.
2.
3.
4.
5.
Научная новизна
Предложена новая архитектура системы аналитической обработки информации и принятия решений, отличающаяся использованием при выборе прогностической модели знаний экспертов, формальных характеристик качества решения отдельных задач и оценок субъективной удовлетворенности пользователей.
Получен показатель близости условных распределений вероятностей,
основанный на обобщении информационного расстояния КульбакаЛейблера, позволяющий оценивать качество прогностических моделей.
Предложен способ оценки точности бинарных классификаторов, основанный на развитии метода минимума среднего риска и не требующий
задания значений функции потерь.
Разработан способ отбора атрибутов, отличающийся предварительной оценкой их информативности, что позволяет значительно снизить вычислительную сложность алгоритма поиска подмножества значимых признаков.
Разработаны алгоритмы структурно-параметрического синтеза нейронных сетей, отличающиеся от метода релевантных векторов процедурой
структурной оптимизации, способствующей уменьшению сложности
синтезируемых прогностических моделей.
Разработан способ синтеза прогностических моделей, позволяющий выявлять скрытые закономерности при наличии непрерывных и номинальных признаков.
Практическая значимость работы
Полученные в диссертационной работе результаты могут быть использованы при построении информационно-аналитических систем: распознающих систем, систем поддержки принятия решений; а также в составе
интеллектуальных систем управления сложными техническими объектами
и систем обнаружения. Реализация разрабатываемых процедур в системах
диагностики, управления и информационно-аналитических системах будет
способствовать снижению риска принятия ошибочных решений, а также
повышению эффективности управления за счет интеллектуализации процессов обработки информации.
Результаты диссертационной работы нашли применение в трех НИР.
В рамках ФЦНТП «Исследования и разработки по приоритетным направлениям развития науки и техники» выполнены следующие НИР:
 по государственному контракту № 02.442.11.7378 на тему «Приобретение знаний и логический вывод в распределенных гибридных интеллектуальных системах» (отчет о НИР, инв. № 02200607048);
 по государственному контракту № 02.442.11.7033 на тему «Интеллектуальный нейросетевой анализ данных и принятие решений в информаци5
онно-аналитических распределенных системах» (отчет о НИР, инв. №
02200604002).
По проекту с ФГУП ФНПЦ НИИИС им. Ю.Е. Седакова выполнена
разработка нейросетевых систем и технологий технической диагностики,
мониторинга и автоматизированного управления сложными техническими
объектами и технологическими процессами.
Разработанные алгоритмы нашли применение для распознавания образов на изображениях, распознавания объектов по сейсмоакустическим сигналам, для восстановления рельефа местности, для восстановления осевой линии подземного газопровода по данным измерений, для построения моделей
энергопотребления в учреждениях.
Часть материалов диссертационной работы использована в учебном
процессе на кафедре «Электроника и сети ЭВМ» Нижегородского государственного технического университета им. Р.Е. Алексеева при проведении занятий для магистрантов по направлению подготовки 230200 «Информационные
системы».
Апробация работы
Основные положения и результаты диссертационной работы доложены и обсуждены на следующих научно-технических семинарах и конференциях.
1. Научно-технические семинары кафедры ЭСВМ 2006-2010 г.г.;
2. 16-я Международная научно-практическая конференция по графическим информационным технологиям и системам − КОГРАФ (г. Нижний
Новгород, 2006 г.);
3. Международная научно-техническая конференция «Информационные
системы и технологии» − ИСТ (г. Нижний Новгород, 2006, 2007, 2009,
2010 г.г.);
4. 12-я, 13-я и 15-я Нижегородская сессия молодых ученых. Технические
науки (г. Нижний Новгород, 2007, 2008, 2010 г.г.);
5. Международная молодежная научно-техническая конференция «Будущее
технической науки» (г. Нижний Новгород, 2007, 2008, 2010 г.г.);
6. Восьмой и Девятый Международный симпозиум «Интеллектуальные
системы» − INTELS’2008 (г. Нижний Новгород, 2008 г.) и INTELS’2010
(г. Владимир, 2010 г.);
7. Конференция «Распознавание образов и анализ изображений: Новые информационные технологии» − PRIA-9-2008 (г. Нижний Новгород, 2008 г.);
8. Конференция «Технологии Microsoft в теории и практике программирования» (г. Нижний Новгород, 2009 г.);
9. XI и Х Всероссийская научно-техническая конференция − «Нейроинформатика-2009» и «Нейроинформатика-2010» (г. Москва, 2009 и 2010 г.г.).
6
Основные положения диссертационной работы, выносимые на защиту
1. Предложенная архитектура системы аналитической обработки информации и принятия решений обеспечивает накопление информации об
эффективности прогностических моделей и автоматизацию их выбора
с учетом специфики решаемых задач.
2. Разработанный показатель определения близости условных распределений позволяет оценивать точность прогностических моделей в задачах распознавания образов и восстановления зависимостей.
3. Предложенная процедура предварительного ранжирования признаков
по их информативности позволяет значительно снизить вычислительную сложность алгоритмов отбора атрибутов.
4. Разработанные алгоритмы структурно-параметрического синтеза нейронных сетей на основе байесовской методологии позволяют преодолеть эффект переобучения и получать модели, аппроксимирующая способность
которых согласована с доступными эмпирическими данными.
5. Предложенный алгоритм синтеза прогностических моделей при наличии непрерывных и номинальных признаков способствует выявлению и
группировке близких зависимостей за счет процедуры кластеризации.
Структура и объем диссертации
Работа состоит из введения, четырех глав, заключения и списка литературы, который насчитывает 114 наименований. Объем работы составляет 159 страниц. Работа содержит 34 рисунка и 15 таблиц.
Публикации
Основное содержание диссертации опубликовано в трех отчетах по
НИР и в 26 печатных работах. Из них 3 статьи в научно-технических журналах, 20 публикаций в сборниках трудов и материалов научнотехнических конференций, в том числе Всероссийских и Международных,
и 3 свидетельства Роспатент об официальной регистрации программ для
ЭВМ.
Две статьи опубликованы в журналах «Нейрокомпьютеры: разработка, применение» и «Информационно-измерительные и управляющие системы», которые входят в перечень изданий, рекомендованных ВАК для
публикации результатов диссертационных работ.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы, сформулированы цель и
задачи исследования, выбраны методы исследования, отмечена и аргументирована научная новизна и практическая значимость работы, приведены
основные положения диссертационной работы, выносимые на защиту, а
также сведения об апробации результатов исследования.
7
В первой главе приведены общие принципы статистической обработки данных, рассмотрены основные типы задач интеллектуального анализа данных, в том числе дискриминантный и регрессионный анализ. Выполнен обзор различных методов интеллектуального анализа данных,
имеющего множество практических приложений в различных сферах.
Сформулированы постановки задач классификации и восстановления
зависимостей. Так, в задаче классификации, если исследуемые классы заданы однозначным описанием соответствующих плотностей вероятности
p (x | z ) , может быть синтезирован оптимальный байесовский классификатор, основанный на вероятностях P ( z |x)  p (x | z ) P ( z ) p (x ) принадлежности объекта, характеризующегося вектором признаков x , к классу z . При
наличии неопределенности плотности вероятности p (x | z ) , характеризующие классы, неизвестны и классификатор может быть построен по эмпирическим данным посредством процедуры обучения.
В задаче восстановления зависимостей предполагается наличие статистической (стохастической) связи между результирующей (зависимой)
переменной y и признаками (факторными переменными) x . Эта связь исчерпывающим образом характеризуется условной плотностью вероятности
p( y|x) . В частном случае гауссовской регрессионной модели со скалярной
зависимой переменной p( y|x)  g ( y; f (x), D(x)) , где g ( y; f (x), D(x)) – гауссовская плотность вероятности с условным математическим ожиданием,
представляющим собой функцию среднеквадратической регрессии f (x) и
условной дисперсией D (x) . В результате решения задачи восстановления
зависимости по эмпирическим данным формируется оценка условной
плотности вероятности pˆ ( y|x) .
Для случая гомоскедастичной гауссовской модели на рис. 1,а приведен пример условной плотности вероятности p( y| x) , а на рис. 1,б  линия
среднеквадратической регрессии f (x) .
В условиях априорной неопределенности синтез прогностической
модели, связанный с формированием оценки Pˆ ( z | x) или pˆ ( y|x) , осуществляется на основе обучающей выборки D  {D(n), n  1, N } , где N – объем
выборки. Элемент обучающей выборки D(n) включает значения факторных и зависимой переменных: в случае классификации − x (n) , z (n) , а в
случае восстановления зависимостей − x (n) , y (n) . Например, для случая
гомоскедастичной
регрессии
модель
наблюдения
имеет
вид
y (n)  f x(n)   (n) , где (n)  регрессионные остатки с нулевым средним
значением и дисперсией D    2 .
Рассмотрены типы НС. Отмечено, что для решения задач классификации и восстановления зависимостей могут быть использованы нейронные се8
ти с последовательными связями, обладающие универсальной аппроксимирующей способностью. Показано, что обучение нейронных сетей в общем
случае включает этапы определения как параметров, так и структуры.
а)
б)
Рис. 1. График условной плотности вероятности (a),
функция среднеквадратической регрессии (б)
Выполнен сравнительный анализ методов синтеза прогностических
моделей на основе эмпирических данных: параметрические методы, непараметрические методы и нейросетевые методы, которые характеризуются
как структурно-параметрические.
Вторая глава содержит описание этапов построения нейросетевых
прогностических моделей, применяемых для решения задач распознавания образов и восстановления зависимостей. Синтез прогностических моделей включает этапы предобработки данных, формирования множества
значимых признаков – атрибутов, выбора нейросетевой модели, обучения
и тестирования качества полученной модели.
Показано, что однократного применения прогностической модели в
общем случае недостаточно для однозначного вывода о ее качестве, поскольку отдельные типы моделей оказываются эффективными в различных условиях.
Повышение эффективности систем аналитической обработки информации может быть достигнуто за счет применения процедур интеллектуализации для выбора прогностических моделей, в том числе при
решении задач распознавания образов и восстановления зависимостей.
Предложена архитектура интеллектуальной системы распознавания
образов и восстановления зависимостей (рис. 2), обеспечивающая накопление данных об эффективности различных типов НС и алгоритмов их
обучения. Тип НС и алгоритм ее обучения выбирается при помощи правил, хранящихся в базе знаний в зависимости от описания задачи, форми9
руемого на основе обучающей выборки.
В процессе функционирования интеллектуальной системы накапливается информация об эффективности применения тех или иных методов
для решения отдельных классов задач. При этом могут использоваться
как автоматические оценки качества работы алгоритмов, так и субъективные оценки пользователей. На основе накопленных данных выполняется
обнаружение закономерностей, характеризующих эффективность применения отдельных НС и алгоритмов их обучения для решения различных
типов задач. Для решения задачи классификации или восстановления зависимостей может быть выбран как тип прогностической модели (например, деревья решений, нейронные сети), так и семейство алгоритмов обучения для каждого из типов.
Рис. 2. Интеллектуальная система, реализующая возможность
выбора и применения прогностических моделей
В процессе функционирования интеллектуальной системы распознавания образов и восстановления зависимостей, найденные закономерности пополняются либо корректируется в результате действий по приобретению знаний.
Оценка качества прогностических моделей основана как на использовании «синтетических» генерируемых данных, так и на реальных данных. Во втором случае значения показателей точности прогностических
моделей оцениваются с помощью процедуры перекрестной проверки.
Для оценки эффективности прогностических моделей предложено
использовать такие показатели как качество решения задач анализа данных, вычислительная сложность алгоритма обучения и сложность полу10
ченной прогностической модели. Для применяемых в работе нейронных
сетей их сложность обычно характеризуется количеством нейронов, а также количеством слоев.
Непосредственные выражения для показателей качества решения задач классификации и восстановления зависимостей определяются используемым подходом. Так, для оценки качества классификации находит широкое применение коэффициент ошибок, который соответствует эмпирическому риску при использовании простой функции потерь.
Однако классификатор, характеризующийся минимальным коэффициентом ошибок, может быть далек от оптимального, если ошибки первого
и второго рода характеризуются различными последствиями. Поскольку на
этапе сравнения нейросетевых моделей, включая алгоритмы обучения нейронных сетей, конкретные значения функции потерь, как правило, неизвестны, то возникает необходимость в формировании критерия точности
прогностических моделей, не зависящего от значений функции потерь.
Для анализа качества прогностических моделей в рамках теоретикоинформационного
подхода
предложен
способ
и
показатель
J   (x) p (x) dx определения близости условных распределений вероятX
ностей.
На основе расстояния Кульбака-Лейблера сформирована метрика
(x) , непосредственный вид которой зависит от решаемой задачи. Так, в
задаче восстановления зависимостей
 p( y| x) 
 dy .
(x)    p( y|x)  pˆ ( y|x)  ln
ˆ
p
(
y|
x
)


Y
Для случая условных гауссовских распределений последнее выражение
представлено в аналитическом виде:
1
1
(x)  ( f (x)  fˆ (x)) 2 D 1  Dˆ 1  Dˆ D 1  DDˆ 1  1 .
2
2
При оценке точности классификации (x) определяется близость
выражением
 P( z| x) 
,
(x)   P( z|x)  Pˆ ( z| x) ln

ˆ
P
(
z|
x
)
zZ




 


Отдельное внимание уделено анализу качества бинарных классификаторов. Для этого находят применение рабочие характеристики (ROC),
представляющие собой зависимость PˆD  1  ˆ от ̂ ; где  и  – условные вероятности ошибок первого и второго рода. Однако сравнение эффективности классификаторов становится неоднозначным, если соответствующие им рабочие характеристики пересекаются, что зачастую имеет
место на практике (рис. 3,а). На рис. 3,а представлены ROC-кривые для
случаев: линейного дискриминантного анализа ( ); квадратичного дис11
криминантного анализа ( ); классификатора на основе вероятностной
нейронной сети − ВНС ( ); классификатора на основе нейронной сети с
радиальными базисными функциями РБФ-НС ( ).
Широкое распространение как показатель качества классификации
получила полная вероятность ошибки (вероятность ошибочной классификации):
Pош  P0  P1  1  P1   P1 .
Здесь P0  P ( z  0) , P1  P( z  1)  1  P0 – априорные вероятности классов.
Учесть различия в последствиях и потерях, наступающих в результате ошибок первого и второго рода, позволяет применение среднего риска R .
а)
б)
Рис. 3. Результаты сравнения эффективности классификаторов:
а) ROC-кривые, б) зависимость среднего риска от порога
Для случая бинарной задачи классификации выражение для среднего риска R представлено в виде
R  r00 1   (1  P1 )  r10(1  P1 )  r01 P1  r11 1   P1 ,
где rij − элементы матрицы потерь, i, j  0,1 . Таким образом, средний
риск наряду с условными вероятностями ошибок  и  зависит от априорной вероятности P1 и от значений потерь rij .
Учитывая, что в решающем правиле zˆ  H ( Pˆ ( z  1 | x)  h p ) , где H (a )
–
функция
Хевисайда,
оптимальное
значение
порога
hP  (r01  r00 ) (r01  r00  r10  r11 )  r0 (r0  r1 ) ,
и,
полагая,
что
r00  r11  0 , r01  r10  2 , выражение для среднего риска принимает вид
R  21  hP 1  P1   hP  P1  . На рис. 3,б показан график зависимости
R (h p ) от порогового значения hP  (1  r10 r01 ) 1  (1  r10 /(2  r10 )) 1 .
Предложена интегральная характеристика точности бинарной классификации:
12
1
Rq   R(h P )q (h P )h P .
0
Здесь q (hP ) – весовая функция, которая в наиболее простом случае
может быть принята в виде q (hP )  1 . В рамках проведенного моделирования предложенный интегральный показатель качества классификации
сопоставлен с показателем, основанным на вычислении площади области
под ROC-кривой (AUC).
Также во второй главе проведен анализ подходов к снижению размерности пространства признаков. Снижение размерности L пространства
признаков может быть обеспечено за счет перехода к системе, содержащей
меньшее количество новых признаков, либо с помощью селекции наиболее
информативных признаков.
Примером первого подхода к понижению размерности является анализ главных компонент, представляющий собой линейную процедуру, основанную на предположении о гауссовском характере распределения признаков. Отображение пространства признаков в пространство меньшей
размерности приводит к формированию новой совокупности атрибутов.
Содержательная интерпретация этих атрибутов становится практически
невозможной, что представляет существенный недостаток в условиях, когда требуется дальнейший анализ построенных моделей.
Второй подход к снижению размерности пространства признаков основан на селекции атрибутов. При этом формируется задача оптимизации,
решаемая на множестве всех подмножеств атрибутов. Экспоненциальный
характер роста количества всех подмножеств множества признаков препятствует применению полного перебора с вычислительной сложностью
O(2 L ) , обеспечивающего гарантированное достижение оптимального решения. Значительно меньшей вычислительной сложностью O( L( L  1) / 2)
характеризуются алгоритмы, основанные на последовательном добавлении
или удалении признаков.
Реализовано семейство процедур отбора значимых признаков: полный перебор, алгоритмы, основанные на добавлении признаков, на удалении признаков, на поочередном добавлении и удалении признаков. Проведенное моделирование и сравнительный анализ показали, что алгоритмы
добавления и удаления в общем случае могут приводить к различным решениям. Поэтому представляется целесообразным комбинирование процедур добавления и удаления.
Для демонстрации работоспособности разработанных процедур на
рис. 4 приведены результаты отбора значимых признаков по алгоритмам
добавления и удаления, где для классификаторов, построенных с использованием различных наборов признаков, приведены значения показателей
точности.
Для снижения вычислительной сложности алгоритма отбора атрибу13
тов предложена двухэтапная процедура поиска подмножества наиболее
значимых признаков. Процедура основана на анализе информативности
атрибутов, представляющей собой вторичный критерий, применяемый для
ранжирования и предварительного исключения незначимых признаков.
Таким образом, на первом этапе отбирается подмножество наиболее
значимых (информативных) признаков посредством применения процедуры, не требующей обучения прогностической модели. На втором этапе
применяется первичный критерий для отбора признаков, отражающий качество прогностической модели, обученной с использованием отобранного
подмножества атрибутов.
а)
б)
Рис. 4. Иллюстрации отбора значимых признаков по алгоритму
удаления (а) и по алгоритму добавления (б)
Третья глава посвящена методам обучения нейросетевых моделей
для решения задач распознавания образов и восстановления зависимостей.
14
На основе последовательного развития байесовской методологии получены алгоритмы структурно-параметрического синтеза прогностических моделей. Наиболее полным результатом, получаемым при обучении на основе
байесовской методологии, служит прогностическое распределение. Поскольку точный вывод прогностического распределения встречает существенные
затруднения, то на практике обычно пользуются приближением
P ( z|x, D)  P( z|x, D,ˆ , sˆ) , где
P ( z|x, D, , s)   P ( z|x, w, s ) p (w| D, , s ) dw .
W
В последнем выражении, записанном для случая классификации, апостериорная плотность вероятности параметров определяется выражением
p (D| w , s ) p (w | , s)
.
p (w| D, , s ) 
p (D|, s )
Здесь
p (D|, s )   p (D| w , s ) p (w | , s ) dw ,
W
где p ( w| , s ) – априорная плотность вероятности параметров, заданная с
точностью до гиперпараметров  ; p (D|, s ) – функция правдоподобия.
В зависимости от вида априорной плотности вероятности могут быть
получены различные алгоритмы обучения НС. В диссертационной работе
семейство алгоритмов структурно-параметрического синтеза НС получено
с использованием гауссовской априорной плотности вероятности
p (w| , s )  g (w; 0, K () ) .
В зависимости от решаемой задачи (классификация или восстановление зависимостей) условные распределения P ( z|x, w, s) и p ( y|x, w, s ) могут быть заданы с помощью нейронной сети, обладающей универсальной
аппроксимирующей способностью и характеризующейся вектором параметров w и структурой s .
Так, в задаче восстановления зависимостей находит применение условная гауссовская плотность вероятности P ( y |x, w , s )  g ( y , f s (x, w ), D ) .
В качестве регрессионной модели в работе использованы полиномиальные
нейронные сети (ПНС) и нейронной сети с радиальными базисными
функциями (РБФ-НС) с характеристикой вход-выход:
d
f s (x, w )   T (x)w   wi i (x) .
i 1
Здесь (x)  [ 1 (x), , d (x) ]  вектор базисных функций, в качестве котоT

2

рых могут использоваться радиальные i (x)  exp  0,5vi x  c i
или степенные функции, w  вектор параметров, d − количество нейронов скрытого слоя.
В задаче бинарной классификации НС имеет в выходном слое единственный
нейрон
с
логистической
функцией
активации
15
ψ(a )  1 1  exp( a )  , а условное распределение вероятностей определяется выражением
P ( z |x, w , s )   ( f s ( x, w ))  z 1   ( f s (x, w ))  1  z .
Получено семейство алгоритмов обучения НС, различающихся способами и процедурами оценки гиперпараметров и структурной оптимизации. При фиксированной структуре s оценка гиперпараметров ̂ может
быть найдена на основе максимизации маргинальной функции правдоподобия p (D| , s ) либо ее логарифма. Для этого находит применение итерационный EM-алгоритм. Другой подход к формированию оценок гиперпараметров основан на методе простых итераций.
На характеристики прогностической модели существенное влияние,
наряду с параметрами НС, оказывает и ее структура. Выбор структуры может быть выполнен по критерию максимума апостериорной вероятности
sˆ  arg max P ( s| D)  arg max( P(D|s ) P( s )) ,
sS
sS
где
P (D|s )   P(D| , s ) p (| s ) d .
A
Выражения для итерационных алгоритмов оценки гиперпараметров и
условия удаления базисных функций при структурной оптимизации для
~ − оценка гиразработанных алгоритмов приведены в табл. 1, в которой 
перпараметра, полученная на предыдущей итерации, d − количество па~
раметров, w и G  G ( ) − вектор средних значений и ковариационная матрица аппроксимирующей гауссовской апостериорной плотности вероятности параметров нейросетевой модели. Характеристики этой плотности вероятности для многослойных НС могут быть найдены, в частности, с использованием алгоритма Левенберга-Марквардта. Более простые вычислительные процедуры реализованы с учетом специфики НС с одним скрытым
~
~ ~
~ I ) 1 , где
слоем, например РБФ-НС: w  G T Zˆ , G  ( T   
  ( N  d ) -матрица с элементами  n i   i (x(n)) , Zˆ  V   1 Z    ,
~,
  diag[]I  diag[] , Z  [ z (1), , z ( N )]T ,   [ (V1 ),...,  (V N )]T , V  w
ˆ , ˆ  1  ˆ Ĝ .
ˆ  d  ˆ tr G
i
ii
С помощью статистического моделирования проведено сравнение разработанных алгоритмов структурно-параметрической оптимизации с известным алгоритмом релевантных векторов (RVM), в котором каждой базисной
функции ставится в соответствие отдельный гиперпараметр  i . В рамках
реализованных примеров точность прогностических моделей оказалась соизмеримой. При этом разработанный способ структурной оптимизации по
сравнению c RVM, как правило, приводил к дополнительному упрощению
синтезируемых НС.
16
Таблица 1
Ковариационные матрицы априорного распределения
Оценка гиперпараметров
Условие удаления базисных функций
RVM
Алгоритм со структурной оптимизацией
K ( )  diag[11,...,  d1]
K (  )   1 I

~
~
ˆ i  wi2  G ii
wˆ i2 Gˆ ii  ˆ i
1
~
ˆ  d ( w
2
~
 tr G ) 1
wˆ i2 Gˆ ii   ln(1  ˆ i )(1  ˆ i ˆ )
Также с помощью статистического моделирования выполнено сравнение точности прогностических моделей, основанных на различных типах
НС. В качестве примера на рис. 5 представлены зависимости, полученные
в результате обучения классификаторов на основе РБФ-НС и вероятностной нейронной сети (ВНС). Сравнение полученных моделей (рис. 5) свидетельствует, что РБФ-НС обладает меньшей склонностью к переобучению,
чем ВНС.
а)
б)
Рис. 5. Оценки условных вероятностей Pˆ ( z  1 x1 , x2 )
при использовании ВНС (а) и РБФ-НС (б)
Отдельное внимание в третьей главе уделено задаче синтеза прогностических моделей при наличии как непрерывных, так и номинальных переменных. Использовать разнородные переменные зачастую требуется при
описании функционирования многих систем. Такие системы могут быть
охарактеризованы условной плотностью вероятности p( y| x, q) , зависящей
как от непрерывных факторных переменных x , так и от совокупности
номинальных переменных, которая представлена в виде номинального
макропризнака q  1, Q .
На первом этапе синтеза прогностической модели в результате обучения находятся оценки условных плотностей вероятности pˆ ( y|x, q) для
каждого из значений номинальной переменной. Для выявления и анализа
17
скрытых зависимостей целевой переменной от факторных, характеризующихся условными плотностями вероятности, применена агломеративная процедура кластеризации. С ее помощью выполняется группировка
близких плотностей вероятности p( y|x, q) , соответствующих различным
значениям номинального признака q . Близость плотностей вероятности
определяется с помощью предложенных информационных показателей.
В качестве примера на рис. 6 представлены результаты применения
разработанной процедуры для случая скалярных непрерывных зависимой
y и факторной x переменных, связанных парной нелинейной регрессионной моделью y  f ( x, q ) , а также номинального признака q  1, Q , принимающего Q  3 значения. На рис. 6,а элементы обучающих подвыборок
обозначены
,
и
для q  1,2,3 соответственно. Сравнение
pˆ ( y| x, q  i ) и pˆ ( y| x, q  j ) , i, j  1, Q , i  j показало, что обучающие выборки, соответствующие q  1 и q  3 , достаточно хорошо описываются
одной и той же зависимостью (рис. 6,б), построенной по объединенной
выборке ( ).
а)
б)
1
0.8
0.6
0.4
0.2
0
0.2
0.4
0.6
0.8
1
Рис. 6. Обучающие подвыборки и оценки функций регрессии для зависимостей
до (а) и после (б) объединения
В четвертой главе приведено описание разработанного программного обеспечения (ПО) нейросетевой классификации и восстановления зависимостей. В программном обеспечении реализованы алгоритмы обучения
различных типов НС, в том числе ВНС, ПНС, РБФ-НС, а также линейного
и квадратичного классификаторов.
Разработанное ПО поддерживает два режима: обучение по реальным
данным и статистическое моделирование, предназначенное для сравнения
различных алгоритмов классификации на основе генерируемых синтетических (модельных) данных.
Также в ПО реализованы процедуры отбора признаков и оценки эффективности алгоритмов классификации.
18
Приведено описание практического применения разработанных процедур нейросетевого моделирования. Процедуры классификации и снижения размерности пространства признаков применены для распознавания
объектов на изображениях, фильтрации спама, а также для классификации
нарушителей в сейсмоакустической системе рубежного контроля. В этой
системе по принятым с сейсмоакустических приемников сигналам с помощью процедур нейросетевой классификации определяется, к какому из
классов принадлежит их источник: человек, группа людей или транспортное средство.
Алгоритмы нейросетевого восстановления зависимостей применены
для интерполяции рельефа местности, заданного совокупностью точек, и
восстановления осевой линии подземного газопровода по данным измерений.
Алгоритмы синтеза прогностических моделей при наличии непрерывных и дискретных переменных применены для моделирования и анализа энергопотребления в образовательных учреждениях девяти типов.
Тип образовательного учреждения представляет собой факторную номинальную переменную. С помощью разработанных процедур кластеризации
выявлены группы организаций, характеризующихся близкими моделями
энергопотребления.
В заключении сформулированы выводы и основные результаты
проведенного в диссертационной работе исследования, а также рекомендации, полученные на их основе.
1.
2.
3.
4.
ЗАКЛЮЧЕНИЕ
Основные результаты диссертационной работы состоят в следующем.
Сформирована архитектура системы обработки информации и принятия
решений, основанная на интеллектуализации процедур выбора прогностических моделей с использованием знаний экспертов и формальных характеристик качества решения отдельных задач, а также оценок субъективной удовлетворенности пользователей.
На основе теоретико-информационного подхода разработан показатель
близости условных распределений вероятности, позволяющий анализировать качество алгоритмов синтеза нейронных сетей при решении
задач распознавания образов и восстановления зависимостей.
На основе развития метода минимума среднего риска предложен способ
оценки точности бинарных классификаторов, не требующий задавать
значения функции потерь.
Разработаны процедуры отбора атрибутов, работоспособные при
большой размерности входных данных за счет предварительной оценки информативности признаков, не требующей применения процедуры
обучения, с последующим поиском среди отобранных признаков подмножества наиболее значимых.
19
5. Разработаны алгоритмы структурно-параметрического синтеза отдельных видов нейронных сетей, обеспечивающие упрощение синтезируемых моделей, характеризующихся меньшей склонностью к переобучению по сравнению с известным методом релевантных векторов.
6. Сформированы процедуры синтеза прогностических моделей, включающие в себя алгоритмы кластеризации и позволяющие обнаруживать
скрытые закономерности при наличии непрерывных и номинальных
факторных переменных.
7. Разработано алгоритмическое и программное обеспечение нейросетевого распознавания образов и восстановления зависимостей, использованное для моделирования, и решения ряда практических задач.
Результаты диссертационной работы предлагается использовать
при построении информационно-аналитических систем, систем поддержки принятия решений, а также в составе интеллектуальных систем управления сложными техническими объектами.
СПИСОК ПУБЛИКАЦИЙ
Публикации в журналах, которые входят в перечень изданий, рекомендованных ВАК, для публикации результатов диссертационных работ:
1. Баранов, В.Г. Нейросетевые алгоритмы распознавания образов / В.Г.
Баранов, В.В. Кондратьев, В.Р. Милов, Ю.Х. Зарипова // Нейрокомпьютеры: разработка, применение. – 2007. – № 11. – С. 20 – 27.
2. Баранов, В.Г. Интеллектуализация системы распознавания образов на
основе сравнения эффективности методов классификации/ В.Г. Баранов,
В.Р. Милов, Ю.Х. Зарипова // Информационно-измерительные и управляющие системы. – 2010. № 2. – Т.8. – С. 35 – 38.
Свидетельства об официальной регистрации ПО:
3. Баранов, В.Г., Милов В.Р., Зарипова Ю.Х. Свидетельство об официальной регистрации программы для ЭВМ № 2006613557. Распознавание
образов на основе вероятностной нейронной сети.
4. Баранов, В.Г., Милов В.Р., Зарипова Ю.Х. Свидетельство об официальной регистрации программы для ЭВМ № 2006613489. Структурнопараметрический синтез полиномиальных и нейросетевых регрессионных
моделей.
5. Баранов, В.Г., Милов В.Р., Зарипова Ю.Х., Б.А. Суслов, И.В. Шалашов
Свидетельство об официальной регистрации программы для ЭВМ №
2008612308. Программный комплекс статистического моделирования
процедур нейросетевой классификации.
Публикации в журналах и сборниках трудов конференций:
6. Баранов, В.Г. Применение байесовских сетей для поддержки принятия
решений / В.Г. Баранов, В.Р. Милов, Ю.Х. Зарипова // Международная
науч.-техн. конф. «Информационные системы и технологии. ИСТ2006», посвященная 70-летию ФИСТ: Сб. науч. тр. − НГТУ. −
Н.Новгород, 2006 – С. 74 − 75.
20
7. Левичев, Е.М. Программное обеспечение для обучения байесовских сетей и вероятностных рассуждений / Е.М. Левичев, Д.В. Милов, Ю.Х.
Зарипова // V Международной молодежной научно-технической конференции «Будущее технической науки»: Сб. науч. тр. − НГТУ. −
Н.Новгород, 2006 − С. 25 − 26.
8. Баранов, В.Г. Байесовская методология синтеза нейросетевых классификаторов / В.Г. Баранов, В.Р. Милов, Ю.Х. Зарипова // Труды НГТУ:
Системы обработки информации и управления / НГТУ. Н.Новгород. –
2007. – Т. 65, Вып. 14. – С. 5 – 12.
9. Баранов, В.Г. Предварительная обработка данных в задаче классификации электронной почты / В.Г. Баранов, В.Р. Милов, Ю.Х. Зарипова //
Международная науч.-техн. конф. «Информационные системы и технологии. ИСТ - 2007», посвященная 90-летию НГТУ: Сб. науч. тр. –
НГТУ. – Н.Новгород, 2007 – С. 106 – 107.
10. Зарипова, Ю.Х. Программное обеспечение нейросетевой классификации на основе вероятностной и RBF-сетей / Ю.Х. Зарипова // XII Нижегородская сессия молодых ученых, секция информационные системы: Сб. науч. тр. – Н.Новгород, 2007 – С. 8 – 9.
11. Зарипова, Ю.Х. Сравнение алгоритмов классификации на основе вероятностной и РБФ-сетей / Ю.Х. Зарипова // VI Международная молодежная научно-технической конференция «Будущее технической науки»: Сб. науч. тр. – НГТУ. – Н.Новгород, 2007. – С. 5− 6.
12. Шалашов, И.В. Система управления и диагностики технических процессов / И.В. Шалашов, Б.А. Суслов, Ю.Х. Зарипова // Первый областной конкурс молодежных инновационных команд «РОСТ»: Каталог. –
Н.Новгород, 2007. – с. 146 – 148.
13. Зарипова, Ю.Х. Алгоритмы нейросетевой классификации на основе
РБФ-сетей / Ю.Х. Зарипова // XIII Нижегородская сессия молодых ученых, секция информационные системы: Сб. науч. тр. – Н.Новгород,
2008. – С 12 − 13.
14. Зарипова, Ю.Х. Процедуры отбора значащих признаков в задаче распознавания образов / Ю.Х. Зарипова // VII Международная молодежная
научно-техническая конференция «Будущее технической науки»: Сб.
науч. тр. – НГТУ. – Н.Новгород, 2008. – С 15 − 16.
15. Милов, В.Р. Процедуры интеллектуального распознавания образов с
применением нейронных сетей / В.Р. Милов, Ю.Х. Зарипова // Восьмой
Международный
симпозиум
«Интеллектуальные
системы»
(INTELS'2008): Сб. науч. тр. – Н.Новгород, 2008. – C. 109 – 113.
16. Милов, В.Р. Проект «Система управления и диагностики технологических процессов» / В.Р. Милов, И.В. Шалашов, Б.А. Суслов, Ю.Х. Зарипова // Международная науч.- техн. конф. «Информационные системы и технологии. ИСТ-2008»: Сб. науч. тр. – НГТУ. – Н.Новгород, 2008
– С. 81 − 82.
17. Милов, В.Р. Сравнение эффективности алгоритмов классификации /
В.Р. Милов, Ю.Х. Зарипова // Международная науч.- техн. конф. «Ин21
формационные системы и технологии. ИСТ-2008»: Сб. науч. тр. –
НГТУ. – Н.Новгород, 2008. – С. 78 – 79.
18. Зарипова, Ю.Х. Нейросетевая классификация в сейсмоакустических
системах наблюдения / Ю.Х. Зарипова // Международная науч.-техн.
конф. «Информационные системы и технологии. ИСТ-2009»: Сб. науч.
тр. – НГТУ. – Н.Новгород, 2009. – С. 132 – 133.
19. Баранов, В.Г. Точность восстановления условного распределения в
задаче бинарной классификации / В.Г. Баранов, В.Р. Милов, Ю.Х. Зарипова // Международная науч.-техн. конф. «Информационные системы и
технологии. ИСТ - 2009»: Сб. науч. тр. − НГТУ. − Н.Новгород, 2009. –
С. 131 − 132.
20. Милов, В.Р. Алгоритмы структурно-параметрического синтеза нейросетевых классификаторов на основе байесовской методологии / В.Р.
Милов, А.В. Деревянкин, Ю.Х. Зарипова // XI Всероссийская научнотехническая конференция «Нейроинформатика-2009»: Сб. науч. тр. −
МИФИ. − Москва, 2009. – С 124 – 131.
21. Зарипова, Ю.Х. Задача распознавания образов в сейсмоакустической
системе и применение нейронных сетей для ее решения / Ю.Х. Зарипова
// XI Всероссийская научно-техническая конференция «Нейроинформатика-2009»: Сб. науч. тр. − МИФИ. − Москва, 2009. – С 204.
22. Мишин, А.А. Особенности использования моделирования при разработке интеллектуальных систем управления / А.А. Мишин, А.В. Тетерин, Ю.Х. Зарипова // Международная научная конференция-форум
«Информационные системы и технологии». Материалы конференции
часть 2. Минск, 2009, стр. 121 − 125.
23. Баранов, В.Г. Способ определения точности оценок условных плотностей вероятности / В.Г. Баранов, В.Р. Милов, Ю.Х. Зарипова // Международная науч.-техн. конф. «Информационные системы и технологии.
ИСТ – 2010»: Сб. науч. тр. - НГТУ. − Н.Новгород, 2010. – С. 139.
24. Зарипова, Ю.Х. Использование нейронных сетей для распознавания
образов в сейсмоакустической информационной системе / Ю.Х. Зарипова // XV Нижегородская сессия молодых ученых, секция информационные системы: Сб. науч. тр. – Н.Новгород, 2010. – С 46-47.
25. Баранов, В.Г. Процедура интеллектуального анализа данных при наличии категориальных и непрерывных переменных / В.Р. Милов, В.Г.
Баранов, Ю.Х. Зарипова // Девятый Международный симпозиум «Интеллектуальные системы» (INTELS'2010): Сб. науч. тр. – Владимир,
2010. – C. 444 − 448.
26. Эпштейн, А.Ю. Процедура сравнения эффективности бинарных
классификаторов /А.Ю. Эпштейн, Ю.Х. Зарипова // IX Международная
молодежная научно-техническая конференция «Будущее технической
науки»: Сб. науч. тр. – НГТУ. – Н.Новгород, 2010. – С 20.
22
Download