Мосалов Олег Петрович

реклама
На правах рукописи
Мосалов Олег Петрович
МОДЕЛИ АДАПТИВНОГО ПОВЕДЕНИЯ НА БАЗЕ
ЭВОЛЮЦИОННЫХ И НЕЙРОСЕТЕВЫХ МЕТОДОВ
Специальность 05.13.18 – Математическое
моделирование, численные методы и
комплексы программ
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата физико-математических наук
Москва – 2007
2
Работа выполнена на кафедре прикладной математики Московского физикотехнического института (государственного университета).
Научный руководитель:
доктор физико-математических наук,
с.н.с.
РЕДЬКО Владимир Георгиевич
Официальные оппоненты:
доктор физико-математических наук,
доцент
РЯЗАНОВ Владимир Васильевич
кандидат физико-математических наук,
ДОЛЕНКО Сергей Анатольевич
Ведущая организация:
Институт системного программирования РАН
Защита диссертации состоится « 25» мая 2007 года в 13.30 ч. на
заседании диссертационного совета K212.156.02 в Московском физикотехническом институте (государственном университете) по адресу: 141700,
Московская область, г. Долгопрудный, Институтский пер., д. 9, ауд. 903
КПМ.
С диссертацией можно ознакомиться в библиотеке Московского физикотехнического института (государственного университета).
Автореферат разослан «23» апреля 2007 года
Ученый секретарь
диссертационного совета
K212.156.02
к. ф.-м. н.
О. С. Федько
2
3
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы
Работа посвящена исследованиям нейросетевых схем управления
автономных адаптивных агентов.
Работы по моделям адаптивного поведения были начаты в 1950-1970-х
годах, в нашей стране их вели М.Л. Цетлин, М.М. Бонгард, Д.А. Поспелов и
другие авторы. В настоящее время за рубежом такие исследования активно
ведутся в рамках направления «Адаптивное поведение». Основной подход
этого направления – исследование архитектур, принципов и механизмов
функционирования
искусственных
«организмов»,
которые
могут
приспосабливаться к переменной внешней среде. Эти организмы называются
аниматами (от англ. animal + robot = animat) или агентами.
Направление «Адаптивное поведение» рассматривается как бионический
подход к исследованиям искусственного интеллекта. В нем особое внимание
уделяется
методам
самообучения,
обеспечивающим
автономное
существование аниматов. При этом широко используются современные
компьютерные методы вычислительного интеллекта (computational
intelligence): искусственные нейронные сети, эволюционное моделирование,
метод обучения с подкреплением.
В настоящее время активные работы в рамках направления «Адаптивное
поведение» ведутся такими зарубежными исследователями, как Ж.-А. Мейер,
Р. Пфейфер, С. Нолфи, Р. Брукс, Дж. Эдельман. В нашей стране
моделирование адаптивного поведения ведут только немногие группы
исследователей под руководством В.А. Непомнящих, А.А. Жданова,
А.И. Самарина, Л.А. Станкевича.
Одной из перспективных работ в рамках направления исследований
«Адаптивное поведение» является проект «Мозг анимата», который
ориентирован на формирование иерархической системы управления анимата,
отдельными элементами которой могут выступать нейросетевые блоки, в
частности нейросетевые адаптивные критики.
Нейросетевые адаптивные критики являются одним методов теории
обучения с подкреплением. Основанные на них системы управления
являются достаточно интеллектуальными и способны обеспечивать
автономное адаптивное поведение. Их использование возможно как для
управления отдельными искусственными организмами, так и в качестве
элементов более сложных систем. Известно применение нейросетевых
адаптивных критиков при решении ряда задач, однако этот метод все еще
недостаточно хорошо изучен и требует дополнительных исследований.
В последнее время активно исследуются нейроэволюционные методы –
рассмотрение популяций взаимодействующих между собой и средой агентов
на основе нейронных сетей. При этом используются такие биологически
3
4
инспирированные принципы, как наследственность, изменчивость и
естественный отбор.
Методы теории обучения с подкреплением, в том числе нейросетевые
адаптивные критики, и нейроэволюционные методы решают одну и ту же
задачу – оптимизацию нейронных сетей – различными способами: первые в
течение жизни отдельного агента, вторые в процессе эволюции популяции.
Одновременное применение этих двух подходов может заметно увеличить
адаптивные способности автономных агентов, функционирующих в
переменных, плохо определенных средах. В этой связи необходимо детально
исследовать процессы самообучения в системах управления автономных
агентов, проанализировать эволюционные процессы в популяциях таких
агентов и одновременное их воздействие на адаптивные свойства. Такой
анализ необходимо провести на практически важных примерах.
Настоящая работа посвящена решению этих задач. Разрабатываемые и
исследованные в диссертации модели могут быть использованы как для
описания и понимания механизмов адаптации в живых организмах, так и при
разработках искусственных автономных систем.
На основании изложенного тема диссертации является актуальной.
Цель и задачи работы
Целью диссертационной работы является исследование процессов
формирования систем управления автономных агентов, способных
обеспечить адаптивное поведение в сложной, изменяющейся со временем
внешней среде. Для достижения поставленной цели было необходимо
решить следующие задачи:
1. Исследование математических моделей систем управления на базе
нейросетевых адаптивных критиков и детальное изучение происходящих в
них процессов обучения. Анализ адаптивных свойств поведения автономных
агентов, которое обеспечивается такими системами управления.
2. Построение и исследование математической модели многоагентной
системы автономных адаптивных агентов. Анализ процессов оптимизации
систем управления агентов посредством обучения или эволюционной
настройки, а также их одновременного использования. Изучение
особенностей взаимодействия индивидуального обучения и эволюционной
настройки.
3. Разработка методик построения классифицирующих систем на основе
исследованных методов путем одновременного применения обучения и
эволюционной настройки. Разработка комплекса программ для реализации
этих методик.
4. Анализ возможностей применения нейроэволюционных методов на
примере задачи классификации типов инсультов.
4
5
Научная новизна
1. Выяснено, что на основе нейросетевых адаптивных критиков могут быть
построены системы управления, обеспечивающие свойства поведения
агентов, аналогичные тем, которые наблюдаются у животных, например,
инерционность при смене тактик поведения и игнорирование мелких
деталей.
2. Разработана и исследована математическая модель многоагентной
системы, в которой адаптация агентов происходит путем обучения и
эволюционной настройки. Показано, что совместное применение обучения и
эволюционной настройки обеспечивает более эффективную оптимизацию
систем управления автономных агентов, нежели обучение или эволюционная
настройка в отдельности.
3. Продемонстрировано, что при совместном использовании обучения и
эволюционной настройки происходит процесс генетической ассимиляции
приобретенных навыков, так называемый эффект Болдуина.
4. Предложена и исследована нейроэволюционная методика построения
классифицирующей нейросетевой системы для случая, когда размер
обучающей выборки мал и различные классы представлены в ней
неравномерно. Показано, что с помощью этой методики может быть
построена система классификации типов инсультов, обеспечивающая
нулевую ошибку распознавания.
Практическая ценность
1. Разработаны алгоритмы построения нейросетевых систем управления
автономных агентов на основании взаимодействия эволюционной настройки
и индивидуального обучения.
2. Построена нейросетевая классифицирующая система для распознавания
типов инсультов.
Методы исследования:
В работе использовались методы математического моделирования, теории
искусственных нейронных сетей, эволюционного моделирования, теории
обучения с подкреплением.
На защиту выносятся:
1. Результаты исследований процессов обучения в моделях систем
управления агентов на основе нейросетевых адаптивных критиков.
Результаты исследования адаптивных свойств автономных агентов,
сопоставление этих свойств с простыми адаптивными свойствами живых
организмов.
2. Математическая модель многоагентной системы, в которой адаптация
агентов происходит путем эволюционной оптимизации и индивидуального
обучения. Сопоставительный анализ эффективности трех вариантов
настройки систем управления агентов посредством а) обучения,
5
6
б) эволюционной настройки, в) одновременного использования обучения и
эволюционной настройки.
3.
Комплекс
программ,
реализующий
методику
построения
нейроэволюционной классифицирующей системы путем одновременного
применения обучения и эволюционной настройки.
4. Классифицирующая система распознавания типов инсульта для случая,
когда обучающая выборка имеет малый объем и представители различных
классов представлены в ней неравномерно.
Апробация работы и научные публикации
Основные результаты диссертационной работы были доложены и
обсуждены на следующих научных конференциях: Artificial Neural Networks:
Biological Inspirations – ICANN 2005 (Варшава, 2005), International Joint
Conference on Neural Networks – IJCNN 2005 (Монреаль, 2005), The Ninth
International Conference on the Simulation of Adaptive Behavior (Рим, 2006),
V-VIII
Всероссийские
научно-технические
конференции
«Нейроинформатика» (Москва, МИФИ, 2003, 2004, 2005, 2006), II-й
Международный научно-практический семинар «Интегрированные модели и
мягкие вычисления в искусственном интеллекте» (Коломна, 2003),
Международная научно-техническая конференция «Интеллектуальные
системы, IEEE AIS’03» (Геленджик, 2003), Всероссийская научная
конференция «Методы и средства обработки информации» (Москва, 2003,
2004), XLVI, XLVII научные конференции МФТИ «Современные проблемы
фундаментальных и прикладных наук» (Долгопрудный, МФТИ, 2003, 2004),
Международная
научно-техническая
конференция
«Искусственный
интеллект. Интеллектуальные и многопроцессорные системы» (Кацивели,
2004), Девятая национальная конференция по искусственному интеллекту с
международным участием (Тверь, 2004), Казанский городской семинар
«Методы моделирования» (Казань, 2004).
Основные результаты диссертации опубликованы в 23 работах, в том
числе 2 статьи в рецензируемых журналах из списка изданий,
рекомендованных ВАК, 2 статьи в зарубежных научных периодических
изданиях, 17 статей в трудах научных конференций (в том числе 4 – в трудах
международных конференций), 1 препринт, 1 статья в сборнике.
Структура и объем диссертации
Диссертация изложена на 110 страницах, состоит из введения, четырех
глав, заключения и списка использованных источников, насчитывающего 100
наименований.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность диссертационной работы,
сформулированы цель и задачи исследования, охарактеризована научная
6
7
новизна полученных результатов и их практическая значимость, указаны
методы исследования, указаны положения, выносимые на защиту.
В первой главе дается обзор направления исследований «Адаптивное
поведение». Модели, рассматриваемые в рамках этого направления, служат
для изучения механизмов формирования и развития процессов,
обеспечивающих адаптивные свойства живых организмов.
Приведена характеристика современных исследований по теории
искусственных нейронных сетей, методам эволюционного моделирования,
теории обучения с подкреплением, проанализированы схемы нейросетевых
адаптивных критиков, охарактеризованы биологически инспирированные
модели поисковой оптимизации. Описан проект «Мозг анимата», приведена
схема иерархической системы управления.
Во второй главе приводятся результаты исследования агентов, системы
управления которых построены на основе нейросетевых адаптивных
критиков.
В общей схеме обучения с подкреплением1 рассматривается агент,
взаимодействующий с внешней средой (см. рис. 1). В каждый момент
времени t в текущей ситуации S(t) агент выполняет действие a(t), затем
получает подкрепление r(t) и попадает в следующую ситуацию S(t+1).
Подкрепление r(t) может быть как положительным (награда), так и
отрицательным (наказание).
S(t)
Агент
r(t-1)
a(t)
r(t)
Среда
S(t+1)
Рис. 1. Схема обучения с подкреплением
Цель агента – максимизировать суммарную награду, которую он сможет
получить в течение длительного периода времени. Подразумевается, что
агент может формировать свою внутреннюю «субъективную» оценку

суммарной награды U (t )    k r (t  k ) , ожидаемой после момента времени t,
k 0
и в процессе обучения постоянно совершенствует это умение. Здесь γ –
Sutton R., Barto A. Reinforcement Learning: An Introduction // Cambridge: MIT Press – 1998. См. также
http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html
1
7
8
коэффициент забывания (дисконтный фактор), 0 < γ < 1, который учитывает,
что чем дальше агент «заглядывает» в будущее, тем меньше у него
уверенность в оценке награды («рубль сегодня стоит больше, чем рубль
завтра»). На основании этой оценки агент формирует стратегию поведения.
Важной особенностью метода обучения с подкреплением является то, что
он реализует обучение без учителя, на основе только наград и наказаний r(t),
получаемых из внешней среды.
Для случая, когда число возможных ситуаций и действий конечно,
существует простой метод обучения SARSA, каждый шаг которого
соответствует цепочке S(t) → a(t) → r(t) → S(t+1) → a(t+1). Этот метод
заключается в итеративном формировании величин ожидаемой суммарной
награды Q(S(t), a(t)), которую агент получит, если в ситуации S(t) совершит
действие a(t). Математическое ожидание суммарной награды равно:


Q( S (t ), a(t ))  E r (t )  r (t  1)   2 r (t  2)   
 Er (t )  Q( S (t  1), a(t  1)) 
(1)
Вводится величина
δ(t) = r(t) + γQ(S(t+1), a(t+1)) - Q(S(t), a(t)),
(2)
которая называется ошибкой временной разности. Она представляет собой
разность между оценкой суммарной величины награды Q(S(t), a(t)), которую
агент формирует в момент времени t и оценкой той же величины в момент
времени t+1. Обучение агента производится путем минимизации ошибки
временной разности δ(t):
ΔQ(S(t), a(t)) = αδ(t) = α(r(t) + γQ(S(t+1), a(t+1)) - Q(S(t), a(t))),
(3)
где α – коэффициент скорости обучения агента.
В каждый такт времени t для текущей ситуации S(t) происходит выбор
действия в соответствии с «ε-жадным правилом»:
- с вероятностью 1 - ε выбирается действие агента, соответствующее
максимальному значению Q(S(t), ai): a(t) = ak, k = argmaxi Q(S(t), ai),
- с вероятностью ε случайным образом выбирается одно из возможных
действий агента, 0 < ε << 1.
Выбрав и совершив действие a(t), агент получает от среды подкрепление
r(t) и в соответствии с формулой (3) производится переоценка величин
Q(S, a).
8
9
Нейросетевые адаптивные критики можно рассматривать как ветвь теории
обучения с подкреплением для случая, когда число ситуаций, задаваемых
средой, и/или число действий, которые может совершить агент, бесконечно.
В этом случае нейронные сети выступают в роли аппроксимирующих
функций, а их обучение сводится к изменению весов синапсов нейронных
сетей.
Исследовался алгоритм работы одной из возможных схем адаптивных
критиков – V-критика; проведен анализ происходящих в нем процессов
обучения; проведено исследование эволюционирующей популяции агентов
на основе V-критиков.
V-критик (рис. 2) функционирует следующим образом: для текущей
ситуации S(t) и каждого из возможных действий aj Модель формирует
прогноз будущей ситуации Sjpr(t+1), в которую попадет агент, если совершит
это действие. Критик вычисляет качество каждой из ситуаций V(Sjpr(t+1)).
Далее с помощью ε-жадного правила выбирается действие a(t) = ak , k =
argmaxj V(Sjpr(t)).
S(t)
Модель
Sjpr(t+1)
aj
S(t)
Критик
V(Sjpr(t))
V(S(t))
δ(t)
V(Sjpr(t))
ε-жадное правило
a(t)
Рис. 2. Схема системы управления агента на основе V-критика
В работе проведен ряд вычислительных экспериментов с моделью агента,
решающего задачу поиска стратегии поведения в изменяющейся внешней
среде на примере агента-брокера. В этом случае внешняя среда задается
временным рядом X(t) – курсом акций.
Состояние агента, система управления которого построена на основе
V-критика (рис. 2), характеризуется одним параметром u(t) – долей
суммарного капитала, вложенной в акции. Динамика суммарного капитала
агента C(t) определяется следующим образом:
C(t) = C(t-1){1 + u(t)∆X(t)/X(t-1)}[1 - J|u(t) – u(t-1)|],
(4)
где J – коэффициент затрат на конвертирование акций и наличных денег,
ΔX(t) = X(t) - X(t-1). Для удобства в качестве ресурса агента рассматривается
9
10
логарифм его суммарного капитала R(t) = ln С(t). Подкрепление в этом
случае имеет вид:
r(t) = ln С(t) - ln С(t-1).
(5)
В данном случае вектор ситуации имеет вид S(t) = {ΔX(t), u(t)},
возможными действиями агента a(t) являются:
a1 – перевести весь капитал в наличные деньги: u(t+1) = 0,
a2 – перевести весь капитал в акции: u(t+1) = 1.
Блоки Модель и Критик реализованы в виде нейронных сетей с одним
скрытым слоем.
В данном случае Модель осуществляет прогноз изменения курса акций в
момент t+1 по значениям изменений курса в предыдущие моменты времени.
Работа нейронной сети Модели (рис. 3) описывается формулами:
xM = {ΔX(t-N+1), …, ΔX(t)}, yMj = th(∑WMij xMi), ΔXpr(t+1) = ∑VMj yMj.
(6)
где xM – вектор входных значений, yM – вектор выходных значений нейронов
скрытого слоя, WMij и VMj – веса синапсов нейронной сети и ΔXpr(t+1) –
прогноз изменения курса временного ряда на момент времени t+1,
формируемый на выходе нейронной сети.
ΔX(t)
...
...
ΔX(t-m+1)
ΔX pr(t+1)
Рис. 3. Нейронная сеть Модели
Модель обучается методом обратного распространения ошибки, т.е.
производится минимизация функционала ошибки
E = 0,5 (ΔXpr(t+1) – ΔX(t+1))2
(7)
в соответствии с формулами:
VMi(t+1) = VMi(t) – αM (ΔXpr(t+1) – ΔX(t+1)) yMj,
WMij(t+1) = WMij(t) – αM (ΔXpr(t+1) – ΔX(t+1)) VMj (1 – (yMj)2) xi.
10
(8)
11
где αM – параметр скорости обучения Модели.
При обучении Модели происходит уточнение прогнозов будущих
ситуаций.
Работа нейронной сети Критика (рис. 4) описывается формулами:
xC = S(t) = {ΔX(t), u(t)}, yСj = th(∑WСij xСi), V(X(t), u(t)) = ∑VСj yСj ,
(9)
где xC – вектор входных значений, yC – вектор выходных значений нейронов
скрытого слоя, WCij и VCj – синапсы нейронной сети и V(t) = V(X(t), u(t)) –
значение на выходе сети, которое трактуется как значение качества данной
ситуации.
ΔX(t)
V(ΔX(t), u(t))
)
)
...
u(t)
Рис. 4. Нейронная сеть Критика
Критик обучается путем минимизации ошибки временной разности
δ(t) = r(t) + γ V(t) - V(t-1)
(10)
в соответствии с формулами:
VCi(t+1) = VCi(t) + αC δ(t) yСj,
WCij(t+1) = WCij(t) + αC δ(t) VCj (1 – (yСj)2) xСi,
(11)
где αC – параметр скорости обучения Критика.
При обучении Критика происходит итеративное уточнение значения
качества ситуаций V(S(t)) в соответствии с поступающими подкреплениями.
Рассматривались два варианта модельного временного ряда X(t):
синусоида:
X(t) = 0,5 (1 + sin(2πt/20))
(12)
и стохастический временной ряд, задаваемый формулами2:
2
Prokhorov D., Puskorius G., Feldkamp L. Dynamical Neural Networks for Control // In J. Kolen and S. Kremer
(eds.) A Field Guide to Dynamical Recurrent Networks. IEEE Press – 2001 – PP. 23-78.
11
12
X(t) = exp(p(t)/1200), p(t) = p(t-1) + (t-1) + k1(t), (t) = k2(t-1) + (t), (13)
где (t) и (t) – две нормально распределенных величины с нулевым средним
и единичной дисперсией, k1 = 0,3, k2 = 0,9.
Было проведено сравнение эффективности V-критика и метода SARSA (на
синусоиде), которое показало, что, используя возможность прогнозирования
будущей ситуации, V-критик обеспечивает нахождение более эффективной
политики по сравнению с SARSA. На рис. 5 приведено изменение
подкрепления r(t) в течение одного периода синусоиды. V-критик,
прогнозируя начало падения курса, переводит акции в деньги и за счет этого
получает большее суммарное подкрепление, чем метод SARSA.
V-критик
SARSA
Рис. 5. Сравнение работы V-критика и метода SARSA. По горизонтальной
оси отложено время t, по вертикальной – подкрепление r(t)
Была исследована эволюционирующая популяция агентов, система
управления которых построена на основе V-критика.
Схема эволюции состоит в следующем. Популяция состоит из NA агентов.
Каждый агент имеет ресурс R(t), который изменяется в соответствии с
подкреплениями агента: R(t+1) = R(t) + r(t), где r(t) определяется формулами
(4) и (5), при этом полагается, что затраты на конвертирования денег и акций
J = 0. Эволюция происходит в течение ряда поколений (ng = 1, 2, …, где ng –
номер поколения). Продолжительность каждого поколения равна T тактов
времени. В начале каждого поколения начальный ресурс каждого агента
равен нулю, т.е., R(T(ng - 1) + 1) = 0.
Начальные веса синапсов обоих нейронных сетей (Модели и Критика)
формируют геном агента G = {WM0, WC0}. Геном G задается в момент
рождения агента и не меняется в течение его жизни. В противоположность
этому текущие веса синапсов нейронных сетей WM и WC подстраиваются в
течение жизни агента посредством обучения, как описано выше.
12
13
В конце каждого поколения определяется агент, имеющий максимальный
ресурс Rmax(ng) (лучший агент поколения ng). В начале следующего (ng+1)-го
поколения формируется NA новых агентов, причем для каждого из этих
агентов
Gi(ng+1) = Gbesti (ng) + randi,
W0(ng+1) = G(ng+1),
(19)
(20)
где Gbest(ng) – геном лучшего агента предыдущего ng-го поколения и randi –
N(0, P2mut), т.е., нормально распределенная случайная величина с нулевым
средним и стандартным отклонением Pmut (интенсивность мутаций).
Таким образом, геном G (начальные веса синапсов, получаемые при
рождении) изменяется только посредством эволюции, в то время как текущие
веса синапсов W дополнительно к этому подстраиваются посредством
обучения. При этом в момент рождения агента W = W0 = G.
При проведении вычислительных экспериментов рассматривалось два
временных ряда X(t), задаваемых выражениями (12), (13).
Были проанализированы три случая оптимизации систем управления
агентов:
1) случай L – только обучение: рассматривается отдельный агент, который
обучается путем минимизации ошибки временной разности,
2) случай E – эволюционная настройка: рассматривается эволюционирующая
популяция агентов, обучение которых не проводится,
3) случай LE – комбинация обучения и эволюционной настройки.
Было проведено сравнение ресурса, приобретаемого агентами для этих
трех способов оптимизации. Для случаев E и LE рассматривалась
эволюционирующая популяция с длительностью поколения T = 200 и
наблюдалась величина максимального значения ресурса в популяции Rmax(ng)
в конце каждого поколения. В случае L рассматривался только один агент,
ресурс которого для удобства сравнения со случаями E и LE обнулялся
каждые T = 200 тактов времени: R(T(ng - 1) + 1) = 0, а индекс ng увеличивался
на единицу.
На рис. 6 показаны зависимости Rmax(ng) при моделировании для
синусоидального ряда (12). Чтобы исключить уменьшение значения Rmax(ng)
из-за действия ε-жадного правила для случаев LE и L, полагалось ε = 0 после
ng = 100 для случая LE и после ng = 2000 для случая L. Размер популяции
NA = 10.
13
14
n g (случай L)
0
500
1000
1500
2000
7
7
LE
6
E
5
5
L
4
4
3
3
2
2
1
1
0
0
0
100
200
300
400
R max
6
R max
2500
500
n g (случаи LE and E)
Рис. 6. Зависимость Rmax(ng). Моделирование проведено для синусоиды,
кривые усреднены по 1000 экспериментам; NA = 10, T = 200
Рис. 6 показывает, что одновременное использование обучения и
эволюционной настройки (случай LE) и эволюционная настройка отдельно
(случай E) дают одно и то же значение конечного ресурса Rmax(500) = 6,5.
Однако эволюционная настройка и обучение совместно обеспечивают
нахождение больших значений Rmax быстрее, чем эволюционная настройка
без обучения – существует взаимовыгодное взаимодействие между
обучением и эволюцией.
Из (4) следует (учитывая, что J = 0), что существует оптимальная
стратегия поведения агента: вкладывать весь капитал в акции (u(t+1) = 1) при
ожидании роста курса (∆X(t+1) > 0), вкладывать весь капитал в деньги
(u(t+1) = 0) при ожидании падения курса (∆X(t+1) < 0).
Анализ экспериментов показывает, что в случаях LE и Е такая
оптимальная стратегия находится. Это соответствует асимптотическому
значению ресурса Rmax(500) = 6,5.
В случае L асимптотическое значение ресурса (Rmax(2500) = 5,4)
существенно меньше. Анализ экспериментов для этого случая показывает,
что одно обучение обеспечивает нахождение только следующей
«субоптимальной» стратегии поведения: агент держит капитал в акциях при
росте и при слабом падении курса и переводит капитал в деньги при сильном
падении курса.
Таким образом, результаты, представленные на рис. 6, показывают, что
хотя обучение в настоящей модели и несовершенно, оно способствует более
быстрому нахождению оптимальной стратегии поведения по сравнению со
случаем только эволюционной оптимизации.
14
15
При достаточной большой длительности поколения (T ~ 1000) в случае LE
наблюдалось явное влияние обучения на эволюционный процесс:
происходила генетическая ассимиляция приобретенных навыков. В
первых поколениях эволюционного процесса существенный рост ресурса
агентов наблюдался не с самого начала поколения, а спустя 200-300 тактов,
т.е. агенты явно обучались в течение своей жизни находить более или менее
приемлемую стратегию поведения, и только после смены ряда поколений
рост ресурса происходил с самого начала поколения (рис. 7). Это можно
интерпретировать как проявление известного эффекта Болдуина: исходно
приобретаемый навык в течение ряда поколений становился наследуемым.
30
Rmax
20
10
0
0
1000
2000
3000
4000
5000
t
Рис. 7. Зависимость ресурса лучшего в поколении агента от времени
Известно, что при поисковом поведении у ряда животных происходит
инерционное переключение между тактиками поведения. Например, при
исследовании поведения самцов тутового шелкопряда в струе феромона
самки, было показано, что поиск источника запаха включает в себя две
чередующиеся «инерционные» тактики. Инерционность в переключении
между тактиками поведения, позволяет адаптироваться животным к
наиболее общим закономерностям во внешней среде. Подобное инерционное
поведение между тактиками было обнаружено в проведенных компьютерных
экспериментах, когда оптимизация нейронных сетей производилась путем
эволюционной настройки без обучения при достаточно большой численности
популяции. Таким образом, фактически происходила оптимизация методом
случайного поиска в достаточно большой области возможных решений.
15
16
2.1
1
0.6
1.9
0.2
-0.2
500
X (t )
u (t )
2
1.8
750
1.7
1000
t
Рис. 8. Стратегия поведения лучшего агента в популяции. Действия агента
характеризуются величиной u(t) (сплошная линия). Временной ряд X(t)
показан пунктирной линией
На рис. 8 представлен фрагмент стратегии поведения агента, найденной на
ранней стадии эволюции в большой популяции. Стратегия переключения
между u = 0 и u = 1 представляет собой реакцию только на общие изменения
в окружающей среде (агент игнорирует мелкие флуктуации в изменении
курса акций). Кроме того, переключение явно обладает свойством
инерционности.
В третьей главе решается задача построения классифицирующей
системы распознавания типов инсультов на основе нейросетевых и
эволюционных методов.
В настоящее время инсульт является одной из центральных проблем
российской медицины. Выделяют три типа инсульта: ишемический (ИИ),
геморрагический (ГИ) и субарахноидальное кровоизлияние (САК), причем
врачебные действия в каждом случае должны быть различными. На практике
доля врачебных ошибок при определении типа инсульта составляет даже у
опытных врачей 20-45%.
Рассматривается 298 клинических случаев инсульта (наблюдений), из них
211 наблюдений ишемического инсульта (первый тип), 73 наблюдения
геморрагического
инсульта
(второй
тип),
14
наблюдений
субарахноидального кровоизлияния (третий тип).
Изначально каждое наблюдение задавалось значениями 239 признаков, из
которых были отобраны 30 наиболее существенных.
В качестве классифицирующей системы была выбрана следующая
трехслойная нейронная сеть: 30 входов, 12 нейронов в первом скрытом слое,
14 нейронов во втором скрытом слое, 3 нейрона в выходном слое.
16
17
Активационная функция для всех нейронов – гиперболический тангенс.
Каждому типу инсульта соответствует свой выходной нейрон.
Классифицирующая система формировалась нейроэволюционным
методом. При этом учитывались следующие особенности задачи диагностики
типов инсультов: во-первых, имеющийся набор наблюдений принципиально
ограничен (всего 298 наблюдений), во-вторых, различные типы инсультов
представлены в наборе наблюдений неравномерно (211 наблюдений первого
типа, 73 – второго и 14 – третьего). С учетом этих особенностей был
применен следующий метод формирования обучающих и тестовых выборок.
Из имеющегося набора 298 наблюдений были сформированы 10 пар
«обучающая выборка – тестовая выборка», по 268 наблюдений в обучающей,
по 30 – в тестовой.
Общая схема формирования классифицирующей системы состоит в
следующем. Имеется популяция агентов, каждый из которых
характеризуется своей нейронной сетью указанной выше структуры. В
течение каждого поколения каждый агент проходит этап обучения и этап
тестирования на каждой из построенных пар «обучающая выборка – тестовая
выборка». Этап обучения состоит в том, что нейронная сеть агента обучается
на
соответствующей
обучающей
выборке
методом
обратного
распространения ошибки, а на этапе тестирования проверяется на
соответствующей тестовой выборке, в результате чего подсчитывается
ошибка классификации для всех пар. Эта ошибка равна доле наблюдений из
тестовой выборки, тип которых нейронная сеть определила неправильно.
Таким образом, качество каждого агента в течение поколения
характеризуется суммарной ошибкой классификации. В конце каждого
поколения происходит отбор лучшего агента, т. е. агента с минимальной
ошибкой классификации, который порождает следующее поколение агентов.
Рис. 9. Зависимость суммарной ошибки классификации от номера поколения.
Верхняя кривая – средняя по популяции, нижняя – для лучшего агента
17
18
На рис. 9 представлена зависимость суммарной ошибки классификации от
номера поколения для лучшего агента и средняя по популяции. Видно, что к
20-му поколению ошибка уменьшается до 3%. При этом ошибка лучшего
агента составляет 1%.
Важно понимать, какие именно из трех типов инсультов плохо
распознаются системой. В табл. 1 содержатся суммарные ошибки неверного
распознавания различных типов инсультов на обучающих и тестовых
выборках. Представленные данные показывают, что, несмотря на малое
число наблюдений, третий тип инсультов выделяется успешно. В то же время
наблюдения по первому и второму типу недостаточно разделены. Следует
отметить, что в медицинской практике основной врачебной ошибкой
является как раз принятие некоторых случаев первого типа инсульта за
второй или наоборот.
Табл. 1. Суммарные ошибки неверного распознавания различных типов
инсультов
Распознанный/
1 поколение
10 поколение
20 поколение
реальный тип
ИИ / ГИ
7,19 %
1,39 %
1,06 %
ИИ / САК
0,38 %
0,04 %
0,002 %
ГИ / ИИ
10,41 %
1,95 %
1,33 %
ГИ / САК
4,08 %
0,21 %
0,24 %
САК / ИИ
4,27 %
0,05 %
0,05 %
САК / ГИ
13,18 %
0,24 %
0,33 %
Для более детального анализа процесса распознавания была разработана
специальная компьютерная программа для визуализации данных на основе
метода топологически корректного картирования по Кохонену. Результаты
вычислительных экспериментов, показали, что при картировании на
плоскость первоначальные 30-мерные вектора не разделяются. В то же
время, 3-мерные вектора, получаемые на выходе классифицирующей
системы, были успешно разделены. Этот результат демонстрирует
принципиальную возможность достижения нулевой ошибки распознавания.
Поэтому
были
исследованы
различные
режимы
построения
классифицирующей системы, которые могли бы привести к уменьшению
ошибки.
После анализа результатов вычислительных экспериментов в схему
формирования классифицирующей системы были внесены следующие
модификации: 1) ошибка классификации на тестовых выборках считалась
только по двум первым классам и 2) каждые 5 поколений коэффициент
обучения нейронной сети агента уменьшался в два раза. В результате этого
18
19
был найден агент, нейронная сеть которого обеспечивает нулевую ошибку
распознавания типа инсульта. На рис. 10 показана зависимость ошибки
классификации лучшего по популяции агента от номера поколения в
модифицированной схеме формирования классифицирующей системы.
Рис. 10. Зависимость ошибки классификации лучшего агента от номера
поколения
В четвертой главе построена и исследована модель поискового
поведения
анимата,
решающего
задачу
поиска
оптимума
многоэкстремальной функции двух переменных f(x,y).
Одним из актуальных направлений исследований в рамках аниматподхода является имитация поискового поведения животных. Для многих
организмов характерно инерционное переключение между тактиками.
Например, при исследовании механизмов ориентации самцов тутового
шелкопряда в струе феромона самки, было показано, что поиск источника
запаха включает в себя две чередующиеся «инерционные» тактики: а)
устойчивое движение в выбранном направлении, б) устойчивое повторение
поворотов, приводящее к выбору нового направления движения.
Инерционность в переключении между тактиками поведения,
позволяющая использовать наиболее общие закономерности в изменениях
ситуаций, должна быть полезна и для искусственных автономных
адаптивных систем.
Для анализа адаптивного поиска глобального максимума функции f(x,y) с
инерционным переключением между тактиками была разработана модель
поискового поведения, которая явно включает в себя такой механизм
переключения: в каждый момент времени анимат выбирает одну из двух
тактик: a1 – двигаться в выбранном направлении либо a2 – изменить
направление движения случайным образом. Переход от одной тактики к
другой моделируется с помощью определенного автомата (аналогичного
автомату с линейной тактикой М.Л. Цетлина).
19
20
Анимат получает положительное/отрицательное подкрепление, если в
результате
его
движения
значение
максимизируемой
функции
увеличивается/уменьшается.
Схема рассматриваемого автомата показана на рис. 10. Переходы при
положительном подкреплении показаны сплошными стрелками, при
отрицательном – пунктирными. j – номер состояния автомата,
j = -n, …, -2, -1, 1, 2, …, n, где n – глубина памяти автомата.
Положительные состояния автомата (j > 0) соответствуют первой тактике
поведения – движению в выбранном направлении, отрицательные состояния
(j < 0) соответствуют второй тактике – случайным поворотам на месте.
j
-3
-2
-1
1
2
3
Рис. 10. Схема используемого автомата,
j – номер состояния автомата, n = 3.
Если выбранное направление движения анимата в течение некоторого
времени правильное, т.е. Δf(x,y) > 0, и автомат поощряется, то происходит
переход из 1-го состояния во 2-ое и так далее, до n-го. После того, как
движение в данном направлении приводит к неудаче, Δf(x,y) < 0, автомат
совершает обратный процесс: из n-го состояния в (n-1)-ое и т.д., причем все
это время продолжается движение в ранее выбранном направлении. После
достижения (-1)-го состояния анимат совершает случайные повороты. Если
поворот неудачный, то номер состояния продолжает уменьшаться. В итоге,
анимат сделает некоторое число поворотов, прежде чем найдет нужное
направление в (-1)-ом состоянии и вновь перейдет к движению в новом
выбранном направлении.
Вычислительные эксперименты с моделью показали, что движение
анимата распадается на кратковременные перемещения в определенном
направлении и долгие блуждания в окрестностях локальных максимумов
оптимизируемой функции f(x,y). Рис. 11 иллюстрирует, что перемещение
анимата состоит из долгих блужданий в окрестностях локальных
максимумов (с координатами (0,55, 0,45) и (0,88, 0,45)) оптимизируемой
функции f(x,y) и кратковременных перемещений между максимумами.
Введенное в модель свойство инерционности позволяет анимату выходить из
локальных экстремумов и проводить поиск в значительной области
пространства.
20
21
Рис. 11. Пример поискового поведения анимата. Исходное положение
анимата – точка с координатами (0.5, 0.5).
В целом движение анимата в разработанной модели качественно
соответствует поисковому поведению животных, обладая свойством
чередования двух тактик – периодов движения в выбранном направлении и
серий случайных поворотов.
В заключении изложены основные результаты диссертации.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИИ
1. Предложены и исследованы новые модели систем управления автономных
агентов на основе нейросетевых адаптивных критиков. Проведен анализ
процессов обучения в этих моделях. Показано, что подобные системы
управления способны обеспечить адаптивное поведение автономных агентов.
В поведении таких агентов обнаружены нетривиальные свойства,
аналогичные свойствам поведения живых организмов, такие как
инерционность при смене стратегии поведения, игнорирование мелких
деталей и т.п.
2. Исследована математическая модель многоагентной системы, в которой
адаптация агентов происходит путем индивидуального обучения и
эволюционной оптимизации. Показано, что совместное применение обучения
и эволюции более эффективно в поиске оптимальной стратегии поведения,
чем эволюция или обучение по отдельности. Обнаружено, что при таком
взаимодействии обучения и эволюции имеет место генетическая
ассимиляция приобретенных признаков, т.е. эффект Болдуина.
3. Разработан комплекс программ, реализующий методику построения
классифицирующей системы на основании исследованных методов путем
одновременного применения обучения и эволюционной настройки.
4. Построена классифицирующая система распознавания типов инсультов
для случая малого объема обучающей выборки и неравномерного
распределения представителей различных типов в ней.
21
22
Список работ, опубликованных автором по теме диссертации:
1. Red’ko V.G., Mosalov O.P., Prokhorov D.V. A Model of Evolution and
Learning // Neural Networks – 2005 – Vol. 18, N 5-6 – P. 738-745.
2. Мосалов О.П., Прохоров Д.В., Редько В.Г. Самообучающиеся агенты на
основе нейросетевых адаптивных критиков // Искусственный интеллект –
2004 – Т. 3 – С. 550-560.
3. Mosalov O.P., Prokhorov D.V., Red’ko V.G. Influence of neural network
structure on cooperation of learning and evolution // Optical Memory and Neural
Networks – 2006 – Vol. 15, N 4 – P. 180-184.
4. Mosalov O.P., Rebrova O.Yu., Red’ko V.G. Neuroevolutionary methods of
stroke diagnosis // Optical memory and Neural networks – 2007 – Vol. 16, N 2 –
P. 81-90.
5. Red’ko V.G., Mosalov O.P., Prokhorov D.V. Investigation of Evolving
Populations of Adaptive Agents // Artificial Neural Networks: Biological
Inspirations – ICANN 2005, 15th International Conference, Warsaw, Poland,
September 11-15, Proceedings, Part I – 2005 – P. 337-342.
6. Red’ko V.G., Mosalov O.P., Prokhorov D.V. A model of Baldwin effect in
populations of self-learning agents // International Joint Conference on Neural
Networks, IJCNN 2005, Proceedings, Montreal, Canada – 2005 – P. 1355-1360.
7. Red’ko V.G., Anokhin K.V., Burtsev M.S., Manolov A.I., Mosalov O.P.,
Nepomnyashchikh V.A., Prokhorov D.V. Project «Animat Brain»: Designing the
Animat Control System on the Basis of the Functional Systems Theory // The
Ninth International Conference on the Simulation of Adaptive Behavior (SAB'06),
CNR, Roma, Italy, Third Workshop on Anticipatory Behavior in Adaptive
Learning Systems (ABiALS 2006), Proceedings – 2006, RR 0037164265.
8. Мосалов О.П., Прохоров Д.В., Редько В.Г. Самообучающиеся агенты на
основе нейросетевых адаптивных критиков // Материалы международной
научно-технической
конференции
«Искусственный
интеллект.
Интеллектуальные и многопроцессорные системы». – Таганрог: Изд-во ТРТУ
– 2004 – Т. 1 – С. 413-417.
9. Мосалов О.П., Бурцев М.С., Митин Н.А., Редько В.Г. Модель
многоагентной Интернет-системы, предназначенной для предсказания
временных рядов // V Всероссийская научно-техническая конференция
«Нейроинформатика-2003». Сборник научных трудов. – М.: МИФИ – 2003 –
Т. 1 – С. 177-183.
10. Мосалов О.П., Редько В.Г., Непомнящих В.А. Модель поискового
поведения анимата // Препринт Института прикладной математики им. М.В.
Келдыша РАН – 2003 – N 19 – 13 с.
11. Мосалов О.П., Редько В.Г., Бурцев М.С., Митин Н.А. Модель
эволюционирующей многоагентной Интернет-системы // Интегрированные
модели и мягкие вычисления в искусственном интеллекте. Сборник трудов
22
23
II-го Международного научно-практического семинара – М.: Физматлит –
2003 – С. 217-221.
12. Мосалов О.П., Непомнящих В.А., Редько В.Г. Модель поискового
поведения, основанная на биологических аналогиях // Интегрированные
модели и мягкие вычисления в искусственном интеллекте. Сборник трудов
II-го Международного научно-практического семинара – М.: Физматлит –
2003 – С. 222-227.
13. Мосалов О.П., Редько В.Г. Модель многоагентной Интернет-системы //
Сб.
трудов
Международной
научно-технической
конференции
«Интеллектуальные системы, IEEE AIS’03» – М.: Физматлит – 2003 – Т. 1 –
С. 434-436.
14. Редько В.Г., Мосалов О.П., Митин Н.А., Бурцев М.С. Многоагентные
Интернет-системы – исследование процессов обучения и самоорганизации //
Сб. трудов Первой Всероссийской научной конференции «Методы и
средства обработки информации» – М.: МГУ – 2003 – С. 280-285.
15. Редько В.Г., Сохова З.Б., Мосалов О.П., Нагоев З.В. Естественная модель
искусственной жизни // Труды XLVI научной конференции МФТИ
«Современные проблемы фундаментальных и прикладных наук». Часть I.
Радиотехника и кибернетика – Москва – Долгопрудный: МФТИ – 2003 – Т. 1
– С. 31-33.
16. Мосалов О.П., Прохоров Д.В., Редько В.Г. Модели принятия решений на
основе нейросетевых адаптивных критиков // Девятая национальная
конференция по искусственному интеллекту с международным участием.
Труды конференции – М.: Физматлит – 2004 – Т. 3 – С. 1156-1163.
17. Мосалов О.П., Редько В.Г., Прохоров Д.В. Модель агента-брокера на
основе нейросетевых адаптивных критиков // Сб. трудов Международной
научно-технической конференции «Интеллектуальные системы, IEEE
AIS'03» – М.: Физматлит – 2004 – Т. 1, С. 395-399.
18. Попов Е.Е., Редько В.Г., Мосалов О.П., Непомнящих В.А. Модель
поискового поведения анимата на основе простой схемы переключения
тактик поисковой активности // Труды XLVII научной конференции МФТИ
«Современные проблемы фундаментальных и прикладных наук», Часть I,
Радиотехника и кибернетика – М.: МФТИ – 2004 – С. 77-78.
19. Мосалов О.П. Модель эволюции системы агентов-брокеров // VI
Всероссийская научно-техническая конференция «Нейроинформатика-2004»
– М.: МИФИ – 2004 – Т. 2 – С. 138-144.
20. Редько В.Г., Мосалов О.П. Простые системы управления на основе
нейросетевых адаптивных критиков // Эволюционное моделирование (под
ред. В.А. Райхлина). Труды Казанского городского семинара «Методы
моделирования», Вып. 2 – Казань: Издательство «Фен» («Наука») – 2004 –
С. 92-111.
23
24
21. Мосалов О.П., Прохоров Д.В., Редько В.Г. Модель взаимодействия
обучения и эволюции в многоагентных системах // Методы средства
обработки информации. Труды Второй Всероссийской научной конференции
– М.: МГУ – 2005 – С. 107-112.
22. Мосалов О.П., Редько В.Г. Модель эволюционной ассимиляции
приобретенных навыков в нейросетевых системах управления адаптивных
агентов
//
VII
Всероссийская
научно-техническая
конференция
«Нейроинформатика-2005» – М.: МИФИ – 2005 – С. 210-217.
23. Мосалов О.П., Прохоров Д.В., Редько В.Г. Сравнение эволюции и
обучения как методов адаптации агентов // VIII Всероссийская научнотехническая конференция «Нейроинформатика-2006» – М.: МИФИ – 2006 –
С. 201-208.
В работах, выполненных в соавторстве, личный вклад автора состоит в
следующем: в [1-6, 8-23] – участие в разработке ключевых идей, построение
и реализация моделей и алгоритмов, [7] – участие в разработке проекта.
24
Скачать