Построение автономных адаптивных управляющих систем на

advertisement
Караваев М.В.,
Институт системного
программирования РАН
Построение автономных
адаптивных управляющих
систем на основе нечеткой
логики
1
Основные задачи



Самообучение, используя только
собственный опыт взаимодействия с
внешней средой
Адаптация к изменяющимся свойствам
внешней среды
Управление объектом с целью
нахождения максимума априорно
заложенной целевой функции
(аппарат эмоций)
2/38
Методы и проблемы построения
адаптивных систем управления
3/38
Технологии построения
систем управления

ТАР (позднее ТАУ)

Автоматы (конечные, вероятностные)

Нечеткие контроллеры

Нейро-контроллеры

Подходы, основанные на концептуальных
моделях нервных систем (П.К. Анохин,
J.A.Meyer, А.А.Жданов)
4/38
Технологии построения
систем управления
Активное
поведени
е
Возможность
работы без
априорного
задания
модели ОУ
Простота
организации
переобучения
Простота
взаимодействия с
реальным
миром
+
–
–
–
+
+
+
+
+
–
+
–
–
–
+
+
–
–
–
+
–
+
+
+
?
Проработан
ность
теории
ТАУ
Автоматы
Нейроконтроллеры
Нечеткие
контроллеры
Подход
Концептуальные
модели нервных
систем
5/38
Пример работы традиционного
нечеткого контроллера

фаззификация
х
о
л
о
д
н
а
я
т
е
п
л
а
я
набор правил управления
го
р
я
ч
а
я
1
,0
0
0
,6
5
0
,5
0
0
,1
0
t
t1
повернуть влево

не вращать
повернуть вправо
1,00
0,65
0,50
0,10
-30
0
4
Центр масс
A1
1. Если вода горячая и давление слабое, то
повернуть синий вентиль вправо;
2. Если вода горячая и давление сильное, то
повернуть красный вентиль влево;
3. Если вода теплая, то не вращать вентили;
4. Если вода холодная и давление слабое, то
повернуть красный вентиль вправо;
5. Если вода холодная и давление сильное, то
повернуть синий вентиль влево;
30
композиция и дефаззификация
A
1. Повернуть синий вентиль вправо:
min(0,00; 0,35) = 0,00;
2. Повернуть красный вентиль влево:
min(0,00; 0,78) = 0,00;
3. Не вращать вентили: 0,65 = 0,65;
4. Повернуть красный вентиль вправо:
min(0,10; 0,35) = 0,10;
5. Повернуть синий вентиль влево:
min(0,10; 0,00) = 0,00.
вычисление посылок правил6/38
Метод Автономного Адаптивного
Управления
•
•
•
•
•
Разбивает задачу управления на подзадачи:
ФРО, БЗ, ПР и др.
Две целевые функции: выживание и
накопление знаний
Активное поведение, источником которого
является аппарат эмоций
Адаптивность и автономность
Имеет ограничения вследствие дискретности
представления информации в системе
7/38
Модификация схемы
системы ААУ
Система управления
Сенсоры
Блок ФРО
База
знаний
Аппарат
эмоций
Среда
Базовая схема
Исполнитель
ные органы
Блок
принятия
решений
Модифицированная схема
8/38
Основные задачи, решаемые
разработанной системой ААУ на основе НЛ



Генерация нечетких функций
принадлежности и правил управления
(идентификация нечеткой модели)
Адаптация БЗ к изменяющимся свойствам
среды и ОУ
Распознавание образов (фаззификация) и
принятие решений на основании правил в БЗ
(включая дефаззификацию)
9/38
Существующие методы
идентификации нечеткой модели
Нечеткие нейронные сети
 Генетические алгоритмы
 Методы, основанные на кластерном и
статистическом анализе.
Методы кластеризации:
•
C-means;
•
Fuzzy C-means;
•
mountain method;
•
subtractive method (метод вычетов)

10/38
Кодирование информации в
нечетких системах ААУ
1.
Входные и выходные функции принадлежности
(ФРО и подсистема принятия решений).
Трапецеидального вида, задаются xкоординатами вершин трапеции
µ(F)
Fi
Xlt i
Xlb i
Fmin
Fj
Xrt i
Xlt j
Xlb j
Xrb i
0
Xrt j
Xrb j
Fmax
F
11/38
Представление знаний в нечетких
системах ААУ
2. Правила вида Rh: Oi & Aj  Ok / Eh в БЗ, где
  
(набор входных множеств) правила;
A


()
y
&

()
y
.
.
.
(
y
)– набор управляющих
воздействий;
O


(
x
)
&

()
x
.
.
.

()
x – образ результата
O
()
x
&
()
x
.
.
.iNN
(
x
)– задает входной образ
i
i
11
i
2
2
j
j
11
j
22
j
M
M
k
k
11
k
22
k
NN
(набор входных множеств), который должен
распознаваться при выполнении данного
правила;
Eh – оценка результирующего образа.
12/38
Алгоритм генерации
нечетких правил
1.
2.
3.
4.
5.
Накопление статистики в виде набора векторов,
координаты которых соответствуют значениям
входных и выходных переменных системы
Выполнение процедуры кластеризации
Генерация входных и выходных функций
принадлежности
Объединение близких функций принадлежности
и удаление повторяющихся правил
Склеивание правил по ИЛИ (при отсутствии
адаптации)
13/38
Генерация функций
принадлежности
µ(F)
Xlb  2 c1  c2
Fi
Xlt i
Fj
Xrt i
Xlt j
Xrt j
Xrb  2 cN  cN1
Xlt  c2
Xrt  cN1
Xlb i
Fmin
Xlb j
Xrb i
0
Xrb j
Fmax
где ci – координата i-ой
точки кластера, а N –
количество точек в
кластере.
14/38
F
Вычисление степеней
адекватности правил
t

1 t
j
j
xt

1 yt

1
j
j
Q

Q

w
(
O
)

w
(
A
)

q

(
w
(
O
)

Q
)
xt
j
t
j
Q – степень адекватности [0,1]
w j () – результирующая принадлежность
входных, выходных образов и действия
множествам, описываемым правилом [0,1]
q – скорость переобучения [0,1]
15/38
Алгоритм принятия управляющих
решений
1.
2.
3.
4.
5.
Вычисление посылок всех нечетких правил
Корректировка посылок по значениям
степеней адекватности нечетких правил
Корректировка посылок по оценкам
результирующих образов
Вычисление суммы посылок и сравнение ее с
порогом
Вычисление результирующего воздействия
(дефаззификация): центр масс или
средневзвешенное, или принятие случайного
решения
16/38
Результирующее значение посылки правила
Корректировка посылок правил по
оценкам результирующих образов

E

i
a
t
a
n
0
.
5

1
3

1
.
1


 

E
m
a
x





 i



0
.
5
i
1

0,9

0,8
2
0,7
Сигмоидальная функция
0,6
0,5
Кв адратичная функция
0,4
Линейная функция с
порогом
0,3
E
ii i 
m
ax
E
0
,
е
с
л
иE
EE
m

i
m
i
n
a
x


 E

i
 i ,е

с
л
иE
EE
m
i
i
m
i
n
a
x

m
a
x
E
0,2
0,1
0
0
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
1
Emin [0,1] – константа,
задающая нижний порог,
отсекающий
правила
с
низкими оценками.
Исходное значение посылки правила
17/38
Эксперименты с прикладной системой
ААУ на основе нечеткой логики при
управлении различными объектами
18/38
Общая схема инструментальной
программной системы 4GN
Файлы, базы данных, другие программы...
Библиотека визуализирующих
модулей
Runtime 4GN
Application System
Сенсоры
Блок
ФРО
Аппарат
Эмоций
Подсистема
управления работой
Application system
Подсистема
визуализации
Подсистема настройки
свойств блоков
Application System
База
Знаний
Среда
Исполн.
Органы
Блок принятия
решений
Редактор
системы
Редактор
межблочных
соединений
Библиотека готовых
подсистем ААУ
Скрипт-редактор с
компилятором С#
Designer 4GN
Редактор
нейросетей
Библиотека
нейроноподобных
элементов и связей
19/38
Прикладная система управления
перевернутым маятником
Система 4GN в процессе обучения системы управления
маятником
20/38
Результаты экспериментов с перевернутым
маятником (фиксированное начальное положение)
Система управления GENITOR
SANE
ААУ
Igel
ААУ
Допустимое отклонение маятника
12º
12º
12º
12º
8º
Среднее количество попыток
1846
535
283
259
395
Максимальное количество попыток
7052
1910
-
417
610
Минимальное количество попыток
272
70
-
123
173
Стандартное отклонение (SD)
1396
329
138
154
279
Среднее количество тактов работы УС
-
-
-
518
790
Количество опытов
50
50
50
20
20
21/38
Результаты экспериментов с перевернутым
маятником (произвольное начальное положение)
Система управления
GENITOR
Допустимое отклонение маятника
12º
12º
12º
12º
Среднее количество попыток
2578
1691
967
448
Максимальное количество попыток
12964
4461
-
622
Минимальное количество попыток
415
46
-
349
Стандартное отклонение (SD)
2092
984
1148
84
Среднее количество тактов работы УС
-
-
-
895
Количество опытов
50
50
50
20
SANE
ААУ
Igel
22/38
Прикладная система стабилизации
углового движения АКА
Система 4GN в процессе отладки системы стабилизации углового
движения автоматического космического аппарата
23/38
Результаты экспериментов с системой стабилизации
углового движения космического аппарата
Система управления
Pilot 1
Pilot 2
Fuzzy
Pilot 1
Fuzzy
Pilot 2
Качество управления
5,6
5,9
5,9
5,9
Среднее количество тактов до выхода на
заданное качество управления
7590
6905
862
925
Максимальное количество тактов
8940
8250
1199
1106
Минимальное количество тактов
5640
5484
592
719
Стандартное отклонение (SD)
972
735
176
115
Средняя степень наполнения БЗ
0,17
0,06
0,55
0,58
Случайные возмущения
–
–
–
+
24/38
Переобучение (адаптация) нечеткой системы
стабилизации углового движения космического аппарата
1
Оценка качества управления
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
1
182 363 544 725 906 1087 1268 1449 1630 1811 1992 2173 2354 2535 2716 2897 3078 3259 3440 3621
Такты работы системы
25/38
Прикладная система управления
мобильным роботом
Pioneer P3-DX
Модель робота Pioneer P3-DX в среде
моделирования Player/Stage
26/38
Результаты экспериментов с мобильным
роботом
(рост оценки качества управления)
1
Оценка качества управления
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
1
83
165 247 329 411 493 575 657 739 821 903 985 1067 1149 1231 1313 1395 1477 1559 1641
Такты работы системы
27/38
Результаты экспериментов



Нечеткая система ААУ показала скорость обучения
при балансировке перевернутым маятником на 9%115% более высокую по сравнению с системами,
построенными на основе обучения с подкреплением,
при равных критериях качества.
Нечеткая система ААУ продемонстрировала
существенное сокращение (примерно в 8 раз)
времени обучения при стабилизации углового
движения космического аппарата, по сравнению с
существующими системами ААУ.
Продемонстрирована возможность применения
разработанной системы для эффективного управления
мобильным роботом Pioneer P3-DX.
28/38
Основные результаты работы
1.
2.
3.
4.
Разработано обобщенное описание системы ААУ на основе
теории нечетких множеств.
Разработаны методы синтеза управляющих систем ААУ на
основе теории нечетких множеств, в том числе алгоритмы
автоматической генерации входных и выходных функций
принадлежности, нечетких правил управления, вычисления
оценок, принятия решений и адаптации БЗ.
На основе разработанных методов создана модель
прикладной системы управления в виде модуля для системы
Designer4GN на языке C#, которая была испытана на задачах
балансирования перевернутым маятником, стабилизации
углового движения космического аппарата и управления
мобильным роботом.
Проведены несколько серий компьютерных экспериментов с
разработанной системой управления и моделями объектов
управления, в ходе которых было показано преимущество
нечеткой системы ААУ над аналогичными системами
управления в скорости обучения.
29/38
Список публикаций по теме
диссертации
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
Жданов А. А., Караваев М. В. Применение нечеткой логики в имитационной системе автономного адаптивного
управления. Труды Института Системного Программирования Российской Академии Наук: Том 3. – М.: ИСП РАН,
2002, с. 119-135.
Караваев М.В., Жданов А.А. Применение нечеткой логики в системах автономного адаптивного управления.
Сборник материалов всероссийской научно-технической конференции "Наука – производство – технологии –
экология": Том 1. Киров: Изд-во ВятГУ, 2002, с. 13-14.
Alexander Zhdanov, Maxim Karavaev and Helen Maklakova, Claire Medigue, Michel Sorine. Simulation of control
mechanisms in the cardio-vascular system. French-Russian A.M. Liapunov Institute for Applied Mathematics and
Computer Science. Transactions. Vol. 4. Pp. 233-245. Moscow. 2003.
Караваев М.В. Правила формирования связей между нейроноподобными элементами в системах автономного
адаптивного управления. С. 102-108. Сборник научных трудов Всероссийской научно-технической конференции
Нейроинформатика-2004: Часть 2. М.: МИФИ. С. 102-108.
Жданов А.А., Устюжанин А.Е., Караваев М.В. Нейросетевой самообучаемый метод адаптивного управления
динамическими объектами. Материалы XXIX Академических чтений по космонавтике, 2005 год. М.: 2005. с. 93.
А.А. Жданов, А.Е. Устюжанин, М.В. Караваев, Д.Б. Липкевич. 4GN – инструмент для разработки нейроноподобных
адаптивных систем управления на основе метода автономного адаптивного управления. Сборник научных трудов
Всероссийской научно-технической конференции Нейроинформатика-2005: Часть 1. М.: МИФИ. С. 203-209.
Жданов А.А., Караваев М.В. Разработка адаптивной системы управления мобильным роботом с применением.
Всероссийская научно-техническая конференция "Наука – производство – технологии – экология". Сборник
материалов: Том 1. Киров: Изд-во ВятГУ, 2005, с. 34-36.
Караваев М. В. Применение нечеткой логики в имитационной системе автономного адаптивного управления.
Труды Института Системного Программирования Российской Академии Наук: Том 7 (под ред. А.А.Жданова). – М.:
ИСП РАН, 2004, с. 41-53.
М.В. Караваев. Применение нечеткой логики в системах автономного адаптивного управления. Труды
Международных научно-технических конференций «Интеллектуальные системы» (AIS'05) и «Интеллектуальные
САПР» (CAD-2005). Научное издание в 4-х томах. - М.: ФИЗМАТЛИТ, 2005.
М.В. Караваев, А.Е. Устюжанин, А.А. Жданов. 4GN – программный инструмент для проектирования
интеллектуальных систем управления. Труды Международных научно-технических конференций
«Интеллектуальные системы» (AIS'05) и «Интеллектуальные САПР» (CAD-2005). Научное издание в 4-х томах. М.: ФИЗМАТЛИТ, 2005.
30/38
Спасибо
за внимание!
31
Список источников
1.
2.
3.
4.
Заде Л. Понятие лингвистической переменной и его
применение к принятию приближённых решений. – М.:
Мир, 1976.
Жданов А.А. Метод автономного адаптивного
управления // Известия Академии Наук. Теория и
системы управления, 1999, № 5, с. 127-134.
Moriarty, D. E. and R. Miikulainen. Efficient reinforcement
learning through symbiotic evolution. Machine Learning 22,
11–32, 1996.
Christian Igel. Neuroevolution for Reinforcement Learning
Using Evolution Strategies. In R. Sarker, R. Reynolds, H.
Abbass, K. C. Tan, B. McKay, D. Essam, and T. Gedeon,
editors, Congress on Evolutionary Computation 2003 (CEC
2003), Volume 4, pp. 2588-2595, IEEE Press, 2003.
32/38
Download