Караваев М.В., Институт системного программирования РАН Построение автономных адаптивных управляющих систем на основе нечеткой логики 1 Основные задачи Самообучение, используя только собственный опыт взаимодействия с внешней средой Адаптация к изменяющимся свойствам внешней среды Управление объектом с целью нахождения максимума априорно заложенной целевой функции (аппарат эмоций) 2/38 Методы и проблемы построения адаптивных систем управления 3/38 Технологии построения систем управления ТАР (позднее ТАУ) Автоматы (конечные, вероятностные) Нечеткие контроллеры Нейро-контроллеры Подходы, основанные на концептуальных моделях нервных систем (П.К. Анохин, J.A.Meyer, А.А.Жданов) 4/38 Технологии построения систем управления Активное поведени е Возможность работы без априорного задания модели ОУ Простота организации переобучения Простота взаимодействия с реальным миром + – – – + + + + + – + – – – + + – – – + – + + + ? Проработан ность теории ТАУ Автоматы Нейроконтроллеры Нечеткие контроллеры Подход Концептуальные модели нервных систем 5/38 Пример работы традиционного нечеткого контроллера фаззификация х о л о д н а я т е п л а я набор правил управления го р я ч а я 1 ,0 0 0 ,6 5 0 ,5 0 0 ,1 0 t t1 повернуть влево не вращать повернуть вправо 1,00 0,65 0,50 0,10 -30 0 4 Центр масс A1 1. Если вода горячая и давление слабое, то повернуть синий вентиль вправо; 2. Если вода горячая и давление сильное, то повернуть красный вентиль влево; 3. Если вода теплая, то не вращать вентили; 4. Если вода холодная и давление слабое, то повернуть красный вентиль вправо; 5. Если вода холодная и давление сильное, то повернуть синий вентиль влево; 30 композиция и дефаззификация A 1. Повернуть синий вентиль вправо: min(0,00; 0,35) = 0,00; 2. Повернуть красный вентиль влево: min(0,00; 0,78) = 0,00; 3. Не вращать вентили: 0,65 = 0,65; 4. Повернуть красный вентиль вправо: min(0,10; 0,35) = 0,10; 5. Повернуть синий вентиль влево: min(0,10; 0,00) = 0,00. вычисление посылок правил6/38 Метод Автономного Адаптивного Управления • • • • • Разбивает задачу управления на подзадачи: ФРО, БЗ, ПР и др. Две целевые функции: выживание и накопление знаний Активное поведение, источником которого является аппарат эмоций Адаптивность и автономность Имеет ограничения вследствие дискретности представления информации в системе 7/38 Модификация схемы системы ААУ Система управления Сенсоры Блок ФРО База знаний Аппарат эмоций Среда Базовая схема Исполнитель ные органы Блок принятия решений Модифицированная схема 8/38 Основные задачи, решаемые разработанной системой ААУ на основе НЛ Генерация нечетких функций принадлежности и правил управления (идентификация нечеткой модели) Адаптация БЗ к изменяющимся свойствам среды и ОУ Распознавание образов (фаззификация) и принятие решений на основании правил в БЗ (включая дефаззификацию) 9/38 Существующие методы идентификации нечеткой модели Нечеткие нейронные сети Генетические алгоритмы Методы, основанные на кластерном и статистическом анализе. Методы кластеризации: • C-means; • Fuzzy C-means; • mountain method; • subtractive method (метод вычетов) 10/38 Кодирование информации в нечетких системах ААУ 1. Входные и выходные функции принадлежности (ФРО и подсистема принятия решений). Трапецеидального вида, задаются xкоординатами вершин трапеции µ(F) Fi Xlt i Xlb i Fmin Fj Xrt i Xlt j Xlb j Xrb i 0 Xrt j Xrb j Fmax F 11/38 Представление знаний в нечетких системах ААУ 2. Правила вида Rh: Oi & Aj Ok / Eh в БЗ, где (набор входных множеств) правила; A () y & () y . . . ( y )– набор управляющих воздействий; O ( x ) & () x . . . () x – образ результата O () x & () x . . .iNN ( x )– задает входной образ i i 11 i 2 2 j j 11 j 22 j M M k k 11 k 22 k NN (набор входных множеств), который должен распознаваться при выполнении данного правила; Eh – оценка результирующего образа. 12/38 Алгоритм генерации нечетких правил 1. 2. 3. 4. 5. Накопление статистики в виде набора векторов, координаты которых соответствуют значениям входных и выходных переменных системы Выполнение процедуры кластеризации Генерация входных и выходных функций принадлежности Объединение близких функций принадлежности и удаление повторяющихся правил Склеивание правил по ИЛИ (при отсутствии адаптации) 13/38 Генерация функций принадлежности µ(F) Xlb 2 c1 c2 Fi Xlt i Fj Xrt i Xlt j Xrt j Xrb 2 cN cN1 Xlt c2 Xrt cN1 Xlb i Fmin Xlb j Xrb i 0 Xrb j Fmax где ci – координата i-ой точки кластера, а N – количество точек в кластере. 14/38 F Вычисление степеней адекватности правил t 1 t j j xt 1 yt 1 j j Q Q w ( O ) w ( A ) q ( w ( O ) Q ) xt j t j Q – степень адекватности [0,1] w j () – результирующая принадлежность входных, выходных образов и действия множествам, описываемым правилом [0,1] q – скорость переобучения [0,1] 15/38 Алгоритм принятия управляющих решений 1. 2. 3. 4. 5. Вычисление посылок всех нечетких правил Корректировка посылок по значениям степеней адекватности нечетких правил Корректировка посылок по оценкам результирующих образов Вычисление суммы посылок и сравнение ее с порогом Вычисление результирующего воздействия (дефаззификация): центр масс или средневзвешенное, или принятие случайного решения 16/38 Результирующее значение посылки правила Корректировка посылок правил по оценкам результирующих образов E i a t a n 0 . 5 1 3 1 . 1 E m a x i 0 . 5 i 1 0,9 0,8 2 0,7 Сигмоидальная функция 0,6 0,5 Кв адратичная функция 0,4 Линейная функция с порогом 0,3 E ii i m ax E 0 , е с л иE EE m i m i n a x E i i ,е с л иE EE m i i m i n a x m a x E 0,2 0,1 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Emin [0,1] – константа, задающая нижний порог, отсекающий правила с низкими оценками. Исходное значение посылки правила 17/38 Эксперименты с прикладной системой ААУ на основе нечеткой логики при управлении различными объектами 18/38 Общая схема инструментальной программной системы 4GN Файлы, базы данных, другие программы... Библиотека визуализирующих модулей Runtime 4GN Application System Сенсоры Блок ФРО Аппарат Эмоций Подсистема управления работой Application system Подсистема визуализации Подсистема настройки свойств блоков Application System База Знаний Среда Исполн. Органы Блок принятия решений Редактор системы Редактор межблочных соединений Библиотека готовых подсистем ААУ Скрипт-редактор с компилятором С# Designer 4GN Редактор нейросетей Библиотека нейроноподобных элементов и связей 19/38 Прикладная система управления перевернутым маятником Система 4GN в процессе обучения системы управления маятником 20/38 Результаты экспериментов с перевернутым маятником (фиксированное начальное положение) Система управления GENITOR SANE ААУ Igel ААУ Допустимое отклонение маятника 12º 12º 12º 12º 8º Среднее количество попыток 1846 535 283 259 395 Максимальное количество попыток 7052 1910 - 417 610 Минимальное количество попыток 272 70 - 123 173 Стандартное отклонение (SD) 1396 329 138 154 279 Среднее количество тактов работы УС - - - 518 790 Количество опытов 50 50 50 20 20 21/38 Результаты экспериментов с перевернутым маятником (произвольное начальное положение) Система управления GENITOR Допустимое отклонение маятника 12º 12º 12º 12º Среднее количество попыток 2578 1691 967 448 Максимальное количество попыток 12964 4461 - 622 Минимальное количество попыток 415 46 - 349 Стандартное отклонение (SD) 2092 984 1148 84 Среднее количество тактов работы УС - - - 895 Количество опытов 50 50 50 20 SANE ААУ Igel 22/38 Прикладная система стабилизации углового движения АКА Система 4GN в процессе отладки системы стабилизации углового движения автоматического космического аппарата 23/38 Результаты экспериментов с системой стабилизации углового движения космического аппарата Система управления Pilot 1 Pilot 2 Fuzzy Pilot 1 Fuzzy Pilot 2 Качество управления 5,6 5,9 5,9 5,9 Среднее количество тактов до выхода на заданное качество управления 7590 6905 862 925 Максимальное количество тактов 8940 8250 1199 1106 Минимальное количество тактов 5640 5484 592 719 Стандартное отклонение (SD) 972 735 176 115 Средняя степень наполнения БЗ 0,17 0,06 0,55 0,58 Случайные возмущения – – – + 24/38 Переобучение (адаптация) нечеткой системы стабилизации углового движения космического аппарата 1 Оценка качества управления 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 1 182 363 544 725 906 1087 1268 1449 1630 1811 1992 2173 2354 2535 2716 2897 3078 3259 3440 3621 Такты работы системы 25/38 Прикладная система управления мобильным роботом Pioneer P3-DX Модель робота Pioneer P3-DX в среде моделирования Player/Stage 26/38 Результаты экспериментов с мобильным роботом (рост оценки качества управления) 1 Оценка качества управления 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 1 83 165 247 329 411 493 575 657 739 821 903 985 1067 1149 1231 1313 1395 1477 1559 1641 Такты работы системы 27/38 Результаты экспериментов Нечеткая система ААУ показала скорость обучения при балансировке перевернутым маятником на 9%115% более высокую по сравнению с системами, построенными на основе обучения с подкреплением, при равных критериях качества. Нечеткая система ААУ продемонстрировала существенное сокращение (примерно в 8 раз) времени обучения при стабилизации углового движения космического аппарата, по сравнению с существующими системами ААУ. Продемонстрирована возможность применения разработанной системы для эффективного управления мобильным роботом Pioneer P3-DX. 28/38 Основные результаты работы 1. 2. 3. 4. Разработано обобщенное описание системы ААУ на основе теории нечетких множеств. Разработаны методы синтеза управляющих систем ААУ на основе теории нечетких множеств, в том числе алгоритмы автоматической генерации входных и выходных функций принадлежности, нечетких правил управления, вычисления оценок, принятия решений и адаптации БЗ. На основе разработанных методов создана модель прикладной системы управления в виде модуля для системы Designer4GN на языке C#, которая была испытана на задачах балансирования перевернутым маятником, стабилизации углового движения космического аппарата и управления мобильным роботом. Проведены несколько серий компьютерных экспериментов с разработанной системой управления и моделями объектов управления, в ходе которых было показано преимущество нечеткой системы ААУ над аналогичными системами управления в скорости обучения. 29/38 Список публикаций по теме диссертации 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Жданов А. А., Караваев М. В. Применение нечеткой логики в имитационной системе автономного адаптивного управления. Труды Института Системного Программирования Российской Академии Наук: Том 3. – М.: ИСП РАН, 2002, с. 119-135. Караваев М.В., Жданов А.А. Применение нечеткой логики в системах автономного адаптивного управления. Сборник материалов всероссийской научно-технической конференции "Наука – производство – технологии – экология": Том 1. Киров: Изд-во ВятГУ, 2002, с. 13-14. Alexander Zhdanov, Maxim Karavaev and Helen Maklakova, Claire Medigue, Michel Sorine. Simulation of control mechanisms in the cardio-vascular system. French-Russian A.M. Liapunov Institute for Applied Mathematics and Computer Science. Transactions. Vol. 4. Pp. 233-245. Moscow. 2003. Караваев М.В. Правила формирования связей между нейроноподобными элементами в системах автономного адаптивного управления. С. 102-108. Сборник научных трудов Всероссийской научно-технической конференции Нейроинформатика-2004: Часть 2. М.: МИФИ. С. 102-108. Жданов А.А., Устюжанин А.Е., Караваев М.В. Нейросетевой самообучаемый метод адаптивного управления динамическими объектами. Материалы XXIX Академических чтений по космонавтике, 2005 год. М.: 2005. с. 93. А.А. Жданов, А.Е. Устюжанин, М.В. Караваев, Д.Б. Липкевич. 4GN – инструмент для разработки нейроноподобных адаптивных систем управления на основе метода автономного адаптивного управления. Сборник научных трудов Всероссийской научно-технической конференции Нейроинформатика-2005: Часть 1. М.: МИФИ. С. 203-209. Жданов А.А., Караваев М.В. Разработка адаптивной системы управления мобильным роботом с применением. Всероссийская научно-техническая конференция "Наука – производство – технологии – экология". Сборник материалов: Том 1. Киров: Изд-во ВятГУ, 2005, с. 34-36. Караваев М. В. Применение нечеткой логики в имитационной системе автономного адаптивного управления. Труды Института Системного Программирования Российской Академии Наук: Том 7 (под ред. А.А.Жданова). – М.: ИСП РАН, 2004, с. 41-53. М.В. Караваев. Применение нечеткой логики в системах автономного адаптивного управления. Труды Международных научно-технических конференций «Интеллектуальные системы» (AIS'05) и «Интеллектуальные САПР» (CAD-2005). Научное издание в 4-х томах. - М.: ФИЗМАТЛИТ, 2005. М.В. Караваев, А.Е. Устюжанин, А.А. Жданов. 4GN – программный инструмент для проектирования интеллектуальных систем управления. Труды Международных научно-технических конференций «Интеллектуальные системы» (AIS'05) и «Интеллектуальные САПР» (CAD-2005). Научное издание в 4-х томах. М.: ФИЗМАТЛИТ, 2005. 30/38 Спасибо за внимание! 31 Список источников 1. 2. 3. 4. Заде Л. Понятие лингвистической переменной и его применение к принятию приближённых решений. – М.: Мир, 1976. Жданов А.А. Метод автономного адаптивного управления // Известия Академии Наук. Теория и системы управления, 1999, № 5, с. 127-134. Moriarty, D. E. and R. Miikulainen. Efficient reinforcement learning through symbiotic evolution. Machine Learning 22, 11–32, 1996. Christian Igel. Neuroevolution for Reinforcement Learning Using Evolution Strategies. In R. Sarker, R. Reynolds, H. Abbass, K. C. Tan, B. McKay, D. Essam, and T. Gedeon, editors, Congress on Evolutionary Computation 2003 (CEC 2003), Volume 4, pp. 2588-2595, IEEE Press, 2003. 32/38