ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 А. И. КОНДРАТЬЕВ1 , Ю. В. ТЮМЕНЦЕВ2 Московский авиационный институт (национальный исследовательский университет) 1 [email protected], [email protected] ПРИМЕНЕНИЕ НЕЙРОННЫХ СЕТЕЙ В КОНТУРЕ УПРАВЛЕНИЯ И СИНТЕЗ АВТОПИЛОТА Рассматривается несколько вариантов использования нейронных сетей в контуре управления с позиций нелинейных методов управления, что позволяет описать некоторые свойства таких систем. Приведена связь с классической схемой нейросетевого управления с эталонной моделью. Показано, что настройка управляющей нейронной сети может производиться с позиций обучения с учителем не только для обратных моделей, но и для нейросетевых регуляторов, имеющих обратную связь по состоянию, но это требует вычисления производных выхода объекта управления. На примере управления угловым движением самолета показаны возможности НС для синтеза адаптивной системы управления. Ключевые слова: метод обратной динамики, приближенная линеаризация обратной связью, обучение с учителем, нейросетевое управление НС как инструмент нелинейного управления При попытках построения нейросетевых систем управления часто сама задача рассматривается как приложение нейронных сетей. Однако, не используя методы теории автоматического управления, немногое можно сказать о свойствах полученной системы. В постановке нужно рассматривать два основных вопроса: 1) место нейронной сети в контуре управления при фиксированных ее параметрах и свойства контура; 2) алгоритм обучения НС, в т.ч. в реальном времени с работой основного контура (контур адаптации). Зачастую все внимание уделяется алгоритмам обучения многослойных НС, хотя важно рассмотреть оба вопроса. Среди методов нелинейного управления хорошо разработан метод линеаризации обратной связью [1,2]. Пусть динамика объекта управления описывается в пространстве состояний: (1) x f x (x ) G x (x )u, y1 h1 (x ), …, y m hm (x ), УДК 004.032.26(08) Нейронные сети (2) 1 ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 где порядок объекта равен n , размерность векторов выходов и управлений – m (т.е. фиксировано количество каналов управления), причем m n ; f x (x ) – кусочно-гладкие вектор-функции размерности n 1 , G x (x ) – матрица n m . При выполнении ряда условий [1,2] уравнения объекта (1),(2) можно записать в эквивалентной форме в виде уравнений внешней (3) и внутренней (4) динамики (т.н. нормальная форма): (3) y f y (x) G(x) u , z 0 w(y, z 0 ), где новый вектор состояния (4) составной z [y T , z T0 ]T , f y [ f y1 , f y2 ,..., f ym ]T , u [u1 , u2 ,..., um ]T , G(x ) – квадратная матрица m m . Для каждого канала: y j [ y j , y j , y (j2) ,..., y j ( p j 1) ] , для всей си- стемы y [ y1T , y T2 , , y Tm ]T , и вектор старших производных определяется ( p1 ) как y [ y1 ( p2 ) , y2 ( pm ) T ,..., y m ] . Уравнения (3),(4) дополняются цепоч(pj) кой интеграторов от производных y j к выходам каналов y j . Если матрица G(x ) всюду обратима (система управляема), закон управления u R(x, ) G1 (x)[f y (x) ], (5) где – вектор нового управления m 1 , приводит замкнутую систему внешней динамики к линейной форме: (6) y . Выражения (5), (6) являются идеализацией, поскольку на самом деле используются некоторые оценки функций в (3). Естественным способом использования НС является представление приближенных функций fˆy (x, w ) , Gˆ (x, w) . Тогда обучение НС соответствует задаче идентификации математической модели объекта вида (3). НС являются одним из вариантов для приближенного представления функций, поэтому в [3,4] этот подход назван управлением на основе аппроксимации: u Gˆ 1 (x, w)[fˆy (x, w) ]. (7) В данной работе предлагается более общий способ использования свойств НС – аппроксимация самого преобразования обратной связью: (8) u R(x, , w) . 2 УДК 004.032.26(08) Нейронные сети ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 Наилучший вектор параметров приближает (8) к (5): R(x, , w ) G1 (x)[f y (x) ] î ñò (x, ), (9) î ñò (x, ) – малая остаточная ошибка аппроксимации. Тогда, в принципе, можно рассматривать объекты, где вектор управления не входит аддитивно, в отличие от (3): y f (x, u). (10) Вопрос существования для (10) является отдельной проблемой и не рассматривается. Здесь управление выбирается в виде (8), где: R(x, , w ) f 1 (x, ) î ñò (x, ), (11) f 1 – обратная функция к f для всех фиксированных x , которая, в отличие от (5), может строго не существовать. Управление может осуществляться не только по исходному вектору состояния x . Переход от состояния x в системе (1),(2) к состоянию [ y T , z T0 ]T в системе (3),(4) и обратно взаимно однозначен: 1 z [T y (x ),Tz (x )] T (x ) , x T (y , z 0 ). (12) Отсюда следует, что при отсутствии внутренней динамики выходное состояние y эквивалентно физическому x в том смысле, что (13) u R(T 1 (y), , w) Ry (y, , w), т.е. законы управления могут строиться по выходу, но с использованием производных, что влияет на свойства системы управления. Несколько вариантов схем управления с НС Используя принцип линеаризации обратной связью, можно построить несколько «нейросетевых» схем управления (в кавычках, т.к. НС здесь инструмент в нелинейных методах управления, а не сами методы управления): решение обратной задачи динамики, управление с обратной (инверсной) моделью, управление с эталонной моделью [5-10]. Обратная задача динамики [6,7,10]. Пусть желаемая траектория движения задается в пространстве состояний подсистемы внешней динамики типа (10) для канала управления порядка p как программа по времени y d (t ) . Для одного из каналов управления после линеаризации обратной связью внешняя подсистема (6) записана в виде: y ( p ) . (14) УДК 004.032.26(08) Нейронные сети 3 ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 Для объекта управления вида (9) рассматривается задача слежения по выходу. Для ее решения при старте из различных начальных условий y(0) y d (0) , новая переменная управления выбирается в виде: y d( p) k T e, где e y d y , т.е. e [e, e,...,e ( p1) ]T . Таким образом, закон управления запишется как: u R( x, y d K y (y d y), w) , (15) (16) где обозначения такие же, что и в (3), а матрица K y содержит на диагонали коэффициенты усиления для всех m каналов управления. Тогда уравнения для ошибки слежения: (17) e K e d, где матрица K – гурвицева и определяется выбором вектора коэффициентов усиления k [k0 , k1 ,...,k p1 ]T ; через d обозначены неточности линеаризующего закона управления и возмущения. Динамика ошибки (17) задается на этапе синтеза, через коэффициенты k задается ширина полосы пропускания, в которой будет работать контур. Управление с обратной моделью [6,7,10,11]. Принципы управления с обратной моделью аналогичны обратной задаче динамики, но этом случае происходит коррекция динамики объекта без обратной связи по состоянию, т.е. закон управления имеет вид: (18) u R( x d , y d K y e, w) , где все внешние входы представляют собой желаемые изменения состояния x d и выхода y d . При отсутствии внутренней динамики закон управления можно записать, используя только желаемый выход y d (см.(13)). При условии постоянства df / du обратную модель можно поместить вне обратной связи (привычная запись получится в дискретном виде [6,7]): (19) u R y ( y d , y d , w) K y e, где K y e обеспечивает устойчивость системы при неточности обратной модели. Можно считать, что обратная модель вычисляет сигнал управления, полагая, что объект уже находится на желаемой траектории. Обратные модели обладают одним преимуществом перед обратной динамикой: нет необходимости мгновенного измерения состояния х. Теоретически свойства обратной модели хуже, но она дает выигрыш в быстрых и резких движениях при наличии сильного запаздывания по состоя4 УДК 004.032.26(08) Нейронные сети ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 нию х (такая проблема рассматривается в контексте моделей мозжечка и моторного обучения [7,12]). А коррекция ошибки в обратной связи K y e допускает наличие запаздывания или фильтрации. Управление с эталонной моделью [5,7-9]. При синтезе системы с эталонной моделью целью управления является не столько слежение за выходом модели, сколько задача регулирования, приведения динамики объекта к динамике ЭМ. Пусть ЭМ задана для выходной переменной y в виде (20) y m Am y m Bm r, где r – командный сигнал для выхода y , ее можно записать как (3),(10) ( p) T ym am y m bm r, откуда видно, что, выбрав новое управление для объекта (14) в виде (21) T am y bm r, (22) уравнения замкнутого объекта управления типа (10) приводятся к форме уравнений эталонной модели (21). Представив у = Ту(х) и подставив (22) в (8), удобно записать закон управления по состоянию: T (23) u Rос ( x, a m T y (x ) bm r, w), (24) u R(x, r, w), причем нужно отметить, что, хотя управление осуществляется по состоянию, но регулируется именно выход объекта, кроме того, не требуется знать преобразование Ту(х). Таким образом, в системе с ЭМ нейронная сеть реализует закон управления (24). Обучение такого нейросетевого регулятора во многом аналогично обучению НС при решении обратной задачи динамики. Уравнение ошибки слежения для системы с ЭМ имеет вид: e Ame d. (25) То есть, по аналогии с K в (17), матрица Am отвечает за «величину» обратной связи, устанавливающейся в системе после обучения нейросетевого регулятора. Это значит, что чем больше элементы матрицы Am , тем меньше чувствительность контура управления с законом (24) к его неточности и слабее требования к точности настройки НС. Интересно рассмотреть случай управления по выходу y , когда им можно заменить вектор состояния x , аналогично (13): u R(y, r , w ). (26) УДК 004.032.26(08) Нейронные сети 5 ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 Вектор выхода у включает в себя производные y [ y, y, y (2) ,..., y ( p 1) ] , что является препятствием для использования таких законов на практике из-за погрешностей и шумов измерений. Фактически (26) является классической схемой нейросетевого управления с ЭМ [7,8], так, заменив производные конечными разностями, получим y [ yk , y k 1 , ..., y k p1 ] , т.е. линию задержки. Таким образом, классическая схема нейросетевого управления по выходу с ЭМ уязвима из-за «дифференцирования» реальных измерений в контуре управления. Обучение управляющей НС с учителем в обратной динамике Если настройка управляющей нейронной сети рассматривается как задача обучения с учителем, то при этом необходимо наличие набора данных в виде отдельных точек восстанавливаемой зависимости (8), в том числе желаемый выход u R(x, ) для каждого «примера» входа нейросети {x, } . Однако для текущего входного сигнала (t ) (содержащего y d( p ) , y d ) он неизвестен. Известные способы обучения управляющей НС включают: 1) использование динамических алгоритмов обучения, требующих идентификации нейросетевой модели объекта [5,6,9]; 2) обучение по ошибке обратной связи (feedback error learning) [7,10,12], тесно связанное с методами нелинейного адаптивного управления [1,4,10]; 3) обобщающее обучение (general learning), встречающееся в основном при настройке дискретных обратных моделей [6,11]. Из приведенных способов только третий использует обучение с учителем и поэтому может воспользоваться методами обучения статических НС, особенно методами второго порядка [13,14]. Зависимость (10) можно рассматривать как статическую функцию выхода y ( p ) от управления u при фиксированном состоянии x . Тогда при условии, что сигналы u , x и y ( p ) измеряются или вычисляются, в полу( p) чаемом наборе данных {ui , x i , yi } уже содержится точечное представ- ление обратной функции (см. (11)) ui f 6 1 ( x i , yi( p ) ) . УДК 004.032.26(08) Нейронные сети (27) ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 Задача управляющей нейронной сети состоит в том, чтобы восстановить непрерывную зависимость (27) и делать корректное обобщение в контуре управления. Аналогичный подход используется в нейросетевой литературе для настройки дискретных обратных моделей [6,7]. Пусть закон управления в схеме с обратной динамикой реализуется нейронной сетью с параметрами w , с учетом (11) и (27) запишем: uˆ(w ) R(x, y ( p ) , w ) . (28) Тогда текущий сигнал управления u можно рассматривать как сигнал учителя. Ошибка запишется в виде: eu u uˆ(w ) u R(x, y ( p ) , w ). (29) То есть нейросетевой закон управления и правило (обучающий набор) для его настройки можно записать в виде: u R(x, y d k T (y d y ), w ), (30) u R(x, y , w ) eu , k eu2 [k ] min . w (31) Обучение НС может производиться как в пакетном, так и в последовательном режимах. Применение фильтра Калмана к настройке нейронных сетей в реальном режиме времени приводится в [14] и делает систему управления адаптивной. Аналогичный подход может быть использован и в системах управления с эталонной моделью, но в данном докладе не освещается. Возможность использования НС в составе автопилота Свойства нейронных сетей полезны в задачах управления, в которых проблемы вызываются нелинейностью характеристик и многосвязностью объекта управления. В качестве примера возьмем уравнения динамики полета для фиксированного режима по скорости и высоте [15]: ω J 1 (M(, , ω, ý , í , ) [ω Jω]) , (32) V F(, , ω, ý , í , , , ) / m [ω V] , (33) [, ] f (V) , где – вектор угловых скоростей, , – углы атаки и скольжения, V – вектор скорости набегающего потока по связанным осям самолета, J – матрица моментов инерции как твердого тела, F, M - векторы суммарных сил и аэродинамических моментов, действующих на самолет. Вектора состояния, выходов и управлений имеют вид: (34) x [, , x , y , z ]T , y [ x , y , z ]T , u [ ý , í , ]T , УДК 004.032.26(08) Нейронные сети 7 ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 нелинейное управление осуществляется в контуре угловых скоростей, т.к. зависимость сил от своих аргументов в достаточной степени линейная. Нейронные сети в нелинейном контуре автопилота позволяют работать напрямую с общим видом уравнений (32), не производя их линеаризацию, и учитывая все взаимосвязи между разными каналами управления. Автопилот синтезирован по изложенным принципам в схеме с обратной динамикой. Нелинейность закона управления демонстрируется на рис. 1, где показано, что полученный в процессе обучения нейросетевой закон управления отражает все особенности продольной балансировки. Рис. 1. Балансировочное отклонение стабилизатора по углам атаки, полученное из настроенного нейросетевого закона управления Рис. 2 демонстрирует адаптацию к несимметрии в боковом канале управления, которая моделировалась с помощью дополнительных перекрестных моментов крена и рыскания: mx k x1 k x0 и my k1y k y0 , что отдаленно напоминает моменты, возникающие при потере части консоли крыла. Начальный участок показывает влияние этих вредных моментов на качество работы системы управления. Затем на 20-й секунде включается адаптация (он-лайн обучение НС) и влияние несимметричных моментов на характеристики управляемого движения постепенно устраняется. Синтез нейросетевого автопилота и результаты были изложены на конференции «Информационные технологии в управлении» [16]. 8 УДК 004.032.26(08) Нейронные сети ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 Рис. 2. Адаптация паразитным перекрестным связям в боковом канале углового движения самолета Заключение Нейросетевые законы управления являются нелинейными и должны рассматриваться в контексте нелинейного управления. При этом многие схемы управления с НС строятся однотипно и задачу настройки НСзакона управления (не только для обратных моделей) можно сформулировать как задачу обучения с учителем, что позволяет использовать эффективные методы второго порядка обучения статических НС. На примере УДК 004.032.26(08) Нейронные сети 9 ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 синтеза автопилота показан потенциал НС для реализации адаптивных многомерных и нелинейных законов управления. Список литературы 1. Мирошник И.В., Никифоров В.О., Фрадков А.Л. Нелинейное и адаптивное управление сложными динамическими системами. СПб.: Наука, 2000. 2. Slotine J.-J., Li W. Applied nonlinear control. //Englewood Cliffs, New Jersey: Prentice Hall, 1991. 3. Farrel J. A., Polycarpou M.M. Adaptive approximation based control: unifying neural, fuzzy and traditional adaptive approximation approaches. John Wiley & Sons, 2006. 4. Spooner J. T., Maggiore M., Ordґo˜nez R., Passino K.M. Stable adaptive control and estimation for nonlinear systems: Neural and fuzzy approximator techniques. John Wiley & Sons, Inc., 2002. 5. Терехов В. А., Ефимов Д.В., Тюкин И.Ю. Нейросетевые системы управления. М.:ИПРЖР,2002. (Серия «Нейрокомпьютеры и их применение». Кн.8) 6. Neural Systems for Control / Ed. by O.M.Omidvar, D. L Elliott. Elsevier, 1997. 7. Neural Networks for Control / Ed. by W.T. Miller III, R.S. Sutton, P.J. Werbos. // The MIT Press, 1990. 8. Narendra K. S., Parthasarathy K. Identification and control of dynamic systems using neural networks // IEEE Trans. on Neural Networks, 1990. V. 1. №. 1. Р. 4–27. 9. Hagan, M.T., O. De Jesus, and R. Schultz Training Recurrent Networks for Filtering and Control, Chapter 12 in Recurrent Neural Networks: Design and Applications, L. Medsker and L.C. Jain, Eds., CRC Press, 1999. Р. 311340. 10.Nakanishi J., Schaal S. Feedback error learning and nonlinear adaptive control // Neural Networks, 2004. 17. Р. 1453–1465. 11.Psaltis D., Sideris A., Yamamura A. A. A Multilayered Neural Network Controller // IEEE Control Systems Magazine, 1988. V.8, Issue 2. Р. 17–21. 12.The cerebellum and adaptive control / John S. Barlow. Cambridge University Press, 2002. 13.G.Dreyfus Neural Networks Methodology and Applications. SpringerVerlag Berlin Heidelberg, 2005. 10 УДК 004.032.26(08) Нейронные сети ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 14.Haykin S. Kalman filtering and neural networks / Ed. by S.Haykin. New York a.o.: John Wiley & Sons, 2001. 15.Sonneveldt L. Nonlinear F-16 fighter model // Matlab Central – An open exchange for the MATLAB and Simulink user community URL: http://www.math-works.com/matlabcentral 16.Кондратьев А.И., Тюменцев Ю. В. Адаптивный нейросетевой закон управления пространственным движением самолета // Конференция «Информационные технологии в управлении» в рамках 5-й Мультконференции по проблемам управления, ЦНИИ «Электроприбор». СПб, 9-11 октября 2012 г. УДК 004.032.26(08) Нейронные сети 11