ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 М.В. ЕГОРЧЕВ, Ю.В. ТЮМЕНЦЕВ Московский авиационный институт (национальный исследовательский университет) [email protected], [email protected] НЕЙРОСЕТЕВЫЕ ПОЛУЭМПИРИЧЕСКИЕ МОДЕЛИ УПРАВЛЯЕМЫХ ДИНАМИЧЕСКИХ СИСТЕМ 1. Рассматривается проблема математического и компьютерного моделирования нелинейных управляемых динамических систем при недостаточности знаний об объекте моделирования и условиях его работы, а также при резких и существенных изменениях его свойств вследствие повреждений конструкции или отказов оборудования. Цель работы состоит в развитии класса модульных полуэмпирических динамических моделей, объединяющих возможности теоретического и нейросетевого моделирования. Работоспособность и перспективность таких моделей подтверждается результатами вычислительных экспериментов. Ключевые слова: нелинейная динамическая система, полуэмпирическая модель, структурная корректировка, обучение Введение Возможности средств математического и компьютерного моделирования отстают от потребностей таких областей как авиация, ракетнокосмическая техника, робототехника, управление сложными производственными процессами и т.п. Для систем из этих областей характерны высокая сложность, многомерность, нелинейность, нестационарность. Таким системам обычно сопутствует неполное и неточное знание их характеристик и свойств, а также условий, в которых система будет действовать. Моделируемый объект в процессе функционирования может претерпевать изменения в свойствах, в частности, из-за повреждений в его конструкции и отказов оборудования. Тогда модель, сформированная ранее на основе номинального состояния объекта, становится неадекватной Работа выполнена при финансовой поддержке Минобрнауки РФ по проекту №14.740.11.0997 в рамках ФЦП «Научные и научно-педагогические кадры инновационной России на 2009–2013 годы». УДК 004.032.26(08) Нейронные сети 1 ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 и если она используется, например, в системе управления объектом, возникает критическая ситуация. В связи с этим необходимы новые средства моделирования сложных нелинейных управляемых систем. Они должны обеспечивать получение моделей с требуемым уровнем точности и быстродействия, допускающих использование их в реальном и/или опережающем времени в составе бортовых комплексов управляемых объектов. Такие модели должны быть адаптивными для оперативного восстановления их адекватности при изменениях в свойствах моделируемой системы. Общий подход к формированию полуэмпирических НС-моделей Предлагаемый подход состоит в сочетании теоретических знаний о моделируемой динамической системе (ДС) со структурными преобразованиями и обучением теоретической модели для ее улучшения. Учитываются теоретические знания двух видов: об объекте моделирования («физика объекта») и о вычислительных методах анализа моделей. Уточнение модели выполняется средствами нейросетевого обучения. В итоге формируется динамическая модель нейросетевого типа (НС-модель), в архитектуре которой учитываются имеющиеся знания об объекте моделирования. Традиционные нейросетевые модели имеют чисто эмпирический характер («черный ящик»), они основываются только на экспериментальных данных о поведении системы [1]. Рассматриваемые далее динамические модульные сети, отражающие как экспериментальные данные, так имеющиеся теоретические знания, можно классифицировать как полуэмпирические модели («серый ящик») [2, 3]. Формирование полуэмпирических НС-моделей в виде динамических сетей с модульной архитектурой состоит из следующих этапов: 1) формирование теоретической модели с непрерывным временем и сбор экспериментальных данных для исследуемой ДС; 2) оценка точности теоретической модели ДС на доступных данных; 3) преобразование исходной модели с непрерывным временем в модель с дискретным временем; 4) формирование НС-представления для полученной модели с дискретным временем; 5) обучение нейросетевой модели; 6) оценка точности обученной нейросетевой модели; 7) корректировка НС-модели за счет структурных изменений в ней. 2 УДК 004.032.26(08) Нейронные сети ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 Процесс формирования полуэмпирических НС-моделей 1. Как объект моделирования возьмем управляемую динамическую систему с непрерывным временем с теоретической моделью для нее в виде системы обыкновенных дифференциальных уравнений. Необходимы также экспериментальные данные о поведении системы, чтобы можно было судить о точности предлагаемых моделей. Эти же данные потребуются для подстройки (обучения) модели, обеспечивающей повышение ее точности. Исходная теоретическая модель может описывать поведение объекта не вполне удовлетворительно из-за того, например, что некоторые ее элементы известны с недостаточной точностью. Формирование полуэмпирической модели рассмотрим на примере динамической системы, описываемой следующими уравнениями: x1 (t ) ( x1 (t ) 2 x2 (t )) 2 u (t ), (1) x2 (t ) 8,322109sin( x1 (t )) 1,135 x2 (t ). Неудовлетворительная точность принятой теоретической модели обычно обусловлена тем, что в ней учтены не все значимые факторы из-за недостаточного уровня теоретического знания о них. Экспериментальные данные о поведении объекта позволяют скорректировать модель путем ее настройки (обучения). Если обучение не позволяет получить модель с требуемыми свойствами, это означает, что необходима еще и ее структурная корректировка. Для этого следует сформулировать ряд гипотез, чтобы представить, что именно в модели препятствует ее нормальной работе. Объектом структурной корректировки является некоторая часть модели, заменяемая на другой ее вариант. Эта часть может рассматриваться как модуль, взаимодействующий с остальными частями модели через соответствующие связи. Примем, что первое уравнение в (1) выражает точное знание об объекте и возьмем его в неизменном виде. Второе уравнение запишем вначале в упрощенной форме, чтобы имитировать неполное знание об объекте: (2) x2 (t ) 8,32 x1 (t ) . Эти два уравнения – исходная теоретическая модель. 2. Корректировку модели можно выполнить, опираясь на экспериментальные данные о ее поведении. Средства для этого имеются в НСмоделировании в форме методов обучения. Чтобы ими воспользоваться, теоретическую модель надо преобразовать в НС-форму. Первый шаг на пути к получению НС-модели состоит в переходе от исходной модели с непрерывным временем, т.е. от дифференциальных уравнений, к модели с дискретным временем, т.е. к разностным уравнениям. УДК 004.032.26(08) Нейронные сети 3 ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 Алгоритмической базой для дискретизации моделей с непрерывным временем являются численные методы решения обыкновенных дифференциальных уравнений в сочетании с опытом решения различных видов задач такого рода [4]. Для перехода к дискретному времени в задаче (1) воспользуемся двумя явными разностными схемами: схемой Эйлера 1-го порядка и схемой Адамса 4-го порядка точности. Будем обозначать вектор состояний в момент времени t ih как X (i) X (ih), i 0, 1, , T / h . Схема Эйлера имеет вид: (3) X (i 1) X (i) TF (i) . Схема Адамса: T X (i 1) X (i) 55 F (i) 59 F (i 1) 37 F (i 2) 9F (i 3) (4) 24 3. Соотношения разностной модели можно интерпретировать в терминах элементов НС-моделей [2], что приводит к формированию рекуррентной нейронной сети. Чтобы не подстраивать каждый раз алгоритм обучения под специфику полученной НС-модели, сети приводятся к единообразному виду. Такое преобразование позволяет получить НС-модель канонического вида [5, 6] как слоистую сеть прямого распространения, замкнутую внешними обратными связями с единичными задержками от выходов к входам этой сети (рис. 1). Рис. 1. Каноническая форма рекуррентной нейронной сети 4 УДК 004.032.26(08) Нейронные сети ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 В задаче (1) принятые схемы дискретизации позволяют получить каноническое представление сети либо сразу (для явной схемы Эйлера (3), рис. 2), либо после незначительной корректировки исходного неканонического варианта (для схемы Адамса (4), рис. 3). Рис. 2. Каноническая форма исходной теоретической модели (1), дискретизированной с использованием явного метода Эйлера Рис. 3. Каноническая форма исходной теоретической модели (1), дискретизированной с использованием явного метода Адамса УДК 004.032.26(08) Нейронные сети 5 ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 Алгоритм перехода от разностного к сетевому представлению позволяет сохранить в полученной НС-модели в явном виде локализацию выполняемых функций, которая имела место в исходной модели. Это позволяет при корректировке не подвергать изменениям фрагменты модели, не вызывающие сомнений в рамках решаемой задачи. Другие части модели, потенциально являющиеся причиной ее недостаточной точности, могут корректироваться. Таким образом, в процессе формирования полуэмпирической НС-модели целенаправленной параметрической и структурной корректировке подвергается только часть модели. 4. Если при фиксированной структуре за счет обучения не удается добиться от НС-модели требуемой точности, это означает, что в ней необходимы структурные изменения, которые осуществляются на основе ранее сформулированных гипотез относительно возможных причин неудовлетворительного поведения модели. Применительно к рассматриваемой задаче можно предположить, например, что требует замены линейная связь между величинами на нелинейную в уравнении (2), либо надо дополнительно учесть в нем влияние величины x2 . Экспериментальная оценка полуэмпирической модели Рассмотрим систему (1) на интервале времени t [0;100] с шагом дискретизации t 0,025 и начальными условиями x1 (0) x2 (0) 0 . Вектор состояния является частично наблюдаемым: y(t ) x2 (t ) , с аддитивным гауссовским белым шумом со среднеквадратичным отклонением (СКО) 0, 01 , воздействующим на выход системы y (t ) . Формулировка данной задачи в качестве прототипа использует пример, приведенный в [2]. Если НС-модель абсолютно точно воспроизводит исходную систему (1), ошибка моделирования полностью определяется шумом, воздействующим на выход системы. Следовательно, сопоставление ошибки моделирования с СКО шума позволяет судить о том, насколько успешно решена задача моделирования, а СКО шума можно принять за целевое значение ошибки моделирования. Обучение на выборке yi , i 1, , N , полученной с помощью исходной модели (1), проводится в системе Matlab для сетей в форме LDDN (Layered Digital Dynamic Networks) с использованием алгоритма Левенберга-Марквардта по критерию среднеквадратичной ошибки модели. Матрица Якоби вычисляется по алгоритму RTRL (Real-Time Recurrent Learning, известен также как алгоритм Forward Propagation) [7–9]. 6 УДК 004.032.26(08) Нейронные сети ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 Пусть вид первого уравнения (из (1)) известен точно, а второго – не известен. Примем вначале, что его можно записать в виде (2). Если эту модель использовать для анализа поведения системы, привлекая методы численного интегрирования дифференциальных уравнений, то результат оказывается неудовлетворительным: получаемая среднеквадратичная ошибка равняется 0,13947 для метода Эйлера и 0,07143 для метода Адамса, т.е. намного больше целевого значения 0,01. Результаты моделирования представлены в табл. 1 (ОДУ – результаты для исходной модели со вторым уравнением вида (2); НС-1, НС-2, НС-3 – для НС-моделей после шагов корректировки; Opt – для модели типа NARX). Таблица 1. Ошибка моделирования при втором уравнении вида (2) Эйлер Адамс NARX ОДУ 0,13947 0,07143 – НС-1 0,13593 0,07104 – НС-2 0,12604 0,03883 – НС-3 0,01394 0,01219 – Opt – – 0,02821 Неудача обусловлена, очевидно, видом уравнения (2). Возможные причины ее следующие: неточность числового параметра в уравнении (2); неадекватность линейной зависимости от x1 в (2); отсутствие зависимости от x2 в (2). Полуэмпирическая форма представления НС-модели дает возможность внести требуемые изменения путем введения в нее модуля-подсети, реализующего необходимую нелинейность. Как видно из столбца НС-1 табл. 1, подстройка значения коэффициента в (2) точность модели улучшила совершенно недостаточно. Попытаемся устранить вторую возможную причину, а именно, заменим уравнение (2) с линейной зависимостью от x1 в нем на уравнение с нелинейной зависимостью от этой же величины. Это осуществляется путем замены в НС-модели фрагмента для линейной зависимости (нейрон, отвечающий правой части уравнения (2)), на нелинейную зависимость, задаваемую двухслойной сетью с сигмоидальной активационной функцией и 10 нейронами в скрытом слое (число нейронов подобрано в вычислительном эксперименте). Структура НС-модели, отвечающая этому варианту со схемой дискретизации Эйлера, показана на рис. 4. Изменения в НСмодели, основанной на схеме Адамса, носят аналогичный характер. УДК 004.032.26(08) Нейронные сети 7 ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 Рис. 4. Каноническая форма полуэмпирической модели (метод Эйлера), уточненная путем введения нелинейности в уравнение (2) Введение нелинейности по x1 в уравнение (2), как следует из столбца НС-2 табл. 1, лишь незначительно улучшило точность модели. Это означает, что только за счет подбора подходящего значения нелинейной зависимости от x1 в правой части уравнения (2) требуемой точности добиться нельзя, необходимо, очевидно, учитывать зависимость не только от x1 , но и от x2 путем добавления связи от x2 к введенному на предыдущем шаге фрагменту модели. Как видно из столбца НС-3 табл. 1, дополнительная связь по x2 в (2) позволила решить поставленную задачу с приемлемой точностью. Для эмпирического подхода (NARX-модель), результаты для (1) показаны в столбце Opt табл. 1. Лучшая точность была достигнута сетью с 3 нейронами в скрытом слое и 5 задержками в обратной связи. Сопоставление данных из табл. 1 показывает неоспоримое преимущество полуэмпирической модели над эмпирической: даже для метода Эйлера ошибка составляет 0,01394 против 0,02821 для NARX, в случае метода Адамса точ8 УДК 004.032.26(08) Нейронные сети ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 ность еще выше – ошибка равна 0,01219. Аналогичный анализ был проведен еще для двух вариантов системы (1), результаты см. в табл. 2 и табл. 3. В первом из них вместо (2) используется уравнение со смесью гармоник в правой части: (5) x2 (t ) 8,322109sin( x1 (t )) 1, 2cos(1,33 x2 (t )) , во втором – уравнение с более сложной смесью гармоник, чем в (5): x2 (t ) 8,322109sin( x1 (t )) 2 cos(1,1 x2 (t )) 2 . (6) Таблица 2. Ошибка моделирования при втором уравнении вида (5) Эйлер Адамс NARX ОДУ 0,15684 0,07931 – НС-1 0,15224 0,07858 – НС-2 0,14079 0,05312 – НС-3 0,01400 0,01185 – Opt – – 0,03418 Таблица 3. Ошибка моделирования при втором уравнении вида (6) Эйлер Адамс NARX ОДУ 0,18052 0,15394 – НС-1 0,16880 0,14970 – НС-2 0,15379 0,13111 – НС-3 0,01272 0,01266 – Opt – – 0,08403 Заключение Полученные результаты позволяют сделать вывод о том, что методы нейросетевого моделирования в сочетании со знаниями и опытом из соответствующей предметной области, а также из традиционного вычислительного моделирования, являются мощным и перспективным инструментом, потенциально пригодным для решения сложных прикладных проблем для управляемых динамических систем различных классов. Список литературы 2. Rivals I., Personnaz L. Black-box modeling with state-space neural networks // Neural Adaptive Control Technology. Eds. R. Zbikowski and K. J. Hint. World Scientific, 1996. Р. 237–264. 3. Dreyfus G. Neural networks: Methodology and applications. Berlin: Springer, 2005. УДК 004.032.26(08) Нейронные сети 9 ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 4. Oussar Y., Dreyfus G. How to be a gray box: Dynamic semi-physical modeling // Neural Networks, 2001. V. 14, No. 9. Р. 1161–1172. 5. Scott L.R. Numerical analysis// Princeton University Press, 2011. 6. Dreyfus G., Idan Y. The canonical form of nonlinear discrete-time models // Neural Computation, 1998. V. 10. Р. 133–164. 7. Nerrand O., Roussel-Ragot P., Personnaz L., Dreyfus G. Neural networks and non-linear adaptive filtering: Unifying concepts and new algorithms // Neural Computation, 1993. V. 5. № 2. Р. 165–199. 8. Nerrand O., Roussel-Ragot P., Urbani D., Personnaz L., Dreyfus G. Training recurrent neural networks: Why and how? An illustration in dynamical process modeling // IEEE Trans. on Neural Networks, 1994. V. 5. № 2. Р. 178–184. 9. Хайкин С. Нейронные сети: Полный курс. М.: Вильямс, 2006. 10.Demuth H., Beale M., Hagan M. Neural Network Toolbox 6: User's guide. The MathWorks, 2009. 10 УДК 004.032.26(08) Нейронные сети