О ЧИСЛЕННОМ РЕШЕНИИ ОДНОЙ ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ С ЗАПАЗДЫВАНИЕМ1 Гомоюнов М.И., м.н.с., ИММ УрО РАН, [email protected] Аннотация Для динамической системы, управляемой в условиях помех и содержащей последействие по состоянию, рассматривается задача о вычислении оптимального гарантированного результата и построении закона управления, обеспечивающего этот результат. Оптимизируемый показатель состоит из двух слагаемых. Первое оценивает историю движения системы, сформировавшуюся к терминальному моменту времени, второе представляет собой интегральную оценку реализаций управления и помехи. Сравниваются два подхода для решения рассматриваемой задачи. Первый основан на дискретизации показателя качества и сведении задачи к нахождению цены и седловой точки в дифференциальной игре без последействия и с терминальной оценкой движения. Второй подход базируется на использовании в качестве модели-поводыря конечномерной аппроксимации исходной системы с запаздыванием. Постановка задачи В рамках теоретико-игрового подхода [1] рассматривается задача об управлении по принципу обратной связи для системы 𝑥̇ (𝑡) = 𝐴(𝑡)𝑥(𝑡) + 𝐴ℎ (𝑡)𝑥(𝑡 − ℎ) + 𝐵(𝑡)𝑢(𝑡) + 𝐶(𝑡)𝑣(𝑡), 𝑡0 < 𝑡 < 𝜗, 𝑛 𝑥∈ℝ , 𝑟 𝑢∈ℝ , 𝑠 𝑣∈ℝ , (1) ℎ = 𝑐𝑜𝑛𝑠𝑡 > 0, с начальным условием 𝑥(𝑡) = 𝑥0 (𝑡), 𝑡 ∈ [𝑡0 − ℎ, 𝑡0 ], и показателем качества 1 Работа поддержана грантом РФФИ № 12-01-31300-мол_а, а также программой АВЦП 1.994.2011 "Устойчивые вычислительные методы анализа динамики сложных систем". (2) 1/2 𝜗 𝛾 = ( ∫ ‖𝑥(𝑡)‖2 𝑑𝑡) 𝜗 + ∫[〈𝑢(𝑡), 𝛷(𝑡)𝑢(𝑡)〉 − 〈𝑣(𝑡), 𝛹(𝑡)𝑣(𝑡)〉] 𝑑𝑡. 𝜗−ℎ (3) 𝑡0 Здесь 𝑡 – время, 𝑥 – фазовый вектор, 𝑢 – вектор управления, 𝑣 – вектор помехи; 𝑡0 и 𝜗 – начальный и терминальный моменты времени; 𝐴(𝑡), 𝐴ℎ (𝑡), 𝐵(𝑡) и 𝐶(𝑡) – непрерывные матрицы-функции; 𝑥0 (𝑡) – непрерывная вектор-функция; 𝛷(𝑡) и 𝛹(𝑡) – симметричные непрерывные матрицыфункции, такие, что соответствующие им квадратичные формы положительно определены. Цель управления – доставить показателю 𝛾 как можно меньшее значение. Первый подход Первый подход к приближенному решению поставленной задачи заключается в ее сведении к задаче управления для системы (1), (2), но уже с дискретизированным показателем качества 1/2 𝑚 𝛾1 = (∑‖𝑥(𝜗𝑖 )‖2 𝜗 + ∫[〈𝑢(𝑡), 𝛷(𝑡)𝑢(𝑡)〉 − 〈𝑣(𝑡), 𝛹(𝑡)𝑣(𝑡)〉] 𝑑𝑡, 𝛥ℎ ) 𝑖=1 𝑡0 ̅̅̅̅̅̅ где 𝑚 ∈ ℕ, 𝛥ℎ = ℎ/𝑚 и 𝜗𝑖 = 𝜗 − ℎ + 𝑖 𝛥ℎ , 𝑖 = 1, 𝑚. Решение такой задачи подробно описано в [2] и основано на решении вспомогательной дифференциальной игры для системы уже без запаздывания 𝑧̇(𝑡) = 𝑩(𝑡)𝑢(𝑡) + 𝑪(𝑡)𝑣(𝑡), 𝑧 ∈ ℝ𝑛𝑚 , 𝑢 ∈ ℝ𝑟 , 𝑡0 < 𝑡 < 𝜗, 𝑣 ∈ ℝ𝑠 , и терминальным показателем качества 𝜗 𝛾𝑧 = ‖𝑧(𝜗)‖ + ∫[〈𝑢(𝑡), 𝛷(𝑡)𝑢(𝑡)〉 − 〈𝑣(𝑡), 𝛹(𝑡)𝑣(𝑡)〉] 𝑑𝑡 , 𝑡0 𝑇 ̅̅̅̅̅̅ где 𝑩(𝑡) = (𝐵1 (𝑡), 𝐵2 (𝑡), … , 𝐵𝑚 (𝑡)) , 𝐵𝑖 (𝑡) = 𝐹(𝜗𝑖 , 𝑡)𝐵(𝑡), 𝑖 = 1, 𝑚; 𝑪(𝑡) = 𝑇 ̅̅̅̅̅̅ (𝐶1 (𝑡), 𝐶2 (𝑡), … , 𝐶𝑚 (𝑡)) , 𝐶𝑖 (𝑡) = 𝐹(𝜗𝑖 , 𝑡)𝐶(𝑡), 𝑖 = 1, 𝑚; 𝐹(𝜉, 𝑡) – матрица Коши уравнения (1). Второй подход Второй подход, опирающийся на результаты работы [3], заключается в дискретизации не только показателя качества (3), но и исходной системы (1). Рассмотрим дифференциальную игру для системы 𝑦̇ [0] (𝑡) = 𝐴(𝑡)𝑦 [0] (𝑡) + 𝐴ℎ (𝑡)𝑦 [𝑚] (𝑡) + 𝐵(𝑡)𝑢̃(𝑡) + 𝐶(𝑡)𝑣̃(𝑡), { 𝑦̇ [𝑖] (𝑡) = (𝑦 [𝑖−1] (𝑡) − 𝑦 [𝑖] (𝑡)) 𝛥ℎ 𝑦 [𝑖] ∈ ℝ𝑛 , 𝑡0 < 𝑡 < 𝜗, , 𝑖 = ̅̅̅̅̅̅ 0, 𝑚, (4) 𝑖 = ̅̅̅̅̅̅ 1, 𝑚, 𝑢̃ ∈ ℝ𝑟 , 𝑣̃ ∈ ℝ𝑠 , с согласованным с (2) начальным условием 𝑦 [𝑖] (𝑡0 ) = 𝑥0 (𝑡0 − ℎ + 𝑖𝛥ℎ), 𝑖 = ̅̅̅̅̅̅ 0, 𝑚, (5) и соответствующим (3) показателем качества 1/2 𝑚 𝛾2 = (∑‖𝑦 [𝑖] (𝜗)‖2 𝜗 + ∫[〈𝑢̃(𝑡), 𝛷(𝑡)𝑢̃(𝑡)〉 − 〈𝑣̃(𝑡), 𝛹(𝑡)𝑣̃(𝑡)〉] 𝑑𝑡. (6) 𝛥ℎ ) 𝑖=1 𝑡0 Методы для эффективного решения этой игры даны, например, в [1]. Для решения исходной задачи управления систему (4) будем использовать в качестве поводыря для исходной системы (1): управление 𝑢(𝑡) и помеху 𝑣̃(𝑡) будем формировать в дискретной по времени схеме на базе некоторого разбиения 𝛥𝑘 = {𝑡𝑗 : 𝑡1 = 𝑡0 , 𝑡𝑗 < 𝑡𝑗+1 , 𝑗 = ̅̅̅̅̅ 1, 𝑘 , 𝑡𝑘+1 = 𝜗} промежутка времени управления [𝑡0 , 𝜗] из условий экстремального сдвига: 𝑢(𝑡) = 𝑢𝑗 ∈ argmin[〈𝐵(𝑡𝑗 )𝑢, 𝑥(𝑡𝑗 ) − 𝑦 [0] (𝑡𝑗 )〉 − 〈𝑢, 𝛷(𝑡𝑗 )𝑢〉𝑤1 (𝑡𝑗 )], ‖𝑢‖≤ 𝑅 𝑣̃(𝑡) = 𝑣̃𝑗 ∈ argmax[〈𝐶(𝑡𝑗 )𝑢, 𝑥(𝑡𝑗 ) − 𝑦 [0] (𝑡𝑗 )〉 − 〈𝑣̃, 𝛹(𝑡𝑗 )𝑣̃〉𝑤2 (𝑡𝑗 )], ‖𝑣̃‖≤ 𝑅 𝑡𝑗 𝑤1 (𝑡𝑗 ) = ∫〈𝑢(𝑡) − 𝑢̃(𝑡), 𝛷(𝑡)(𝑢(𝑡) + 𝑢̃(𝑡))〉𝑑𝑡 , 𝑡0 𝑡𝑗 𝑤2 (𝑡𝑗 ) = ∫〈𝑣̃(𝑡) − 𝑣(𝑡), 𝛹(𝑡)(𝑣̃(𝑡) + 𝑣(𝑡))〉𝑑𝑡, 𝑡0 𝑅 > 0, 𝑡 ∈ [𝑡𝑗 , 𝑡𝑗+1 ), 𝑗 = ̅̅̅̅̅ 1, 𝑘. Согласно [1] и [3], при достаточно больших значениях 𝑅 > 0 и 𝑚, такое взаимное прицеливание обеспечит нужную близость движений системы (1) и (4), а также близость интегральных оценок из показателей (3) и (6). Управление 𝑢̃(𝑡) будем выбирать оптимальным в смысле дифференциальной игры (4) – (6) образом. Заключение Оба подхода оказываются работоспособными и позволяют решать задачу (1) – (3) для достаточно больших значений размерности фазового вектора 𝑛 и параметра аппроксимации 𝑚. Однако первый подход, судя по численным экспериментам, оказывается более ресурсоемким. Таким образом, в работе приведен пример задачи управления, для которой использование аппроксимаций дифференциальных систем с запаздыванием при помощи систем обыкновенных дифференциальных уравнений высокого порядка в качестве поводырей приводит к эффективному решению. Литература 1. 2. 3. Красовский Н.Н. Управление динамической системой. М.: Наука, 1985. 516 c. Лукоянов Н.Ю., Решетова Т.Н. Задачи конфликтного управления функциональными системами высокой размерности // ПММ. 1998. Т.62, Вып.4. С.586 – 597. Плаксин А.Р. Конечномерные поводыри в задачах управления системами с запаздыванием // «Современные проблемы математики»: тезисы Международной (43-й Всероссийской) молодежной школыконференции. С.163 – 165. Екатеринбург: ИММ УрО РАН, 2012.