Второй подход

реклама
О ЧИСЛЕННОМ РЕШЕНИИ ОДНОЙ
ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ С
ЗАПАЗДЫВАНИЕМ1
Гомоюнов М.И., м.н.с., ИММ УрО РАН, [email protected]
Аннотация
Для динамической системы, управляемой в условиях
помех и содержащей последействие по состоянию,
рассматривается задача о вычислении оптимального
гарантированного
результата
и
построении
закона
управления,
обеспечивающего
этот
результат.
Оптимизируемый показатель состоит из двух слагаемых.
Первое
оценивает
историю
движения
системы,
сформировавшуюся к терминальному моменту времени,
второе представляет собой интегральную оценку реализаций
управления и помехи. Сравниваются два подхода для
решения рассматриваемой задачи. Первый основан на
дискретизации показателя качества и сведении задачи к
нахождению цены и седловой точки в дифференциальной
игре без последействия и с терминальной оценкой движения.
Второй подход базируется на использовании в качестве
модели-поводыря конечномерной аппроксимации исходной
системы с запаздыванием.
Постановка задачи
В рамках теоретико-игрового подхода [1] рассматривается задача об
управлении по принципу обратной связи для системы
𝑥̇ (𝑡) = 𝐴(𝑡)𝑥(𝑡) + 𝐴ℎ (𝑡)𝑥(𝑡 − ℎ) + 𝐵(𝑡)𝑢(𝑡) + 𝐶(𝑡)𝑣(𝑡),
𝑡0 < 𝑡 < 𝜗,
𝑛
𝑥∈ℝ ,
𝑟
𝑢∈ℝ ,
𝑠
𝑣∈ℝ ,
(1)
ℎ = 𝑐𝑜𝑛𝑠𝑡 > 0,
с начальным условием
𝑥(𝑡) = 𝑥0 (𝑡),
𝑡 ∈ [𝑡0 − ℎ, 𝑡0 ],
и показателем качества
1
Работа поддержана грантом РФФИ № 12-01-31300-мол_а, а также
программой АВЦП 1.994.2011 "Устойчивые вычислительные методы анализа
динамики сложных систем".
(2)
1/2
𝜗
𝛾 = ( ∫ ‖𝑥(𝑡)‖2 𝑑𝑡)
𝜗
+ ∫[⟨𝑢(𝑡), 𝛷(𝑡)𝑢(𝑡)⟩ − ⟨𝑣(𝑡), 𝛹(𝑡)𝑣(𝑡)⟩] 𝑑𝑡.
𝜗−ℎ
(3)
𝑡0
Здесь 𝑡 – время, 𝑥 – фазовый вектор, 𝑢 – вектор управления, 𝑣 – вектор
помехи; 𝑡0 и 𝜗 – начальный и терминальный моменты времени; 𝐴(𝑡),
𝐴ℎ (𝑡), 𝐵(𝑡) и 𝐶(𝑡) – непрерывные матрицы-функции; 𝑥0 (𝑡) – непрерывная
вектор-функция; 𝛷(𝑡) и 𝛹(𝑡) – симметричные непрерывные матрицыфункции, такие, что соответствующие им квадратичные формы
положительно определены.
Цель управления – доставить показателю 𝛾 как можно меньшее
значение.
Первый подход
Первый подход к приближенному решению поставленной задачи
заключается в ее сведении к задаче управления для системы (1), (2), но уже
с дискретизированным показателем качества
1/2
𝑚
𝛾1 = (∑‖𝑥(𝜗𝑖
)‖2
𝜗
+ ∫[⟨𝑢(𝑡), 𝛷(𝑡)𝑢(𝑡)⟩ − ⟨𝑣(𝑡), 𝛹(𝑡)𝑣(𝑡)⟩] 𝑑𝑡,
𝛥ℎ )
𝑖=1
𝑡0
̅̅̅̅̅̅
где 𝑚 ∈ ℕ, 𝛥ℎ = ℎ/𝑚 и 𝜗𝑖 = 𝜗 − ℎ + 𝑖 𝛥ℎ , 𝑖 = 1,
𝑚. Решение такой задачи
подробно описано в [2] и основано на решении вспомогательной
дифференциальной игры для системы уже без запаздывания
𝑧̇(𝑡) = 𝑩(𝑡)𝑢(𝑡) + 𝑪(𝑡)𝑣(𝑡),
𝑧 ∈ ℝ𝑛𝑚 ,
𝑢 ∈ ℝ𝑟 ,
𝑡0 < 𝑡 < 𝜗,
𝑣 ∈ ℝ𝑠 ,
и терминальным показателем качества
𝜗
𝛾𝑧 = ‖𝑧(𝜗)‖ + ∫[⟨𝑢(𝑡), 𝛷(𝑡)𝑢(𝑡)⟩ − ⟨𝑣(𝑡), 𝛹(𝑡)𝑣(𝑡)⟩] 𝑑𝑡 ,
𝑡0
𝑇
̅̅̅̅̅̅
где 𝑩(𝑡) = (𝐵1 (𝑡), 𝐵2 (𝑡), … , 𝐵𝑚 (𝑡)) , 𝐵𝑖 (𝑡) = 𝐹(𝜗𝑖 , 𝑡)𝐵(𝑡), 𝑖 = 1,
𝑚; 𝑪(𝑡) =
𝑇
̅̅̅̅̅̅
(𝐶1 (𝑡), 𝐶2 (𝑡), … , 𝐶𝑚 (𝑡)) , 𝐶𝑖 (𝑡) = 𝐹(𝜗𝑖 , 𝑡)𝐶(𝑡), 𝑖 = 1,
𝑚; 𝐹(𝜉, 𝑡) – матрица
Коши уравнения (1).
Второй подход
Второй подход, опирающийся на результаты работы [3], заключается в
дискретизации не только показателя качества (3), но и исходной системы
(1). Рассмотрим дифференциальную игру для системы
𝑦̇ [0] (𝑡) = 𝐴(𝑡)𝑦 [0] (𝑡) + 𝐴ℎ (𝑡)𝑦 [𝑚] (𝑡) + 𝐵(𝑡)𝑢̃(𝑡) + 𝐶(𝑡)𝑣̃(𝑡),
{
𝑦̇ [𝑖] (𝑡) =
(𝑦 [𝑖−1] (𝑡) − 𝑦 [𝑖] (𝑡))
𝛥ℎ
𝑦 [𝑖] ∈ ℝ𝑛 ,
𝑡0 < 𝑡 < 𝜗,
,
𝑖 = ̅̅̅̅̅̅
0, 𝑚,
(4)
𝑖 = ̅̅̅̅̅̅
1, 𝑚,
𝑢̃ ∈ ℝ𝑟 ,
𝑣̃ ∈ ℝ𝑠 ,
с согласованным с (2) начальным условием
𝑦 [𝑖] (𝑡0 ) = 𝑥0 (𝑡0 − ℎ + 𝑖𝛥ℎ),
𝑖 = ̅̅̅̅̅̅
0, 𝑚,
(5)
и соответствующим (3) показателем качества
1/2
𝑚
𝛾2 = (∑‖𝑦
[𝑖] (𝜗)‖2
𝜗
+ ∫[⟨𝑢̃(𝑡), 𝛷(𝑡)𝑢̃(𝑡)⟩ − ⟨𝑣̃(𝑡), 𝛹(𝑡)𝑣̃(𝑡)⟩] 𝑑𝑡. (6)
𝛥ℎ )
𝑖=1
𝑡0
Методы для эффективного решения этой игры даны, например, в [1].
Для решения исходной задачи управления систему (4) будем использовать
в качестве поводыря для исходной системы (1): управление 𝑢(𝑡) и помеху
𝑣̃(𝑡) будем формировать в дискретной по времени схеме на базе некоторого
разбиения 𝛥𝑘 = {𝑡𝑗 : 𝑡1 = 𝑡0 , 𝑡𝑗 < 𝑡𝑗+1 , 𝑗 = ̅̅̅̅̅
1, 𝑘 , 𝑡𝑘+1 = 𝜗} промежутка
времени управления [𝑡0 , 𝜗] из условий экстремального сдвига:
𝑢(𝑡) = 𝑢𝑗 ∈ argmin[⟨𝐵(𝑡𝑗 )𝑢, 𝑥(𝑡𝑗 ) − 𝑦 [0] (𝑡𝑗 )⟩ − ⟨𝑢, 𝛷(𝑡𝑗 )𝑢⟩𝑤1 (𝑡𝑗 )],
‖𝑢‖≤ 𝑅
𝑣̃(𝑡) = 𝑣̃𝑗 ∈ argmax[⟨𝐶(𝑡𝑗 )𝑢, 𝑥(𝑡𝑗 ) − 𝑦 [0] (𝑡𝑗 )⟩ − ⟨𝑣̃, 𝛹(𝑡𝑗 )𝑣̃⟩𝑤2 (𝑡𝑗 )],
‖𝑣̃‖≤ 𝑅
𝑡𝑗
𝑤1 (𝑡𝑗 ) = ∫⟨𝑢(𝑡) − 𝑢̃(𝑡), 𝛷(𝑡)(𝑢(𝑡) + 𝑢̃(𝑡))⟩𝑑𝑡 ,
𝑡0
𝑡𝑗
𝑤2 (𝑡𝑗 ) = ∫⟨𝑣̃(𝑡) − 𝑣(𝑡), 𝛹(𝑡)(𝑣̃(𝑡) + 𝑣(𝑡))⟩𝑑𝑡,
𝑡0
𝑅 > 0,
𝑡 ∈ [𝑡𝑗 , 𝑡𝑗+1 ),
𝑗 = ̅̅̅̅̅
1, 𝑘.
Согласно [1] и [3], при достаточно больших значениях 𝑅 > 0 и 𝑚,
такое взаимное прицеливание обеспечит нужную близость движений
системы (1) и (4), а также близость интегральных оценок из показателей
(3) и (6). Управление 𝑢̃(𝑡) будем выбирать оптимальным в смысле
дифференциальной игры (4) – (6) образом.
Заключение
Оба подхода оказываются работоспособными и позволяют решать
задачу (1) – (3) для достаточно больших значений размерности фазового
вектора 𝑛 и параметра аппроксимации 𝑚. Однако первый подход, судя по
численным экспериментам, оказывается более ресурсоемким. Таким
образом, в работе приведен пример задачи управления, для которой
использование
аппроксимаций
дифференциальных
систем
с
запаздыванием при помощи систем обыкновенных дифференциальных
уравнений высокого порядка в качестве поводырей приводит к
эффективному решению.
Литература
1.
2.
3.
Красовский Н.Н. Управление динамической системой. М.: Наука,
1985. 516 c.
Лукоянов Н.Ю., Решетова Т.Н. Задачи конфликтного управления
функциональными системами высокой размерности // ПММ. 1998.
Т.62, Вып.4. С.586 – 597.
Плаксин А.Р. Конечномерные поводыри в задачах управления
системами с запаздыванием // «Современные проблемы математики»:
тезисы Международной (43-й Всероссийской) молодежной школыконференции. С.163 – 165. Екатеринбург: ИММ УрО РАН, 2012.
Скачать