Элементы теории матричных игр Определения • процесс принятия решений в конфликтных ситуациях… • игры 2 (парные) и n 3 лиц. • участники игры - игроки. Игра состоит из последовательности действий (ходов), среди кот. могут быть как личные ходы, так и случайные. Выбор личных ходов основан на стратегии игрока. Стратегия игрока – это набор правил для определения варианта действий, используемых при выборе каж. личного хода. Результат ходов игроков оценивается платежными функциями участников игры, кот. можно интерпретировать как их выигрыши. Если сумма выигрышей всех игроков = 0, то такую игру наз. игрой с нулевой суммой. Определения Стратегия игрока является opt, если при многократном повторении игры его средний выигрыш max. Будем считать, что игроки ведут себя разумно (без риска и азарта)… Матричная игра – это парная игра, в кот. заданы: {1, …, m} – мн. стратегий 1 игрока, {1, …, n} – мн. стратегий 2 игрока, пары стратегий i{1,…,m} и j{1,…,n} определен выигрыш 1 игрока = aij. Mat A=(aij, i=1,…,m, j=1,…,n) наз. платежной. цель 1-го игрока – max своего выигрыша, цель 2-го игрока – min выигрыша 1-го игрока. Принцип осторожности Предположим, что 2-й игрок знает все ходы 1-го игрока заранее. Тогда на каждый ход 1-го игрока i он отвечает лучшей стратегией j(i): ai,j(i) aij i0 ai , j (i ) min aij , i 1,..., m 1 j n Лучшая чистая стратегия 1 игрока i0: 0 max min aij i0 1i m 1 j n 0 С др. стороны, если предположить, что 1-й игрок отвечает на стратегию j 2-го игрока своей лучшей стратегией i(j), то 0j ai ( j ), j max aij , 1i m j 1,..., n j0 : 0 min max aij 0j0 1 j n 1i m Принцип осторожности Стратегии i0 и j0 определяются игроками по принципу осторожности, т.к. каж. игрок при выборе хода учитывает самый плохой для себя вариант развития событий. 0 – нижняя цена игры 0 – верхняя цена игры Если 1 игрок придерживается принципа осторожности, то его выигрыш 0. Если 2 игрок придерживается принципа осторожности, то выигрыш 1 игрока 0. Лемма о minmax и maxmin Лемма. функции f(x, y), xX, yY справедливо неравенство: max min f ( x, y) min max f ( x, y) xX yY yY xX Доказательство. Пусть min f ( x, y) f ( x, y( x)) yY и max f ( x, y( x)) f ( x* , y( x* )) xX Тогда max min f ( x, y) f ( x* , y( x* )) min f ( x* , y) min max f ( x, y) xX yY yY yY xX 0 0 случай 0 = 0 удовлетворяет обоих игроков, и выбор стратегий i0, j0, на которых достигается =, является opt (решением mat игры в чистых стратегиях). Седловая точка Седловой точкой mat A наз. пара номеров строка-столбец (i0, j0) : i , j i , j i , j , i, j 0 0 0 0 min в строке & max в столбце -1 2 0 4 3 2 -2 0 8 0 0 1 1 4 -5 6 9 4 0 3 -6 0 Теорема о седловой точке Теорема. Необходимым и достаточным условием = нижней и верхней цен игры является седловой точки в платежной mat A. Доказательство. ) Пусть 0 = 0. По def: 0 max min aij min ai , j ai , j j i 0 j 0 0 min max aij max ai , j ai , j j i 0 i 0 0 ai , j 0 0 0 0 0 ai , j0 max ai , j0 ai0 , j0 min ai0 , j ai0 , j j i ) Пусть (i0, j0) – седловая точка. По def : min max aij max ai , j0 ai0 , j0 min ai0 , j max min aij j i j i С др. стороны max min aij min max aij i j j i 0 max min aij min max aij 0 i j j i i j Решение mat игр в смешанных стратегиях Не всякая mat имеет седловую точку… 0 0 Смешанная стратегия – это вероятностное распределение на мн. чистых стратегий: m p ( p1 ,..., pm ) Pm p : pi 1, pi 0 i 1 n q (q1 ,..., qn ) Qn q : q j 1, q j 0 j 1 pi – вероятность использования 1-м игроком чистой стратегии i, qj – вероятность использования 2-м игроком чистой стратегии j. Применение смешанных стратегий – это чередование чистых стратегий согласно их вероятностям при многократном повторении игры. Принцип осторожности пары смеш. стратегий (p, q) определим платежную функцию как мат. ожидание величины выигрыша 1-го игрока: m n E ( p, q) aij pi q j i 1 j 1 Принцип осторожности в данном сл. приводит к определению след. характеристик: ( p) min E ( p, q); max min E( p, q); (q) max E( p, q); min max E( p, q), qQ pP pP qQ qQ pP где нижняя, а верхняя цены игры в смеш. стратегиях. Теорема Фон Неймана Теорема. В mat игре пара смеш. стратегий (p*, q*): 1. E(p, q*) E(p*, q*) E(p*, q), p P, q Q; 2. = = = E(p*, q*) цена игры. Доказательство. Сформулируем задачи 1 и 2 игроков в виде задач ЛП. Добавив достаточно большое число ко всем элементам платежной матрицы > 0. Задача 1-го игрока: ( p) max p ( p) min E ( p, q) E ( p, q j ) aij pi , j q q j (0,...,0,1,0,...,0) i pi 0. Разделив на (p), получим Обозначим ui ( p) Задача 1 игрока 1 f (u ) ui min ( p) {ui 0} i a u ij i i 1, j j a u ij i i 1 Доказательство теоремы Фон Неймана Задача 2 игрока (q) min 1 (v ) v j max ( p) {v j 0} j q vj qj (q) 0 a v ij j 1, i j Пусть u* и v* opt реш. дв. задач * u pi* i * f (u ) q*j v*j (v * ) Согласно принципу дополняющей нежесткости: * * * * v j aijui 1 0, j; ui aij v j 1 0, i. i j Просуммируем последние = по j и по i и разделим на f(u*)(v*) E ( p* , q* ) 1 1 f (u * ) (v* ) Доказательство теоремы Фон Неймана a u ij i 1, j и a v ij j 1, i j i E ( p, q * ) pi aij q *j pi aij i j i j v*j (v * ) 1 1 p i (v * ) (v * ) i * u 1 1 E ( p* , q) q j aij pi* q j aij i * q * j * f ( u ) f ( u ) f ( u ) j i j j j утв. 1 доказано. Из E(p, q*) E(p*, q*) E(p*, q), p P, q Q max E ( p, q* ) E ( p* , q* ) min E ( p* , q) p q (q* ) E ( p* , q* ) ( p* ) С др. стор. (по лемме о maxmin и minmax) = (p*) = E(p*, q*) = = (q*). Методы решение матричных игр Если платежная mat имеет седловую точку, то решение игры в чистых стратегиях, кот. определяется седловой точкой mat. Предположим, что седловой точки в платежной mat нет. Тогда mat игру следует решать в смешанных стратегиях. Строка i доминирует строку k, если aij akj, j и такой столбец d, что aid > akd Столбец j доминирует столбец k, если aij aik, i и такая строка d, что adj < adk Подмн. доминируемых строк и столбцов могут быть исключены из платежной mat Активные стратегии Чистая стратегия i является активной, если она используется в некоторой opt стратегии с >0 вероятностью. Другими словами, если opt стратегия p (q) такая, что pi > 0 (qj > 0), то чистая стратегия i (j) является активной для 1 (2) игрока. Теорема (об активных стратегиях). Если один игрок придерживается opt стратегии, то его соперник достигает цены игры , применяя любую свою смешанную стратегию, в которой используются только активные стратегии. Доказательство. Пусть 1 игрок использует opt ст. p*, а 2 смеш. ст. q, в кот. qj > 0, j J, где J подмн. активных ст. 2 игрока. Необходимо доказать, что цена игры = E(p*, q). Пусть j = E(p*, qj), где qj = (0, …, 0, 1, 0, …, 0). Очевидно, j , j. Покажем, что для активной ст. j j = . Активные стратегии По def цены игры имеем: E ( p* , q* ) aij pi*q *j q*j aij pi* i j j i * * * * * q q q q q j j j j k k j k k j k j j k q *j qk* ( k ) qk* ( k ) qk* ( k ) 0 j j J имеет место j = . Из q jJ j 1 E ( p * , q ) aij pi*q j q j j q j i jJ jJ jJ Решение игр 22 a11 a12 a21 a22 Седловой точки нет! p* ( p1* , p2* ) В силу теоремы об активных стратегиях, если 1 игрок использует opt стратегию, то 2 достигает цены игры при любой своей смеш. стратегии, в которой используются только активные чистые стратегии, например при q1 (1,0) и q 2 (0,1) 1 a11 p a21 p 1 2 2 a12 p1 a22 p2 p1 p2 1 Решение игр 2n и m2 p* ( p1* , p2* ) Рассм. игру 2n и найдем opt смеш. стр. 1 игрока ( p) min E ( p, q) max q Положим x p2 , p p1 1 x, 0 x 1 и f(x)=(p) Тогда по теореме об активных стратегиях f ( x) min q [a 1j j (a2 j a1 j ) x]q j min j ( x) j j (x ) Получаем з. max миноранты семейства лин. ф. в (0, 1): min j ( x) max j x( 0,1) Поскольку p1* 0, p2* 0 и миноранта семейства лин. ф. вогнута, непрерывна и кусочно-линейная, то ее max на (0, 1) достигается в 1 из внутренних точек излома и может быть найден за время O(n2) Решение игр 2n Пусть max миноранты достигается на пересечении прямых jk 1 ( x) и jk (x) f(x) Тогда для решения игры достаточно рассмотреть mat игру 22 с mat j (x) k j ( x) k 1 a1 jk 1 a2 j k 1 a1 jk a 2 jk x 0 p2* 1 Пример решения игры 2n 4 2 3 1 . 4 0 2 2 1 ( x) 4 8x, 2 ( x) 2 2 x, 3 ( x) 3 5x, 4 ( x) 1 3x. 4 3 2 1 0 –1 –2 –3 –4 4 3 2 1 x p 5 11 2 8 4 6 5 3 p* , , q* ,0,0, , . 11 11 11 11 11 1 –1 –2 –3 –4 x Пример решения игры 33 2 3 4 3 4 5 . 4 5 6 взяв q1= (1,0,0), q2= (0,1,0) и q3= (0,0,1), получим 2 p1 3 p2 4 p3 ( p) min E ( p, q) min 3 p1 4 p2 5 p3 . qQ 4 p 5 p 6 p 1 2 3 Выразим p3= 1– p1– p2 и запишем задачу 1 игрока: 3 4 2 p1 7 p2 f1 min 5 2 p1 9 p2 f 2 max . p , p 0; 6 2 p 11 p f 0 p p 1 1 2 3 1 2 1 2 Пусть D = {(p1, p2) | 0 ≤ p1 + p2 ≤ 1; p1, p2 ≥ 0} доп. область. Определим в D подобласти, где max зн. принимает 1 из величин fi, i =1,2,3. Для этого рассмотрим следующие случаи. Пример решения игры 33 а) Сравним f1 и f3. Если f1 = f3, то 7p2 – 4 = 11p2 – 6 p2 = 1/2. В области D1 = {(p1, p2) | p2 [1/2, 1], p1 [0, 1 – p2]} f1 ≤ f3 В области D2 = {(p1, p2) | p2 [0, 1/2], p1 [0, 1 – p2]} f1 ≥ f3 б) Сравним f1 и f2. Если f1 = f2, то 2p1 + 7p2 – 4 = 5 – 2p1 – 9p2 4p1 + 16p2 = 9 Если (p1, p2)R1={(p1, p2) | p1 [0,7/12], p2[(9 – 4p1)/16,1 – p1]}, то f2 ≤ f1. В случае (p1, p2)R2={(p1,p2) | p1[0,7/12], p2[0,(9 – 4p1)16]; p1 [7/12, 1], p2 [0, 1 – p1]} имеем f2 ≥ f1 Пример решения игры 33 1 1 f2 f1 D1 9/16 R1 1/2 f1 D2 0 1 R2 0 7/12 f3 a) b) 1 Пример решения игры 33 в) Сравним f2 и f3. Если f2 = f3, то 5 – 2p1 – 9p2 = 2p1 + 11p2 – 6 4p1 + 20p2 = 11. Значит, Если (p1,p2)S1={(p1,p2) | p1[0,9/16], p2[(11 – 4p1)/20, 1 – p1]}, то f2 ≤ f3. В случае (p1,p2)S2={(p1,p2) | p1[0,9/16], p2[0,(11– 4p1)/20]; p1 [9/16, 1], p2 [0, 1 – p1} имеем f2 ≥ f3 Итак, область D делится прямыми p2= 1/2, 4p1+16p2=9 и 4p1+20p2=11 на 6 подобластей Kj, j = 1, …, 6 Пример решения игры 33 1 1 f2 9/16 K2 K 1 11/20 1/2 K3 S1 11/20 S2 0 f3 K4 K5 K6 9/16 a) 1 0 1/4 9/16 7/12 b) - если (p1, p2) K2 K3, то min{f1, f2, f3} = f1; - если (p1, p2) K1 K4, то min{f1, f2, f3} = f2; - если (p1, p2) K5 K6, то min{f1, f2, f3} = f3. 1 Пример решения игры 33 0 max{ max ( p1 , p2 )K 2 K 3 f1 ( p1 , p2 ), max ( p1 , p2 )K1 K 4 f 2 ( p1 , p2 ), max ( p1 , p2 )K 5 K 6 f 3 ( p1 , p2 )}. Т.к. лин. ф. принимает экстремальные зн. на границе области, то 9 1 1 1 max f1 ( p1 , p2 ) max{ f1 (0, ), f1 (0, ), f1 ( , )} 16 2 4 2 ( p1 , p2 )K 2 K 3 1 1 max{ , , 0} 0; 16 2 1 1 9 9 7 max f 2 ( p1 , p2 ) max{ f 2 ( , ), f 2 (0, ), f 2 ( , ), f 2 (0, 1)} 4 2 16 16 16 ( p1 , p2 )K1 K 4 1 1 max{ 0, , , 4} 0; 16 16 1 1 1 9 7 max f 3 ( p1 , p2 ) max{ f 3 (0, 0), f 3 (0, ), f 3 ( , ), f 3 ( , ), f 3 (0, 1)} ( p , p )K K 2 4 2 16 16 1 1 max{6, , 0, , 4} 0. 2 16 1 2 5 6 Пример решения игры 33 Нижняя цена игры, по т. об акт. стр. является ценой игры, = 1 1 4 2 1 1 4 2 1 1 4 2 0 f1 , f 2 , f 3 , 0, 1 1 1 p , , 4 2 4 * Чтобы найти opt смеш. стратегию 2 игрока достаточно еще раз воспользоваться теоремой об активных стратегиях. Получим 1 1 1 q* , , 4 2 4 Для решения mat игры с произвольными n и m можно применять как метод ЛП (см. теорему Фон Неймана), так и итеративный метод Брауна-Робинсон Итеративный метод Брауна-Робинсон Идея метода заключается в поочередном выборе каждой стороной наилучшей чистой стратегии против наблюдаемого эмпирического распределения чистых стратегий противника. На 1 шаге противники выбирают произвольные чистые стратегии. Пусть на первых N шагах последовательно выбирались стратегии (i1 , i2 , , iN ) и ( j1 , j2 , , jN ) xiN , y Nj – кол. шагов, на кот. 1 и 2 игроками выбирались стр. i и j m n i j N N x y i j N. N x piN i N p N ( p1N ,, pmN ) y Nj q N (q1N ,, qnN ). q Nj N . Итеративный метод Брауна-Робинсон На шаге (N+1) выбираются такие чистые стратегии, что N max 1i m N min j NpiN , i iN 1 , N 1 piN 1 N Npi 1 , i i ; N 1 N 1 p p*, N n aij q Nj j 1 j 1 aiN 1 j q Nj , N N a p a p ij i ijN 1 i i i Nq Nj , j jN 1 , N 1 q Nj 1 N Nq j 1 , j j . N 1 N 1 q q* N n N N N 2 Пример решения mat игры методом Брауна-Робинсон 1 3 2 2 1 3 3 2 1 Шаг 1. i1 1, j1 1 p1 (1, 0, 0), q1 (1, 0, 0). 2 1 p 1/ 2, 0, 1/ 2 3, i 3 Шаг 2. 2 1 1, j2 1 q 2 1, 0, 0 3 2 p 1/ 3, 0, 2 / 3 3, i 3 Шаг 3. 3 2 3 / 2, j3 3 q 3 2 / 3, 0, 1/ 3 1 2 1 1 2 2 2 2 2. 9 2, 25. 4 4 3 3 11 Шаг 4. 3 7 / 3, i4 3 p 1/ 4, 0, 3 / 4 3 1,833. 4 3 2 6 4 / 3, j4 3 q 1/ 2, 0, 1/ 2 Пример решения mat игры методом Брауна-Робинсон 2,3 2,2 2,1 2,0 1,9 1,8 Номер итерации 1 2 3 4 5 6 7 8 9 10 11 12 Остановка по критерию | N N 1 | не корректна…