Uploaded by Денис Боровский

Матричные игры Боровский Д.В.

advertisement
Теория игр. Матричные игры
ОНУ им. И. И. Мечникова, факультет физики и математики, докладчик
Боровский Д.В., Одесса, 2022. - 12 с.
Специальность - Прикладная математика.
Предмет – Теория игр
Метод минимаксов
Метод доминирующих стратегий
Графический способ
Решение матричной игры с помощью задачи линейного программирования
Задание 1: Найти нижнюю цену игры, верхнюю цену игры, определить седловые точки,
оптимальные чистые стратегии и цену игры (если они существуют). Для этой же игры
записать пару двойственных задач линейного программирования и решить смплекс методом.
Вариант 1:
Метод минимаксов:
Имеем платежную матрицу 𝐶 с размерностью 𝑚 × n.
𝐶11 𝐶12 𝐶1𝑛
𝐶 = ( 𝐶21 𝐶22 𝐶2𝑛 )
𝐶𝑚1 𝐶𝑚2 𝐶𝑚𝑛
Строки платежной старицы соответствуют стратегиям игрока A, столбцы платежной
матрицы - стратегиям игрока 𝐵.
Для получения наибольшего выигрыша, игроку A нужно выбирать ту из стратегий, для
которой число 𝑚𝑖𝑛 𝑐𝑖𝑗 максимально. Число 𝛼 = 𝑚𝑎𝑥 𝑚𝑖𝑛 𝑐𝑖𝑗 называется нижней ценой
1≤𝑗≤𝑛
1≤𝑖≤𝑚 1≤𝑗≤𝑛
игры. а стратегия игрока A, соответствующая наибольшему из чисел 𝑚𝑖𝑛 𝑐𝑖𝑗 , называется
1≤𝑗≤𝑛
максиминной.
Таким образом, если игрок 𝐴 будет придерживаться максиминной стратегии, то ему
гарантирован выигрыш, не меньший, чем 𝛼, при любом поведении игрока 𝐵.
Проанализируем теперь платежную матрицу с точки зрения игрока 𝐵, заинтересованного
в том, чтобы игрок 𝐴 выиграл, как можно меньше.
Если игрок 𝐵 выберет стратегию 𝐵𝑗 , то все возможные выигрыши игрока 𝐴 будут
элементами 𝑗 - го столбца платежной матрицы (табл.1.1).
В наихудшем для игрока 𝐵 случае, когда игрок 𝐴 применяет стратегию, соответствующую
максимальному элементу этого столбца, выигрыш игрока 𝐵 будет равен числу max 𝑐𝑖𝑗 .
Следовательно, игроку B нужно выбрать такую стратегию, для которой число
max 𝑐𝑖𝑗 минимально.
1≤𝑖≤𝑚
1≤𝑖≤𝑚
Число 𝛽 = min max 𝑐𝑖𝑗 называется верхней ценой игры, а стратегия а стратегия игрока
1≤𝑖≤𝑚 1≤𝑗≤𝑛
𝐵, соответствующая наименьшему из чисел max 𝑐𝑖𝑗 , называется минимаксной. Таким
1≤𝑖≤𝑚
образом, если игрок 𝐵 применяет минимаксную стратегию, то игрок 𝐴 не может выиграть
больше, чем 𝛽.
Для упрощенной работы в текстовом редакторе, представим платежную матрицу в виде
таблицы 1.1. В данном случае, платежная матрица имеет размерность 𝑚 × n, где 𝑚 =
4, n = 5.
𝐵1
𝐵2
𝐵3
𝐵4
𝐵5
1
3
1
3
7
𝐴1
3
-5
-1
6
-2
𝐴2
3
12
2
4
2
𝐴3
-3
7
-2
-3
2
𝐴4
Табл. 1.1.
В каждой строке платежной матрицы найдем наименьший элемент, и запишем его справа
от матрицы. В каждом столбце платежной матрицы найдем наибольший элемент, и
запишем его снизу от матрицы. В результате получим таблицу 1.2
min
𝐵1
𝐵2
𝐵3
𝐵4
𝐵5
𝑗
𝐴1
𝐴2
𝐴3
𝐴4
max
𝑖
1
3
3
-3
3
3
-5
12
7
12
1
-1
2
-2
2
3
6
4
-3
6
7
-2
2
2
7
1
-5
2
-3
Табл.1.2
min(1; −5; 2; −3).
𝑗
Нижняя цена игры: 𝛼 = 𝑚𝑎𝑥 𝛼𝑖 = 𝑚𝑎𝑥 𝑚𝑖𝑛 = 2.
𝑖
𝑖
𝑗
Данный выигрыш может гарантировать себе первый игрок, применяя свои чистые
стратегии при всевозможных действиях второго игрока.
Второй игрок, в свою очередь, при своем оптимальном поведении должен стремиться по
возможности за счет своих стратегий максимально уменьшить выигрыш первого игрока.
max(3; 12; 2; 6; 7 ).
𝑖
Верхняя цена игры: 𝛽 = min 𝛽𝑗 = min max = 2.
𝑗
𝑗
𝑖
Данная величина показывает, какой максимальный выигрыш за счет своих стратегий
может себе гарантировать первый игрок. Иначе говоря, применяя свои чистые стратегии
первый игрок может обеспечить себе выигрыш не меньше 𝛼, в свою очередь, второй игрок
применением своих чистых стратегий может не допустить выигрыш первого игрока
больше, чем на 𝛽.
Так как выполняется равенство: 𝛼 = 𝑚𝑎𝑥 𝑚𝑖𝑛 с𝑖𝑗 = min max 𝑐𝑖𝑗 = 𝛽, то игра
1≤𝑖≤𝑚 1≤𝑗≤𝑛
1≤𝑖≤𝑚 1≤𝑗≤𝑛
называется с седловой точкой. В нашем случае пара чистых стратегий
(𝐴3 ; 𝐵3 ) является седловой точкой. Соответственно, цена игры 𝑉 = 𝛼 = 𝛽 = 2.
Если один из игроков придерживается стратегии, соответствующей седловой точке, то
другой игрок не сможет поступить лучше, придерживаться стратегии, соответствующей
седловой точке.
Метод доминирующих стратегий:
Решение матричных игр тем сложнее, чем больше размерность платежной матрицы.
Поэтому для игр с платежными матрицами большой размерности отыскание
оптимального решения можно упростить, если уменьшить их размерность путем
исключения дублирующих и заведомо невыгодных (доминируемых) стратегий.
Если в платежной матрице элементы 𝑘 −й строки не меньше соответствующих элементов
𝑠 − й строки, т.е 𝑎𝑘𝑗 ≥ 𝑎𝑠𝑗 (𝑗 = ̅̅̅̅̅
1: 𝑛), то выигрыш игрока 𝐴 при стратегии 𝐴𝑘 будет
больше (не меньше), чем при стратегии 𝐴𝑠 , какой бы стратегией 𝐵𝑗 не пользовался игрок
𝐵. Поэтому для игрока 𝐴 стратегия 𝐴𝑘 будет более выгодной, чем стратегия 𝐴𝑠 . В связи с
этим говорят, что стратегия 𝐴𝑘 доминирует над стратегий 𝐴𝑠 , и называют стратегию 𝐴𝑘
доминирующей, а стратегию 𝐴𝑠 – доминируемой.
Аналогично, если элементы 𝑝 − го столбца не превосходят соответствующих элементов
𝑟 − го столбца, 𝑏𝑖𝑝 ≥ 𝑏𝑖𝑟 (𝑖 = ̅̅̅̅̅̅
1: 𝑚), то игроку 𝐵 при любых условиях невыгодно
применять стратегию 𝐵𝑝 , так как в этом случае он будет проигрывать больше (не
меньше), чем при использовании стратегии 𝐵𝑟 . Поэтому говорят, что стратегия
𝐵𝑝 доминирует над стратегией 𝐵𝑟 , и называют их соответственно доминирующей и
доминируемой.
Как первому, так и второму игроку нет смысла использовать доминируемую стратегию,
поэтому все доминируемые стратегии могут быть отброшены (то есть фактически
отброшены строки и столбцы исходной платежной матрицы, соответствующие этим
стратегиям). Это преобразование уменьшает размерность исходной платежной матрицы.
Найдя решение игры для упрощенной матрицы, его можно использовать для решения
игры, представленной исходной матрицей, приписав исключенным строкам и столбцам
нулевые вероятности. Воспользуемся данным методом.
𝐵1
𝐵2
𝐵3
𝐵4
𝐵5
1
3
1
3
7
𝐴1
3
-5
-1
6
-2
𝐴2
3
12
2
4
2
𝐴3
-3
7
-2
-3
2
𝐴4
Стратегия 𝐴3 преобладает над стратегией 𝐴4 , отказываемся от стратегии 𝐴4 .
𝐵1
𝐵2
𝐵3
𝐵4
1
3
1
3
𝐴1
3
-5
-1
6
𝐴2
3
12
2
4
𝐴3
𝐵5
7
-2
2
Стратегия 𝐵3 преобладает над стратегией 𝐵1 , отказываемся от стратегии 𝐵1 .
𝐵2
𝐵3
𝐵4
𝐵5
3
1
3
7
𝐴1
-5
-1
6
-2
𝐴2
12
2
4
2
𝐴3
Стратегия 𝐵3 преобладает над стратегией 𝐵4 , отказываемся от 𝐵4 .
𝐵2
𝐵3
𝐵5
3
1
7
𝐴1
-5
-1
-2
𝐴2
12
2
2
𝐴3
Стратегия 𝐴1 преобладает над стратегией 𝐴2 , отказываемся от стратегии 𝐴2 .
𝐵2
𝐵3
𝐵5
3
1
7
𝐴1
12
2
2
𝐴3
Стратегия 𝐵3 преобладает над стратегией 𝐵2 , отказываемся от стратегии 𝐵2 .
𝐵3
𝐵5
1
7
𝐴1
2
2
𝐴3
Стратегия 𝐵3 преобладает над стратегией 𝐵5 , отказываемся от стратегии 𝐵5 .
𝐵3
1
𝐴1
2
𝐴3
Стратегия 𝐴3 преобладает над стратегией 𝐴1 , отказываемся от стратегии 𝐴1 .
𝐵3
2
𝐴3
Приходим к аналогичному результату, что и методом минимаксов.
Графический способ
Графическим способом для игрока 𝐴 из учёта того, что : 𝑥1 + 𝑥2 = 1 => 𝑥2 = 1 − 𝑥1 :
𝑉 = 𝑥1 + 2(1 − 𝑥1 )
{
𝑉 = 7𝑥1 + 2(1 − 𝑥1 )
Раскрывая скобки и приводя подобные члены, получим:
𝑉 = 2 − 𝑥1
{
𝑉 = 5𝑥1 + 2
При 𝑥1 = 0; 1 для первого уравнения получаем 𝑉 = 2; 1 соответственно.
При 𝑥1 = 0; 1 для второго уравнения получаем 𝑉 = 2; 7 соответственно.
Координаты седловой точки (0; 2).
Графическим способом для игрока 𝐵 из учёта того, что : 𝑦1 + 𝑦2 = 1 => 𝑦2 = 1 − 𝑦1 :
𝑉 = 𝑦1 + 7(1 − 𝑦1 )
{
𝑉 = 2𝑦1 + 2(1 − 𝑦1 )
Раскрывая скобки и приводя подобные члены, получим:
𝑉 = 7 − 6𝑦1
{
𝑉=2
При 𝑦1 = 0; 1 для первого уравнения получаем 𝑉 = 7; 1 соответственно.
При 𝑦1 = 0; 1 для второго уравнения получаем 𝑉 = 2.
Координаты седловой точки (0,833; 2).
Вариант 2:
Возьмем такие 𝑚 = 5, n = 8, чтобы нижняя и верхняя цены игры были различны. И
проделаем все предыдущие действия с новой матрицей (табл.1.3.).
Метод минимаксов
𝐵1
1
3
3
-3
𝐴1
𝐴2
𝐴3
𝐴4
𝐴1
𝐴2
𝐴3
𝐴4
max
𝑖
𝐵2
2
-5
12
7
𝐵3
1
-1
8
-2
𝐵4
1
6
4
-3
𝐵5
7
-2
2
4
𝐵1
𝐵2
Табл. 1.3.
𝐵3
𝐵4
𝐵5
min
1
3
3
-3
3
2
-5
12
7
12
1
-1
8
-2
8
1
6
4
-3
6
7
-2
2
4
7
1
-5
2
-3
𝑗
min(1; −5; 2; −3).
𝑗
Нижняя цена игры: 𝛼 = 𝑚𝑎𝑥 𝛼𝑖 = 𝑚𝑎𝑥 𝑚𝑖𝑛 = 2.
𝑖
𝑖
𝑗
Данный выигрыш может гарантировать себе первый игрок, применяя свои чистые
стратегии при всевозможных действиях второго игрока.
Второй игрок, в свою очередь, при своем оптимальном поведении должен стремиться по
возможности за счет своих стратегий максимально уменьшить выигрыш первого игрока.
max(3; 12; 8; 6; 7 ).
𝑖
Верхняя цена игры: 𝛽 = min 𝛽𝑗 = min max = 3.
𝑗
𝑗
𝑖
Данная величина показывает, какой максимальный выигрыш за счет своих стратегий
может себе гарантировать первый игрок. Иначе говоря, применяя свои чистые стратегии
первый игрок может обеспечить себе выигрыш не меньше 𝛼, в свою очередь, второй игрок
применением своих чистых стратегий может не допустить выигрыш первого игрока
больше, чем на 𝛽.
Так как не выполняется равенство: 𝛼 = 𝑚𝑎𝑥 𝑚𝑖𝑛 с𝑖𝑗 = min max 𝑐𝑖𝑗 = 𝛽, то в игре
1≤𝑖≤𝑚 1≤𝑗≤𝑛
1≤𝑖≤𝑚 1≤𝑗≤𝑛
отсутсвует седловая точка. Максиминная и минимаксная величины( цены) для этой игры
равны 2 и 3 соответственно. Так как эти величины не равны между собой, игра не имеет
решения в чистых стратегиях. В рассматриваемом примере оптимальное значение цены
игры находится между максиминной и минимаксной ценами для этой игры: 2 ≤ 𝑉 ≤ 3.
Это значит, что первый игрок не должен надеяться на выигрыш больше, чем верхняя цена
игры, и может быть уверен в том, что не получит выигрыш меньше, чем нижняя цена
игры.
Метод доминирующих стратегий:
Это преобразование уменьшает размерность исходной платежной матрицы. Найдя
решение игры для упрощенной матрицы, его можно использовать для решения игры,
представленной исходной матрицей, приписав исключенным строкам и столбцам нулевые
вероятности. Воспользуемся данным подходом.
𝐵1
𝐵2
𝐵3
𝐵4
𝐵5
1
9
1
1
7
𝐴1
3
-5
-1
6
-2
𝐴2
3
12
8
4
2
𝐴3
-3
7
-2
-3
4
𝐴4
Стратегия 𝐴1 преобладает над стратегией 𝐴4 , отказываемся от стратегии 𝐴4 .
𝐵1
𝐵2
𝐵3
𝐵4
1
9
1
1
𝐴1
𝐵5
7
𝐴2
𝐴3
3
3
-5
12
-1
8
6
4
-2
2
Стратегия 𝐵1 преобладает над стратегией 𝐵4 , отказываемся от стратегии 𝐵4 .
𝐵1
𝐵2
𝐵3
𝐵5
1
9
1
7
𝐴1
3
-5
-1
-2
𝐴2
3
12
8
2
𝐴3
Стратегия 𝐴3 преобладает над стратегией 𝐴2 , отказываемся от стратегии 𝐴2 .
𝐵1
𝐵2
𝐵3
𝐵5
1
9
1
7
𝐴1
3
12
8
2
𝐴3
Стратегия 𝐵1 преобладает над стратегией 𝐵2 , отказываемся от стратегии 𝐵2 .
𝐵1
𝐵3
𝐵5
1
1
7
𝐴1
3
8
2
𝐴3
Стратегия 𝐵1 преобладает над стратегией 𝐵3 , отказываемся от стратегии 𝐵3 .
𝐵1
𝐵5
1
7
𝐴1
3
2
𝐴3
Мы свели игру 4 5 к 2  2.
Так как игроки выбирают свои чистые стратегии случайным образом, то выигрыш
игрока 𝐴 будет случайной величиной. В этом случае игрок 𝐴 должен выбрать свои
смешанные стратегии так, чтобы получить максимальный средний выигрыш. Аналогично,
игрок 𝐵 должен выбрать свои смешанные стратегии так, чтобы минимизировать
математическое ожидание игрока 𝐴. Решение матричных игр в смешанных стратегиях
может быть найдено графически (но также можно найти решение и в чистых стратегиях,
если игра имеет вид 2 × 𝑛 или 𝑚 × 2), методами линейного программирования и
итерационными методами. Найдем оптимальные стратегии, решая систему уравнений
вида:
Для игрока 𝐴:
𝑚𝑎𝑥 𝑉:
𝑥1 + 3𝑥2 ≥ 𝑉
7𝑥 + 2𝑥2 ≥ 𝑉
{ 1
𝑥1 + 𝑥2 = 1
𝑥1 ≥ 0, 𝑥2 ≥ 0
Составим систему уравнений заменой неравенств уравнениями, так как если матричная
игра не имеет седловой точки, то эти неравенства должны превращаться в равенства.
𝑚𝑎𝑥 𝑉:
𝑥1 + 3𝑥2 = 𝑉
7𝑥 + 2𝑥2 = 𝑉
{ 1
𝑥1 + 𝑥2 = 1
𝑥1 ≥ 0, 𝑥2 ≥ 0
Так как
𝑥1 + 𝑥2 = 1
{ 𝑥2 = 1 − 𝑥1 ,
𝑥1 ≥ 0, 𝑥2 ≥ 0
𝑥1 + 3(1 − 𝑥1 ) = 7𝑥1 + 2(1 − 𝑥1 )
𝑥1 + 3 − 3𝑥1 = 7𝑥1 + 2 − 2𝑥1
7𝑥1 = 1
𝑥1 = 7 (вероятность применения стратегии 𝐴1 )
1
𝑥2 = 1 −
1
7
6
= 7 (вероятность применения стратегии 𝐴3 )
1 6
Оптимальная смешанная стратегия игрока 𝐴: (7 ; 7)
Графическим способом для игрока 𝐴 из учёта того, что : 𝑥1 + 𝑥2 = 1 => 𝑥2 = 1 − 𝑥1 :
𝑉 = 𝑥1 + 3(1 − 𝑥1 )
{
𝑉 = 7𝑥1 + 2(1 − 𝑥1 )
Раскрывая скобки и приводя подобные члены, получим:
𝑉 = 3 − 2𝑥1
{
𝑉 = 5𝑥1 + 2
При 𝑥1 = 0; 1 для первого уравнения получаем 𝑉 = 3; 1 соответственно.
При 𝑥1 = 0; 1 для второго уравнения получаем 𝑉 = 2; 7 соответственно.
1 19
Координаты седловой точки (7 ; 7 ).
Для игрока 𝐵:
𝑚𝑖𝑛 𝑉:
𝑦1 + 7𝑦2 ≤ 𝑉
3𝑦 + 2𝑦2 ≤ 𝑉
{ 1
𝑦1 + 𝑦2 = 1
𝑦1 ≥ 0, 𝑦2 ≥ 0
Составим систему уравнений заменой неравенств уравнениями.
𝑚𝑖𝑛 𝑉:
𝑦1 + 7𝑦2 = 𝑉
3𝑦 + 2𝑦2 = 𝑉
{ 1
𝑦1 + 𝑦2 = 1
𝑦1 ≥ 0, 𝑦2 ≥ 0
Так как
𝑦1 + 𝑦2 = 1
{ 𝑦2 = 1 − 𝑦1
𝑦1 ≥ 0, 𝑦2 ≥ 0
𝑦1 + 7(1 − 𝑦1 ) = 3𝑦1 + 2(1 − 𝑦1 )
𝑦1 + 7 − 7𝑦1 = 3𝑦1 + 2 − 2𝑦1
−7𝑦1 = −5
5
𝑦1 = 7 (вероятность применения стратегии B1 )
𝑦2 = 1 −
5
7
2
= 7 (вероятность применения стратегии B5 )
5 2
Оптимальная смешанная стратегия игрока 𝐵: (7 ; 7)
Графическим способом для игрока 𝐵 из учёта того, что : 𝑦1 + 𝑦2 = 1 => 𝑦2 = 1 − 𝑦1 :
𝑉 = 𝑦1 + 7(1 − 𝑦1 )
{
𝑉 = 3𝑦1 + 2(1 − 𝑦1 )
Раскрывая скобки и приводя подобные члены, получим:
𝑉 = 7 − 6𝑦1
:{
𝑉 = 𝑦1 + 2
При 𝑦1 = 0; 1 для первого уравнения получаем 𝑉 = 7; 1 соответственно.
При 𝑦1 = 0; 1 для второго уравнения получаем 𝑉 = 2; 3 соответственно.
5 19
Координаты седловой точки (7 ; 7 ).
Решение игры:
Цена игры:
1 6
𝑥 ∗ = ( ; 0 ; 0) ;
7 7
5
2
𝑦 ∗ = ( ; 0; 0; 0; ) ;
7
7
𝑉 = 𝑋 ∗ 𝐶 ∗ (𝑌 ∗ )𝑇
1 ⋯ 7 5
1 6
2 𝑇 19
𝑉 = ( ; 0 ; 0) ( ⋮
⋱ ⋮ ) ( ; 0; 0; 0; ) = .
7 7
7
7
7
−1 ⋯ 4
Теперь воспользуемся симплекс – методом.
𝐵1
𝐵2
𝐵3
𝐵4
𝐵5
1
9
1
1
7
𝐴1
3
-5
-1
6
-2
𝐴2
3
12
8
4
2
𝐴3
-3
7
-2
-3
4
𝐴4
Цена игры может принять любые значения. А решение матричной игры, используя
симплекс-метод, предполагает, что цена игры будет положительная. Всегда можно
подобрать такое число 𝑐, прибавление которого ко всем элементам матрицы выигрышей
дает матрицу с положительными элементами, а это значит, и положительное значение
цены игры. Увеличим каждый элемент матрицы на 6 единиц.
𝐵1
𝐵2
𝐵3
𝐵4
𝐵5
7
15
7
7
13
𝐴1
9
1
5
12
4
𝐴2
9
18
14
10
8
𝐴3
3
13
4
3
10
𝐴4
∗
(
)
Согласно следствию теоремы: для того чтобы 𝑥 = 𝑥1 , 𝑥2 , … , 𝑥𝑛 была оптимальной
смешанной стратегией матричной игры с ценой игры 𝑉, необходимо и достаточно
выполнение следующих неравенств:
7𝑥1 + 9𝑥2 + 9𝑥3 + 3𝑥4 ≥ 𝑉
15𝑥1 + 𝑥2 + 18𝑥3 + 13𝑥4 ≥ 𝑉
7𝑥1 + 5𝑥2 + 14𝑥3 + 4𝑥4 ≥ 𝑉
7𝑥1 + 12𝑥2 + 10𝑥3 + 3𝑥4 ≥ 𝑉
13𝑥1 + 4𝑥2 + 8𝑥3 + 10𝑥4 ≥ 𝑉
𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 = 1
𝑥𝑖 ≥ 0, 𝑖 = ̅̅̅̅̅
1; 4
Разделим уравнение и неравенства на величину 𝑉(предположим, что 𝑉 > 0) и введем
𝑥
𝑦
обозначения: 𝑉𝑖 = 𝑝𝑖 (𝑖 = 1,2, … , 𝑚), 𝑉𝑖 = 𝑞𝑖 (𝑖 = 1,2, … , 𝑛). Поскольку первый игрок
стремится найти такие значения 𝑥𝑖 , а значит, и 𝑝𝑖 чтобы цена игры 𝑉 была максимальной,
то решение первой задачи сводится к нахождению таких неотрицательных значений
𝑚
𝑝𝑖 (𝑖 = 1; 2; … ; 𝑚), при которых: ∑𝑚
𝑖=1 𝑝𝑖 → 𝑚𝑖𝑛, ∑𝑖=1 𝑎𝑖 𝑝𝑖 ≥ 1. Для решения задачи
воспользуемся симплекс – методом:
𝑚𝑖𝑛 𝐿 (𝑝) = 𝑝1 + 𝑝2 + 𝑝3 + 𝑝4 , при ограничениях:
7𝑝1 + 9𝑝2 + 9𝑝3 + 3𝑝4 ≥ 1
15𝑝1 + 𝑝2 + 18𝑝3 + 13𝑝4 ≥ 1
7𝑝1 + 5𝑝2 + 14𝑝3 + 4𝑝4 ≥ 1
7𝑝1 + 12𝑝2 + 10𝑝3 + 3𝑝4 ≥ 1
13𝑝1 + 4𝑝 + 8𝑝3 + 10𝑝4 ≥ 1
𝑝𝑖 ≥ 0, 𝑖 = ̅̅̅̅̅
1; 4
1
6
7
𝑝1 =
; 𝑝2 = 0; 𝑝3 =
; 𝑝4 = 0; 𝑚𝑖𝑛 𝐿 (𝑝) = .
61
61
61
1
7
61
Сперва найдем цену игры: 𝑉 ∗ =
= = .
𝑝1 +𝑝2 + 𝑝3+𝑝4
61
7
Находим оптимальную смешанную стратегию игрока 𝐴:
61 1
1
𝑥1 = 𝑉𝑝1 =
∗
= ;
7 61 7
61 6
6
𝑥3 = 𝑉𝑝3 =
∗
= .
7 61 7
61
19
∗
Цена игры: 𝑉 = 𝑉 − 6 = 7 − 6 = 7 .
Аналогично для второго игрока, для того чтобы 𝑦 ∗ = (𝑦1 , 𝑦2 , … , 𝑦𝑚 )была оптимальной
смешанной стратегией матричной игры с ценой игры 𝑉, необходимо и достаточно
выполнение следующих неравенств:
7𝑦1 + 15𝑦2 + 7𝑦3 + 7𝑦4 + 13𝑦5 ≤ 𝑉
9𝑦1 + 𝑦2 + 5𝑦3 + 12𝑦4 + 4𝑦5 ≤ 𝑉
9𝑦1 + 18𝑦2 + 14𝑦3 + 10𝑦4 + 8𝑦5 ≤ 𝑉
3𝑦1 + 13𝑦2 + 4𝑦3 + 3𝑦4 + 10 𝑦5 ≤ 𝑉
𝑦1 + 𝑦2 + 𝑦3 + 𝑦4 = 1
𝑦𝑗 ≥ 0, 𝑗 = ̅̅̅̅̅
1; 5
Поскольку второй игрок стремится найти такие значения 𝑦𝑖 , а значит, и 𝑞𝑖 чтобы цена
игры 𝑉 была минимальной, то решение второй задачи сводится к нахождению таких
неотрицательных значений 𝑞𝑖 (𝑖 = 1; 2; … ; 𝑛), при которых: ∑𝑛𝑗=1 𝑞𝑖 → 𝑚𝑎𝑥, ∑𝑛𝑗=1 𝑎𝑖 𝑞𝑖 ≤ 1.
Для решения задачи воспользуемся симплекс – методом:
𝑚𝑎𝑥 𝐿(𝑞 ) = 𝑞1 + 𝑞2 + 𝑞3 + 𝑞4 + 𝑞5 , при ограничениях:
7𝑞1 + 15𝑞2 + 7𝑞3 + 7𝑞4 + 13𝑞5 ≤ 1
9𝑞1 + 𝑞2 + 5𝑞3 + 12𝑞4 + 4𝑞5 ≤ 1
9𝑞1 + 18𝑞2 + 14𝑞3 + 10𝑞4 + 8𝑞5 ≤ 1
3𝑞1 + 13𝑞2 + 4𝑞3 + 3𝑞4 + 10 𝑞5 ≤ 1
𝑞𝑗 ≥ 0, 𝑗 = ̅̅̅̅̅
1; 5
5
2
7
𝑞1 =
; 𝑞2 = 0; 𝑞3 = 0; 𝑞4 = 0; 𝑞5 =
; 𝑚𝑎𝑥 𝐿 (𝑞) = .
61
61
61
1
61
Сперва найдем цену игры: 𝑉 ∗ = 5 2 = 7 .
61
+
61
Находим оптимальную смешанную стратегию игрока 𝐵:
5 61 5
𝑦1 =
∗
= ;
61 7
7
2 61 2
𝑦5 =
∗
= .
61 7
7
61
19
∗
Цена игры: 𝑉 = 𝑉 − 6 = 7 − 6 = 7 .
6
1
Итак, игрок 𝐴 с вероятностью 7 – третью стратегию, с вероятностью 7 выбирает первую
5
2
стратегию; игрок 𝐵 с вероятностью 7 выбирает первую стратегию, с вероятность 7
19
выбирает пятую стратегию; при этом цена игры равна 7 .
Задание 2:
Есть два противника и две позиции. Один противник - это полковник, второй - генерал. У
полковника есть 4+ (m mod 2) полка, у генерала соответствии 3+ (n mod 2) полка.
Каждый из этих противников хочет занять данные позиции. Взятие позиции
оценивается выигрышем в единицу. Каждый из противников может послать на любую
позицию только целое количество полков или совсем не посылать. Позиция считается
занятой тем, кто послал на нее больше полков, а выигрыш составляет единицу за счет
взятия позиции плюс количество единиц, которое совпадает с количеством полков
противника, не занял позицию. Если на позиции оказывается одинаковое количество
полков с двух сторон, то никто не выигрывает. Общий выигрыш каждого противника
равна сумме его выигрышей на обеих позициях, а также то, что получил один из
противников, для другого является проигрышем.
𝑚 = 2, 𝑛 = 1.
У полковника ( обозначим его игроком 𝐴 ) есть такие чистые стратегии:
{4,0}; {3,1}; {2,2} ; {1,3}; {0,4}.
У генерала ( обозначим его игроком 𝐵 ) есть чистые стратегии:
{4,0}; {3,1}; {2,2} ; {1,3}; {0,4}.
Рассмотрим формирование элементов матрицы на примере 𝑐23 – величины выигрыша
полковника при условии, что он предпринял стратегию {3,1}, а второй игрок - генерал
стратегию {2,2}. На первой позиции полки полковника оказываются в численном
превосходстве (3 > 2), поэтому он выигрывает число полков противника (+2) и (+1) за
захват позиции (всего выигрыш по позиции равен 3). На второй позиции наоборот, полки
генерала оказываются в превосходстве (1 < 2) и тогда полковник теряет все свои полки
на этой позиции (−1) и (−1) за поражение на позиции (всего выигрыш по позиции равен
−2). Суммарный выигрыш полковника по двум позициям: 3 − 2 = 1. Аналогично
формируются остальные элементы матрицы.
𝐵1 (4; 0)
𝐵2 (3; 1)
𝐵3 (2; 2)
𝐵4 (1; 3)
𝐵5 (0; 4)
0
3
2
1
0
𝐴1 (4; 0)
-3
0
1
0
-1
𝐴2 (3; 1)
-2
-1
0
-1
-2
𝐴3 (2; 2)
-1
0
1
0
-3
𝐴4 (1; 3)
0
1
2
3
0
𝐴5 (0; 4)
Метод минимаксов:
В каждой строке платежной матрицы найдем наименьший элемент, и запишем его справа
от матрицы. В каждом столбце платежной матрицы найдем наибольший элемент, и
запишем его снизу от матрицы. В результате получим таблицу 2.1
𝐵1 (4; 0)
𝐵2 (3; 1)
𝐵3 (2; 2)
𝐵4 (1; 3)
𝐵5 (0; 4)
min
𝑗
𝐴1 (4; 0)
𝐴2 (3; 1)
𝐴3 (2; 2)
𝐴4 (1; 3)
𝐴5 (0; 4)
max
0
-3
-2
-1
0
0
𝑖
3
0
-1
0
1
3
2
1
0
1
2
2
1
0
-1
0
3
3
0
-1
-2
-3
0
0
0
-3
-2
-3
0
Табл. 2.1
Данная матрица является кососимметрической, так как 𝑎𝑖𝑗 = −𝑎𝑗𝑖 . Тогда игра является
симметричной, если матрица кососимметрическая. То по теореме о симметричной игре,
цена игры будет равна нулю, и если 𝑥 ∗ – оптимальная смешанная стратегия первого
игрока, то она также оптимальная смешанная стратегия второго игрока. Нижняя цена
игры: 𝛼 = 𝑚𝑎𝑥 𝛼𝑖 = 𝑚𝑎𝑥 𝑚𝑖𝑛 = 0. Верхняя цена игры: 𝛽 = min 𝛽𝑗 = min max = 0.
𝑖
𝑖
𝑗
𝑗
𝑗
𝑖
В нашем случае пара чистых стратегий (𝐴1 ; 𝐵1 ), (𝐴1 ; 𝐵5 ), (𝐴5 ; 𝐵1 ), (𝐴5 ; 𝐵5 ) являются
седловыми точками. Соответственно, цена игры 𝑉 = 𝛼 = 𝛽 = 0.
Download