Тема 2. Игры в нормальной форме

advertisement
Тема 2. Игры в нормальной форме
Тема 2. Игры в нормальной форме
Игра в нормальной форме Γ={N, S, u} задана, поскольку задано
1. Мн-во игроков i=1,…N
2. Мн-во (чистых) стратегий каждого из них, Si. Конкретные стратегии игрока i будем
обозначать sik, k=1…Ki, используя также при необходимости индексы l, h и др. Каждая
комбинация стратегий всех игроков задает профиль (чистых) стратегий s={s1k, ….sNk}.
Множество всех профилей чистых стратегий обозначается S ≡ ×Si; естественно, что мощность
этого множества равна произведению Ki для всех i, и s∈S. Если оно конечно, то конечной
называется и сама игра. Обозначение s-i для множества всех стратегий из данного профиля
кроме стратегии игрока i будет широко применяться в дальнейшем.
3. Мн-во платежей для каждого игрока i и каждого профиля стратегий, ui(s), u={u1(s),…uN(s)},
s∈S.
При этом условимся считать, что все предпочтения игроков исчерпывающе представлены платежами, т.е.
любому игроку лучше тогда и только тогда, когда больше его платеж. Это означает что ни один игрок не
руководствуется тем, что какая-то конкретная стратегия, избранная им, может быть не оптимальной по
Парето, или что одна из его нескольких равноценных стратегий может дать оппонентам больше, чем
другие. Эти положения будут неоднократно проиллюстрированы в дальнейшем на разных примерах.
Вместе с тем (и это - главный принцип теории игр) все сказанное выше не означает, что игрокам
безразлично, как сыграют их оппоненты. Простейший пример такой зависимости – игра двух лиц с нулевой
суммой, когда выигрыш одного игрока равен проигрышу второго.
Мы не будем специально говорить об играх с нулевой суммой (называемых иначе матричными
играми) ввиду их ограниченного применения в экономике. В биматричных играх условимся на
первом месте писать платеж игрока, выбирающего строки, на втором – столбцы; то же соглашение
используем для перечисления стратегий в профилях.
Канонический пример биматричной игры в н.ф. (называемой для кратости просто игрой) – дилемма
заключенного (Tucker, 1952). Одно из возможных обоснований игры состоит в том, что два человека
попали в полицию и могут независимо друг от друга сознаться или не сознаться в совершении
некоего преступления. Если сознается один, и не сознается другой, то сознавшегося посадят на 10
лет (платеж –10), а другого – отпустят (платеж 0). Если оба не сознаются, то на обоих повесят разные
мелкие преступления, и посадят на 5 лет каждого (-5), а если оба сознаются, то обоим присудят
штраф (-1) но отпустят сразу же.
Отрицать Сознаться
Отрицать -5, -5
0, -10
Сознаться -10, 0
-1, -1
В случае с дилеммой заключенного очевидно, что наилучшее (Парето-оптимальное) решение – С,С, однако
в этом случае у обоих игроков есть стимул отклониться, т.е. профиль С,С не является наилучшим ответом
каждого игрока на данную стратегию оппонента. Если игрок 2, к примеру, отклонится от него и сыграет О
при том что оппонент играет С, то 2 получит 0 вместо –1; то же рассуждение справедливо и в отношении
игрока 1. Профиль О,С (С,О) также нежелателен, т.к. игрок 2 (1) захочет отклониться от него, получив –1
(соотв. –5) вместо –10. Единственный профиль, в котором ни у кого нет стимула отклоняться – это О,О –
отклонения обоих игроков дадут им –10 вместо –5. Этот профиль называется равновесным по Нэшу.
Определение. Функция наилучшего ответа bi(s-i)={si ∈ Si: u(si, s-i) ≥ u(s’i, s-i), ∀s’i∈Si} – это
множественнозначная функция, приписывающая каждому профилю стратегий всех оппонентов
множество тех стратегий игрока i, при которых он получает максимальный платеж.
Определение. Равновесие Нэша (Nash, 1950) (s*i,s*-i): u(s*i,s*-i) ≥ u(si,s*-i), ∀i, ∀si∈Si – это профиль
стратегий, каждая из которых для каждого игрока есть наилучший ответ на стратегии всех
оппонентов. Содержательно говоря, равновесие Нэша – это такой профиль стратегий, от которого ни
одному из игроков не выгодно отклоняться, при том условии, что его же играют все остальные
игроки.
1
Тема 2. Игры в нормальной форме
Из определения следует, что равновесие будет в том профиле, где каждая из входящих в него
стратегий есть наилучший ответ для каждого игрока на такие же стратегии оппонентов. Рассмотрим
простой принцип решения таких игр на примере дилеммы заключенного. Встанем сперва на точку
зрения игрока 1, и посмотрим, каким будут его наилучшие ответы на стратегии оппонента. Если 2
сыграет О, то b1(О)=О, т.к. a>b, а если 2 сыграет С, то b1(С)=О, т.к. c>d. (Максимальные платежи
изображены в сплошном квадрате, а худшие платежи указаны пунктирными стрелочками.)
Аналогично, с точки зрения игрока 2 стратегия О будет наилучшим ответом как на стратегию О
(a>b), так и на стратегию С (c>d) игрока 1. На практике, наилучшие ответы игроков на стратегии
оппонентов удобно отмечать подобными квадратиками, крестиками или т.п. способом. Клетка
таблицы, в которой совпадут два обозначения, и будет взаимным наилучшим ответом, т.е.
равновесием Нэша. После некоторой практики подобные «крестики» можно ставить в уме.
Отрицать
Отрицать
Сознаться
a
c
b
a
Сознаться
b
c
d
d
Рис.2. Структура игр типа «дилемма заключенного»
В общем виде, дилеммой заключенного являются все игры 2×2 где c>d>a>b, с равновесием в левом верхнем
квадрате. Меняя порядок платежей на обратный (или переставляя значения переменных по обеим
диагоналям), получим структуру платежей b>a>d>c и игру, которая также есть дилемма заключенного, но с
равновесием в правом нижнем углу, т.е.
L
U -1, -1
R
-10, 0
D 0, -10 -5, -5
Здесь, как и далее, для обозначения стратегий используются стандартные английские буквы Up, Down,
Middle (для игрока 1), Left, Right, Center (для игрока 2).
Заметим, что в случае дилеммы заключенного каждому игроку выгоднее играть О независимо от
того, как сыграет оппонент. Такая стратегия О называется строго доминирующей, и может быть
решена методом итерационного строгого доминирования (ИСД), т.е. путем последовательного
исключения строго доминируемых стратегий.
Определение. Стратегия s’i называется строго доминируемой, если существует стратегия si ≠ s’i,
платеж на которую оказывается большим при любых профилях стратегий, избранных всеми
оппонентами, u(si,s-i) > u(s’i,s-i), ∀s-i∈S-i. Стратегия si, соответственно, называется строго
доминирующей в паре si,s’i.
Параллельно с этим, естественно ввести
Определение. Стратегия s’i называется слабо доминирующей, если u(si,s-i) ≥ u(s’i,s-i), ∀s-i∈S-i –
выигрыш игрока, играющего s’i, не может быть превышен ни при каком профиле стратегий,
избранном оппонентами.
Определение. Множество профилей стратегий A ≡ ×Ai ⊂ ×Si выживает исключение методом
итерационного строгого доминирования (ИСД) если оно есть предел невозрастающей
последовательности множеств профилей, обладающих следующими свойствами для всех i:
1. Ai0=Si;
2. AiT=Ai;
2
Тема 2. Игры в нормальной форме
3. Ait+1⊆Ait, ∀t=0,1,…T-1;
4. ∀t=0,1,…T-1, ∀ski ∈ Ait\Ait+1 строго доминируемы в игре Γt = {N, Ait, uit}, где uit есть
ограничение платежей в игре Γ на множество стратегий ×Ait.
5. нет таких ski∈Ai, которые были бы строго доминируемы в A.
Поскольку таких стратегий, вообще говоря, может быть много, игра решается методом ИСД, если
после такого исключения выживает единственный профиль стратегий.
Предложение: если игра решаема ИСД, то решение не зависит от порядка исключения строго
доминируемых стратегий (если их несколько у каждого игрока)
Доказательство: Пусть в игре Γ у игрока i имеются две доминируемые стратегии - si и s'i, и пусть на
некотором шаге t исключена стратегия si. Однако по условию на множестве неисключенных
профилей Ait+1⊆Ait⊆Ai0 стратегия s'i снова остается доминируемой, и будет исключена на одном из
следующих шагов, и так до тех пор пока не останется одна стратегия. Понятно, что тот же результат
можно было бы получить, если бы сперва была исключена s'i, а затем - si. Q.E.D.
К примеру, в следующей игре стратегии C и R строго доминируемы стратегией L игрока 2. Исключив R, в
оставшейся матрице 3×2 стратегия D доминируется M для игрока 1, а затем, исключая С из матрицы 2×2,
остаемся с профилем M,L, который игрок 1 выберет из двух оставшихся. Исключив сперва C, получим
матрицу 3×2, в которой стратегия U будет доминируема D; в оставшейся матрице R доминируема L, а D M, что возвращает нас к тому же решению (заметим, что оно также не Парето-оптимально – профиль D,R
дал бы больше обоим игрокам!)
L
C
R
U
1,2
4,1
3,1
M
3,1
3,0
2,0
D
2,3
1,2
4,2
Заметим, что предсказания равновесия при слабом доминировании могут зависеть от порядка исключения
стратегий. В следующем примере M слабо доминирует и U, и D. Если начать с исключения U, а далее L, то
придем к ({M,D},R); если же сперва исключить D, также слабо доминируемую M, то игрок 2 уберет далее
R, давая предсказание ({U,M}, L). В этом случае, однако, оба множества предсказанных решений
равновесны. Слабо доминируемые стратегии, однако, могут быть наилучшими ответами при некоторых
убеждениях относительно того, как сыграют оппоненты.
L
R
U
1,1
0,0
M
1,1
2,1
D
0,0
2,1
Упражнение: может ли
быть так, что
исключения методом
итерационного слабого
доминирования
выводят на не
равновесные профили?
В общем случае, множество решений по ИСД есть подмножество множества равновесий.
Предложение. Если профиль равновесен по Нэшу, то все составляющие его стратегии не
исключаются методом ИСД.
Доказательство: Предположим, что профиль s={s1,…si,…sN} равновесен по Нэшу, но хотя бы одна
из входящих в него стратегий (скажем, si для игрока i) строго доминируема. Это значит, что si хуже
какой-то другой стратегии s’i ≠ si, т.е. стратегия si не есть наилучший ответ на s-i, т.е. s не есть
взаимный наилучший ответ всех игроков.
По контрапозиции, если профиль исключен по ИСД, он не может быть равновесен по Нэшу.
3
Тема 2. Игры в нормальной форме
Предложение. Если решение методом ИСД приводит к единственному профилю, то это решение
есть единственное равновесие по Нэшу.
Доказательство: Пусть решение методом ИСД привело к профилю s, который не есть равновесие по
Нэшу. Тогда хотя бы для какого-то игрока i стратегия si не будет наилучшим ответом на стратегии s-i
оппонентов, т.е. существует стратегия s’i ≠ si, которая для игрока i лучше чем si при том что
оппоненты играют s-i. При этом, так как стратегия s’i не вошла в s, на какой-то предыдущей стадии
исключения по методу ИСД она оказалась доминируемой некоторой стратегией s”i. Если s”i=si,
получаем противоречие с тем, что si < s’i при данном профиле; если же нет, то найдется другая
стратегия, которая доминирует s”i, и т.п. – процесс в конце концов закончится, ибо множество
стратегий конечно, а si - единственная, выжившая все исключения. Единственность следует из
предыдущего предложения: любое другое равновесие по Нэшу также должно было бы выжить
исключения методом ИСД.
По контрапозиции, если профиль не равновесен по Нэшу, то он не может быть достигнут по ИСД. Оба
предложения не означают ни того, что решение по ИСД существует тогда и только тогда, когда существует
равновесие Нэша, ни то, что профиль, исключенный по ИСД, не является равновесным по Нэшу.
Как строгое, так и слабое доминирование может интерпретироваться как убеждения оппонента в
том, что данный игрок не сыграет доминируемую стратегию. Это убеждение есть важный принцип
рационального поведения в играх.
Это свойство наглядно иллюстрирует отличие теории игр от теории принятия решений. Рассмотрим
пример, в котором стратегия U доминирует D для игрока 1, так что исключения по ИСД приводят к U,L:
L
R
U
2,3
4,1
D
1,2
3,4
В теории принятия решений на месте игрока 2 была бы «природа», а платежи игрока 1 соответствовали бы
его выигрышам при двух его стратегиях и разных состояниях мира. Может ли уменьшение платежа игрока 1
улучшить его благосостояние? Конечно, нет, если интерпретировать равновесие U,L в смысле теории
принятия решений, и считать, что это предсказание означает, что игрок 2 («природа») во всяком случае
выберет L.Но вычтем по 2 из платежей игрока 1 при U, получив матрицу
L
R
U
0,3
2,1
D
1,2
3,4
И допустим, что игрок 2 знает об этом изменении. Тогда он должен будет сообразить, что для игрока 1
стратегия U стала доминируемой, т.е. он сыграет только D, а в этом случае игроку 2 лучше играть R. Таким
образом, в результате снижения платежа одного из игроков оба получат улучшение по Парето! Заметим, что
если игрок 2 не знает о том, что мы изменили платежи игрока 1, то все останется как прежде, т.е. исход
будет U,L. Этот пример показывает, что для предсказания равновесия в игре важно также учитывать
информацию, которую имеют игроки.
Вместе с тем предсказания исхода игры на основании исключения доминируемых стратегий (даже
строго доминируемых) может не работать психологически – напр.,
L
R
U
8,10
-100,9
D
7,6
6,5
Предсказание недвусмысленно – U,L, т.к. L доминирует R, однако даже 1% вероятность отклонения
в R делает более безопасным решение D для 1. (т.к. 8p-100(1-p) < 7p+6(1-p) ⇔ p<106/107 ⇔
Prob(R)>1/107 ⇒ 1 выберет D.
4
Download