Слайд 1 - Сириус

advertisement
Лектор: Ф.Т.Алескеров
Игровые модели принятия решений
Сочи, Центр «Сириус»
5-7 января 2016 г.
Цели тех, с кем Вы имеете дело, могут отличаться
от Ваших!
Поэтому Ваши решения должны учитывать
возможность конфликта и использовать
возможность кооперации.
Такие интерактивные решения называются
стратегическими, и план действий по их реализации
называется стратегией.
«Стратегическое мышление – это искусство превзойти
противника, зная, что он пытается сделать то же».
А.Диксит и В.Нейлбаф
Примеры: корпорации,
политики,
тренеры,
родители,
страны и их блоки
Наука о том, как мыслить стратегически, называется
теорией игр.
Два типа стратегического взаимодействия
- одновременное
- последовательное
Дерево решений
Китай-город
Метро
Тургеневская
Беляево
Лубянка
Наземный общ. транспорт
Чистые пруды
Ленинский проспект
Автомобиль
Профсоюзная
пр. Вернадского
Дерево игры
Авто1
с
в
$100 получает Авто2
цв
Авто2
н
$100 получает Авто1
Авто2 $ 0
$ 300 получает Авто1
- $200 получает Авто2
- $100 получает Авто1
Дерево игры
e7-e5
Ч
Белые
d2-d3
kb1-c3
Кафе
«Открытое»
Стратегии:
«Толстяк»
Стратегии:
Готовить рыбу
Готовить курицу
Готовить рыбу Готовить курицу
Посетители-студенты: 80% любят рыбу
20% любят курицу
8
Таблица 1. Посещение кафе «Толстяк»
Открытое
К
Р
К
10
20
Р
80
40
Толстяк
Посетители-студенты: 80% любят рыбу
20% любят курицу
9
Отметим, что, если 20% идут в кафе, остальные 80%
студентов идут, вероятно, в студенческую столовую. Можно было
бы рассматривать игру с тремя участниками, рассматривая в
качестве третьего участника руководство студенческой столовой.
Однако, для простоты будем считать, что студенческая
столовая не ведет целенаправленной политики по привлечению
клиентов.
Иначе говоря, продолжим рассматривать игру
участниками – кафе «Открытое» и «Толстяк».
с
двумя
10
Таблица 2. Посещение «Открытого кафе»
Открытое
К
Р
К
10
80
Р
20
Толстяк
40
Посетители-студенты: 80% любят рыбу
20% любят курицу
11
Таблица 3. Платежная матрица игры
Открытое
К
Р
К
(10,10)
(20,80)
Р
(80,20) (40,40)
Толстяк
12
Таблица 3. Платежная матрица игры
Открытое
Толстяк
К
Р
К
(10,10) (20,80)
Р
(80,20) (40,40)
Игра характеризуется:
- множеством игроков (в нашем случае «Открытое кафе» и кафе «Толстяк»),
- множеством стратегий, которыми располагает каждый игрок (в нашем
случае каждый игрок имеет две одинаковые стратегии К и Р, в общем случае
это необязательно).
Стратегии записываются в фигурных скобках последовательно.
Скажем,{К,Р} означает, что первый игрок выбрал стратегию К, а второй –
стратегию Р.
В игре определяются выигрыши игроков при выборе определенной
стратегии. Например, в нашей игре при выборе стратегий {К,Р} выигрыш
определяется в виде пары чисел (20,80),где первое число означает выигрыш
13
первого игрока, а второе, соответственно, второго игрока.
Доминантные стратегии
Таблица 3. Платежная матрица игры
Открытое
К
Толстяк
Р
К
(10,10) (20,80)
Р
(80,20) (40,40)
14
Фильм
«Индиана Джонс и последний крестовый
поход»
Значение моральных ценностей
15
Пусть оба кафе предпочитаются студентами неодинаково, а
именно, при одинаковых предложениях кафе доля
студентов, которые идут в «Толстяк», равна 0,9, а доля
студентов, которые идут в «Открытое кафе», равна 0,1.
Тогда платежная матрица изменится следующим образом.
Таблица 4.
Платежная матрица игры
Открытое
К
Р
Толстяк
К
(18,2)
Р
(80,20) (72,8)
(20,80)
«Толстяк» -доминантная стратегия Р
«Открытое» - доминантной стратегии нет!
16
Будем считать, что при одинаковых стратегиях {Р,Р} потоки
распределяются поровну. Кроме того, будем считать, что 40%
студентов предпочитают курицу, а 60% -рыбу. Тогда платежная
матрица будет иметь вид:
Таблица 5. Платежная матрица игры
Открытое
К
Р
Толстяк
К
(20,20) (40,60)
Р
(60,40) (30,30)
У участников нет доминантных стратегий!
17
Как выбрать стратегию при отсутствии
доминантных? Естественно, первый игрок может
выбрать одну из стратегий – К или Р, а второй выбирает
наилучший ответ на эту стратегию.
Например, если «Толстяк» выбирает К, то
наилучший ответ «Открытого» кафе- выбрать стратегию
Р. Если же «Толстяк» выбирает Р, то «Открытое» кафе
должно выбирать стратегию К.
18
Всегда ли выбор доминантной стратегии обеспечивает игроку
максимальный выигрыш? НЕТ!
Пусть оба кафе устанавливают цену на комплексный обед, и
цена может либо 200 руб., либо 300 руб. Пусть всего в кафе идут
1000 студентов, и если цена одинакова в обоих кафе, то студенты
делятся поровну. Если же цены разные, то студенты
предпочитают более дешевое кафе (предположим, что проблемы
очередей нет).
Теперь стратегий у каждого игрока две – 200 руб. или 300 руб.
Таблица 6. Платежная
матрица (в тыс. руб)
Открытое
200
300
Толстяк
200
(100,100)
(200,0)
300
(0,200)
(150,150)
19
Стратегия «200 руб.» является доминантной для игрока 1. Но
выбор доминантной стратегии не гарантирует максимально
возможного выигрыша: если «Толстяк» и «Открытое
кафе»устанавливают цену обеда 200 руб., выигрыш «Толстяка»
составляет 100 тыс.руб.
Если оба кафе выбирают не доминантную стратегию «300 руб.»,
выигрыш «Толстяка» составляет 150 тыс.руб., что больше, чем
доход при выборе доминантной стратегии.
Если при выборе « Толстяком» не доминантной стратегии «300
руб.», «Открытое»кафе выберет доминантную стратегию
«200руб.», то выигрыш «Толстяка» будет равен нулю.
Выбор доминантной стратегии позволяет не увеличить
возможный выигрыш, а лишь уменьшить возможный
проигрыш!
20
Понятие равновесия игры
Равновесием в нашей игре с двумя участниками (такие игры
называют играми двух лиц) называется такая пара стратегий, что
игрокам, после того, как они выбрали свои стратегии, не будет
выгодно их менять.
Таблица 6. Платежная матрица (в тыс. руб)
Открытое
200
300
Толстяк
200
(100,100)
(200,0)
300
(0,200)
(150,150)
Рассмотрим платежную матрицу, приведенную в Табл.6. Здесь у каждого игрока есть
доминантная стратегия 200 руб. и, выбрав ее, игрокам нет смысла менять этот выбор.
Действительно, если «Толстяк» меняет свою стратегию на 300 руб., то «Открытое» кафе,
сохраняя свою доминантную стратегию, получит всех клиентов.
21
То же относится и к изменению стратегии «Открытым» кафе.
Дилемма заключенного
У каждого игрока есть две стратегии – сознаться (С) и не
сознаваться (Н). Рассмотрим платежную матрицу этой игры.
Таблица 7. Платежная матрица игры «Дилемма заключенного»
2-й игрок
1-й игрок
С
Н
С
Н
(8,8)
(10,2)
(2,10)
(3,3)
Предположим, что сначала преступники решили не
сознаваться, т.е. стратегии имеют вид {Н,Н}. Тогда оба получат
по три года, и первый из преступников может думать так: если
второй не сознается, а я сознаюсь, то я получу всего 2 года.
Если же я не сознаюсь, а подельник сознается, то я получу все
10 лет. Но так может думать и второй преступник, что приведет к
22
выбору стратегий {С,С} и к срокам 8 лет каждому.
Парето - оптимальность
• Будем говорить, что набор стратегий (S, T) лучше, чем
набор стратегий (S, T) если либо
• S < S и T  T
• или
• S  S и T < T
• Набор (S, T) называется недоминируемым, или Парето –
оптимальным, если не существует другого набора
стратегий лучшего, чем (S, T).
Недоминируемые исходы составляют множество Парето –
оптимальных, или эффективных, исходов.
23
В игре «Дилемма заключенного» каждый из игроков стремится
минимизировать значение исхода (срок тюремного заключения). В
игре «Выбор меню» участники, естественно, должны
максимизировать платежи.
Мы предполагаем рациональное поведение участников: они всегда
ведут себя таким образом, чтобы максимально улучшить свое
состояние.
24
Условие отсутствия сожаления
Таблица 7. Платежная матрица игры «Дилемма заключенного»
2-й игрок
1-й игрок
С
Н
С
Н
(8,8)
(10,2)
(2,10)
(3,3)
Сначала преступники выбирают стратегии {Н,Н}.
Тогда 1- й игрок будет сожалеть о таком выборе, т.к.если он выберет стратегию С, то
получит 2 года. 2- ой игрок будет сожалеть о таком выборе по той же причине.
Предположим, что преступники выбрали стратегии {С,Н}. Тогда, очевидно, 2- ой
игрок будет сожалеть о своем выборе, т.к., сменив стратегию, он может получить 8 лет
вместо 10. В силу симметрии аналогичные соображения можно применить к стратегии
{Н,С}.
Получается, что единственной стратегией, выбрав которую оба игрока не
испытывают сожаления, является стратегия {С,С} с платежом (8,8). Действительно,
если 1- ый игрок сменит стратегию на Н, то платеж будет (10,2); если 2- ой игрок сменит
стратегию, то платеж будет (2,10).
Набор стратегий, который, будучи выбран, не вызывает сожаления игроков, 25
называется равновесием Нэша.
Набор стратегий {С,С} в игре «Дилемма заключенного»
является равновесием Нэша в чистых стратегиях.
Заметим, что исход, соответствующий этому равновесию, не
является Парето - оптимальным, т.к. исход (3,3),соответствующий
набору стратегий {Н,Н} его доминирует.
Итак, если в игре у обоих игроков есть доминантные стратегии,
то их надо выбирать.
Если у одного игрока есть доминантная стратегия, а у другого нет, то
первый выберет свою доминантную стратегию, а второй наилучший
ответ на нее.
Наконец, если ни у одного игрока нет доминантной стратегии, то,
казалось бы, надо найти равновесие Нэша.
26
Джон Нэш (1928-2015)- великий американский
математик, лауреат Нобелевской премии по
экономике 1994г. Имеет фундаментальные работы
в теории игр, теории торга, в алгебре.
Мы знаем о его жизни из книги Сильвии Насар
«Игры разума»(“The beautiful mind”) и
одноименного фильма.
27
Существуют игры, в которых равновесий Нэша может быть
много.
Рассмотрим следующую игру: два игрока должны поделить1000$,
стратегии состоят в том, что каждый называет свою долю, сколько он
хочет получить. Если сумма долей равна 1 , то деньги делятся между
ними в той пропорции, как они предложили. Если же сумма долей не
равна 1, то игроки ничего не получают.
Например, если 1- ый игрок называет долю 2/3, то 2- ой игрок
должен согласиться получить 1/3 суммы либо же никто ничего не
получит. Соответственно, если 2- ой назовет, например, долю 7/8, то
1- ый игрок либо должен будет согласиться на 1/8, либо же оба ничего
не получат.
Нетрудно видеть, что любой набор стратегий (q, 1-q) в этой игре
является равновесием Нэша.
28
Есть игры, в которых равновесия Нэша нет!
Стратегия 2-1
Стратегия 2-2
Стратегия 1-1
(1,2)
(2,1)
Стратегия 1-2
(2,1)
(1,2)
29
Рафаэль Cабатини «Одиссея капитана Блада»
Испанцы
Пушки
обстреливают
сушу
Пираты
Пушки
обстреливают
пролив
Напасть
с моря
Напасть
с суши
Таблица 8. Платежная матрица игры
Испанцы
Пираты
Атака с моря
Атака с суши
Нацелить
пушки на
море
Нацелить
пушки на
сушу
(0,10)
(10,0)
(10,0)
(0,10)
30
Гонка вооружений
•
•
•
•
•
•
•
•
Благодаря торговле со страной C, каждая
страна А и В имеют прибыль $100. Если
C присоединяется к одной из стран, то
прибыль этой страны возрастает до $275.
Вооружения стоят $75.
4 возможности:
A тратит $75 на вооружения, B не тратит;
исход: C присоединяется к A
В тратит $75 на вооружения, А не тратит;
исход: C присоединяется к В
A тратит $75 и В тратит $75; исход:
ничего не меняется
Ни A, ни В ничего не тратят; исход:
ничего не меняется
2 c.
$75
2 c.
$0
1 с. $75
(100,100)
(275, 0)
1 c. $0
(0,275)
(100, 100)
Проблема доверия: гонка вооружений
происходит, потому что ни одна из стран
не доверяет другой. Это объясняет,
почему проблема взаимного контроля
оказывается такой болезненной.
31
Спасибо за внимание!
32
Два равновесия Нэша
Пример. Игра «Семейный конфликт»
Семейная пара выбирает, как провести воскресенье. Муж
предпочитает футбол, жена – театр. Они могут провести вечер порознь,
но это решение для них менее предпочтительно, чем решение провести
вечер вместе.
Табл. 10. Платежная матрица игры «Семейный конфликт»
Жена
Муж
Т
Ф
Т
(1,2)
(0,0)
Ф
(0,0)
(2,1)
Два равновесия Нэша – {ТТ} и {ФФ}
33
Пример. Игра «Цыпленок»
Двое молодых людей мчались навстречу друг другу на своих автомобилях.
Тот из игроков, кто не выдерживал вида мчащегося на него автомобиля и
сворачивал, считался «цыпленком».
Итак, два игрока – водители 1 и 2 (В1 и В2) имеют две стратегии –
держаться до конца (Д), отвернуть (О).
Платежная матрица игры может быть записана следующим образом
Табл. 9. Платежная матрица игры «Цыпленок»
В2
В1
О
Д
О
(1,1)
(0,10)
Д
(10,0)
(-10,-10)
Ситуация с двумя равновесиями Нэша – {ОД} и {ДО}
34
Пример: Финансирование предвыборной
кампании
Пусть в городе живут 1000 избирателей. Избиратели из м/р 1 работают на фабрике
и являются акционерами фабрики.
Избиратели из м/р 2 работают в парке и ресторанах ниже по течению реки.
Предположим мы выбираем мэра и есть два кандидата – один из м/р 1 и второй
– из м/р 2.
Кандидат из м/р 2 предлагает в своей программе построить очистительную систему
для фабрики стоимостью в $50,000, причем эта сумма должна быть выплачена
акционерами фабрики – каждый заплатит $100.
Кандидат из м/р 1 предлагает построить систему очистки за счет жителей м/р 2, т.к.
они используют полученное преимущество. В этом случае каждый житель м/р 2
заплатит $100.
Пусть правило голосования – простое большинство. Если голоса распределились
поровну, то мэр будет выбран случайным механизмом.
Предположим в м/р 1 избиратели готовы потратить деньги за поддержку своего
кандидата, например, $30,000. Тогда они заплатят по $60 на человека, но
платить за очистные сооружения будут избиратели м/р 2.
Аналогичное рассуждение верно и для избирателей м/р 2.
35
Платежная матрица для этого примера
2-й м/р
Финансир
2-й м/р
Не финансир
1-й м/р
Финансир
(-60,-60)
(40,-100)
1-й м/р
Не финансир
(-100,40)
(0,0)
36
Опера Пуччини «Тоска»
Начальник полиции Скарпиа приговорил возлюбленного Тоски,
Каварадосси, к смертной казни, но предлагает Тоске спасти его в
обмен на благосклонность Тоски.
Рассмотрим стратегии Тоски
т1) согласиться;
т2) обмануть Скарпиа и убить его, когда он придет к ней.
Стратегии Скарпиа
с1) поверить Тоске;
с2) отдать приказ убить Каварадосси.
37
Какие исходы имеют выбранные стратегии:
т1)-с1) Тоска рада, что ее возлюбленный жив, Скарпиа рад женитьбе
на Тоске, однако, его радость не полна - Каварадосси жив, а Тоска, он
знает, любит его;
т1)-с2) Тоска теряет все – она замужем за убийцей своего
возлюбленного. Скарпиа получает все, что хотел;
т2)-с1) Скарпиа теряет все, Тоска получает все;
т2)-с2) Тоска теряет Каварадосси, Скарпиа теряет Тоску.
Рассмотрим предпочтения на альтернативах
Тоска
4
т2) – с1)
3
т2) – с2)
2
т1) – с1)
1
т1) – с2)
Скарпиа
4
т1) – с2)
3
т2) – с2)
2
т1) – с1)
1
т2) – с1)
38
.
Тоска
4
т2) – с1)
3
т2) – с2)
2
т1) – с1)
1
т1) – с2)
Скарпиа
4
т1) – с2)
3
т2) – с2)
2
т1) – с1)
1 т2) – с1)
Скарпиа
с1
С2
Т1
(2,2)
(1,4)
т2
(4,1)
(3,3)
39
Поскольку Тоска действительно любит Каварадосси, она
предпочтет брак с нелюбимым человеком, чем смерть
возлюбленного, т.е. для нее исход т1)-с1) предпочтительнее
исхода т2)-с2). Поскольку Скарпиа действительно хочет, чтобы
Тоска вышла за него замуж, пусть даже Каварадасси будет жить,
для него исход т1)-с1) предпочтительнее исхода т2)-с2)
Тогда истинные предпочтения участников выглядят следующим
образом
Тоска
4
т2) – с1)
3
т1) – с1)
2
т2) – с2)
1
т1) – с2)
Скарпиа
4 т1) – с2)
3 т1) – с1)
2 т2) – с2)
1 т2) – с1)
40
Тоска
4
т2) – с1)
3
т1) – с1)
2
т2) – с2)
1
т1) – с2)
.Скарпиа
4
3
2
1
т1) – с2)
т1) – с1)
т2) – с2)
т2) – с1)
Скарпиа
S1
s2
t1
(3,3)
(1,4)
t2
(4,1)
(2,2)
41
Download