Uploaded by m_uolter

Задачи и краткие решения. Теория игр.

ФИО_____________________________ группа________
ряд_____место_______
Экзаменационная работа по курсу
«Теория игр и экономическое моделирование», 2009 год
Время выполнения: 2 часа 50 минут.
Можно пользоваться только чистой бумагой и ручкой.
Мобильные телефоны и компьютеры должны быть выключены.
Выходить из аудитории во время экзамена нельзя.
Ничего передавать друг другу и переговариваться нельзя.
За любые нарушения правил следует удаление без дополнительных предупреждений.
Желаю успехов в самостоятельном решении задач!
Задача 1. Государственные субсидии инноваций. Есть две страны i = 1, 2 и в каждой по одной
фирме, которые производят на экспорт для продажи на мировом рынке однородный продукт. Цена
спроса на этот продукт на мировом рынке определяется по формуле p(Q) = a − Q , где Q = q1 + q2
– суммарный выпуск продукта в странах 1 и 2. Затраты в стране i на выпуск qi до инноваций
4
a  c  a . Обозначим государственные субсидии на инновации
9
в стране i через xi . Эти субсидии приводят к новой функции затрат: Ci (qi , xi ) = (c − xi )qi .
1 2
Затраты государства на субсидии равны TCi ( xi ) = xi .
2
равны C ( qi ) = c  qi , причем 0 
События развиваются последовательно в два этапа.
(1) Государства одновременно и независимо выбирают уровни субсидий xi  0 .
(2) Зная уровни субсидий обоих государств, фирмы одновременно и независимо выбирают уровни
выпуска qi  0 .
Выигрыш фирмы равен  i (q1 , q2 , x1 , x2 ) = p(Q)qi − Ci (qi , xi ) .
Выигрыш государства равен Wi (q1 , q2 , x1 , x2 ) =  i (q1 , q2 , x1 , x2 ) − TC ( xi ) .
(а) При заданных уровнях субсидий ( x1 , x2 ) найдите равновесие Нэша (РН) для фирм на этапе 2, а
также выигрыши фирм и государств в этом РН.
 i (q1 , q2 , x1 , x2 ) = (a − qi − q j )qi − (c − xi )qi = (a − c + xi − q j − qi )qi , поэтому наилучший ответ
из условий первого порядка достигается в точке Ri (q j ) =
a − c + xi − q j
2
, если только эта величина
неотрицательна. Иначе наилучший ответ соответствует нулевому выпуску. Решая систему
уравнений для РН qi0 = R (q 0j ), i = 1, 2, j = 3 − i , получаем РН в подыгре при субсидиях ( x1 , x2 ) :
qi ( x1 , x2 ) =
a − c + 2 xi − x j
3
, i = 1, 2, j = 3 − i .
Выигрыши в этом РН равны
 a − c + 2 xi − x j 
 i ( x1 , x2 ) = 
 , i = 1, 2, j = 3 − i ,
3


2
 a − c + 2 xi − x j  xi2
Wi ( x1 , x2 ) = 
 − , i = 1, 2, j = 3 − i .
3
2


2
(б) Найдите совершенное по подыграм равновесие Нэша в соответствующей динамической игре
государств и фирм.
4 1
 , то максимум Wi ( x1 , x2 ) по xi  0 можно найти из условий первого порядка:
9 2
Bi ( x j ) = 4(a − c − x j ) . Решая систему уравнений qi0 = R(q 0j ), i = 1, 2, j = 3 − i , для СПРН находим
Поскольку
субсидии xi =
4(a − c)
, i = 1, 2 .
5
Строго говоря, еще нужно проверить случаи несимметричного СПРН, когда одна из стран
устанавливает госмонополию, вытесняя с рынка другую страну. Легко посчитать, что при
госмонополи одной страны оптимальные субсидии равны (a − c) / 2 . Однако для вытеснения
другой страны с рынка ( q j ( x1 , x2 )  0) нужны субсидии своей фирме не меньше (a − c) . Значит,
таких РН в данном случае не существует.
Задача 2. Синергетические отношения. Усилия ei  0 каждого двух индивидов i = 1, 2 в рамках
некоторого совместного дела влияют на выигрыши друг друга:
ui (ei , e j ) = ei (e j − ei ) + e j , где j = 3 − i .
(а) Найдите РН в этой игре и выигрыши игроков в нем.
Смысл функции выигрыша: два лентяя в одном проекте. Каждому приятно видеть, как работает
другой, а если уж придется поработать самому, то желательно получить удовольствие, что другой
работает больше на каждую единицу своих усилий.
Легко понять, что наилучший ответ есть половина усилий другого, поэтому единственное РН
соответствует нулевым усилиям. Естественное равновесие для двух лентяев.
(б) Рассмотрим теперь соответствующую бесконечно повторяющуюся игру G(,  ) с
коэффициентом дисконтирования 0    1 . Обозначим через e 0 индивидуальные усилия в РН
статической игры (из пункта (а)). Рассмотрим следующую релейную стратегию, зависящую от
выбранного уровня усилий k : прикладывать усилие k в первом повторении и потом, пока во всех
предыдущих повторениях другой индивид также прикладывает усилие k , а иначе переходить на
усилия e 0 . При каких  в зависимости от k профиль таких релейных стратегий образует СПРН в
бесконечно повторяющейся игре G(,  ) ?
Если оба прикладывают усилия k , то выигрыш для обоих равен k в каждом повторении. При
k2
наилучшем отклонении в одном повторении, работая в пол-силы, получишь
+ k , но потом
4
будешь все время получать нули по определению релейной стратегии, поскольку e0 . В итоге,
условие невыгодности отклонения сведется к неравенству
k
k
k
 k ( + 1)   
.
1− 
4
k +4
(в) Изобразите графически профили (пары) выигрышей игроков в СПРН, основанных на данных
релейных стратегиях.
!!! Следует напомнить, что в игре G(,  ) можно считать Vi текущую стоимость платежей в
повторениях, а можно выигрыш U i = (1 −  )Vi (см. стр. 90 учебника). Нормировка делается для
того, что выигрыши в исходной игре G и в повторяющейся игре G(,  ) были бы сопоставимы.
Так, если для данного СПРН игроки в каждом повторении получают по k , то это означает, что
выигрыши в G(,  ) у них будут тоже по U i = k .
k
 1 при любом неотрицательном k , то и при любом уровне усилий k
k +4
существует СПРН с выигрышами k для обоих в каждом повторении, а значит с профилем
выигрышей U = (U1 , U 2 ) = (k , k ) . Таким образом, множество всех профилей выигрышей для
Поскольку 0 
релейных симметричных СПРН составляет биссектрису первого квадранта. Благодаря СПРН в
повторяющейся игре лентяи могут прийти устойчивому соглашению, позволяющему взмыть хоть
до небес...
Задача 3. Сигнальная реклама. Компания «Глоток» представляет новый напиток типичному
потребителю. Напиток может быть Хорошим или Плохим. Априорная вероятность Хорошего
напитка равна 0.6. Зная, каким получился новый напиток, компания выбирает уровень рекламы:
массированная реклама с затратами c или минимальная реклама с нулевыми затратами. Наблюдая
уровень рекламной активности, но, не зная качества нового напитка, типичный потребитель
решает, покупать ли ему этот продукт. С учетом цены на продукт будем считать, что выигрыш
потребителя от покупки равен +1, если напиток Хороший, и −1 , если Плохой. Если потребитель
не купит напиток, то его выигрыш равен 0. Если напиток Хороший и типичный потребитель купит
его, то фирму ожидает большой доход R . Если напиток Плохой, но типичный потребитель его
все-таки купит, то фирму ожидает меньший доход r . Если типичный потребитель не купит
напиток, то доход компании равен 0. Предполагается, что o  r  c  R .
(а) Сформулируйте соответствующую сигнальную игру и изобразите ее графически.
(R-c,1)
[ p]
(-с,0)
(-с,0)
Акт
Хор
Г
Н
П
(r-c,-1)
(R,1)
К
К
[q]
Пас
(0,0)
0.6
Н
П
0
0.4
К
К
(r,-1)
Г
Н
[1 − p]
Акт
Плох
Пас
[1 − q]
Н
(0,0)
(б) Найдите выявляющее совершенное байесовское равновесие (СБР) в этой игре.
Есть два кандидата на СБР: искреннее или лживое.
В искреннем СБР «Глоток» активно рекламирует Хороший напиток и пассивно – Плохой.
Автоматически p = 1, q = 0 . На активную рекламу потребитель отвечает покупкой, а на
пассивную – отказом. «Глотку» не выгодно отклоняться ни при каком качестве напитка. Получили
искреннее СБР.
В лживом СБР «Глоток» активно рекламирует Плохой напиток и активно Хороший. Значит,
p = 0, q = 1 . Потребитель покупает при пассивной рекламе и не покупает при активной. Но
«Глотку» при плохом напитке выгодно отклониться на пассивную рекламу, чтобы получить r  0 .
Значит, лживого СБР при данных параметрах нет.
(в) Найдите скрывающее СБР в этой игре.
Есть два потенциальных скрывающих СБР: с активной или пассивной рекламой, независимо от
качества напитка.
При активной рекламе p = 0.6 . Ожидаемый выигрыш от покупки равен 0.2, что больше 0,
поэтому при активной рекламе потребитель покупает напиток. Однако эту конструкцию нельзя
продлить до СБР. По условию r − c  0 , поэтому в случае Плохого напитка «Глотку» более
выгодна пассивная реклама, которая дает неотрицательный выигрыш.
При пассивной рекламе q = 0.6 . Ожидаемый выигрыш от покупки для потребителя снова
равен 0.2, поэтому он покупает. Отклоняться в сторону активной рекламы «Глотку» не выгодно
при любом p и любой реакции потребителя на активную рекламу. Получили СБР.
(г) Найдите СБР, если вероятность Хорошего напитка равна 0.4.
На выявляющие СБР такое изменение не влияет. Искреннее СБР сохраняется.
В скрывающих равновесиях теперь потребитель не будет покупать напиток, поскольку его
ожидаемый выигрыш от покупки равен -0.2.
При активной рекламе, достроить скрывающее СБР нельзя, поскольку при Плохом напитке
«Глотку» выгодна пассивная реклама: −c  0  r .
При пассивной рекламе нужно, чтобы потребитель не хотел купить напиток также и при
активной рекламе. Тогда «Глоток» не будет отклоняться при Хорошем напитке. Этого можно
достигнуть при p  0.5 . Итак, получили нулевое (пассивная реклама и нет покупок) скрывающее
СБР. Ненулевых СБР в этом случае нет.
(д) Найдите СБР, если o  c  r  R , а вероятность Хорошего напитка равна 0.6.
Теперь искреннее выявляющее СБР вылетает, поскольку «Глотку» становится выгодным при
Плохом напитке использовать активную рекламу: r − c  0 . Лживое СБР нет по нем же причинам,
что и раньше: при плохом качестве выгодно переходить на пассивную рекламу .
Возникает скрывающее СБР с активной рекламой при q  0.5 . Скрывающее СБР с пассивной
рекламой теперь получается при любом p , поскольку потребитель будет покупать и при
пассивной рекламе, а переходить на активную рекламу «Глотку» нет смысла.
Задача 4. Как ставить оценки? Имеются преподаватель и студент. Преподаватель знает, что
студенты бывают двух типов H и L. Студент знает свой тип, а преподаватель нет. Известно, что
априорная вероятность типа H равна  [0,1] . События развиваются в следующем порядке.
• Преподаватель устанавливает границу  [0,100] в очках для положительной оценки.
• Зная свой тип и эту границу, студент решает, выбрать ли этот предмет в качестве
альтернативного курса или нет.
• Если студент не выбрал этот курс, то преподаватель получает 0, а студент – величину Wt , где
t {H , L} тип студента, причем 0  WL  WH  100 .
• Если студент выбрал данный курс, то он определяет уровень усилий e по его освоению и сдает
экзамен. На экзамене студент типа L получает s = e очков, а студент типа H получает s = 2e .
• Студент получает положительную оценку, если s   . В этом случае его выигрыш считается
равным 100 − e / 2 . В противном случае выигрыш студента равен −e / 2 . Выигрыш
преподавателя в любом случае считается равным e .
(а) Рассмотрим престижное учебное заведение с высокими стандартами, в котором  велико, а
WH не очень велико, например,  = 0.9 , WL = 70, WH = 80 . Найдите СБР.
Начнем с конца. Зная  и свой тип, студент будет сравнивать выигрыш от сдачи на
положительную оценку с минимальными достаточными для этого усилиями с альтернативным
выигрышем. Студенту H достаточно приложить  / 2 усилий, чтобы сдать экзамен и получить
выигрыш 100 −  / 4 . Студенту L потребуется  усилий, что соответствует выигрышу 100 −  / 2 .
Студенту H выберет курс при условии 100 −  / 4  WH    4(100 − WH ) =  H = 80 .
Студенту L выберет курс при условии 100 −  / 2  WL    2(100 − WL ) =  L = 60   H .
Если   60 , то придут как H, так и L. Выигрыш преподавателя в этой зоне равен


2
+ (1 −  ) . Эта величина возрастает по  и достигает своего максимального значения 33 при
 =  L = 60 . При  L     H придет только H. Выигрыш преподавателя в этой зоне 

2
достигает максимального значения 36 при  =  H = 80 . Осталось сравнить эти значения
выигрышей преподавателя: 36 > 33. Итак, в СБР выбирать курс будут только H, набирая на
экзамене 80 очков.
(б) Рассмотрим престижное учебное заведение с «испорченными» молодыми людьми, в котором
велики  и WH , например,  = 0.9 , WL = 70, WH = 90 . Найдите СБР.
При этих условиях границы пересекаются иначе  H = 40   L = 60 , поэтому при   40
придут и H, и L, а при

H
2
40    60 останутся только L. Теперь нужно сравнивать
+ (1 −  ) H = 22 и (1 −  ) L = 6 . В СБР будут и H, и L при проходном уровне очков на
экзамене, равном 40 .
(в) Рассмотрим посредственное учебное заведение, в котором  и WH малы, например,  = 0.5 ,
WL = 70, WH = 80 . Найдите СБР.
В этом случае  H = 80   L = 60 , как и в (а), но теперь сравнение 

H
2
L
2
+ (1 −  ) L = 45 и
= 20 в пользу  = 60 . В СБР на экзамене присутствуют и H, и L при границе очков 60.
(г) Предположив одинаковое значение WL , проранжируйте экзаменационные очки s в случаях
(а), (б), (в).
Итак, граница очков на положительную оценку самая высокая в случае (а), а самая низкая в
случае (б). В случаях (б) и (в) в курсе участвуют оба типа. Причины разные. В случае (б) тип L
отфильтровать не возможно, а в случае (в) – не выгодно.
(д) Приведите условия на параметры модели, чтобы свойства СБР в случаях (а), (б), (с)
сохранились.
Полное исследование зависимости от параметров не приводится.