Министерство образования и науки Российской Федерации ФГБОУ ВПО «Уральский государственный лесотехнический университет» Институт экономики и управления Кафедра Информационных технологий и моделирования Г.Л.Нохрина ТЕОРИЯ ИГР Курс лекций ЕКАТЕРИНБУРГ 2015 г. Теория игр. Курс лекций. Математические модели теории игр На практике часто приходится сталкиваться с задачами, в которых необходимо принимать решения в условиях неопределенности, т.е. возникают ситуации, в которых две стороны преследуют различные цели и результаты действия каждой из сторон зависят от мероприятий противника (или партнера). Ситуация, в которой эффективность принимаемого одной стороной решения зависит от действий другой стороны, называется конфликтной. Конфликт всегда связан с определенного рода разногласиями (это не обязательно антагонистическое противоречие). Конфликтная ситуация называется антагонистической, если увеличение выигрыша одной из сторон на некоторую величину приводит к уменьшению выигрыша другой стороны на такую же величину, и наоборот. В экономике конфликтные ситуации встречаются очень часто и имеют многообразный характер. Например, взаимоотношения между поставщиком и потребителем, покупателем и продавцом, банком и клиентом. Каждый из них имеет свои интересы и стремится принимать оптимальные решения, помогающие достигнуть поставленных целей в наибольшей степени. При этом каждому приходится считаться не только со своими целями, но и с целями партнера и учитывать решения, которые эти партнеры будут принимать (они заранее могут быть неизвестны). Чтобы в конфликтных ситуациях принимать оптимальные решения, создана математическая теория конфликтных ситуаций, которая называется теорией игр. Возникновение этой теории относится к 1944 г., когда была издана монография Дж. фон Неймана «Теория игр и экономическое поведение» Игра – это математическая модель реальной конфликтной ситуации. Стороны, участвующие в конфликте, называются игроками. Исход конфликта называется выигрышем. Правила игры – это система условий, определяющая варианты действий игроков; объем информации каждого игрока о поведении партнеров; выигрыш, к которому приводит каждая совокупность действий. Игра называется парной, если в ней участвуют два игрока, и множественной, если число игроков больше двух. Мы будем рассматривать только парные игры. Игроки обозначаются A и B. Игра называется антагонистической (с нулевой суммой), если выигрыш одного из игроков равен проигрышу другого. Выбор и осуществление одного из вариантов действий, предусмотренных правилами, называется ходом игрока. Ходы могут быть личными и случайными. Личный ход – это сознательный выбор игроком одного из вариантов действий (например, в шахматах). Случайный ход – это случайно выбранное действие (например, бросание игральной кости). Мы будем рассматривать только личные ходы. Составитель - Нохрина Г.Л. 2 Теория игр. Курс лекций. Стратегия игрока – это совокупность правил, определяющих поведение игрока при каждом личном ходе. Обычно в процессе игры на каждом этапе игрок выбирает ход в зависимости от конкретной ситуации. Возможно также, что все решения приняты игроком заранее (т.е. игрок выбрал определенную стратегию). Игра называется конечной, если у каждого игрока имеется конечное число стратегий, и бесконечной – в противном случае. Цель теории игр – разработать методы для определения оптимальной стратегии каждого игрока. Стратегия игрока называется оптимальной, если она обеспечивает этому игроку при многократном повторении игры максимально возможный средний выигрыш (или минимально возможный средний проигрыш независимо от поведения противника). Раздел Теория игр представлен тремя онлайн-калькуляторами: Решение матричной игры. В таких задачах задана платежная матрица. Требуется найти чистые или смешанные стратегии игроков и, цену игры. Для решения необходимо указать размерность матрицы и метод решения. Биматричная игра. Обычно в такой игре задают две матрицы одинакового размера выигрышей первого и второго игроков. Строки этих матриц соответствуют стратегиям первого игрока, а столбцы матриц – стратегиям второго игрока. При этом в первой матрице представлены выигрыши первого игрока, а во второй матрице – выигрыши второго. Игры с природой. Используется, когда необходимо выбрать управленческое решение по критериям Максимакса, Байеса, Лапласа, Вальда, Сэвиджа, Гурвица. Пример 1. Каждый из игроков, A или B , может записать, независимо от другого, цифры 1, 2 и 3. Если разность между цифрами, записанными игроками, положительна, то A выигрывает количество очков, равное разности между цифрами. Если разность меньше 0, выигрывает B. Если разность равна 0 – ничья. У игрока A три стратегии (варианта действия): A1= 1 (записать 1), A2= 2, A3= 3, у игрока тоже три стратегии: B1, B2, B3. B A B1= 1 B2= 2 B3= 3 A1 = 1 0 -1 -2 A2= 2 1 0 -1 A3= 3 2 1 0 Задача игрока A – максимизировать свой выигрыш. Задача игрока B – минимизировать свой проигрыш, т.е. минимизировать выигрыш A. Это парная игра с нулевой суммой. Игровые модели в экономике Составитель - Нохрина Г.Л. 3 Теория игр. Курс лекций. Основные понятия теории игр В экономической практике часто имеют место конфликтные ситуации. Игровые модели - это, в основном, упрощенные математические модели конфликтов. В отличие от реального конфликта игра ведѐтся по четким правилам. Для моделирования конфликтных ситуаций разработан специальный аппарат - математическая теория игр. Стороны, участвующие в конфликте, называются игроками. Каждая формализованная игра (модель) характеризуется: 1. количеством субъектов - игроков, участвующих в конфликте; 2. вариантом действий для каждого из игроков, называемых стратегиями; 3. функциями выигрыша или проигрыша (платежа) исхода конфликта; Игра, в которой участвуют два игрока A и B называется парной. Если же количество игроков больше двух, то это игра множественная. Мы будем рассматривать модели только парных игр. Игра, в которой выигрыш одного из игроков точно равен проигрышу другого, называется антагонистической игрой или игрой с нулевой суммой. С рассмотрения моделей антагонистических игр мы и начнѐм. Смоделировать (решить) антагонистическую игру - значит, для каждого игрока указать стратегии, удовлетворяющие условию оптимальности, т.е. игрок A должен получить максимальный гарантированный выигрыш, какой бы своей стратегии не придерживался игрок B, а игрок B должен получить минимальный проигрыш, какой бы своей стратегии не придерживался игрок A. Оптимальные стратегии характеризуются устойчивостью, то есть ни одному из игроков не выгодно отклоняться от своей оптимальной стратегии. Примечание. Различают игры кооперативные и некооперативные, с полной информацией и не полной. В игре с полной информацией перед каждым ходом каждый игрок знает все возможные ходы (стратегии поведения) и выигрыши. В кооперативных играх допускается возможность предварительных переговоров между игроками. Мы будем рассматривать некооперативные игры с полной информацией. Математическая теория игр является разделом математики, изучающей принятие решений в конфликтных ситуациях. Определим основные понятия теории игр. Игра – упрощенная формализованная модель конфликтной ситуации. Игрок – одна из сторон в игровой ситуации. В зависимости от постановки задачи, стороной может выступать коллектив или даже целое государство. Каждый игрок может иметь свои стратегии. Стратегией i-го игрока x2 называется одно из возможных решений из множества допустимых решений этого игрока. По количеству стратегий игры делятся на конечные, в которых число стратегий ограничено, и бесконечные, которые имеют бесконечно много различных стратегий. Составитель - Нохрина Г.Л. 4 Теория игр. Курс лекций. Каждый из n участников игры может выбирать свою стратегию. Совокупность стратегий x=x1,x2,…,xn, которые выбрали участники игры, называется игровой ситуацией. Оценить ситуацию x с точки зрения преследуемых ЛПР целей можно, построив целевые функции (или критерии качества), ставящие в соответствие каждой ситуации x числовые оценки f1(x),f2(x),…,fn(x) (например, доходы фирм в ситуации x или их затраты и т. д.). Тогда цель i– го ЛПР формализуется следующим образом: выбрать такое свое решение xi, чтобы в ситуации x=x1,x2,…,xn число fi(x) было как можно большим (или меньшим). Однако достижение этой цели от него зависит лишь частично, поскольку другие участники игры влияют на общую ситуацию x с целью достижения своих собственных целей (оптимизируют свои целевые функции). Значение целевой функции в той или иной игровой ситуации можно назвать выигрышем игрока в этой ситуации. По характеру выигрышей игры можно разделить на игры с нулевой и ненулевой суммой. В играх с нулевой суммой сумма выигрышей в каждой игровой ситуации равна нулю. Игры двух игроков с нулевой суммой называются антагонистическими. В этих играх выигрыш одного игрока равен проигрышу другого. В играх с ненулевой суммой в выигрыше или проигрыше могут оказаться все участники игры. По виду функции выигрышей игры можно разделить на матричные, биматричные, непрерывные, сепарабельные и т. д. Матричными играми называются конечные игры двух игроков с нулевой суммой. В этом случае номер строки матрицы соответствует номеру стратегии Ai игрока 1, а номер столбца – номеру стратегии Bj игрока 2. Элементами матрицы aij является выигрыш игрока 1 для ситуации (реализации стратегий) AiBj. В силу того, что рассматривается матричная игра с нулевой суммой, выигрыш игрока 1 равен проигрышу игрока 2. Можно показать, что всякая матричная игра с известной матрицей платежей сводится к решению задачи линейного программирования. Поскольку в прикладных задачах экономики и управления ситуации, сводящиеся к матричным играм, встречаются не очень часто, мы не будем останавливаться на решении этих задач. Биматричная игра – это конечная игра двух игроков с ненулевой суммой. В этом случае для каждой игровой ситуации AiBj каждый из игроков имеет свой выигрыш aij для первого игрока и bij– для второго игрока. К биматричной игре сводится, например, поведение производителей на рынках несовершенной конкуренции. Анализу этой проблемы посвящена тема 6 настоящего учебного пособия. По степени неполноты информации, которой обладают ЛПР, игры делятся на стратегические и статистические. Стратегические игры – это игры в условиях полной неопределенности. Составитель - Нохрина Г.Л. 5 Теория игр. Курс лекций. Статистические игры – это игры с частичной неопределенностью. В статистической игре всегда имеется один активный игрок, имеющий свои стратегии и цели. Другим игроком (пассивным, не преследующим своих целей) является природа. Этот игрок реализует свои стратегии (состояния природы) случайным образом, причем вероятность реализации того или иного состояния можно оценить с помощью статистического эксперимента. Поскольку с теорией статистических игр тесно связана теория принятия экономических решений, то в дальнейшем мы ограничимся рассмотрением только этого класса игр. Формализация игры. Матрица игры Пусть у игрока A есть m возможных ходов (стратегий) A1, A2,... Am, а у игрока B n возможных ходов (стратегий) B1, B2, ... Bn. Если игрок A сделает ход Ai, а игрок B сделает ход Bj, то эти ходы Ai и Bjоднозначно определяют исходы игры aij для игрока А и bij для игрока В. Полные наборы исходов игры записываются в виде платѐжных матриц размером mⅹn, стратегии игрока А соответствуют строкам матриц, а стратегии игрока В соответствуют столбцам матриц. В общем случае у каждого игрока своя платѐжная матрица и игра называется биматричной. Две матрицы могут быть преобразованы в одну - биматрицу, каждый элемент которой состоит из двух чисел, выигрыша игрока А и проигрыша игрока В. Поскольку мы ограничились рассмотрением антагонистическими играми, при которых выигрыш одного из игроков точно равен проигрышу другого, то на матрицы А и В налагается условие А + В = 0 (или А = - В, aij = - bij ). В этом случае можно ограничиться только одной матрицей - матрицей А. Такие игры называются матричными. Итак, математической моделью антагонистической игры является матричная игра с матрицей A, в которой ходы (стратегии) игрока A расположены по строкам, а ходы (стратегии) игрока B расположены по столбцам. В самой матрице записаны выигрыши игрока A при соответствующих ходах игроков A и B (отрицательный выигрыш - это проигрыш). ПРИМЕР 1. Рассмотрим антагонистическую игру, в которой участвуют два игрока, каждый из которых имеет две стратегии. Выигрыши каждого из игроков определены следующими правилами: если оба из игроков выбирают стратегии с одинаковыми номерами, то первый выигрывает одну условную единицу. Если игроки выбирают разные стратегии, то выигрывает второй игрок условную единицу. В этом случае платѐжная матрица имеет вид: Составитель - Нохрина Г.Л. 6 Теория игр. Курс лекций. А= ПРИМЕР 2. Игроки A и B играют в следующую игру. Игрок A записывает одно из чисел 6, 7, 9, а игрок B записывает одно из чисел 4, 5. Если сумма чисел четная, то это выигрыш игрока А. Если сумма чисел нечѐтная, то это выигрыш игрока В (проигрыш игрока А). Найти платѐжную матрицу игры А. Имеем три стратегии первого игрока. А1 = 6, А2 = 7, А3 = 9, В1 = 4, В2 = 5. Матрица игры: А= Оптимальные стратегии С платѐжной матрицей A = (aij) связано несколько основных понятий теории игр (игровых моделей). Определение 1. Нижней ценой игры V* называется величина, являющаяся максиминным значением платѐжной матрицы: V* = max min aij (сначала находится минимум в каждой строке, а затем из полученных минимумов находят максимум). Нижняя цена игры - это гарантированный выигрыш первого игрока А при любой стратегии игрока В. Определение 2. Верхней ценой игры V* называется величина, являющаяся минимаксным значением платѐжной матрицы: V* = min max aij (сначала находится максимум в каждом столбце, а затем из полученных максимумов находят минимум). Верхняя цена игры - это гарантированный проигрыш второго игрока B при любой стратегии игрока A. В силу того, что игра антагонистическая, всегда V* ≤ V*. Если V* = V* = V, то просто говорят о цене игры, такая игра называется вполне определѐнной, игрой с седловой точкой, поскольку значение элемента платѐжной матрицы, равное V = V* = V*является минимальным в своей строке и максимальным в своѐм столбце. Соответствующие этой цене игры стратегии называются оптимальными, поскольку второй игрок не может понизить нижнюю цену игры, а первый игрок не может повысить верхнюю цены игры. ПРИМЕР 3. Платѐжная матрица игры: А= . Составитель - Нохрина Г.Л. 7 Теория игр. Курс лекций. Определим, существует ли седловая точка. Для этого находим минимум в каждой строке матрицы. Минимальным числом в первой строке будет 3, во второй -- 4 и в третьей -- 2. Из полученных минимумов находим максимум: V* = max(3,4,2) = 4 Находим максимум в каждом столбце. Это числа 6, 7, 4 соответственно. Из полученных максимумов находим минимум: V* = min(6,7,4) = 4 Следовательно, исходя из данного выше определения цены игры, в данном случае цена игры V = V* = V* = 4, седловая точка существует, и это есть элемент платѐжной матрицы a23 = 4. Ей соответствуют единственная оптимальная стратегии - A2 первого игрока и единственная оптимальная стратегия - B3 второго игрока. В общем случае в игре может быть несколько седловых точек и, следовательно, несколько оптимальных стратегий (решений) игровой задачи. ПРИМЕР 4. Задана платѐжная матрица игры, необходимо найти оптимальное решение игры. А= Определим, существует ли седловая точка. Для этого находим минимумы в каждой строке матрицы. Минимальным числом в первой строке будет 1, во второй это 2 и в третьей тоже 2. Из полученных минимумов находим максимум: V* = max(1,2,2) = 2 Находим максимум в каждом столбце. Это числа 4, 2, 2 соответственно. Из полученных максимумов находим минимум: V*=min(4,2,2) = 2 Следовательно, исходя из данного выше определения цены игры, в данном случае цена игры V = V* = V* = 2. Ей соответствуют стратегии A2 , А4 первого игрока, и стратегии В2, B3второго игрока (так как a22= а23 = а32 = а33 = 2). Из приведѐнного анализа следует, что в рассматриваемой платѐжной матрице A существуют четыре седловых точек a22 , а23 , а32 , а33, поскольку каждый из этих элементов является минимальным элементом в своей строке и максимальным элементом в своѐм столбце. Данная игра будет иметь четыре оптимальных решения, которыми являются следующие пары стратегий: 2-я стратегия первого игрока и 2-я стратегия второго игрока, которым соответствует элемент а22; 2-я стратегия первого игрока и 3-я стратегия второго игрока, которым соответствует элемент а23; 3-я стратегия первого игрока и 2-я стратегия второго игрока, которым соответствует элемент а32; Составитель - Нохрина Г.Л. 8 Теория игр. Курс лекций. 3-я стратегия первого игрока и 3-я стратегия второго игрока, которым соответствует элемент а33. Данный пример иллюстрирует тот факт, что конечнаяантагонистическая игра может иметь множество оптимальных решений (множество пар оптимальных стратегий). ПРИМЕР 5. Задана платѐжная матрица игры A, необходимо найти решение игры. A= В данной игре V* = max (min aij)= 3aij V* = min (max aij) = 4 Поскольку V* < V* - выполняется соотношение строгого неравенства, следовательно, седловая точка в игре отсутствует,ситуации равновесия не существует. Очевидно, что для данной игры рассмотренный выше подход к нахождению оптимального решения неприменим, а максиминная и минимаксная стратегия игроков не являются решением игры. Приведѐнные выше примеры иллюстрируют тот факт, что антагонистические игры делятся на два класса: вполне определѐнные игры, т.е. те, в которых существуетседловая точка, ситуация равновесия и решение игры в чистых стратегиях; не вполне определенные игры, т.е. те, в которых не существует седловой точки, ситуации равновесия и решения игры в чистых стратегиях. Для не вполне определѐнных игр принцип решения в той форме, для которой он изложен для вполне определѐнных игр, неприменим. Нижняя и верхняя цена игры Найдем наилучшую стратегию игрока A, для чего проанализируем последовательно все его стратегии. Выбирая стратегию Ai, мы должны рассчитывать, что игрок B ответит на нее такой стратегиейBj, для которой выигрыш A будет минимальным. Поэтому среди чисел первой строки выбираем минимальное, обозначим его , запишем его в добавочный столбец. Аналогично для каждой стратегии Ai выбираем , т.е. αi – минимальный выигрыш при применении стратегии Ai. В примере 1: α1 = min {0, –1, –2} = –2; α 2 = min {1, 0, –1} = –1; α 3 = min {0, –1, –2} = 0. Эти числа запишем в добавочном столбце. Какую же стратегию должен выбрать игрок A? Конечно же, ту стратегию, для которой αiмаксимально. Обозначим . Это гарантированный выигрыш, который может обеспечить себе игрок A, т.е. ; этот выигрыш Составитель - Нохрина Г.Л. 9 Теория игр. Курс лекций. называется нижней ценой игры илимаксимином. Стратегия Ai, обеспечивающая получение нижней цены игры, называется максиминной (перестраховочной). Если игрок A будет придерживаться этой стратегии, то ему гарантирован выигрыш ≥α при любом поведении игрока B. В примере 1 . Это означает, что если A будет писать «3», то он хотя бы не проиграет. Игрок B заинтересован уменьшить выигрыш A. Выбирая стратегию B1, он из соображений осторожности учитывает максимально возможный при этом выигрыш A. Обозначим . Аналогично при выборе стратегии Bj максимально возможный выигрыш A– ; запишем эти числа в добавочной строке. Чтобы уменьшить выигрыш A, надо из чисел β j выбрать наименьшее . Число называется верхней ценой игры илиминимаксом. Это гарантированный проигрыш игрока B (т. е. он проиграет не больше, чем β). Стратегия игрока B, обеспечивающая выигрыш ≥ - β, называется его минимаксной стратегией. В примере 1: ; ; ; . Это означает, что оптимальная стратегия B – писать «3», тогда он хотя бы не проиграет. BA B1 B2 B3 A1 0 –1 –2 –2 A2 1 0 –1 –1 A3 2 1 0 0 2 1 0 00 Принцип, диктующий игрокам выбор наиболее «осторожных» минимаксной и максиминной стратегий, называется принципом минимакса. Этот принцип следует из разумного предположения, что каждый игрок стремится достичь цели, противоположной цели противника. Можно доказать, что , т. е. . В примере 1 α = β. Если , т.е. минимакс совпадает с максимином, то такая игра называется игрой с седловой точкой.Седловая точка – это пара оптимальных стратегий ( Ai, Bj). В примере 1 игра имеет седловую точку (А3, B3). В этом случае число Составитель - Нохрина Г.Л. 10 Теория игр. Курс лекций. α = β называется (чистой) ценой игры (нижняя и верхняя цена игры совпадают). Это означает, что матрица содержит такой элемент, который является минимальным в своей строке и одновременно максимальным в своем столбце. В примере 1 это элемент 0. Цена игры равна 0. Оптимальные стратегии в любой игре обладают важным свойством, а именно – устойчивостью. Это означает, что каждый из игроков не заинтересован в отходе от своей оптимальной стратегии, т. к. это ему невыгодно. Отклонение от оптимальной стратегии игрока А приводит к уменьшению его выигрыша, а одностороннее отклонение игрока В – к увеличению проигрыша. Говорят, что седловая точка дает положение равновесия. Пример 2. Первая сторона (игрок А) выбирает один из трех типов вооружения – А1, А2, А3, а противник (игрок В) – один из трех видов самолетов: В1, В2, В3. Цель В – прорыв фронта обороны, цельА – поражение самолета. Вероятность поражения самолета В1вооружением А1 равна 0,5, самолета В2 вооружением А1 равна 0,6, самолета В3 вооружением А1 равна 0,8 и т.д., т.е. элемент aijплатежной матрицы – вероятность поражения самолета В jвооружением Аi. Платежная матрица имеет вид: Вид самолета В В1 В2 В3 А1 0,5 0,6 0,8 А2 0,9 0,7 0,8 А3 0,7 0,5 0,6 А Тип вооружения Решить игру, т.е. найти нижнюю и верхнюю цену игры и оптимальные стратегии. Решение. В каждой строке находим минимальный элемент и записываем его в добавочном столбце. В каждом столбце находим максимальный элемент и записываем его в добавочной строке. ВА В1 В2 В3 αi А1 0,5 0,6 0,8 0,5 А2 0,9 0,7 0,8 0,7 А3 0,7 0,5 0,6 0,5 βj 0,9 0,7 0,8 0,7 0,7 Составитель - Нохрина Г.Л. 11 Теория игр. Курс лекций. В добавочном столбце находим максимальный элемент = 0,7, в добавочной строке находим минимальный элемент = 0,7. Ответ: = 0,7. Оптимальные стратегии – А2 и В2. Пример 3. Игра в орлянку. Каждый игрок при своем ходе может выбирать одну из двух стратегий: орел или решка. При совпадении выбранных стратегий А получает выигрыш +1, при несовпадении Bполучает выигрыш 1 (т. е. А получает выигрыш –1). Платежная матрица: В1 (орел) В2 (решка) А1 (орел) 1 -1 А2 (решка) -1 1 ВА Найти нижнюю и верхнюю цену игры. Имеет ли игра седловую точку? Решение. ВА В1 В2 А1 1 -1 -1 А2 -1 1 1 1 1 -1 1 α = -1, β = 1, т. е. А проиграет не больше 1, и B проиграет не больше 1. Так как α ≠ β, игра не имеет седловой точки. Положения равновесия в этой игре не существует, и оптимального решения в чистых стратегиях найти нельзя. Пример. Найдите нижнюю цену игру, верхнюю цену игры, определите седловые точки, оптимальные чистые стратегии и цену игры (если они существуют). Решение:xml 1. Проверяем, имеет ли платежная матрица седловую точку. Если да, то выписываем решение игры в чистых стратегиях. Считаем, что игрок I выбирает свою стратегию так, чтобы получить максимальный свой выигрыш, а игрок II выбирает свою стратегию так, чтобы минимизировать выигрыш игрока I. Игро B1 ки A1 A2 A3 Составитель - Нохрина Г.Л. -1 2 7 B2 B3 B4 3 3 1 -2 4 -5 1 -1 2 a= min( Ai) -2 -1 -5 12 Теория игр. Курс лекций. A4 b= max( Bi) -8 7 4 4 3 4 -1 2 -8 0 Находим гарантированный выигрыш, определяемый нижней ценой игры a = max(ai) = -1, которая указывает на максимальную чистую стратегию A2. Верхняя цена игры b = min(bj) = 2. Что свидетельствует об отсутствии седловой точки, так как a ≠ b, тогда цена игры находится в пределах -1 ≤ y ≤ 2. Находим решение игры в смешанных стратегиях. Объясняется это тем, что игроки не могут объявить противнику свои чистые стратегии: им следует скрывать свои действия. Игру можно решить, если позволить игрокам выбирать свои стратегии случайным образом (смешивать чистые стратегии). 2. Проверяем платежную матрицу на доминирующие строки и доминирующие столбцы. Иногда на основании простого рассмотрения матрицы игры можно сказать, что некоторые чистые стратегии могут войти в оптимальную смешанную стратегию лишь с нулевой вероятностью. Говорят, что i-я стратегия 1-го игрока доминирует его k-ю стратегию, если aij ≥ akj для всех j Э N и хотя бы для одного j aij > akj. В этом случае говорят также, что i-я стратегия (или строка) – доминирующая, k-я – доминируемая. Говорят, что j-я стратегия 2-го игрока доминирует его l-ю стратегию, если для всех j Э M aij ≤ ail и хотя бы для одного i aij < ail. В этом случае j-ю стратегию (столбец) называют доминирующей, l-ю – доминируемой. В платежной матрице отсутствуют доминирующие строки. В платежной матрице отсутствуют доминирующие столбцы. Так как игроки выбирают свои чистые стратегии случайным образом, то выигрыш игрока I будет случайной величиной. В этом случае игрок I должен выбрать свои смешанные стратегии так, чтобы получить максимальный средний выигрыш. Аналогично, игрок II должен выбрать свои смешанные стратегии так, чтобы минимизировать математическое ожидание игрока I. В матрице присутствуют отрицательные элементы. Для упрощения расчетов добавим к элементам матрицы (8). Такая замена не изменит решения игры, изменится только ее цена (по теореме фон Неймана). 7 10 15 0 Составитель - Нохрина Г.Л. 11 11 9 12 6 12 3 11 9 7 10 7 13 Теория игр. Курс лекций. 3. Находим решение игры в смешанных стратегиях. Математические модели пары двойственных задач линейного программирования можно записать так: найти минимум функции F(x) при ограничениях: 7x1+10x2+15x3 ≥ 1 11x1+11x2+9x3+12x4 ≥ 1 6x1+12x2+3x3+11x4 ≥ 1 9x1+7x2+10x3+7x4 ≥ 1 F(x) = x1+x2+x3+x4 → min найти максимум функции Ф(y) при ограничениях: 7y1+11y2+6y3+9y4 ≤ 1 10y1+11y2+12y3+7y4 ≤ 1 15y1+9y2+3y3+10y4 ≤ 1 12y2+11y3+7y4 ≤ 1 Ф(y) = y1+y2+y3+y4 → max Решаем эти системы симплексным методом. Решение симплекс-методом доступно в расширенном режиме. Цена игры будет равна g = 1/F(x), а вероятности применения стратегий игроков: pi = g*xi; qi = g*yi. Цена игры: g = 1 : 4/33 = 81/4 p1 = 81/4 • 46/627 = 23/38 p2 = 81/4 • 29/627 = 29/76 p3 = 81/4 • 1/627 = 1/76 p4 = 81/4 • 0 = 0 Оптимальная смешанная стратегия игрока I: 23 P = ( /38; 29/76; 1/76; 0) q1 = 81/4 • 0 = 0 q2 = 81/4 • 0 = 0 q3 = 81/4 • 1/33 = 1/4 q4 = 81/4 • 1/11 = 3/4 Оптимальная смешанная стратегия игрока II: Составитель - Нохрина Г.Л. 14 Теория игр. Курс лекций. Q = (0; 0; 1/4; 3/4) Поскольку ранее к элементам матрицы было прибавлено число (8), то вычтем это число из цены игры. 81/4 - 8 = 1/4 Цена игры: v=1/4 4. Проверим правильность решения игры с помощью критерия оптимальности стратегии. ∑aijpi ≥ v ∑aijqj ≤ v M(P1;Q) = (-1•0) + (3•0) + (-2•1/4) + (1•3/4) = 0.25 ≤ v M(P2;Q) = (2•0) + (3•0) + (4•1/4) + (-1•3/4) = 0.25 ≤ v M(P3;Q) = (7•0) + (1•0) + (-5•1/4) + (2•3/4) = 0.25 ≤ v M(P4;Q) = (-8•0) + (4•0) + (3•1/4) + (-1•3/4) = 0 = v M(P;Q1) = (-1•23/38) + (2•29/76) + (7•1/76) + (-8•0) = 0.25 > v M(P;Q2) = (3•23/38) + (3•29/76) + (1•1/76) + (4•0) = 2.97 > v M(P;Q3) = (-2•23/38) + (4•29/76) + (-5•1/76) + (3•0) = 0.25 > v M(P;Q4) = (1•23/38) + (-1•29/76) + (2•1/76) + (-1•0) = 0.25 > v Все неравенства выполняются как следовательно, решение игры найдено верно. равенства или строгие неравенства, Седловая точка Седловая точка – это пара оптимальных стратегий (Ai, Bj). В этом случае число a=b называется (чистой) ценой игры (нижняя и верхняя цена игры совпадают). Это означает, что матрица содержит такой элемент, который является минимальным в своей строке и одновременно максимальным в своем столбце. Проверяем, имеет ли платежная матрица седловую точку. Если да, то выписываем решение игры в чистых стратегиях. Игроки B1 B2 B3 B4 a = min(Ai) A1 8 7 0 6 0 A2 6 8 5 10 5 b = max(Bi ) 8 8 5 10 0 Составитель - Нохрина Г.Л. 15 Теория игр. Курс лекций. Находим гарантированный выигрыш, определяемый нижней ценой игры a = max(ai) = (0,5,0) = 5, которая указывает на максимальную чистую стратегию A2. Верхняя цена игры b = min(bj) = (8,8,5,10) = 5. Седловая точка (2, 3) указывает решение на пару альтернатив (A2,B3). Цена игры равна 5. Пример. Найдите седловую точку и чистую цену в игре двух участников с нулевой суммой, в которой платежная матрица второго игрока имеет вид. Платежная матрица Парную игру с нулевой суммой удобно исследовать, если она описана в виде матрицы. Предположим, что игрок A имеет m стратегий (обозначим их А1,А2, …, Am), а игрок B (противник) – n стратегий (B1, B2, …, Bm). Такая игра называется игрой размерности m х n. Пусть игрок Aвыбрал одну из своих возможных стратегий Ai. Игрок B, не зная результата выбора игрока A, выбрал стратегию Bj. Для каждой пары стратегий (Ai, Bj) определен платеж aij второго игрока первому, т.е. выигрыш игрока A. Выигрышем игрока B будет соответственно (– aij). Никакой дискриминации по отношению ко второму игроку здесь нет, т. к. величины aij могут быть и отрицательны, тогда –aij > 0. Например, a13 = –2 – выигрыш A, –a13= 2 – выигрыш B. Такая игра называется матричной; матрица, составленная из чисел aij , называется платежной. В примере 1 платежная матрица имеет вид . Строки этой матрицы соответствуют стратегиям игрока A, а столбцы – стратегиям игрока B. Общий вид такой матрицы BA B1 B2 … Bj … Bn A1 a11 a12 … a1j … a1n A2 a21 a22 … a2j … a2n … … Ai ai1 ai2 … aij … ain … … … … … … … Составитель - Нохрина Г.Л. 16 Теория игр. Курс лекций. Am am1 am2 … amj … amn ПРИМЕР. Игроки A и B играют в следующую игру. Игрок A записывает одно из чисел 3, 7, 8, а игрок B записывает одно из чисел 4, 5. Если сумма чисел четная, то это выигрыш игрока A. Если сумма чисел нечѐтная, то это выигрыш игрока B (проигрыш игрока A). Найти платѐжную матрицу и оптимальное решение. Решение. Если сумма чисел чѐтная, игрок A получает выигрыш +1, иначе игрок B получает выигрыш +1 (т.е. A получает выигрыш –1). Платежная матрица: 3 7 8 4 -1 -1 1 5 1 1 -1 Далее решение ищем с помощью калькулятора Решение матричной игры. Решение матричной игры НАЗНАЧЕНИЕ СЕРВИСА. С помощью сервиса в онлайн режиме можно: определить цену матричной игры (нижнюю и верхнюю границы), проверить наличие седловой точки, найти решение смешанной стратегии, найти минимаксную стратегию игроков; записать математическую модель пары двойственных задач линейного программирования, решить матричную игру методами: минимакс, симплексметод,графический (геометрический) метод, методом Брауна. 0 -1 -2 1 0 4 2 1 0 Игра – это математическая модель реальной конфликтной ситуации. Конфликтная ситуация двух игроков называется парной игрой. Парную игру с нулевой суммой удобно исследовать, если она описана в виде матрицы. Такая игра называется матричной; матрица, составленная из чисел aij, называется платежной. Математической моделью антагонистической игры является матричная игра с матрицей A, в которой ходы (стратегии) игрока A расположены по строкам, а ходы (стратегии) игрока B расположены по столбцам. В самой матрице записаны выигрыши игрока A при соответствующих ходах игроков A и B (отрицательный выигрыш – это проигрыш). Алгоритм решения матричной игры В таблице представлены варианты решения игры, заданной платежной матрицей А. Составитель - Нохрина Г.Л. 17 Теория игр. Курс лекций. Наличие седловой точки Тип стратегии Метод решения Отсутствие седловой точки Смешанная стратегия Решение найдено 1. Через систему уравнений. 2. Графический метод. 3. Использование симплекс-метода. Описание алгоритма: На основании анализа платѐжной матрицы следует определить, существуют ли в ней доминируемые стратегии, и исключить их. Найти верхнюю и нижнюю цены игры и определить, имеет ли данная игра седловую точку (нижняя цена игры должна быть равна верхней цене игры). Если седловая точка существует, то оптимальными стратегиями игроков, являющимися решением игры, будут их чистые стратегии, соответствующие седловой точке. Цена игры равна верхней и нижней цены игры, которые равны между собой. Если игра не имеет седловой точки, то решение игры следует искать в смешанных стратегиях. Для определения оптимальных смешанных стратегий в играх m × n следует использовать симплекс-метод, предварительно переформулировав игровую задачу в задачу линейного программирования. Представим алгоритм решения матричной игры графически. Составитель - Нохрина Г.Л. 18 Теория игр. Курс лекций. Рисунок - Схема решения матричной игры. Методы решения матричной игры в смешанных стратегиях Итак, если седловая точка отсутствует, решение игры проводят в смешанных стратегиях и решают следующими методами: Решение игры через систему уравнений. Если задана квадратная матрица nxn (n=m), то вектор вероятностей можно найти, решив систему уравнений. Этот метод используется не всегда и применим только в отдельных случаях (если матрица 2x2, то решение игры получается практически всегда). Если в решении получаются отрицательные вероятности, то данную систему решают симплекс-методом. Решение игры графическим методом. В случаях, когда n=2 или m=2, матричную игру можно решить графически. Решение матричной игры симплекс-методом. В этом случае матричная игра сводится к задаче линейного программирования. Методы упрощения платёжных матриц. Доминирование и дублирование стратегий Рассмотрим несколько методов упрощения платѐжных матриц. Первый метод, используемый для уменьшения размерности матрицы, основан на одном из важнейших понятий в теории игр - понятии доминирования стратегий. Если i-я строка поэлементно не меньше (≥) j-й строки, то говорят, что i-я строка доминирует над j-й строкой. Поэтому игрок A не использует j-ю стратегию, так как его выигрыш при i-й стратегии не меньше, чем при j-й стратегии, вне зависимости от того, как играет игрок B. Аналогично, если i-й столбец поэлементно не меньше (≥) j-го столбца, то говорят, что j-й столбец доминирует над i-м столбцом. Поэтому игрок B не использует i-ю стратегию, так как его проигрыш (равный выигрышу игрока A) при j-й стратегии не больше (≤), чем при i-й стратегии, вне зависимости от того, как играет игрок A. Стратегии, над которыми доминируют другие стратегии, надо отбросить и приписать им нулевые вероятности. На цене игры это никак не скажется. Зато размер матрицы игры понизится. С этого и нужно начинать решение игры. Частный случай доминирования является дублирование стратегий. Если платѐжная матрица игры содержит несколько одинаковых строк (столбцов), то из них оставляем только одну строку, а остальные строки (столбцы) отбрасываем. Отброшенным стратегиям припишем нулевые вероятности. Упрощение (уменьшение размерности) платѐжных матриц за счѐт исключения заведомо невыгодных чистых стратегий возможно в силу справедливости следующей Теоремы о доминирующих стратегиях: Составитель - Нохрина Г.Л. 19 Теория игр. Курс лекций. Пусть I - игра, в матрице которой i -я стратегия первого игрока доминирует над i +1, а G - игра, матрица которой получена из матрицы I исключением i + 1 стратегии (строки). Тогда: 1. цена игры I равна цене игры G; 2. оптимальная смешенная стратегия Q*= (q1*,q2*,…,qn*) второго игрока в игре G является также его оптимальной смешанной стратегией в игре I; 3. если P*= (p1*,p2*,…,pi*, p*i+2,…, pm*) оптимальная смешенная стратегия первого игрока в игре G, то его смешенная стратегия P*= (p1*,p2*,…,pi*, p*i+2,…, pm*) является оптимальной в игре I. Из выше сказанного следует, что как первому, так и второму нет смысла использовать доминируемую стратегию, поэтому все доминируемые стратегии могут быть отброшены, т.е. фактически отброшены строки и столбцы исходной матрицы A, соответствующие этим строкам. Это преобразование уменьшает размерность исходной платѐжной матрицы A, тем самым упрощается поиск оптимального решения. Рассмотрим ряд примеров с использованием калькулятораРешение матричной игры. ПРИМЕР 1. Платѐжная матрица игры задана в виде: . Упростим игру (упростим платѐжную матрицу). 1-я и 4-я строки равны. Поэтому отбросим 4-ю строку. Вероятность p4 = 0. Получим матрицу: . 2-я строка доминирует над 3-й строкой (6 > 3, 5 > 4, 8 = 8, 7 > 6). Поэтому отбросим 3-ю строку. Вероятность p3 = 0. Получим матрицу: . 2-й столбец доминирует над 3-м столбцом (9 = 9, 5 < 8). Поэтому отбросим 3-й столбец. Вероятность q3 = 0. Получим матрицу: . Строки между собой не сравнимы (8 > 6, 4 < 7), столбцы тоже (8 < 9, 6 > 5; 8 > 4, 6 < 7; 9 > 4, 5 < 7). Дальнейшее упрощение невозможно. Мы свели игру 4×4 к игре 2×3. ПРИМЕР 2. Матрица игры Составитель - Нохрина Г.Л. 20 Теория игр. Курс лекций. . Упростить игру. Введѐм вероятностные векторы: P = (p1, p2, p3, p4), Q = (q1, q2, q3, q4). 1 - ый шаг: A1 доминирует A2: вычѐркиваем 2- ю строку, в результате получаем р2= 0 и платѐжную матрицу: 2-ой шаг: A3 доминирует A1: вычѐркиваем 1- ю строку, в результате получаем р1= 0 и платѐжную матрицу: 3-ий шаг: B2 доминирует B1 вычѐркиваем 1- ый столбец, в результате получаем q1 = 0 и платѐжную матрицу: 4-ый шаг: B4 доминирует B3 вычѐркиваем 2 - ый столбец, в результате получаем q3 = 0 и платѐжную матрицу: 5 -ый шаг: A3 доминирует A4: вычѐркиваем 4 - ю строку, в результате получаем p4= 0 и платѐжную матрицу: 6 - ой шаг: B2 доминирует B4 вычѐркиваем 4 - ый столбец, в результате получаем q4 = 0 и платѐжную матрицу: Составитель - Нохрина Г.Л. 21 Теория игр. Курс лекций. В результате упрощения платѐжной матрицы выяснилось, что игра имеете единственное оптимальное решение в чистых стратегиях, о чѐм говорят векторы вероятностей P и Q: P = (0, 0, p3, 0), Q = (0, q2, 0, 0). В результате упрощения платѐжной матрицы было установлено также наличие седловой точки и получено оптимальное решение в чистых стратегиях: первый игрок A должен действовать, все время, выбирая стратегию A3, а игрок B выбирает стратегию B2. Тот же результат получается, если использовать максиминную стратегию. V* = max min aij = max{4,3,6,3}= 6 V* = min max aij = min{8,6,10,8}= 6 V* = V* = 6, элемент матрицы а32 является седловой точкой. Замечание. Если игра m×n имеет седловую точку, то после упрощений платѐжной матрицы мы всегда получим игру 1×1. Продолжим рассмотрение методов упрощения платѐжной матрицы. Другой метод преобразования матрицы выигрышей (платѐжной матрицы) основывается на доказываемой в теории игр теореме об аффинных преобразованиях. Теорема об аффинных преобразованиях. Аффинное преобразование (преобразование подобия и сдвига) платежной матрицы, т.е. преобразование всех элементов матрицы A вида: a'ij = k*aij+b, где k ≠ 0 и b - любая константа, не изменяет решение игры. Кроме того, цена преобразованной игры V' может быть получена из цены первоначальной игры V по тому же правилу: V' = kV + b Это означает, в частности, что для задания игры в принципе безразлично, в каких единицах измеряется выигрыш, например, в рублях или другой валюте. Прибавление (вычитание) некоторой фиксированной суммы bк каждому из элементов aij платѐжной матрицы A изменит на такую же сумму выигрыш (проигрыш) каждого из игроков, не меняя при этом решения игры. Это свойство может быть использовано для преобразования исходной матрицы игры к более удобному виду. Так, например, если элементы платежной матрицы представляют собой дроби с общим знаменателем, то каждый элемент матрицы aij можно умножить на некоторую константу, в результате чего элементы преобразованной матрицы будут представлять собой целые числа; если же большинство клеток матрицы заполнены одинаковыми элементами, то их можно вычесть из каждого элемента матрицы для получения нулей, которым будут равны соответствующие элементы матрицы. Кроме того, цену игры V'всегда можно сделать положительной, т.е. V' > 0, чем мы воспользуемся при сведении игровой задачи к задаче линейного программирования. Составитель - Нохрина Г.Л. 22 Теория игр. Курс лекций. В завершении данного параграфа приведѐм формулу пересчѐта от преобразованной цены игры V' к исходной V: ПРИМЕР 3. Задана платѐжная матрица игры: A= Необходимо упростить матрицу игры. 1 - ый шаг: умножим каждый из элементов матрицы A на k = 0.01, получим: 2 - ой шаг: к каждому элементу матрицы A' прибавим b = 4, получим матрицу: = Таким образом, мы получили платѐжную матрицу с положительными элементами и небольшими по абсолютной величине. Работа с такой матрицей проще, чем с исходной матрицей. Элементы матрицы A'' получены преобразованием: ПРИМЕР 4. Платѐжная матрица игры задана в виде. Упростить игру (упростить платѐжную матрицу) найти оптимальное решение. Смешанные стратегии В общем случае V* ≠ V* - седловой точки не существует. Оптимальное решение в чистых стратегиях также не существует. Однако, если расширить понятие чистой стратегии введением понятия смешанной стратегии, то удаѐтся реализовать алгоритм нахождения оптимального решения не вполне определѐнной игровой задачи, аналогичный рассмотренному выше. В такой ситуации предлагается использование статистического (вероятностного) подхода к нахождению оптимального решения антагонистической игры. Для каждого игрока, наряду с данным набором возможных для него стратегий, вводится неизвестный вектор вероятностей (относительных частот), с которыми следует применять ту или иную стратегию. Обозначим вектор вероятностей (относительных частот) выбора заданных стратегий игрока A следующим образом: P = (p1, p2,…, pm), где pi≥ 0, p1 + p2 +…+ pm= 1. Величина pi называется вероятностью (относительной частотой) применения стратегии Ai. Составитель - Нохрина Г.Л. 23 Теория игр. Курс лекций. Аналогично для игрока B вводится неизвестный вектор вероятностей (относительных частот) имеет вид: Q = (q1, q2,…, qn), где qj≥ 0, q1 + q2 +…+ qn = 1. Величина qj называется вероятностью (относительной частотой) применения стратегии Bj. Совокупность (комбинация) чистых стратегий A1, A2, …Amи B1, B2, …Bn в сочетании с векторами вероятностей выбора каждой из них называются смешанными стратегиями. Основной теоремой в теории конечных антагонистических игр является Теорема фон Неймана: каждая конечная матричная игра имеет, по крайней мере, одно оптимальное решение, возможно, среди смешанных стратегий. Из этой теоремы следует, что не вполне определѐнная игра имеет хотя бы одно оптимальное решение в смешанных стратегиях. В таких играх решением будет пара оптимальных смешанных стратегий P* и Q*, таких, что если один из игроков придерживается своей оптимальной стратегии, то и другому игроку не выгодно отклоняться от своей оптимальной стратегии. Средний выигрыш игрока A определяется математическим ожиданием: Если вероятность (относительная частота) применения стратегии отлична от нуля, то такая стратегия называется активной. Стратегии P*, Q* называются оптимальными смешанными стратегиями, если MA(P, Q*) ≤ MA(P*, Q*) ≤ MA(P*, Q) (1) В этом случае MA(P*, Q*) называется ценой игры и обозначается через V (V* ≤ V ≤ V*). Первое из неравенств (1)означает, что отклонение игрока A от своей оптимальной смешанной стратегии при условии, что игрок B придерживается своей оптимальной смешанной стратегии, приводит к уменьшению среднего выигрыша игрока A. Второе из неравенств означает, что отклонение игрока B от своей оптимальной смешанной стратегии при условии, что игрок A придерживается своей оптимальной смешанной стратегии, приводит к увеличению среднего проигрыша игрока B. Решение игры в смешанных стратегиях геометрическим методом Пусть игра задана платежной матрицей . По оси абсцисс отложим единичный отрезок А1 А2, где точка А1 (0, 0) изображает стратегию А1, А2 (1, 0) – стратегию А2, а каждая промежуточная точка SA этого отрезка изображает смешанную стратегию первого игрока PA = (p1, p2), где p1– расстояние от точки SA до A2, p2– расстояние от точки SA до A1. Выигрыш игрока A будем откладывать на вертикальных отрезках. Составитель - Нохрина Г.Л. 24 Теория игр. Курс лекций. Случай 1. Если игрок B применит стратегию В1, то выигрыш игрокаA при стратегии А1 равен а11, поэтому на оси ординат отложим отрезок А1В1 = а11. При применении игроком A стратегии А2выигрыш равен а21, отложим этот отрезок на перпендикуляре из точки А2, обозначим полученную точку В1'. Ордината любой точкиМ1 отрезка В1В1′ равна среднему выигрышу игрока A при применении смешанной стратегии SA (действительно, этот выигрыш равен математическому ожиданию случайной величины, т.е. a11p1 + a21p2). Запишем уравнение прямой В1В1′: , т. е. , тогда при x = p2 получим y = a11 + p2a21 – p2a11 = a11(1-p2) + p2a21 = a11p1 + a21p2 Случай 2. Если игрок B применяет стратегию В2, то аналогично откладываем отрезки а12 и а22 и получаем отрезок В2В2′. Ордината любой точки М2 отрезка В2В2′ – выигрыш игрока A, если A применяет смешанную стратегию SA, а B – стратегию В2. Построим нижнюю границу выигрыша игрока А – ломаную В1 NВ2′. Ординаты точек этой ломаной показывают минимальные выигрыши игрока А при использовании им любой смешанной стратегии. Оптимальное решение игры определяет точка N, в которой выигрыш игрока А принимает наибольшее значение. Ордината точки N равна цене игры. Проекция этой точки на ось ОХ показывает оптимальную стратегию (р1, р2). Аналогично находится оптимальная стратегия Q = (q1 , q2) игрока B, только в соответствии с принципом минимакса надо находить верхнюю границу выигрыша, т. е. строить ломаную А2NА1′ и брать точку N с наименьшей ординатой. Абсцисса точки N определяет оптимальную стратегию игрока B, т. е. Q = (q1 , q2). Составитель - Нохрина Г.Л. 25 Теория игр. Курс лекций. Пример. Решить игру, графоаналитическим способом. заданную платежной матрицей , Решение. Нижняя цена игры a = 1,5, верхняя цена игры b = 2. Так как , седловой точки нет. Так как a1 = 1,5, a21 = 2 строим точки B1(0;1,5) и B2(1;2), соединяем их отрезком. Так как a21 = 3, a22 = 1 строим точки B2(0;3) и B2’(1;1), соединяем их отрезком. Уравнение прямой В1В1′: , т. е. y = 0,5x + 1,5; уравнение В2В2′: Составитель - Нохрина Г.Л. , т. е. y = 3-2x. 26 Теория игр. Курс лекций. Найдем точку N пересечения прямых В1В1′ и В2В2′, для чего решим систему уравнений: т. е. N(0,6; 1,8), откуда p2= 0,6; p1= 0,4; γ = 1,8 – цена игры. Аналогично строим точки А1(0; 1,5) и А1′(1;3), А2(0; 2) и А2′(1; 1) и находим точку M пересечения прямых А1А1′ и А2А2′. Ответ: смешанная стратегия игрока А: PA= (0,4; 0,6), игрока В: QB = (0,8; 0,2); цена игры 1,8. Пример. Решить матричную игру, в которой один из игроков имеет две чистые стратегии, или игру, которая сводится к таковой после отбрасывания доминируемых строк и столбцов. Для нахождения цены игры и оптимальной стратегии игрока, имеющего две чистые стратегии, применяется графический метод. Для другого игрока оптимальная стратегия ищется исходя из свойств оптимальных стратегий и цены игры. Список рекомендуемых для контрольной работы задач прилагается. Решение игры 2×2 Покажем на примере платѐжной матрицы размерностью 2×2 реализацию алгоритма построения оптимального решения игровой задачи в смешанных стратегиях. Пример 1. Найдем решение матричной игры . V* = -1, V* = 1, V* ≠V* - решения в чистых стратегиях не существует. Припишем строкам платѐжной матрицы неизвестные вероятности p1 и p2 (вероятности выбора стратегий A1 и A2) соответственно: Составитель - Нохрина Г.Л. 27 Теория игр. Курс лекций. . Поскольку p1 + p2 =1 → p2 = 1 - p1. Обозначим p1 = p, тогда p2 =1 - p. В результате получим: Умножим столбец поэлементно на 1-й столбец и, сложив произведения, получим - математическое ожидание (среднее значение) выигрыша первого игрока A, при условии, что второй игрок B следует первой стратегии. M1(p) = 1∙p + (-1)(1-p) = 2p-1 Умножим столбец поэлементно на 2-й столбец и, сложив произведения, получим линейную зависимость - математическое ожидание (средний выигрыш) игрока A при применении игроком B второй стратегии M2(p) = (-1)∙p + 1(1-p) = -2p+1 Поскольку мы разыскиваем оптимальное решение первого игрока A, которое не должно зависеть от выбора стратегий вторым игроком B, приравняем полученные зависимости средних выигрышей: 2p-1 = -2p+1 Отсюда, p= ½, 1-p = ½, то есть оптимальная смешанная стратегия игрока A - это P = (½, ½ ) (каждую из стратегий надо применять с относительной частотой 1/2). Подставив в любую из зависимостей , i =1,2 найдем цену игры: V=Mi(1/2) = 0. Теперь припишем столбцам вероятности q1 и q2 соответственно, а поскольку: q1 + q2 =1 →q2 = 1 - q1. Обозначим q1 = q, тогда q2 =1 - q. В результате получим: . Умножив строку (q, 1-q) на 1-ю строку и сложив произведения, получим линейную зависимость - математическое ожидание: W1(q) = 1∙ q + (-1) ∙(1-q) = 2q - 1 Это средний выигрыш игрока A (равный проигрышу игрока B) при применении игроком A 1-й стратегии. Умножив строку (q, 1-q) на 2-ю строку и сложив произведения, получим линейную зависимость - математическое ожидание: W2 = (-1) ∙ q + 1∙ (1-q) = -2q + 1 Составитель - Нохрина Г.Л. 28 Теория игр. Курс лекций. Это средний выигрыш игрока A (равный проигрышу игрока B) при применении игроком A 2-й стратегии. Приравняем полученные зависимости: 2q -1 = -2q + 1 Отсюда, q = ½, 1 - q = ½ , то есть оптимальная смешанная стратегия игрока B - это Q = (1/2, 1/2) (каждую из стратегий надо применять с относительной частотой 1/2). Решение о конкретном выборе одной из своих стратегий каждый из игроков может принимать с помощью подбрасывания монеты или бинарного датчика случайных чисел. Как показывает приведѐнный пример, оптимальные смешанные стратегии сравнительно легко находятся для игр, имеющих небольшую размерность платѐжной матрицы (небольшие m и n), т.е. для игр, в которых каждый из игроков имеет небольшое число стратегий. В то же время для игр, имеющих большую размерность, поиск решения становится достаточно сложным. Поэтому до построения оптимального решения в смешанных стратегиях проводят предварительный анализ платѐжной матрицы на предмет еѐ упрощения, исключения из неѐ дублирующих и доминируемых стратегий, что позволяет существенно упростить поиск решения игровой задачи в смешанных стратегиях. Решение игр вида 2хn и mх2 Графо-аналитический метод. У таких игр всегда имеется решение, содержащее не более двух активных стратегий для каждого из игроков. Если найти эти активные стратегии, то игра 2 х n или m х 2 сводится к игре 2 х 2, которую мы уже умеем решать. Поэтому игры 2 х n и m х 2 решают обычно графоаналитическим методом. Рассмотрим решение матричной игры на примере. Пример. Решение. 1 4 7 1 6 3 2 2 6 4 7 Составитель - Нохрина Г.Л. 2 4 29 Теория игр. Курс лекций. , поэтому игра не имеет седловой точки, и решение должно быть в a = 2, b=4, смешанных стратегиях. 1. Строим графическое изображение игры. Если игрок B применяет стратегию В1, то выигрыш игрока A при применении стратегии А1 равен а11 = 1, а при использовании А2выигрыш равен а21 = 6, поэтому откладываем отрезки А1В1 = 1,А2В1′ = 6 на перпендикулярах в А1 и А2 и соединяем их отрезком. Аналогично для стратегий В2 и В3 строим отрезки В2 В2′ и В3 В3′. 2. Выделяем нижнюю границу выигрыша В1М N В3′ и находим наибольшую ординату этой нижней границы, ординату точки М, которая равна цене игры γ. 3. Определяем пару стратегий, пересекающихся в точке оптимумаМ. В этой точке пересекаются отрезки В2В2′ и В1В1′, соответствующие стратегиям В1 и В2 игрока B. Следовательно, стратегию В3 ему применять невыгодно. Исключаем из матрицы третий столбец и решаем игру 2 x 2 аналитически: ; ; . Ответ: γ = 7/2; PA = (1/2; 1/2); QB = (1/6; 5/6; 0). Правила решения игры 2xn ♦ строится графическое изображение игры; ♦ выделяется нижняя граница выигрыша и находится наибольшая ордината нижней границы, которая равна цене игры γ; ♦ определяется пара стратегий, пересекающихся в точке оптимума M. Эти стратегии являются активными стратегиями игрока B. Если в точке оптимума Составитель - Нохрина Г.Л. 30 Теория игр. Курс лекций. пересекаются более двух стратегий, то в качестве активных стратегий может быть выбрана любая пара из них; ♦ решается полученная игра 2x2. Решение игры mx2 осуществляется аналогично. Вместо пункта 2 применяется; ♦ выделяется верхняя граница выигрыша, и на ней находится точка оптимума с наибольшей ординатой. Пример. Решение. 0,4 1,0 0,4 0,5 0,5 0,5 1,0 0,3 0,3 0,8 0,3 0,3 1,0 1,0 0,5 1,0 a= 0,5, b= 1,0. Седловой точки нет. 1. строим графическое изображение игры относительно игрока В. Если А применяет А1, то при использовании игроком В стратегии В1выигрыш игрока А равен 0,4, а выигрыш А при стратегии В2 равен 1,0, поэтому на перпендикулярах строим такие отрезки. Видно, что стратегияА4 заведомо невыгодная по сравнению со стратегией А3 (выигрыш меньше). 2. Выделяем верхнюю границу выигрыша А3NА1′; точка с наименьшей ординатой – N. 3. В этой точке пересекаются отрезки А1А1′ и А3А3′, соответствующие активным стратегиям А1 и А3. Стратегия А2 не является активной, поэтому из матрицы исключаем вторую и четвертую строки: Составитель - Нохрина Г.Л. . 31 Теория игр. Курс лекций. 4. решаем игру: 13p3 = 6; p3 =6/13; p1 = 7/13 q2 = 6/13. Ответ: γ = 44/65; PA = (7/13; 0; 6/13; 0); QB = (7/13; 6/13). Примечание: Игроку А не выгодно отклоняться от спектра своих активных стратегий. Итерационный метод Брауна-Робинсона Пусть игра задана матрицей A размерности m x n. Каждое разыгрывание игры в чистых стратегиях будет далее называться партией. Метод Брауна-Робинсон — это итеративная процедура построения последовательности пар смешанных стратегий игроков, сходящейся к решению матричной игры. В 1-ой партии оба игрока выбирают произвольную чистую стратегию. Пусть сыграно k партий, причем выбор стратегии в каждой партии запоминается. В (k + 1)-ой партии каждый игрок выбирает ту чистую стратегию, которая максимизирует его ожидаемый выигрыш, если противник играет в соответствии с эмпирическим вероятностным распределением, сформировавшимся за k партий. Оценивается интервал Составитель - Нохрина Г.Л. 32 Теория игр. Курс лекций. для цены игры и, если он достаточно мал, процесс останавливается. Полученные при этом вероятностные распределения определяют смешанные стратегии игроков. Достоинства метода Брауна: Этот метод ориентирован на произвольную игру G(m×n). Не требует условия aij>0. Легко реализуем программными методами. Недостатки метода Брауна: скорость сходимости метода быстро уменьшается с ростом размерности матрицы игры. Рассмотрим метод на примере игры G(3×3). Ai \ B j B1 B2 B3 A1 7 2 9 A2 2 9 0 A3 9 0 11 SA=(p1,p2,p3) SB=(q1,q2,q3) Строится следующая матрица: k i B1 B2 B3 j A1 1 3 9 0 11 2 2 2 2 11 9 11 2 4 3 2 13 18 11 3 13 4 2 13 18 11 3 5 … … … … … … … … … … … … … … … 22 A2 A3 Vmin Vmax V* 0 0 9 4.5 18 0 4.5 9 6.75 18 11 3.67 6 4.84 … … … … … … … … … … … 9 18 22 где: k – номер партии. i – номер стратегии, выбираемой игроком A. j – номер стратегии, выбираемой игроком В. Составитель - Нохрина Г.Л. 33 Теория игр. Курс лекций. Bi– накопленный игроком А выигрыш за k партий, при условии, что в данной партии B выбирает стратегию Bi. Аj – накопленный игроком В проигрыш за k партий, при условии, что в данной партии A выбирает стратегию Аj. Vmin – нижняя оценка игры = min (накопленный выигрыш)/k. Vmax – верхняя оценка игры = max (накопленный проигрыш)/k. Доказано, что V*=(Vmin+Vmix)/2, V* à V при k à ≦ и Ni - сколько раз выбирается Аi стратегия. Nj - сколько раз выбирается Bj стратегия. Итерационный процесс метода Брауна-Робинсон не является, вообще говоря, монотонным. Кроме того, скорость сходимости метода быстро уменьшается с ростом размерности матрицы игры. Однако он обладает одним неоспоримым преимуществом, которое заключается в исключительной простоте программирования метода. ПРИМЕР. 1. Проверяем, имеет ли платежная матрица седловую точку. Если да, то выписываем решение игры в чистых стратегиях. Считаем, что игрок I выбирает свою стратегию так, чтобы получить максимальный свой выигрыш, а игрок II выбирает свою стратегию так, чтобы минимизировать выигрыш игрока I. Игроки B1 B2 B3 a = min(Ai) A1 6 1 4 1 A2 2 4 2 2 A3 4 3 5 3 b = max(Bi) 6 4 5 Находим гарантированный выигрыш, определяемый нижней ценой игры a = max(ai) = 3, которая указывает на максимальную чистую стратегию A3. Верхняя цена игры b = min(bj) = 4. Что свидетельствует об отсутствии седловой точки, так как a ≠ b, тогда цена игры находится в пределах 3 <= y <= 4. Находим решение игры в смешанных стратегиях. Составитель - Нохрина Г.Л. 34 Теория игр. Курс лекций. Объясняется это тем, что игроки не могут объявить противнику свои чистые стратегии: им следует скрывать свои действия. Игру можно решить, если позволить игрокам выбирать свои стратегии случайным образом (смешивать чистые стратегии). k i B1 B2 B3 j A1 A2 A3 Vmin Vmax Vср 1 1 6 1 4 2 1 4 3 1 4 5/2 2 2 8 5 6 2 2 8 6 5/2 4 13/4 3 2 10 9 8 3 6 10 11 8/ 3 11/3 19/6 4 3 14 12 13 2 7 14 14 3 7 /2 13/4 5 2 16 16 15 3 11 16 19 3 19/5 17/5 6 3 20 19 20 2 12 20 22 19/6 11/3 41/12 7 3 24 22 25 2 13 24 25 22/7 25/7 47/14 8 3 28 25 30 2 14 28 28 25/8 7 /2 53/16 9 2 30 29 32 2 15 32 31 29/9 32/9 61/18 10 2 32 33 34 1 21 34 35 16/5 7 /2 67/20 11 3 36 36 39 1 27 36 39 36/11 39/11 75/22 12 3 40 39 44 2 28 40 42 13/4 13 3 44 42 49 2 29 44 45 42/13 45/13 87/26 14 3 48 45 54 2 30 48 48 45/14 24/7 15 2 50 49 56 2 31 52 51 49/15 52/15 101/30 16 2 52 53 58 1 37 54 55 13/4 55/16 107/32 17 3 56 56 63 1 43 56 59 56/17 59/17 115/34 18 3 60 59 68 2 44 60 62 59/18 31/9 121/36 19 3 64 62 73 2 45 64 65 62/19 65/19 127/38 20 3 68 65 78 2 46 68 68 13/4 7 /2 27/8 93/28 17/5 133/40 NA1 = 1 P(A1) = 1/20 = 1/20 Составитель - Нохрина Г.Л. 35 Теория игр. Курс лекций. NA2 = 7 P(A2) = 7/20 = 7/20 NA3 = 12 P(A3) = 12/20 = 3/5 NB1 = 4 P(B4) = 4/20 = 1/5 NB2 = 14 P(B4) = 14/20 = 7/10 NB3 = 2 P(B4) = 2/20 = 1/10 Цена игры, W = 133/40 p = (1/20, 7/20, 3/5) q = (1/5, 7/10, 1/10) Игры с "природой" Термин "природа" в теории игр понимается в широком смысле. Это могут быть действительные природные физические (климатические), биологические, химические, социальные и т.п. процессы, которые сопровождают экономическую деятельность. Под "природой" может также пониматься рынок, противостоящий предпринимателю, конкурирующая среда, монополия и т.п. "Природа" может выступать как антагонистическая сторона, а может как кооперативная среда. "Природа" в виде природных процессов, как часть экономики, не стремиться "специально" навредить предпринимателю, но она несѐт определѐнный урон от его экономической деятельности и этот "проигрыш"для неѐ должен быть минимален, если, вообще, без него для окружающей среды нельзя обойтись. Игрок A в таких играх - это экономические субъекты, а игрок B это "природа". Откуда средства у физической "природы"? Проигрыш игрока B, физической "природы", должен компенсироваться из вне, например, государственными дотациями либо заложенными в инвестиционные проекты средствами на возобновление природных ресурсов. Знание оптимальных стратегий "природы" позволяет определить наиболее неблагоприятные условия для игрока A (предпринимателя), которые его ожидают ("надейся на лучшее, но готовься к худшему"), и оценить необходимые ресурсы на восстановление природных ресурсов, дающих ему возможность получить гарантированный доход. Если "природа" подразумевает конкурентную среду - то проигрыш второго игрока есть цена борьбы с конкурентами на рынке. Перейдѐм к примерам содержательных постановок задач игры с "природой". Антагонистические игры Пример 1. (Планирование посевов). Фермер, имеющий ограниченный участок земельных угодий, может его засадить тремя различными культурами A1, A2, A3. Урожай Составитель - Нохрина Г.Л. 36 Теория игр. Курс лекций. этих культур зависит главным образом от погоды ("природы"), которая может находиться в трѐх различных состояниях: B1, B2, B3. Фермер имеет информацию (статистические данные) о средней урожайности этих культур (количество центнеров культуры, получаемого в одного гектара земли) при трѐх различных состояниях погоды, которая отражена в таблице: Виды Возможные состояния погоды Цены культур Засуха B1 Нормальная B2 Дождливая B3 A1 20 15 10 5 A2 7 15 5 7 A3 0 5 10 10 Тогда матрица доходов (платѐжная матрица) фермера A имеет вид: Элемент матрицы A - (aij) показывает, какой доход может получить фермер с одного гектара земли, если он посеет культуру i (i =1, 2, 3), а погода будет находиться в состоянии j (j = 1, 2, 3). Необходимо определить пропорции, в которых фермер должен засеять имеющийся участок земли, чтобы получить максимальный гарантированный доход вне зависимости от того, какие погодные условия будут реализованы. Данная задача может быть сведена к антагонистической игре. В данном случае в качестве первого игрока выступает фермер, а в качестве второго игрока - природа. Будем предполагать, что природа, как игрок, может вести себя таким образом, чтобы максимально навредить фермеру, преследуя тем самым противоположные интересы (эти предположения позволяют оценить тот доход, который он может получить в том случае, если погодные условия будут для него максимально неблагоприятные). В этом случае фермер имеет в своѐм распоряжении три чистые стратегии: ∙ первая чистая стратегия предполагает, что весь участок земли буде засеян культурой A1; ∙ вторая чистая стратегия предполагает, что весь участок земли будет засеян культурой A2; ∙ третья чистая стратегия предполагает, что весь участок будет засеян культурой A3. Как игрок, природа может также использовать три возможные стратегии: ∙ засушливую погоду, которая соответствует первой чистой стратегии B1; ∙ нормальную погоду, которая соответствует второй чистой стратегии B2; Составитель - Нохрина Г.Л. 37 Теория игр. Курс лекций. ∙ дождливую погоду, которая соответствует третьей чистой стратегии B3. Решение 1. Проанализируем платѐжную матрицу A. Матрица A не имеет доминируемых стратегий и не может быть упрощена. 2. Проверим, имеет ли данная игра седловую точку. Найдѐм нижнюю и верхнюю цену игры: V*=maxi minjaij = 50. V*=minjmaxiaij = 100. Поскольку V* ≠V*, то данная антагонистическая игра не имеет седловой точки и решения в чистых стратегиях. 3. Решение игры следует искать в смешанных стратегиях. Сведѐм игровую задачу к задаче линейного программирования. Еслипервый игрок - фермер - применяет свою оптимальную смешанную стратегию P*, а второй игрок - природа - применяет последовательно свои чистые стратегии, то математическое ожидание дохода, который фермер может получить со своего участка, будет не меньше цены игры V. Следовательно, должна выполняться следующая система неравенств: Разделим каждое из неравенств, входящих в систему на V и введѐм новые переменные: . В результате получим новую систему неравенств: Разделим равенство: p*1 + p*2 + p*3 = 1 на V, получим, что новые переменные y1, y2, y3 удовлетворяют условию: y1 + y2 + y3 = 1/V Поскольку цель первого игрока - максимизация его выигрыша, аматематическое ожидание его выигрыша не меньше цены игры, то первый игрок будет стремиться максимизировать цену игры, которая эквивалентна минимизации величины 1/V. Составитель - Нохрина Г.Л. 38 Теория игр. Курс лекций. Итак, для первого игрока (фермера) задача об определении оптимальной стратегии поведения свелась к задаче линейного программирования: найти минимум функции F = y1 + y2 + y3 при следующих функциональных ограничениях: и прямых ограничениях: y1 ≥ 0, y2≥ 0, y3≥ 0 Переходим ко второму игроку, к природе. Если второй игрок - природа - будет применять свою оптимальную смешанную стратегию Q*,а первый игрок - фермер будет последовательно применять свои чистые стратегии, то математическое ожидание проигрыша второго игрока будет не больше цены игры.Следовательно, должна выполняться следующая система неравенств: Разделим каждое из неравенств, входящих в систему на V и введѐм новые переменные: . В результате получим новую систему неравенств: Разделим равенство: q*1 + q*2 + q*3 = 1 на V, получим, что новые переменные q1 , q2 , q3 удовлетворяют условию: q1 + q2 + q3 = 1/V Поскольку цель второго игрока - природы - минимизация его проигрыша, а математическое ожидание его проигрыша не больше цены игры, то второй игрок будет стремиться минимизировать цену игры, которая эквивалентна максимизации величины 1/V. Итак, для второго игрока (природы) задача об определении оптимальной стратегии поведения свелась к задаче линейного программирования: найти максимум функции F/ = x1 + x2 + x3 при следующих функциональных ограничениях: Составитель - Нохрина Г.Л. 39 Теория игр. Курс лекций. и прямых ограничениях: x1 ≥ 0, x2 ≥ 0, x3 ≥ 0 Таким образом, для того чтобы найти оптимальную смешенную стратегию второго игрока, необходимо также решить задачу линейного программирования. Задачи обоих игроков свелись к паре двойственных задач линейного программирования: Задача второго игрока Задача первого игрока минимизация проигрыша V максимизация выигрыша V Целевая функция F/ = x1+x2+x3 = → max F = y1+y2+y3 = → min Функциональные ограничения Прямые ограничения x1 ≥ 0, x2 ≥ 0, x3 ≥ 0 y1 ≥ 0, y2 ≥ 0, y3 ≥ 0 Задача первого игрока решается симплекс-методом. Результаты счѐта: у1 = 0,01 p1 = 0,67 у2 = 0 p2 = 0,00 у3 = 0,005 p3 = 0,33 F= 0,015 V= 66,67 Задача второго игрока решается также симплекс-методом. Результаты счѐта: x1 = 0,005p1 = 0,33 x2 = 0p2 = 0,00 x3 = 0,01p3 = 0,67 F= 0,015V = 66,67 Выводы. В соответствии с полученными результатамифермеру гарантирован средний доход в размере 66,67 единиц с каждого гектара используемой под культурами Составитель - Нохрина Г.Л. 40 Теория игр. Курс лекций. земли при самых неблагоприятных условиях. Оптимальная стратегия для него выращивание двух культур, A1 и A3, причѐм, под первую культуру ему следует отвести 0,67 часть всей земли, а под третью культуру 0,33 часть всей земли. Природа "грозит" фермеру жарой 0,33 часть сезона возделывания культур и 0,67 часть сезона дождями. Пример 2. (Планирование выпуска продукции при разных состояниях природы рынка спроса) Предприятие может выпускать 4 вида продукции: A1, A2, A3, A4, получая при этом прибыль. Еѐ величина определяется состоянием спроса (природой рынка), который может находиться в одном из четырѐх возможных состояний: B1, B2, B3, B4. Зависимость величины прибыли от вида продукции и состояния рынка представлено в таблице: Виды Возможные состояния рынка спроса продукции B1 B2 B3 B4 A1 4 3 5 6 A2 2 6 1 5 A3 3 0 7 2 1 3 A4 3 5 Платѐжная матрица имеет вид: Элемент матрицы A - {aij} характеризует, какую прибыль может получить предприятие, если оно будет выпускать i- й вид продукции(i =1, 2, 3, 4) при j-м спросе(j = 1, 2, 3, 4). Необходимо определить оптимальные пропорции выпускаемых предприятием видов продукции, продажа которой обеспечила бы ему максимально возможную выручку вне зависимости от того, какое состояние спроса будет реализовано Эта задача может быть сведена к антагонистической игре. В данном случае в качестве первого игрока выступаетпредприятие, а в качестве второго игрока - природа, которая влияет на состояние спроса и может сделать его максимально неблагоприятным для предприятия. Будем предполагать, что природа, как игрок, будет вести себя таким образом, чтобы максимально навредить предприятию, преследуя тем самым противоположные интересы. В этом случае конфликт двух сторон может характеризоваться, как антагонистический, а использование модели этого конфликта позволяет предприятию. Составитель - Нохрина Г.Л. 41 Теория игр. Курс лекций. оценить выручку, которую оно может получить вне зависимости от того, какое состояние спроса будет реализовано. Выступая в качестве первого игрока, предприятие может использовать четыре стратегии: ∙ первую чистую стратегию, соответствующую выпуску предприятием только продукции A1 ∙ вторую чистую стратегию, соответствующую выпуску предприятием только продукции A2 ∙ третью чистую стратегию, соответствующую выпуску предприятием только продукции A3 ∙ четвѐртую чистую стратегию, соответствующую выпуску предприятием только продукции A4 Выступая в качестве второго игрока, природа может использовать также четыре стратегии: ∙ первую чистую стратегию, при которой реализуется состояние спроса B1; ∙ вторую чистую стратегию, при которой реализуется состояние спроса B2; ∙ третью чистую стратегию, при которой реализуется состояние спроса B3; ∙ четвѐртую чистую стратегию, при которой реализуется состояние спроса B4. Решение 1. Проанализируем платѐжную матрицу A. Матрица A не имеет доминируемых стратегий и не может быть упрощена. 2. Проверим, имеет ли данная игра седловую точку. Найдѐм нижнюю и верхнюю цену игры: V*=maxi minj aij = 3. V*=minj maxiaij = 4. Поскольку V* ≠V*, то данная антагонистическая игра не имеет седловой точки и решения в чистых стратегиях. Решение игры следует искать в смешанных стратегиях. Сведѐм рассматриваемый антагонистический конфликт к прямой и двойственной задаче линейного программирования. Если первый игрок – предприятие – применяет свою оптимальную смешанную стратегию P*, а второй игрок –природа - применяет последовательно свои чистые стратегии, то математическое ожидание дохода, который предприятие может получить, будет не меньше цены игры V. И наоборот, если второй игрок - природа - будет применять свою оптимальную смешанную стратегию Q*,а первый игрок – предприятие будет последовательно Составитель - Нохрина Г.Л. 42 Теория игр. Курс лекций. применять свои чистые стратегии, то математическое ожидание проигрыша второго игрока будет не больше цены игры. Следовательно, должна выполняться следующая система неравенств: Задача второго игрока Задача первого игрока минимизация проигрыша V максимизация выигрыша V Целевая функция F/ = x1+x2+x3+x4 = → max F = y1+y2+y3+y4 = → min Функциональные ограничения Прямые ограничения x1 ≥ 0, x2 ≥ 0, x3 ≥ 0, x4 ≥ 0 y1 ≥ 0, y2 ≥ 0, y3 ≥ 0, y4 ≥ 0 Применяя симплекс-метод для решения задачи первого игрока, получим: Y*= (y1* = 0,182; y2* = 0; y3* = 0; y4* =0,091) F= y1*+ y2*+ y3*+y4*= 0,273 Из соотношения y1*+ y2*+ y3*+y4*=1/V найдѐм V: Из соотношений: Найдѐм: p*1 = y*1V = 0,67 , p*2 = y*2V = 0 , p*3 = y*3V = 0 , p*4 = y*4V =0,33 Окончательно имеем: Р* = (р*1 =0,67; р*2 = 0; р*3 = 0; р*4 = 0,33), V = 3.67 На основании решения, найденного для двойственной задачи линейного программирования, найдѐм решение исходной задачи -задачи второго игрока: X*= (x1* = 0,121; x2* =0,121; x3* = 0,03; x4* = 0) F/ = x1*+ x2*+ x3*+x4*= 0,273 Из соотношения x1*+ x2*+ x3*+x4* = 1/V найдѐм V: Из соотношений: Составитель - Нохрина Г.Л. 43 Теория игр. Курс лекций. Найдѐм: q*1 = x*1V = 0,445 , q*2 = x*2V = 0,444 , q*3 = x*3V = 0,111 , q*4 = x*4V = 0. Окончательно имеем: Q*= (q*1= 0,445; q*2=0,444; q*3= 0,111; q*4= 0), V = 3.67 Задача принятия решений в условиях неопределенности Предположим, что ЛПР (лицо, принимающее решения) рассматривает несколько возможных решений: i = 1,…,m. Ситуация, в которой действует ЛПР, является неопределенной. Известно лишь, что наличествует какой-то из вариантов: j = 1,…, n. Если будет принято i-e решение, а ситуация есть j-я , то фирма, возглавляемая ЛПР, получит доход qij. Матрица Q = (qij) называется матрицей последствий (возможных решений). Какое же решение нужно принять ЛПР? В этой ситуации полной неопределенности могут быть высказаны лишь некоторые рекомендации предварительного характера. Они не обязательно будут приняты ЛПР. Многое будет зависеть, например, от его склонности к риску. Но как оценить риск в данной схеме? Допустим, мы хотим оценить риск, который несет i-e решение. Нам неизвестна реальная ситуация. Но если бы ее знали, то выбрали бы наилучшее решение, т.е. приносящее наибольший доход. Т.е. если ситуация есть j-я , то было бы принято решение, дающее доход qij. Значит, принимая -e решение мы рискуем получить неqj, а толькоqij, значит принятие i-го решения несет риск недобрать rij = qj - qij. Матрица R = (rij) называется матрицей рисков. Пример 1. Пусть матрица последствий есть Составим матрицу рисков. Имеем q1 = max(qi1) = 8, q2 = 5, q3 = 8, q4= 12.. Следовательно, матрица рисков есть Принятие решений в условиях полной неопределенности Не все случайное можно "измерить" вероятностью. Неопределенность – более широкое понятие. Неопределенность того, какой цифрой вверх ляжет игральный кубик отличается от неопределенности того, каково будет состояние российской экономики Составитель - Нохрина Г.Л. 44 Теория игр. Курс лекций. через 15 лет. Кратко говоря, уникальные единичные случайные явления связаны с неопределенностью, массовые случайные явления обязательно допускают некоторые закономерности вероятностного характера. Ситуация полной неопределенности характеризуется отсутствием какой бы то ни было дополнительной информации. Какие же существуют правила-рекомендации по принятию решений в этой ситуации? Правило Вальда (правило крайнего пессимизма). Рассматриваяi-e решение будем полагать, что на самом деле ситуация складывается самая плохая, т.е. приносящая самый малый доход aiНо теперь уж выберем решение i0 с наибольшим ai0. Итак, правило Вальда рекомендует принять решение i0, такое что Так, в вышеуказанном примере, имеем a1 = 2, a2 = 2, a3 = 3, a4 = 1. Из этих чисел максимальным является число 3. Значит, правило Вальда рекомендует принять 3-е решение. Правило Сэвиджа (правило минимального риска). При применении этого правила анализируется матрица рисков R = (rij). Рассматривая i-e решение будем полагать, что на самом деле складывается ситуация максимального риска bi = max [rij] Но теперь уж выберем решение i0 с наименьшим bi0. Итак, правило Сэвиджа рекомендует принять решение i0, такое что В рассматриваемом примере имеем b1 = 8, b2 = 6, b3 = 5, b4 = 7.Минимальным из этих чисел является число 5. Т.е. правило Сэвиджа рекомендует принять 3-е решение. Правило Гурвица (взвешивающее пессимистический и оптимистический подходы к ситуации). Принимается решение i, на котором достигается максимум ,где 0 ≤ λ ≤ 1. Значение λ выбирается из субъективных соображений. Если λприближается к 1, то правило Гурвица приближается к правилу Вальда, при приближении λ к 0, правило Гурвица приближается к правилу "розового оптимизма" (догадайтесь сами, что это значит). В вышеуказанном примере при λ= 1/2 правило Гурвица рекомендует 2-е решение. Принятие решений в условиях частичной неопределенности Предположим, что в рассматриваемой схеме известны вероятностиpj того, что реальная ситуация развивается по варианту j. Именно такое положение называется частичной неопределенностью. Как здесь принимать решение? Можно выбрать одно из следующих правил. Правило максимизации среднего ожидаемого дохода. Доход, получаемый фирмой при реализации i-го решения, является случайной величиной Qi с рядом распределения Составитель - Нохрина Г.Л. 45 Теория игр. Курс лекций. qi1 qi2 … qin p1 p2 … pn Математическое ожидание M[Qi] и есть средний ожидаемый доход, обозначаемый . Правило рекомендует принять решение, приносящее максимальный средний ожидаемый доход. Предположим, что в схеме из предыдущего примера вероятности есть (1/2, 1/6, 1/6, 1/6). Тогда Максимальный средний ожидаемый доход равен 7, соответствует третьему решению. Правило минимизации среднего ожидаемого риска. Риск фирмы при реализации iго решения, является случайной величиной Ri с рядом распределения ri1 ri2 … rin p1 p2 … pn Математическое ожидание M[Ri] и есть средний ожидаемый риск, обозначаемый также . Правило рекомендует принять решение, влекущее минимальный средний ожидаемый риск. Вычислим средние ожидаемые риски при указанных выше вероятностях. Получаем Минимальный средний ожидаемый риск равен 7/6, соответствует третьему решению. Анализ принимаемых решений по двум критериям: среднему ожидаемому доходу и среднему ожидаемому риску и нахождение решений, оптимальных по Парето, аналогично анализу доходности и риска финансовых операций. В примере множество решений, оптимальных по Парето операций, состоит только из одного 3-его решения. В случае, если количество Парето-оптимальных решений больше одного, то для определения лучшего решения применяется взвешивающая формула Составитель - Нохрина Г.Л. . 46 Теория игр. Курс лекций. Правило Лапласа Иногда в условиях полной неопределенности применяют правило Лапласа, согласно которому все вероятности pj считают равными. После этого можно выбрать какое-нибудь из двух приведенных выше правил-рекомендаций принятия решений. ГЛОССАРИЙ Автономная модель – часть системы моделей, которую можно анализировать независимо от других частей. Этот подход применим всюду, где отдельные хозяйственные звенья обладают самостоятельностью в своих действиях. Однако в экономике все связано, поэтому автономность частичных моделей всегда относительна. Агрегирование – объединение, укрупнение показателей по какому-либо признаку. С математической точки зрения агрегирование рассматривается как преобразование модели в модель с меньшим числом переменных и ограничений (агрегированную модель), дающую приближенное (по сравнению с исходным) описание изучаемого процесса или объекта. Адаптация – приспособление системы к реальным условиям. Различают адаптацию пассивную – реагирование системы на изменение среды и активную – воздействие системы на среду. Адекватность модели – соответствие модели моделируемому объекту или процессу. Алгоритм – формализованная последовательность действий по решению задачи. Антагонистические игры – игры, в которых интересы игроков строго противоположны, т. е. выигрыш одного игрока – проигрыш другого. Базисное решение – допустимое решение задачи линейного программирования, находящееся в вершине области допустимых решений. Вероятность – численная мера возможности события. Геометрическая интерпретация задачи линейного программирования – интерпретация зависимостей, имеющих место в задаче линейного программирования в виде геометрических фигур (точек, прямых, полуплоскостей, многоугольников) в декартовой системе координат. Двойственные оценки определяют дефицитность используемых ресурсов и показывают, насколько возрастает максимальное значение целевой функции прямой задачи при увеличении количества соответствующего ресурса на единицу. Детерминированные величины – исходные данные, заданные определенными величинами. Динамические модели экономики – модели, описывающие экономику в развитии (в отличие от статических, характеризующих ее состояние в определенный момент). Динамическое программирование – методы решения задач, в которых процесс нахождения решения является многоэтапным. Составитель - Нохрина Г.Л. 47 Теория игр. Курс лекций. Дисперсия характеризует разброс значений случайной величины. Допустимый план – решение, удовлетворяющее системе ограничений, но не обязательно оптимальное. Достоверное событие – событие, которое непременно должно произойти. Задача оптимизации – задача, решение которой сводится к нахождению максимума или минимума целевой функции. Игра – формализованная модель конфликтной ситуации. Игра n лиц с постоянной суммой – игры, в которых принимает участие n игроков, существует n множеств стратегий и n действительных платежных функций от n переменных, каждая из которых является элементом соответствующего множества стратегий. Каждый игрок знает всю структуру игры и в своем поведении неизменно руководствуется желанием получить максимальный средний выигрыш. Игра двух лиц с ненулевой суммой – игры, в которых сумма выигрышей двух игроков после каждой партии не равна нулю. Игра двух лиц с нулевой суммой – игры, в которых интересы двух игроков строго противоположны, т.е. выигрыш одного есть проигрыш другого. Игра против природы – игры, где одним из определяющих факторов является внешняя среда или природа, которая может находиться в одном из состояний, которые неизвестны лицу, принимающему решение. Игра с нулевой суммой – игры, в которых сумма выигрыша игроков после каждой партии составляет ноль. Игрок – участник игровой модели. Коалиции игроков – объединение m игроков в игре n лиц (m меньше n) с целью получения максимального выигрыша и выработке соответствующих стратегий. Коэффициенты линейных ограничений – нормы расхода ресурсов. Линейное программирование – методы решения задач математического программирования, в которых ограничения и целевая функция линейны. Линейно-независимые уравнения – уравнения, которые не могут быть получены умножением, делением, сложением, вычитанием исходных уравнений. Линейные зависимости – зависимости, в которые переменные входят в первой степени, и в которых нет их произведения. Математическое ожидание характеризует среднее значение случайной величины. Модель – математическое или логическое описание компонентов и функций, отображающих существенные свойства моделируемого объекта или процесса (обычно рассматриваемых как системы или элементы системы). Ограничение – неравенства, устанавливающие зависимости для ресурсов. Оптимальное решение – вариант, для которого принятый критерий принимает наилучшее решение. Парная игра – игровая модель с двумя участниками. Переменная – величина, принимающая различные значения. Составитель - Нохрина Г.Л. 48 Теория игр. Курс лекций. Платежная матрица – прямоугольная таблица размерности m на n, i=1,...,n j=1,...,m (i,j)-ый элемент которой есть значение выигрыша (проигрыша) игроков в случае i-го хода первого игрока и j-го хода второго игрока. Равновесие (экономической системы) – 1) состояние, которое характеризуется равенством спроса и предложения всех ресурсов; 2) состояние, когда ни один из многих взаимосвязанных участников системы не заинтересован в изменении этого состояния, так как при этом он не может ничего выиграть, но может проиграть. Симплекс-метод – метод решения задач линейного программирования, заключающийся в последовательном улучшении плана и позволяющий осуществлять переход от одного допустимого базисного решения к другому таким образом, что значение целевой функции непрерывно возрастают и за конечное число шагов находится оптимальное решение. Случайная величина – данные, которые зависят от ряда случайных факторов. Случайный ход – результат, получаемый не решением игрока, а каким-либо механизмом случайного выбора (покупательский спрос, задержка с поставкой материалов и т.п.). Событие – всякий факт, который в результате опыта может произойти или не произойти. Сознательный ход – выбор игроком одного из возможных вариантов действия (стратегия) и принятие решения о его осуществлении. Среднеквадратическое отклонение характеризует разброс значений случайной величины от ее среднего значения. Стационарность – постоянство во времени характеристик некоторого процесса. Стратегия – правило действий в каждой ситуации процесса принятия решения. Теория игр занимается методами обоснования решений в условиях неопределенности и риска, вырабатывает рекомендации для различного поведения игроков в конфликтной ситуации. Целевая функция – критерий оптимизации, признак, характеризующий качество принимаемого решения (максимум прибыли, минимум затрат). Составитель - Нохрина Г.Л. 49