Лекция №4 - AI-inf Образовательный ресурс

advertisement
ЛЕКЦИЯ №4
ТЕОРЕТИКО-ИГРОВЫЕ МОДЕЛИ ПР
В КОНФЛИКТНЫХ СИТУАЦИЯХ
ОПРЕДЕЛЕНИЯ:
Игрой называется упрощённая формализованная модель конфликтной
ситуации, а конфликтующие стороны называются игроками.
Ситуация называется конфликтной, если в ней сталкиваются интересы
двух или более сторон, преследующих различные, в частном случае
противоположные, цели.
Однократный розыгрыш игры от начала до конца называется партией.
Партия состоит из ходов. Под ходом понимается выбор из вариантов
действий (из множества возможных альтернатив).
Результатом партии являются платежи (выигрыши, проигрыши игроков).
Ходы могут быть личными или случайными.
Личный ход – ход, при котором игрок осуществляет сознательный выбор.
Случайный ход – выбор варианта осуществляется на основе механизма
случайного выбора (бросание монеты, кости и т.п.).
Игра, в которой присутствует хотя бы один личный ход, называется
стратегической.
Игра, состоящая из одних случайных ходов, называется азартной и такие
игры в теории игр (ТИ) не рассматриваются.
Задача ТИ: нахождение оптимальных стратегий игроков в стратегических
играх, т.е. стратегий, обеспечивающих игрокам максимальный выигрыш
или минимальный проигрыш).
Игра n-лиц G = {A1, … , An, H(A1 , … , An)}, где
Ai – стратегия i игрока,
H – платёж игры.
Исход каждой партии оценивается платежом, определяющим выигрыш
(проигрыш) каждого игрока.
1
КЛАССИФИКАЦИЯ ТЕОРЕТИКО-ИГРОВЫХ МОДЕЛЕЙ
Дискретные, если мн-во стратегий дискретно
Конечные
Бесконечные
Непрерывные, если мн-во стратегий непрерывно
Бесконечные
N-лиц
Коалиционные (кооперативные)
Некоалиционные (некооперативные)
2-х лиц
Антагонистические (игры с нулевой суммой,
интересы сторон прямо противоположны)
Неантагонистические
(интересы
сторон
не
совпадают)
С полной информацией (если игроку, делающему
личный ход известна вся предыстория игры)
С неполной информацией (неизвестна вся предыстория
игры)
С нулевой суммой (суммарный платёж равен 0)
С ненулевой суммой
Одноходовые
Многоходовые
ИГРОВАЯ МОДЕЛЬ ДЛЯ ДВУХ ЛИЦ (ПАРНАЯ
АНТАГОНИСТИЧЕСКАЯ ИГРА) С НУЛЕВОЙ СУММОЙ
Игрок A:A1,…,An - множество стратегий A ({Ai}, i=1,..,n)
Игрок B:B1,…,Bn -множество стратегий B ({Bj}, j=1,..,m)
Представление игры:
 в виде дерева игры (ДИ);
 виде матрицы (платёжной) игры.
2
ПРЕДСТАВЛЕНИЕ ИГРЫ В ВИДЕ ДЕРЕВА ИГРЫ (ДИ)
Вершины дерева – это ситуации или состояния, которые возможны в
процессе игры.
Корень дерева – начальная ситуация (начало игры).
Концевые вершины – это конечные состояния игры, взвешенные
платежами.
Дуги – возможные переходы из состояния под действием определённой
стратегии.
ПРИМЕР:
Два игрока A и B.
1 ход (личный): А выбирает цифру 1 или 2.
2 ход (случайный):
 Если орел (О), то А сообщает о своём выборе В.
 Если решка (Р), А не сообщает о своём выборе В.
3 ход (личный): В выбирает цифру 3 или 4.
Итог: Суммируются выборы игроков А и В, и если сумма чётная, то В
выплачивает А, в противном случае А выплачивает В.
1. А
(Л)
2
S1, S2, S3, S4 – классы
информации.
Р
О
S1
1
2. (С)
О
3. В
(Л)
3
(А) 4
Р
S3
S2
4
3
4
-5
4
-5
S4
3
4
3
4
-5
6
-5
6
Введём понятие класса информации. В класс информации объединяются все
те вершины ДИ, в которых игроку, делающему личный ход, доступна одна
и та же информация.
Если в ДИ все классы информации содержат по одной вершине, то это
игра с полной информацией, если имеются классы информации, которые
содержат более одной вершины, то это игра с неполной информацией.
Следовательно, данная игра распадается на две игры: с полной и с
неполной информацией.
3
Стратегия игрока должна быть всеобъемлющей.
Стратегии А:
Стратегии В:
A1 (1), A2 (2)
B = (S2, S3, S4)
8 стратегий:
B1 = (3, 3, 3)
B2 = (3, 3, 4)
…
B8 = (4, 4, 4)
МЕТОДЫ СОКРАЩЕНИЯ ПЕРЕБОРА ПРИ ПОИСКЕ РЕШЕНИЯ НА
ДЕРЕВЕ ИГРЫ
 Полное ДИ и поиск путём полного перебора:
o поиск “в глубину”;
o поиск “в ширину”;
o комбинированные методы поиска.
 Сокращённый перебор (на основе использования оценочных и
эвристических функций):
o точная оценка с получением оптимального решения;
o эвристическая оценка без гарантии получения оптимального
решения, т.е. будет получено допустимое решение.
Определение 1: Алгоритм поиска решения называется допустимым, если
он гарантирует нахождение оптимального решения.
Определение 2: Допустимый алгоритм называется оптимальным, если
при поиске решения оценивается минимальное число вершин ДИ.
Оценка алгоритма – это оценка временных ресурсов, требуемых для оценки
вершин ДИ.
МЕТОДЫ СОКРАЩЕНИЯ ПЕРЕБОРА
 Универсальные методы (не зависят от проблемной области):
o Метод МАКСМИНА;
o α-β отсечение.
 Эвристические методы (учитывают специфику задачи).
4
Метод МАКСИМИНА
Метод заключается в максимизации выигрыша, при минимизации
проигрыша.
Этот метод позволяет отсекать неперспективные направления.
Игрок А: (MAX)
Игрок В: (MIN)
Идея алгоритма:
Шаг 1.
Строится полное ДИ на ту глубину на которую возможно его
построить учитывая ограничения по памяти, времени и т.д.
Условие: Число ходов должно быть чётно.
Шаг 2.
Концевые
оценочной функцией.
вершины
ДИ
оцениваются
(взвешиваются)
Шаг 3.
Совершается обратное движение по дереву вверх от концевой к
начальной вершине для определения наилучшего первого хода игрока А.
Существенным недостатком алгоритма является то, что построение ДИ и
его оценка отделены друг от друга.
Лучшим решением было бы отсеивание неперспективных ветвей ДИ во
время его построения.
Пример:
5
A
S0
n = 51
nk = 31
5
3
B
5
3
7
4
7
A
1
1
5
3
7
2
3
2
4
3
2
7
B
3 14
15 9 2 6 5 3 5 8 9 7 93 2
Выигрыши А.
В стремится их минимизировать.
3
5
8462 6
4
3
88 3 27
9
СЕМИНАР №4
ЗАДАЧА 1: Два игрока A и B.
1 ход (личный): А выбирает шар белого (Б) или чёрного (Ч) цвета.
2 ход (случайный): Случайный выбор шара Б или Ч.
3 ход (личный): В выбирает шар Б или Ч.
Итог: Если все шары одного цвета (О), то А проигрывает В, в противном
случае (Р) А выигрывает.
1. А
(Л)
Б
Ч
S1, S2, S3, S4, S5– классы
информации.
Ч
Б
Ч
S1
2. (С)
Б
3. В
(Л)
Б
О
S2
S5
S4
S3
Ч
Б
Ч
Б
Ч Б
Ч
Р
Р
Р
Р
Р
О
Стратегии А:
A1 (Б), A2 (Ч)
Р
Стратегии В:
B = (S2, S3, S4, S5)
16 стратегий:
B1 = (Б, Б, Б, Б)
B2 = (Б, Б, Б, Ч)
…
B16 = (Ч, Ч, Ч, Ч)
Игра с полной информацией.
ЗАДАЧА 2:
S0
5
n =9
nk = 6
А
3
5
В
3
7
5
5
Выигрыши А.
В стремится их минимизировать.
6
7
5
ЗАДАЧА 3:
S0
3
n =9
nk = 6
А
3
3
В
3
7
5
10
21
3
Выигрыши А.
В стремится их минимизировать.
ЗАДАЧА 4:
5
A
S0
n = 51
nk = 31
5
8
B
4
6
5
6
8
A
4
9
6
5
9
9
8
6
6
8
8
9
B
3 14
15 9 2
6 5 3 5
8 9 7 93 2
3
84 6 26
Игра в поддавки
Выигрыши А.
В стремится их максимизировать.
7
4
3
8 8 3 27
9
Download