Robotics and the Q-analysis of Behaviour

advertisement
Robotics and the Q-analysis
of Behaviour
Фомин А.Д., 345 группа
2008 год
• Анализ поведения роботов (multi-agent),
основанный на изучении реальных игр и
абстрагировании основной модели.
– Построение подходящего представления сцены,
учитывающего наиболее важные признаки
(features)
– Классификация всех сцен по их признакам
– Изучение взаимосвязей между классами сцен и
действиями, наиболее предпочтительными в них
2
Особенность метода
• Q-анализ (Q-analysis)
– Исследование реляционной структуры,
построенной на множестве возможных
признаков
– Выбор важнейших признаков
3
Введение
• Анализ поведения (Behaviour analysis) –
построение модели, наблюдаемой в
agent / multi-agent системе. RoboCup
4
Behaviour Analysis
• Сцена (Scene) как взаимодействие
агентов и их окружения – мгновенная
картина происходящего
• Сцена состоит из подсцен (sub-scenes)
или конфигураций (configurations) со
своими подмножествами игроков
5
Configurations
• Конфигурация - набор исследуемых
признаков:
• ‘opponent to left’
• ‘ball moving fast’
• ‘close to goal’
• Классификация конфигураций, основанная на
комбинации признаков
• Связь классов конфигураций с действиями,
которые следует предпринять агентам
6
Ключевые вопросы
• Какие признаки «лучше всего»
описывают сцену?
• Как классифицировать конфигурации?
• Как изучить связь между полученными
классами и действиями агентов?
7
Какие признаки «лучше всего»
описывают сцену?
• Выделение признаков (feature
extraction) в распознавании образов
• Добавление «плохих» признаков портит
воздействие «хороших»
• Необходимо найти метод, отбирающий
только нужные признаки
8
Как классифицировать
конфигурации?
• Нахождение подходящего критерия
схожести сущностей
9
Как изучить связь между полученными
классами и действиями агентов?
• Машинное обучение
• Нахождение метода обучения,
основанного на результатах игр
10
• Q-анализ – многомерное обобщение
теории сетей, способное моделировать
n-арные связи между признаками и
конфигурациями
• Обеспечивает ступенчато
изменяющийся метод классификации, в
зависимости от общих признаков
11
• Отображение объектов в многомерное
пространство и кластеризация их
посредством введенных метрик
• В отличие от этого, Q-анализ сильно
чувствителен к выбираемым признакам, чем
можно воспользоваться для обнаружения
признаков, незначительно меняющих картину
представления сцены
12
Методология Q-анализа
13
Классифицирование
многомерных данных
• Множество классифицируемых
объектов A = {a1, a2, ...,am}
• Множество признаков B = {b1, b2, ..., bn}
• Исследование объекта ak – для каждого
bl ответить на вопросы:
1) Имеет ли объект ak признак bl?
2) Какова сила связи ak с bl?
14
пример
•
Робот с батареей
1) +
2) Текущий заряд
•
Робот без батареи
1) -
•
Робот с пустой батареей
1) +
2) 0
15
• Включение не присутствующих
признаков в рассмотрение (с весом 0)
приведет к «схожести» логически
несовместных (по данному признаку)
объектов
• Невозможно использование полностью
связной нейронной сети
16
• Идея – построить классификатор,
способный классифицировать объект с
произвольным числом параметров
(признаков)
17
Схожесть
• В классификации часто используются
геометрические модели
– Сущность – точка в многомерном
пространстве
– Схожесть – Евклидово расстояние
18
19
Представление связей
симплексами
• В Q-анализе схожесть не расстояние,
она основана на структурном анализе
информации об объектах
• Теоретико-множественный подход
• Элементы множества {x1, x2, ..., xp}
связаны отношением R => симплекс
(simplex) {x1, x2, ..., xp, R}
20
• Симплекс может быть представлен как
многогранник в n-мерном пространстве
• n=p-1
Симплекс из p+1 вершины – p-симплекс
21
• {x1, x2, ..., x6} – множество всех признаков
(бинарных)
• {c1,c2, ..., c5} - конфигурации
22
• Многомерные симплексы могут быть разбиты на
симплексы меньшей размерности – срез (face)
23
q-близость (q-nearness) и
структурная схожесть
• Определим пересечение двух симплексов:
• <x1,x2,x4,x5> ∩ <x2,x3,x4,x6> = <x2,x4>
Два симплекса называются q-связными (q-connected), если существует
цепочка попарно p-связных симплексов между ними, p ≥ q
24
• M·MT - 1
(1 – матрица из единиц)
• Размерность симплекса
(на диагонали) – q-top
25
Q-анализ и анализ поведения
26
• Пригодность структуры Q-анализа для
анализа поведения
• Основная гипотеза
– Классы «схожих» конфигураций являются
основой более общих понятий. Возможно
обобщение
– Т.е. анализ действий при конкретных конфигурациях
(реально произошедших в игре) дает возможность
оценить подходящее действие в данный момент.
27
пример
• Анализ распасовки (passing behaviour)
• Данные взяты из log-файлов финала
“RoboCup 2003 Competition”
28
• Выбор подходящих признаков
• Использование этих признаков для
наиболее точной классификации
конфигураций
• Использование полученных классов в
качестве базы для дальнейшего
обучения
29
Проблемы
• Число признаков огромно
• Не существует очевидного выбора
подходящих признаков
30
• Для простоты рассматривается команда из 5 игроков
(вместо 11)
» p – игрок, владеющий мячом
» ai – союзники
» bj – противники
31
• αi, di – делятся на “very-small”, “small”,
“big” и “very-big”
• 11 бинарных признаков:
– dvs, ds, db, dvb
– αvs, αs, αb, αvb
– Rneigh_own_team, Lneigh_own_team
– oppcloser
32
Выбор признаков
• Из произвольного набора признаков
выбрать наиболее важные
• Задача проектировщика
• Метод определения подходящих
признаков в перспективе ведет к
автоматическому выбору признаков
33
• {x1, ..., x11} – бинарные признаки
• Считаем, что каждая конфигурация
либо благоприятна для пасса, либо нет
(passing / non-passing configuration)
34
• Признаки по-разному влияют на общую информацию
о конфигурации
– Значительно ее расширяют
– Оставляют без существенных изменений
• Признаки, присущие подавляющему большинству
конфигураций
• Признаки, не относящиеся почти ни к одной конфигурации
• В простейшем случае признак называется
«отвлекающим» (distracting), если его рассмотрение
дает несущественное расширение информации
• Признак называется идеальным классификатором
(perfect classifier), если все конфигурации одного
класса имеют его, а другого - нет
35
• Существуют наборы признаков, не
являющихся ни «отвлекающими», ни
«идеальными», но в сочетании друг с
другом дающих подходящий
классификатор
36
Q-анализ игр
• Рассмотрен log-файл финала “RoboCup 2003”
• S – множество всех удачных комбинаций
пасов (оба игрока были из одной команды)
• Для каждого паса строятся 21 треугольная
конфигурация. Рассмотрим, очевидно, 10 из
них (только игроки «своей» команды)
– Из этих 10 конфигураций
• 1 – pass configuration
• 9 – non-pass configuration
37
38
• Всего 118 pass и 1062 non-pass
• <x7> - 30% pass, 11% - non-pass
• <x9> - 36% pass, 42% - non-pass
• <x7,x9> - 18% pass, 5% - non-pass
39
Star-Hub Analysis
• Центр (hub) симплексов – их
наибольший общий срез (пересечение)
• Ищем множество симплексов с
наибольшим центром для “passing”
класса и наименьшим для “non-passing”
• Исследуем все 128 (4*4*2*2) возможных
комбинаций
40
41
• Исследуя полученные результаты, важно помнить,
что число испытаний недостаточно велико, тем не
менее даже при таких частотах можно выделить
некоторые симплексы
– Несмотря на высокую размерность, <x4,x5,x9,x10,x11>
относится к 5% nonpasses и почти ни одному pass
– <x4,x5,x10,x11> 2% passes, 11% non-passes
– <x3,x7,x9> 10% passes, 1% non-passes
– <x2,x11> 25% passes, 7% non-passes
– <x4> 14% passes, 69% non-passes
– <x2> 38% passes, 10% non-passes
42
Заключение
• Было изучено поведение роботов в ситуациях, когда
нужно сделать пас:
– Игрок, отдающий мяч, должен определить, кому из 10
игроков это следует сделать
– С каждым игроком ассоциирована структура, определяемая
набором признаков
– Каждая такая структура классифицируется как passing или
non-passing, в зависимости от результатов действия робота
• В простых системах каждый значимый признак
определяет, к какому классу относится конфигурация
• В более сложных это не так
43
Перспектива
• Данную классификацию можно расширить до
метода, позволяющего определять поведение
во время игры
• Но действия, определяемые описанным
образом будут основаны на статическом
восприятии окружающего мира, без учета
долгосрочных тактических планов
• Для решения этой проблемы можно добавить
характеристику «значимость паса»
44
Использование материалов
реальных игр
• Сколько наблюдений для конкретного
симплекса нужно сделать, чтобы
оценить его значимость?
• Можно ли совмещать материалы по
нескольким играм?
• Можно ли совмещать результаты,
полученные для разных команд?
• Как меняются результаты при
добавлении новых признаков?
45
Литература
[1] P. Iravani, `Behaviour-based architecture for abstract
control and learning', Proc. TAROS, 2004
[2] P. Iravani, Johnson, J.H., Rapanotti, L., `Applications
of concept grounding techniques to reduce the dimensionality in sensorory-motor space', STAIRS, 2004
[3] Atkin, R.H., Multidimensional Man, Penguin (Harmondsworth), 1981.
[4] Johnson, J.H., `Some structures and notation of Qanalysis', Environment and Planning B, 8, 73-86, 1981.
[5] Gordon, A. D., Classi¯cation, Chapman & Hall, 1999.
[6] Johnson, J., H., `Stars, Maximal Rectangles, and Lattice: a new persepctive on Q-analysis', International
Journal of Man-Machine Studies, 24, 293-299, 1986.
[7] Johnson, J. H., `Visual communication in swarms of
intelligent robot agents', Arti¯cal Life and Robotics, 5,
1-9, 2001.
[8] P. Iravani, `An architecture for multilevel learning and
robotic control base on concept generation', Ph.D. Thesis, The Open University, 2004.
46
Download