Автоматная модель адаптивного управления мобильными объектами

advertisement
Автоматная модель адаптивного управления мобильными объектами
В настоящее время работы в области создания моделей поведения, использование
методов ИИ для управления различными объектами имеют в нашей стране в основном
теоретический, абстрактный характер. Как отдельные работы в этом направлении можно
говорить о работах в КарГТУ, [1]. Причины тому много, одной из них является кажущаяся
трудоемкость и дороговизна проектов, работающих с реальными техническими
устройствами. В то время как подобные макеты в дальнем зарубежье уже продают как
детские конструкторы.
Прототип робот удобно реализовать в виде автономного мобильного объекта,
имеющую на борту программируемый контроллер, набор различных датчиков,
исполнительные механизмы (ходовые двигатели, манипуляторы и др.), радиоканал или
другие модули связи с управляющим компьютером. Робот строяит по модульному
принципу, что позволяет использовать его компоненты для других разработок. Открытой
архитектура робота удобна для реализации на его основе разнообразных моделей
поведения, решения широкого круга исследовательских задач.
В нечеткой логике
вводится
понятие
лингвистической переменной,
значениями которой являются
не
числа , а слова естественного
языка
,
называемые
термами.
Например,
в
случае
управления
мобильным
роботом можно ввести две
лингвистические переменные:
ДИСТАНЦИЯ (расстояние до
помехи) и НАПРАВЛЕНИЕ
(угол
между
продольной
осью
робота и направлением на
помеху).
Рассмотрим
лингвистическую переменную ДИСТАНЦИЯ. Значениями ее можно определить
термыДАЛЕКО, СРЕДНЯЯ, БЛИЗКО и ОЧЕНЬ БЛИЗКО.Для физической реализации
лингвистической переменной необходимо определить точные физические значения
термов этой переменной. Пусть переменная ДИСТАНЦИЯ может принимать любое
значение из диапазона от нуля до бесконечности. Согласно положениям теории нечетких
множеств, в таком случае каждому значению расстояния из указанного диапазона может
быть поставлено в соответствие некоторое число от нуля до единицы, которое определяет
степень принадлежности данного физического расстояния (допустим 40 см) к тому или
иному терму лингвистической переменной ДИСТАНЦИЯ Степень принадлежности
определяется так называемой функцией принадлежности М(d), где d-расстояние до
помехи. В нашем случае расстоянию 40 см. можно задать степень принадлежности к
терму ОЧЕНЬ БЛИЗКО равную 0,7 , а к терму БЛИЗКО– 0,3 (см. рис.2.2.). Конкретное
определение степени принадлежности может проходить только при работе с экспертами.
Рис.2.2. Лингвистическая переменная и функция принадлежности.
Переменной НАПРАВЛЕНИЕ, которая может принимать значения в диапазоне от
0 до 360 градусов, зададим термы ЛЕВОЕ, ПРЯМО И ПРАВОЕ.
Теперь необходимо задать выходные переменные. В рассматриваемом примере
достаточно одной, которая будет называться РУЛЕВОЙ УГОЛ. Она может содержать
термы: РЕЗКО ВЛЕВО, ВЛЕВО, ПРЯМО, ВПРАВО, РЕЗКО ВПРАВО. Связь между
входом и выходом запоминается в таблице нечетких правил (рис.2.3.).
Рис.2.3. Таблица нечетких правил.
Каждая запись в данной таблице соответствует своему нечеткому правилу,
например:
Если ДИСТАНЦИЯ БЛИЗКО и НАПРАВЛЕНИЕ ПРАВОЕ, тогда РУЛЕВОЙ
УГОЛ РЕЗКО ВЛЕВО
Таким образом, мобильный робот с нечеткой логикой будет работать по
следующему принципу: данные с сенсоров о расстоянии до помехи и направлении на нее
будут фаззифицированы, обработаны согласно табличным правилам, дефаззифицированы
и полученные данные в виде управляющих сигналов поступят на привода робота.
Применение традиционной нечеткой логики в современных системах крайне
ограниченно следующими факторами:
 как правило, сложная система управления имеет большее количество входов, чем
самое заурядное нечеткое приложение;
 добавление входных переменных увеличивает сложность вычислений
экспоненциально;
 как следствие предыдущего пункта, увеличивается база правил, что приводит к
трудному ее восприятию (напомню, база правил набирается вручную);
 операции в рельном масштабе требуют специального железа.
3.1. Микроконтроллер нечеткой логики
Общая структура микроконтроллера, использующего нечеткую логику, показана на
рис.1. Она содержит в своем составе следующие составные части:
 блок фаззификации;
 базу знаний;
 блок решений;
 блок дефаззификации.
Блок фаззификации преобразует четкие (сrisp) величины, измеренные на выходе
объекта управления, в нечеткие величины, описываемые лингвистическими переменными
в базе знаний.
Блок решений использует нечеткие условные (if – then) правила, заложенные в базе
знаний, для преобразования нечетких входных данных в требуемые управляющие
воздействия, которые носят также нечеткий характер.
Блок дефаззификации преобразует нечеткие данные с выхода блока решений в
четкую величину, которая используется для управления объектом.
Рис.3.1. Общая структура нечеткого микроконтроллера.
В качестве реальных микроконтроллеров, поддерживающих нечеткую логику
выступают 68HC11, 68HC12 фирмы Motorola, MCS-96 фирмы Intel, а также некоторые
другие.
Рис.1. Архитектура системы и
внешний вид робота
Обычно вычислительные ресурсы
таких роботов невелики: тактовая
частота
микроконтроллера
ATMega162 - 7 МГц, флэш-память
для хранения программного кода - 16
K, ОЗУ - 512 байт, но это
значительно удешевляет расходы на
создание таких.
Одной
из
наиболее
эффективных и простых моделей
условно-рефлекторного
поведения
является вероятностный автомат
[Цетлин, 1969]. Имеется устройство с
N датчиками и M эффекторами
(исполнительными
механизмами).
Таким образом, входной алфавит составляет X=2N сигналов, а выходной - Y=2M (при
условии независимой отработки устройством каждого управляющего воздействия). При
этом, в отличие от [Цетлин, 1969], рассматривается автомат с детерминированной
матрицей переходов по всем 2N сигналам. Действия автомат совершает в соответствии со
стохастической матрицей P размером Q×X×Y, где Q– количество состояний. Т.е.,
находясь в некотором состоянии q(t) и приняв на входе сигнал x(t), автомат переходит в
состояние q(t+1). При этом он совершает действие y, выбираемое из соответствующего
вектора вероятностей – строки матрицы P:
y(t+1) = F(x(t), q(t), P(t)),
q(t+1) = Q(x(t),q(t)).
Или в табличном виде:
Рис. 2. Стохастическая матрица действий
Реакция автомата на входное воздействие оценивается – автомат наказывается либо
поощряется. Смысл реакции на сигнал наказания/поощрения заключается в изменении
значений вероятностей выполняемых действий. Теоретически изменение вероятностей
при поощрении ( s=0) и наказании ( s= 1) выглядит так:
pij(t+1,s(t)) = pij(t,s(t))+(-1)s(t+1)× g× pij(t,s(t))× [1-pij(t,s(t))]
pik(t+1,s(t)) = pik(t,s(t))-(-1)s(t+1)× g× pik(t,s(t))× pij(t,s(t)) для k¹ j. 0£ g£ 1
Здесь g– параметр, определяющий скорость обучения. Таким образом, с течением времени
в ходе «дрессировки» автомат должен сформировать необходимые значения вероятностей
действий.
Вместе с тем открытым остается вопрос о выборе оптимальной структуры
автомата. При восьми исполнительных устройствах и десятке датчиков мы уже получаем
достаточно внушительные входные и выходные алфавиты. Т.е. учиться автомату
приходится довольно долго (к тому же нельзя забывать, что все это должно происходить в
«реальном времени»). Поэтому увеличивать способности автомата к оценке ситуации за
счет расширения памяти – добавления новых состояний – крайне невыгодно с точки
зрения времени обучения. В теории неплохие результаты показывает полносвязный
автомат из трех состояний:
Рис.3. Структура управляющего автомата
Однако на практике вполне можно обойтись автоматом «без памяти» – с одним
состоянием. На самом деле память реализована матрицей P, но речь идет о том, что
автомат не различает понятия «предыдущие моменты времени».
Описанные выше модели, несмотря на свою простоту, позволяют реализовывать и
боле сложные поведенческие акты, в которых участвует коллектив роботов. Вопросы,
касающиеся моделей коллективного поведения, достаточно хорошо описаны в
многочисленной литературе, начиная с классических работ Цетлина, Варшавского и
Стефанюка и заканчивая множеством публикаций на многоагентные темы.
Рассмотрим частный случай взаимодействия двух мобильных объектов –
мобильных роботов. Пусть робот A1 функционирует в некоторой среде S1, а робот A2 - в
среде S2. Пусть среды S1 и S2 являются частями некой единой среды S. Отсюда следует
естественный интерес к реализации схемы взаимного обмена навыками, полученными
роботами с тем, чтобы робот, успешно живущий в S1, мог бы функционировать и в
«чужой» среде S2.
Далее предлагается реализация двух экстенсивных моделей типа «1 голова –
хорошо, 2 – лучше» (1ГХ2Л). Суть их сводится к тому, что «навыки» роботов A1 и A2,
приобретаемые независимо друг от друга с какой то периодичностью считываются
центральной управляющей ЭВМ. Далее эти «навыки» подлежат некоторой процедуре
объединения, результат которого передается обратно роботам.
Рис.5. Схема 1ГХ2Л
При этом предполагается наличие некоторого канал связи между роботами и
управляющей машиной. Очевидно, что в случае наличия достаточных вычислительных
ресурсов у роботов объединение навыков может осуществляться автономно, без наличия
управляющей машины.
В ней рассматриваются роботы, управляемые вероятностными автоматами. Суть
модели состоит в процедуре объединения матриц вероятностей действия. Роботы
управляются ЭВМ, которая инициирует процесс объединения навыков, подает
управляющие и обучающие воздействия на роботов.
Получение «совокупной» матрицы вероятностей действий заключается в
сопоставлении некоторых характеристик d векторов каждой матрицы. Характеристика
dдолжна определять степень неоднородности элементов. «Необученный» вектор содержит
равные или примерно равные элементы, поэтому в качестве этой характеристики могут
выступать значения дисперсии, среднего квадратичного отклонения и т.д.
Далее происходит попарное сравнение характеристик неоднородности векторов с
некоторым пороговым значением R . В том случае, когда нельзя отдать предпочтению
тому или иному вектору, происходит формирование усредненного вектора вероятностей.
Рис. 6. Объединение матриц вероятностей действия
Заключение
Основной особенностью рассмотренных в работе моделей является их «натурная»
реализация, практическое воплощение в робототехническом устройстве. Ориентация на
программную реализацию особенности реализуемых алгоритмов в подобных моделях
позволяет определять методику решения задач, например, возможности их обучения,
ограничения ДСМ и НС-методов для последующей реализации в полноразмерных
роботехнических системах.
Литература
1. [Цетлин, 1969] Цетлин М.Л. Исследования по теории автоматов и моделированию
биологических систем. -М.:Наука, 1969.
2. [Финн, 1991] Финн В.К. Правдоподобные рассуждения в интеллектуальных
системах типа ДСМ //Итоги науки и техники. Сер. «Информатика». Т. 15. - М.:
ВИНИТИ, 1991. - С. 54–101.
3. Добрынин Д.А., Карпов В.Э. Моделирование некоторых простейших форм
поведения: от условных рефлексов к индуктивной адаптации //Сб. научных трудов
I Международной конференции «Системный анализ и информационные
технологии САИТ-2005», М.: КомКнига, Т.1, стр. 188-193
Download