Модели автономных когнитивных агентов – бионический задел развития искусственного интеллекта

Реклама
Модели автономных
когнитивных агентов –
бионический задел развития
искусственного интеллекта
НИИ системных исследований РАН
Редько Владимир Георгиевич
[email protected]
План доклада
1. Направления, в которых ведутся исследования
автономных когнитивных агентов
2. Примеры моделей автономных агентов
2.1. Модель взаимодействия между обучением и
эволюцией
2.2. Схема многоагентной модели честной конкурентной
экономики
2.3. Идея проекта на Нобелевскую премию мира
3. Заключение
Исследования автономных
агентов
Адаптивное поведение
 Первая конференция: Париж, 1990 г. (Ж.-А. Мейер, С. Вильсон)
 Основной подход – конструирование и исследование искусственных (в
виде компьютерной программы или робота) «организмов» (аниматов,
агентов), способных приспосабливаться к внешней среде
 ANIMAL + ROBOT = ANIMAT
 Программа-минимум – исследовать архитектуры и принципы
функционирования, которые позволяют животным или роботам жить и
действовать в переменной внешней среде
 Программа-максимум – попытаться проанализировать эволюцию
когнитивных (познавательных) способностей животных и эволюционное
происхождение человеческого интеллекта
 Предшественники: М.Л. Цетлин, М.М. Бонгард.
Гаазе-Рапопорт М.Г., Поспелов Д.А. От амебы до робота: модели
поведения. М.: Наука, 1987. М.: УРСС, 2004, 2011.
Искусственная жизнь
Направление
исследований
«Искусственная
жизнь»
сформировалось в конце 1980-х годов. Основной мотивацией
исследований искусственной жизни служит желание понять и
промоделировать формальные принципы организации
биологической жизни.
Сторонники направления «Искусственная жизнь» часто
считают, что они исследуют более общие формы жизни, чем
те, которые существуют на Земле.
Т.е. изучается жизнь, какой она могла бы в принципе быть
(“life-as-it-could-be”), а не обязательно та жизнь, какой мы ее
знаем (“life-as-we-know-it”).
Когнитивные архитектуры
Под когнитивными архитектурами понимаются структуры и
принципы функционирования познающих систем, которые
можно использовать в искусственном интеллекте.
Langley P., Laird J.E., Rogers S. Cognitive architectures:
Research issues and challenges // Cognitive Systems Research.
2009. V.10. No. 2. PP. 141-160.
Laird L.E. The Soar Cognitive Architecture. Cambridge et al.:
The MIT Press, 2012.
Самсонович А.В. Biologically inspired cognitive architectures –
проведение международных конференций 2010, 2011 гг.
Конференции BICA: Палермо (2012), Киев (2013).
Автономные агенты
Автономные агенты имеют свою собственную систему
управления.
Автономные агенты вполне могут рассматриваться как
объединяющее понятие для отмеченных направлений.
Работы по автономным агентам ведутся как со стороны
биологических наук, так со стороны вычислительных наук.
Vernon D., Metta G., Sandini G. A survey of artificial cognitive
systems: Implications for the autonomous development of mental
capabilities in computational agents // IEEE Transactions on
Evolutionary Computation, special issue on Autonomous Mental
Development, 2007. V. 11. No. 2. PP. 151-180.
Примеры моделей автономных
агентов
Модель взаимодействия между
обучением и эволюцией
в популяции автономных агентов
Модель эволюции и обучения
После появления дарвиновской теории эволюции возник
вопрос: могут ли за счет случайного мутационного поиска
возникать весьма нетривиальные полезные навыки живых
организмов?
Появились концепции: обучение может существенно
способствовать эволюционному процессу (эффект Болдуина).
Baldwin J.M. A new factor in evolution. American Naturalist. 1896. V. 30. P.
441-451.
Morgan C.L. On modification and variation. Science. 1896. V. 4. P. 733-740.
Osborn H.F. Ontogenetic and phylogenetic variation. Science. 1896. V. 4. P. 786789.
Модель анализирует основные механизмы взаимодействия
между обучением и эволюцией.
Модель эволюции и обучения
Эволюционирующая популяция состоит из n особей.
Особь имеет генотип и фенотип SFk, которые закодированы
одинаковыми по форме цепочками символов длины N.
Символы цепочек SGk и SFk равны 0 либо 1.
Имеется случайная оптимальная цепочка SM той же формы,
которая ищется в процессе обучения и эволюции.
Генотип особи SGk в течение поколения не меняется.
Фенотип SFk модифицируется путем обучения методом проб
и ошибок.
Каждое поколение длится Т тактов времени. При рождении
SFk (t = 1) = SGk . Отбор определяется SFTk = SFk (t = T).
Модель эволюции и обучения
Приспособленность особи определяется расстоянием по
Хеммингу ρ = ρ(SFTk,SM) между оптимумом SM и фенотипом SFk
в конце поколения:
f(Sk) = exp[-ρ(SFTk,SM)] + ε ,
(1)
где SFTk = SFk (t = T), 0 < ε << 1. Т – длительность поколения.
Слагаемое ε характеризует влияние случайных факторов
окружающей среды на приспособленность особей.
Отбор осуществляется с вероятностями, пропорциональными
приспособленностям особей.
Потомки наследуют геномы SGk отбираемых особей, отбор
осуществляется в соответствии с фенотипами SFk .
Эволюция с обучением и эволюция без обучения
Зависимость среднего по популяции расстояния генома до
оптимума <ρ> = <ρ(SGk,SM)> от номера поколения G
эволюция без обучения
60
40
<ρ>
эволюция с обучением
20
0
0
500
1000
1500
2000
G
Параметры расчетов: N = 100, n = 100, pmutation = 0.01, ε = 10-6 .
Механизм влияния обучения
Распределение особей n(ρ) по величинам ρ в первом
поколении эволюции
25
Фенотипы SFk
20
n(ρ)
Геномы SGk
3. После отбора
2. Перед отбором
15
1. В начале
поколения
4. После
отбора
10
5
0
0
10
20
30
40
50
60
70
80
ρ
Геномы отобранных особей (4) достаточно близки к фенотипам этих особей (3)
Роль эффекта нагрузки на обучение
Зависимость среднего по популяции расстояния генома до
оптимума <ρ> = <ρ(SGk,SM)> от номера поколения G.
Приспособленность особи равна:
f(Sk) = exp{-ρ[SFk(t = 0), SFk(t = T)]} {exp[-ρ(SFTk,SM)] + ε}
(2)
60
<ρ>
40
20
0
0
50
100
150
200
G
Оптимум находится. Поиск происходит примерно в 10
быстрее, чем без учета эффекта нагрузки
Механизм эффекта нагрузки на обучение
Распределение особей n(ρ) по величинам ρ в первом
поколении эволюции
Фенотипы SFk
20
n(ρ)
Геномы SGk
3. После отбора
15
4. После отбора
2. Перед отбором
1. В начале поколения
10
5
0
0
20
40
ρ
60
80
Распределения (3) и (4) резко сближаются. Это приводит к
эффективному ускорению поиска
Выводы по модели эволюции и
обучения
1. Показано, что обучение может радикально ускорять
эволюционный поиск
2. Выяснены механизмы этого ускорения
3. Приобретаемые путем индивидуального обучения
навыки
в
течение
ряда
поколений
могут
перекодироваться в геноме, становиться наследуемыми,
хотя эволюция носит дарвиновский характер
Модель честной конкурентной экономики
Имеется сообщество инвесторов и производителей.
Инвесторы могут генерировать легких агентов (аналогов
муравьев): агентов-разведчиков и агентов намерений.
Имеется период T, характеризующий циклы работы
сообщества. В начале периода инвесторы вкладывают
капитал в производителей, а конце периода – получают свою
долю прибыли.
Перед окончанием периода T инвесторы рассылают агентов-разведчиков и
предварительно оценивают, в каких производителей стоит делать вклад в
следующий период. После первой оценки они рассылают агентов
намерений и указывают свои вклады производителям. Такая рассылка
делается итеративно. В конце итераций делается окончательный выбор
вложений капитала инвесторами.
Статья: http://www.niisi.ru/iont/ni/Journal/V6/N1/Redko.pdf
Вымирание генов агрессивности в
эволюционирующей популяции
конкурирующих агентов или идея
проекта на Нобелевскую премию мира
Модель взаимодействующих агентов
(М.С. Бурцев, 2002)
Действия агента: двигаться вперед,
поворачиваться направо или налево,
питаться, размножаться, бороться с
другими агентами
Система
управления
агента
однослойная нейронная сеть
Агент
Стрелка показывает
направление вперед,
кружки – поле зрения
агента
–
При питании агент увеличивает свой
ресурс, при действиях (особенно при
борьбе) – расходует. При борьбе
агенты отнимают ресурс друг у друга
Популяция агентов эволюционирует,
есть отбор и мутации
Структура нейронной сети агента
При мутациях меняются веса связей (веса синапсов
нейронов) и может происходить удаление или добавление
рецепторов или эффекторов
При отборе выживают агенты, имеющие наибольший ресурс
Зависимость численности популяции от времени
Внизу – полная модель, вверху – эффекторы борьбы удалены
От агрессивной конкуренции к конструктивной
Если попытаться развить этот подход для социальноэкономических систем, то можно ожидать, что устранение
агрессивной конкуренции (между людьми, фирмами,
регионами, государствами) может увеличить благосостояние
общества в 2 раза.
Можно даже предложить идею проекта на Нобелевскую
премию мира «Разработка научных основ всемирного
разоружения».
Пока есть только идея и затравочная модель…
Заключение
1. Имеется ряд направлений, в которых ведутся
исследования автономных когнитивных агентов
2. Исследуются как компьютерные методы (например,
эволюционная оптимизация), так и когнитивные,
интеллектуальные свойства агентов
3. Имеется ряд перспективных направлений применения
автономных когнитивных агентов
4. Результаты
этих
исследований
целесообразно
использовать в искусственном интеллекте
Спасибо за внимание!
Скачать