Модели адаптивного поведения - задел исследований когнитивной эволюции Редько В.Г. Институт оптико-нейронных технологий РАН 1. Предмет исследований 2. Почему важно исследовать когнитивную эволюцию. Как вести исследования 3. Каков задел этих исследований 4. Модель «Кузнечик» - возникновение целенаправленности 5. Проект «Мозг Анимата» 6. Проект программы исследований на ближайшие 20 лет (в порядке обсуждения) Предмет исследований Анализ процесса когнитивной эволюции Логика Условный рефлекс Привыкание Время (лет назад) Безусловный рефлекс 3 Млрд 1,5 Млрд 500 Млн 2,5 Тыс Простейшие одноклеточные Сложные одноклеточные Моллюски Человек Почему важно исследовать когнитивную эволюцию 1. Эта задача интересна с естественнонаучной точки зрения 2. Исследования когнитивной эволюции могут стать научной основой для разработок искусственного интеллекта 3. Эти исследования важны с философской, эпистемологической точки зрения – они могут способствовать прояснению проблемы применимости нашего человеческого мышления в познании природы 4. Эти исследования важны с социальной точки зрения – они должны способствовать развитию научного миропонимания, научной культуры человеческого сообщества Тезис: моделирование когнитивной эволюции – направление главного удара когнитивных наук Аргументация: • Интеллект, мышление, логика - основа когнитивных, познавательных способностей человека • «Зри в корень» - надо разобраться, как эти способности произошли • Наиболее естественный подход к анализу причин происхождения интеллекта - анализ когнитивной эволюции, эволюции познавательных свойств биологических организмов с помощью математических и компьютерных моделей Как вести исследования Проследить весь путь биологической эволюции от простейших до человека, анализируя c помощью математических и компьютерных моделей, как на этом пути возникали свойства познания закономерностей природы в результате развития систем управления адаптивным поведением организмов. Важно исследовать именно функции поведения, архитектуры и принципы работы когнитивных «устройств», не акцентируя особое внимание на биологической элементной базе (молекулы, нейроны,…). Разумно использовать задел направлений исследований «Искусственная жизнь» и, особенно, «Адаптивное поведение» Искусственная Жизнь "жизнь, какой она могла бы в принципе быть" Первая конференция: Лос-Аламос, 1987 г. (К. Лэнгтон). Основная цель – понять и промоделировать формальные принципы организации биологической жизни. К. Лэнгтон: “основное предположение искусственной жизни состоит в том, что «логическая форма» организма может быть отделена от материальной основы его конструкции”. Сторонники направления "Искусственная жизнь" часто считают, что они исследуют более общие формы жизни, чем те, которые существуют на Земле. Т.е. изучается жизнь, какой она могла бы в принципе быть ("life-as-it-could-be"), а не обязательно та жизнь, какой мы ее знаем ("life-as-we-know-it"). Предшественники: автоматы М.Л. Цетлина, проект "Животное" М.М. Бонгарда Адаптивное Поведение From Animal to Animat – модели адаптивного поведения животного и робота Первая конференция: Париж, 1990 г. (Ж.-А. Мейер, С. Вильсон) Основной подход – конструирование и исследование искусственных (в виде компьютерной программы или робота) "организмов" (аниматов, агентов), способных приспосабливаться к внешней среде. ANIMAL + ROBOT = ANIMAT Программа-минимум – исследовать архитектуры и принципы функционирования, которые позволяют животным или роботам жить и действовать в переменной внешней среде. Программа-максимум – попытаться проанализировать эволюцию когнитивных способностей животных и эволюционное происхождение человеческого интеллекта. Предшественник: книга Гаазе-Рапопорт М.Г., Поспелов Д.А. От амебы до робота: модели поведения. М.: Наука, 1987 Исследователи адаптивного поведения AnimatLab (Париж, руководитель – один из инициаторов аниматподхода Ж.-А. Мейер) Широкий спектр исследований адаптивных роботов и адаптивного поведения животных. Подход AnimatLab предполагает, что система управления анимата может формироваться и модифицироваться посредством 1) обучения, 2) индивидуального развития (онтогенеза) и 3) эволюции. http://animatlab.lip6.fr/index.en.html Исследователи адаптивного поведения Лаборатория искусственного интеллекта в университете Цюриха (руководитель Рольф Пфейфер) Основной подход – познание природы интеллекта путем его создания ("understanding by building"). Подход включает в себя 1) построение моделей биологических систем, 2) исследование общих принципов естественного интеллекта животных и человека, 3) использование этих принципов при конструировании роботов и других искусственных интеллектуальных систем. Pfeifer R., Scheier C., Understanding Intelligence. MIT Press, 1999. http://www.ifi.unizh.ch/groups/ailab/ Исследователи адаптивного поведения Лаборатория искусственной жизни и роботики в Институте когнитивных наук и технологий (Рим, руководитель Стефано Нолфи) Исследования в области эволюционной роботики принципов формирования адаптивного поведения. Nolfi S., Floreano D. Evolutionary Robotics: The Biology, Intelligence, and Technology of Self-Organizing Machines. Cambridge, MA: MIT Press/Bradford Books, 2000. http://gral.ip.rm.cnr.it/ и Исследователи адаптивного поведения Лаборатория искусственного интеллекта в Массачусетском технологическом институте (Родни Брукс) Исследования широкого спектра интеллектуальных и адаптивных систем, включая создание интеллектуальных роботов. Brooks R.A. Cambrian Intelligence: The Early History of the New AI. MIT Press, 1999. http://www.ai.mit.edu/ Исследователи адаптивного поведения В.А. Непомнящих. Моделирование спонтанной активности животных на основе анимат-подхода А.А. Жданов. Схемы и модели автономного адаптивного управления на базе аппарата эмоций. Накопление знаний одна главных компонент адаптивного управления А.И. Самарин. Самообучающиеся роботы (с 1970-х годов) К.В. Анохин. Нейробиологические подходы к исследованию аниматов Л.А. Станкевич. Первые в России антропоморфные роботы. Нейрологические архитектуры систем управления гуманоидных роботов на базе когнитивных агентов В.Г. Редько, М.С. Бурцев, О.П. Мосалов. Модели адаптивного поведения на базе эволюционных и нейросетевых подходов Робот АРНЭ (Л.А.Станкевич, СПГТУ, ОАО «Новая ЭРА», С-Петербург) Первый в России антропоморфный робот АРНЭ (Антропоморфный робот организации Новая ЭРА), 2003 г. 61 кг , 123 см. Робот АРНЭ (Л.А.Станкевич, СПГТУ, ОАО «Новая ЭРА», С-Петербург) Модель "Кузнечик". Эволюционное формирование целенаправленного адаптивного поведения (М.С. Бурцев, Р.В. Гусарев, В.Г.Редько, 2000) • Имеется популяция агентов (искусственных организмов), имеющих потребность энергии и потребность размножения. • Популяция эволюционирует в одномерной клеточной среде, в клетках может вырастать трава (пища агентов). • Каждый агент имеет внутренний энергетический ресурс R , который пополняется при съедании травы и уменьшается при выполнении каких-либо действий. Уменьшение ресурса до нуля приводит к смерти агента. • Агенты могут скрещиваться, рождая новых агентов. • Потребности характеризуется количественно мотивациями. • Поведение агента управляется однослойной нейронной сетью. • Действия агента: 1) "отдыхать", 2) двигаться (на одну клетку) вправо или влево, 3) прыгать через несколько клеток, 4) питаться, 5) скрещиваться. • Веса синапсов нейронной сети, управляющей поведением агента, составляют геном агента. Агенты в одномерной клеточной среде Поле зрения агента Агенты Трава Мотивации агентов ME , MR MR 1 ME 0 R1 R0 R Нейронная сеть агента Входы нейронной сети Сенсорные сигналы из внешней и внутренней среды Слой нейронов Действия агента НС - система управления агента, 9 входов, 7 действий 63 веса синапсов - геном агента Оптимизация нейронной сети - эволюционным путем Результаты моделирования 1- агенты без мотиваций, 2 - агенты с мотивациями Схема управления агента без мотиваций 1 ВИЖУ ЕДУ ЕСТЬ 3 2 ВИЖУ СОСЕДА СКРЕЩИВАТЬСЯ НЕ ВИЖУ НИЧЕГО ОТДЫХАТЬ Схема управления агента c мотивациями Выводы по модели "Кузнечик" Мотивации играют важную эволюционных процессах. роль в исследованных Популяция агентов с мотивациями имеет значительные эволюционные преимущества по сравнению с популяцией агентов без мотиваций. Управление поведением агента без мотиваций можно рассматривать как набор простых инстинктов, а управление агентом с мотивациями – как иерархическую систему управления, состоящую из двух уровней: уровня простых инстинктов и метауровня, обусловленного мотивациями. Возникновение этого метауровня аналогично переходу от простых рефлексов к сложным. Развитие модели "Кузнечик" Возникновение иерархии целей (М.С. Бурцев, 2002) Простой анимат в 2D клеточной среде Действия анимата: двигаться вперед, поворачиваться направо или налево, есть, размножаться, бороться с другими аниматами. Анимат Анимат в клеточной среде. Стрелка показывает направление вперед, кружки - поле зрения анимата Система управления анимата однослойная нейронная сеть, оптимизируемая эволюционным методом. Исходная структура целей Эволюционно сформированная иерархия целей (М.С. Бурцев) ВЫЖИВАНИЕ ВИДА ПОПУЛЯЦИЯ АГЕНТ мало количество энергии ПОЛУЧЕНИЕ ЭНЕРГИИ нет объекты в поле зрения РАЗМНОЖЕНИЕ агент пища ПОИСК ПИТАНИЕ много БОРЬБА Проект "Мозг Анимата". Версия на основе адаптивных критиков (В.Г. Редько, Д.В. Прохоров, К.В. Анохин, М.С. Бурцев, 2004) Предшественники: П. К. Анохин, М.М. Бонгард и др. (проект «Животное»), Е.А.Умрюхин, В.Б. Швырков Данная версия - развитие первого варианта проекта «Мозг Анимата» (К.В. Анохин, М.С. Бурцев, И.Ю. Зарайская, А.О. Лукашев, В.Г. Редько, 2002) Первая версия основывалась на нейросетях, обучаемых методом обратного распространения ошибки. Такие нейросети обеспечивали прогнозы результатов действий. Функциональная система по П.К. Анохину Обратная афферентация Память Параметры результата ОА Принятие решения ПА ОА Акцептор результата действия Программа действия Результат действия Действие Мотивация Афферентный синтез Эфферентные возбуждения Архитектура системы управления анимата Выживание вида ФС1 ФС1.1 ФС1.1.1 ФС2 ФС1.2 ФС1.1.2 ФС2.1 ФС2.1.1 ФС2.2 ФС2.1.2 . . . ФС2.3 ФС2.2.1 ФС2.3.1 ФС1, ФС2, … соответствуют ведущим потребностям: питание, размножение, безопасность, накопление знаний Нейросетевые адаптивные критики Критики - ветвь обучения с подкреплением, один из методов приближенного динамического программирования Критик – блок системы управления, который оценивает качество ее работы. Понятие "критик" ввел Бернард Видроу, 1973. Он и его коллеги применили метод критиков к простой карточной игре и показали, что обучение с критиком позволяет найти оптимальную стратегию игры путём проб и ошибок, без использования учителя. Теория адаптивных критиков была развита в работах Пола Вербоса, Ричарда Саттона, Эндрью Барто, Данила Прохорова, Дональда Вюнша. Обучение с подкреплением St t = 1,2,… St – текущая ситуация, at – действие анимата, rt – подкрепление (положительное или отрицательное) Анимат rt at rt+1 Среда St+1 Цель анимата – максимизировать суммарную награду Σk rt+k+1 , получаемую за длительный период времени. В процессе обучения анимат формирует политику (policy). Политика определяет выбор (детерминированный или вероятностный) действия в зависимости от ситуации. Обучение с подкреплением может рассматриваться как развитие автоматной теории адаптации (М.Л. Цетлин и др.) Схема V-критика V(S(t)) S(t) Critic Spri(t+τ) - прогноз Spri(t+ τ) ai(t) S(t) - ситуация Model τ - шаг по времени ai(t) - i-е действие V(Spri(t+τ)) Critic S(t+τ) V(S(t+τ)) V(S) - оценка качества (оценка суммарной награды) ситуации S Critic и Model - многослойные нейронные сети, блок Critic показан для двух последовательных тактов времени Работа V-критика V(S(t)) S(t) Critic Spri(t+ τ) ai(t) Model Задача V-критика максимизировать суммарную награду: pr V(S i(t+τ)) Critic S(t+τ) V(S(t+τ)) R(t ) j r (t j ) , t = t0 , t1, t2 ,… j 0 Модель делает прогноз следующего состояния Spri(t+) для всех возможных действий ai , i =1,2,…, na . Каждое действие кодируется определенной комбинацией входов. Критик делает оценку V (S) величины R(t) для текущего состояния S(t), для всех прогнозируемых состояний Spri(t+) и для следующего состояния S(t+). V (S) - оценка качества ситуации S Алгоритм V-критика V(S(t)) S(t) Critic ai(t) Spri(t+ τ) 2. Критик оценивает V (S(t)), V (Spri(t+)) V(Spri(t+τ)) 3. Применяется ε - жадное правило и выбирается действие ak: Model Critic S(t+τ) 1. Модель делает прогноз Spri(t+) V(S(t+τ)) k = arg maxi{ V(Spri(t+))} с вероятностью 1- ε , k выбирается произвольно с вероятностью ε. 4. Действие ak выполняется 5. Оценивается подкрепление r(t). Происходит переход к следующему такту времени t+. Критик оценивает V (S(t+)). 6. Оценивается ошибка временной разности δ(t) = r(t) + γV (S(t+)) - V (S(t)) . 7. Обучаются Модель и Критик Обучение V-критика Обучение проводится путем подстройки весов синапсов Модели и Критика градиентным методом Обучение Модели (уточнение прогноза): ΔWM = αM gradWM(Sprk(t+))T(S(t+)-Sprk(t+)). Обучение Критика (уточнение оценок качества ситуации): ΔWC = αC δ(t) gradWС(V (t)) , WM , и WC - набор весов нейронных сетей Модели и Критика, αM , αC - параметры скоростей обучения. Структура ФС От суперсистемы К суперсистеме Активирующая команда Отчет Адаптивный критик S(t) Прогноз, Sprk(t+τ) Модель S(t+τ) Принятие решения Критик Сравнение Результат, S(t+τ) Действие, ak(t) К субсистеме От субсистемы Работа ФС, обычный режим В каждый момент времени активна только одна ФС. Часть действий - команды активизации суб-систем. 1. ФС активизируется командой от супер-системы. 2. Работают Модель и Критик, выбирается действие. 3. Если действие - команда на эффекторы, то τ = τmin , если действие - команда суб-системе, то τ > τmin. . 4. Оценивается подкрепление r(t) , проводится обучение. 5. Посылается отчет суперсистеме о завершении работы. Работа ФС, чрезвычайный режим Чрезвычайный режим осуществляется, если прогноз существенно отличается от результата: || Sprk(tj) - S(tj) || > Δ > 0. В этом случае считаем, что резко увеличивается поисковая деятельность анимата: возрастает интенсивность случайного поиска в данной ФС и ее суб-системах. Кроме того, возможна генерация и отбор новых случайных функциональных систем (суб-систем данной ФС), аналогично селекции нейронных групп в теории нейродарвинизма Г. Эдельмана. Возвращение в обычный режим происходит после нахождения удачного решения. Обучение в обычном режиме – тонкая настройка системы управления анимата, чрезвычайный режим – грубый поиск адекватного поведения в неожиданных ситуациях. Надзор сверху В данную схему управления поведением анимата несложно включить процедуру прерывания верхними уровнями работы нижних уровней иерархии функциональных систем, с помощью специальных связей между ФС. Например, если в ФС1, отвечающую за безопасность, поступил сигнал, характеризующий серьезную опасность для жизни анимата, а анимат занимался поиском "пищи" в дереве решений, "возглавляемом" ФС2, то ФС1 имеет право прервать работу ФС2 и дать команду на избежание опасности. Дилемма стабильности/пластичности Если работа какой-либо ФС была надежно проверена, то естественно сделать копию данной ФС с нулевыми значениями параметров поиска и обучения ε , αM , αC и записать эту копию в долговременную память. Долговременная версия ФС имеет приоритет перед кратковременной, но если прогнозы долговременной ФС начинают отличаться от результатов, то управление передается обратно кратковременной ФС. Какова могла бы быть первая реализация «Мозга анимата» Простой анимат в 2D клеточной среде (М.С. Бурцев) Действия анимата: двигаться вперед, поворачиваться направо или налево, есть, размножаться, бороться с другими аниматами. Анимат Анимат в клеточной среде. Стрелка показывает направление вперед, кружки - поле зрения анимата Система управления анимата однослойная нейронная сеть, оптимизируемая эволюционным методом. Возникает естественная иерархия целей и подцелей. Эволюционно сформированная иерархия целей (М.С. Бурцев) ВЫЖИВАНИЕ ВИДА ПОПУЛЯЦИЯ АГЕНТ мало количество энергии ПОЛУЧЕНИЕ ЭНЕРГИИ нет объекты в поле зрения РАЗМНОЖЕНИЕ агент пища ПОИСК ПИТАНИЕ много БОРЬБА План исследований на 2 года Разработка схем и моделей адаптивного поведения на базе проекта «Мозг Анимата» Анализ целостного адаптивного поведения простых агентов, имеющих естественные потребности: питания, размножения, безопасности. Воспроизведение схем иерархического управления, полученных путем эволюционного моделирования М.С. Бурцевым. Исследование принципов обучения анимата на основе адаптивных критиков с переключаемыми режимами а) грубого стохастического поиска и б) тонкой подстройки параметров системы управления анимата путем градиентной подстройки весов нейросетей. Решение дилеммы «стабильность/пластичность» с помощью адаптивных критиков, ответственных за кратковременную и долговременную память. Анализ «интеллектуальных изобретений» биологической эволюции (привыкание, условные рефлексы, …) на основе исследований проекта «Мозг анимата». Контуры плана исследований на 20 лет Разработка схем и моделей адаптивного поведения на базе проекта «Мозг Анимата» Исследование перехода от физического уровня обработки информации в нервной системе животных к уровню обобщенных образов, уровню понятий (аналогов слов) Исследование процессов формирования причинной связи в памяти животных. Например, связи между условным стимулом (УС) и следующим за ним безусловным стимулом (БС). Анализ роли прогнозов в адаптивном поведении Исследование процессов формирования логических выводов в «сознании» животных. {УС, УС --> БС} => БС – аналог modus ponens Исследование коммуникаций, процессов возникновения языка Литература Редько В.Г. Эволюционная кибернетика. М.: Наука, 2001, 156 с. Непомнящих В.А. Поиск общих принципов адаптивного поведения живых организмов и аниматов // Новости искусственного интеллекта. 2002. N. 2. С. 48-53. Sutton R., Barto A. Reinforcement Learning: An Introduction. – Cambridge: MIT Press, 1998. Learning and Approximate Dynamic Programming, IEEE Press, July, 2004. Red'ko V.G. Evolution of cognition: Towards the theory of origin of human logic // Foundations of Science. 2000, Vol.5. N. 3. PP. 323-338. Редько В.Г., Прохоров Д.В. Нейросетевые адаптивные критики // "Нейроинформатика-2004". Часть 2. С.77-84. Некоторые ссылки Сайт В.Г. Редько: http://www.keldysh.ru/pages/BioCyber/ Лекции «Эволюционная кибернетика» (1999): http://www.keldysh.ru/pages/BioCyber/Lectures.html Сайт М.С. Бурцева: http://mbur.narod.ru/ Сайт Д.В. Прохорова: http://mywebpages.comcast.net/dvp/ Сайт Р. Саттона: http://www.cs.ualberta.ca/~sutton/sutton.html Sutton R., Barto A. Reinforcement Learning: An Introduction: http://www.cs.ualberta.ca/~sutton/book/the-book.html Подборка наших последних публикаций: http://wsni2003.narod.ru/RFFI/Project.htm Данная презентация (800 Кбайт): http://wsni2003.narod.ru/TMP/RedkoCog.ppt http://wsni2003.narod.ru/TMP/RedkoCog.zip Ассоциация Нейроинформатики Ассоциация Нейроинформатики -- клуб ученыхнейросетевиков, в основном с физ.-мат. образованием. Ежегодные конференции по Нейроинформатике в МИФИ Семинар «Нейроинтеллект» на Национальных конференциях по Искусственному интеллекту (КИИ-2002, 2004). Сборник «От моделей поведения к искусственному интеллекту» -- на базе круглых столов и рабочих совещаний Нейроинформатики-2002, 2003: http://www.keldysh.ru/pages/BioCyber/RT/Papers.htm http://www.keldysh.ru/pages/BioCyber/Letters/Letters.htm http://wsni2003.narod.ru http://rtni2003.narod.ru