ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 О.Ю. НИКИТИН, О.А. ЛУКЬЯНОВА Вычислительный центр ДВО РАН, Хабаровск [email protected] МОДЕЛИРОВАНИЕ ПРОЦЕССОВ ВОЗНИКНОВЕНИЯ САМООРГАНИЗУЮЩЕГОСЯ ПОВЕДЕНИЯ НА ОСНОВЕ ФУНКЦИОНИРОВАНИЯ МОДЕЛИ КЛЕТОЧНОГО ГОМЕОСТАЗА НЕЙРОНОВ В данной работе нейроны рассматриваются, как активные агенты, способные к принятию решений, памяти и совершению выбора, руководствуясь их состоянием клеточного гомеостаза. Выносится предположение, что такой тип нейронов может привести к возникновению самоорганизующегося поведения. Было симулировано поведение искусственного организма «Гидра», управляемого предложенной гомеостатической нейронной сетью. С целью апробации предложенного подхода перед симулированной «Гидрой» была поставлена задача поддержания гомеостаза в динамической среде. Ключевые слова: гомеостаз, нейронная сеть, активные нейроны, самоорганизующееся поведение, обучение, пластичность. Введение Биологические нервные системы способны к самоорганизации, автоматической настройке, и, как следствие, к генерации автономного адаптивного поведения. Попытки воспроизведения биологических алгоритмов управления позволяют сделать контроль более гибким и адаптивным. К сожалению, современные нейроподобные подходы к управлению, включая обучение с подкреплением, не в состоянии создать действительно автономные системы управления. Все существующие алгоритмы управления требуют от разработчика, в той или иной форме, задания целевых показателей системы. Возможно, недостатки нейронных управляющих систем лежат в излишне редуцированном подходе к их базовым элементам - нейронам. Физиологические исследования показывают, что нейроны являются клетками, способными к ограниченным формам памяти, обучения и даже к выбору действия [3,6]. В тоже время, в нейронных сетях нейроны являются лишь пассивными элементами передачи информации. Такое ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 представление о нейронах приводит к снижению их адаптивных характеристик, как базовых элементов системы, а значит, и адаптивности управления в целом. Нейроны, как и любые биологические системы, должны поддерживать собственный гомеостаз. Это и является их основным целевым вектором и фактором адаптивности, вследствие которого они самоорганизуются внутри нервной системы и сообща достигают целей, стоящих перед объектом управления. На протяжении последних 20 лет, идеи, связанные с построением бионических нейронных систем управления с гомеостатическими характеристиками, неоднократно высказывались в российском и международном научном сообществе [4,7]. Большинство ранее предложенных бионических подходов предполагали моделирование нейронов лишь с учетом их базовых гомеостатических свойств, как клеток (необходимость к поддержанию целостности клеточной мембраны, стабильного питания и осмоса клетки). В то же время, нейроны способны к памяти [3] и даже выбору входного сигнала [6]. Таким образом, цель исследования состоит в достижении самоорганизующегося адаптивного поведения благодаря моделированию нейрональной системы управления, основанной на гомеостатических автономных свойствах нейронов. Для достижения цели исследования планируется формализация и разработка модели поведения и памяти отдельного нейрона, моделирование и экспериментальное изучение свойств сети таких нейронов, а также верификация данной модели в симуляционном эксперименте на примере задачи контроля искусственным агентом. Для достижения цели исследования необходимо выполнить следующие задачи: 1. Разработка модели функционирования нейрона с возможностью выбора действия и памятью. 2. Применение сети "гомеостатических" нейронов к задаче управления простейшим симулированным агентом в среде, содержащей задачи поведенческого выбора. Для оценки эффективности работы алгоритма будет использоваться модель кишечнополостного пресноводного животного – Гидры, в симулированном пруду. Пруд будет содержать источники пищи – рачков и источник света. Эта система была выбрана потому, что Гидра имеет очень простую нервную систему, что позволяет четко отследить динамику нейронов. Гидра будет охотиться на мелких жучков, когда она голодна, а также должна быть в состоянии использовать свет в среде, как подсказку ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 для передвижений (фототаксис). Новизна предложенного подхода заключается в абсолютном отсутствии предопределения поведения. Система управления построена из универсальных элементов и не имеет никаких определенных целей. Все поведение основывается на гомеостатических свойствах элементов. Внутриклеточный гомеостаз и решения Исходя из гипотезы, поставленной в начале статьи, нейрональная система управления, основанная на гомеостатических автономных свойствах нейронов, должна быть способна к проявлению самоорганизующегося адаптивного поведения. Здесь и далее самоорганизующимся поведением будем считать такое поведение, цель и модель которого непосредственно не заданы разработчиком системы. Такое поведение должно происходить из свойств составляющих самой системы, и самоорганизовываться с тем, чтобы привести объект управления к некоему оптимальному результату. Так как в данной работе исследуются гомеостатические характеристики нейронов, можно отметить, что основная функция нейрона в передаче сигнала - генерация потенциала действия, сопряжена с неизбежным выводом нейрона из гомеостатического равновесия. Таким образом, можно предположить, что основная целевая функция каждого отдельного нейрона и нервной системы, в целом – снизить уровень нервного напряжения до минимально допустимого для организма уровня. Модель поведения нейрона. Несколько моделей гомеостаза нейронов уже существуют, но они не ориентированы на самоорганизующиеся свойства нейронных сетей и целенаправленное поведение. Все они не учитывают биологических данных о способности нейрона переключаться между входами – постсинаптической десенсетизации [2]. Наиболее удачно правило поведенческого выбора нейрона было обобщено в [5] Нейрон может сделать выбор: генерировать потенциал действия и не быть поврежденным, или он может решить быть поврежденным для восстановления энергии, необходимой для генерации потенциала действия. Данное правило было формализовано в [8]. Согласно данной формулировке, входной вектор в нейрон представлен: xtin ( x1 (t ),.., xi 1 (t ), xi 1 (t ),..., xN (t )). (1) ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 Вход в нейрон приводит к изменению его гомеостатического состояния (2) qi (t ) qi (t 1) F ( xtin (t 1)) . Нейроны получают входы с их синапсов. Если вход в нейрон больше 1, нейрон получает вход и должен обработать его и может произвести два типа действий: если нейрон раздражен больше определенной величины, он сгенерирует потенциал действия, при этом теряя энергию ei(t), необходимую на генерацию сигнала; иначе, нейрон будет поврежден (его гомеостатическая оценка будет уменьшена на величину входа, скорректированную на усиливающий коэффициент). Если сумма входов меньше 1, нейрон также имеет две альтернативы действия: если запас энергии ei(t) нейрона превысил порог оптимального энергетического баланса, случайно генерировать потенциал действия (пейсмекерные потенциалы); восстанавливать гомеостатическое состояние qi(t) согласно правилу qi (t ) qi (t 1) kq g i (t ) , с соответствующими затратами энергии. Поток энергии ei(t) происходит из общего энергетического запаса организма . Если ei(t) < emin, тогда энергия пополняется: ei(t + 1) = ei(t) + е, (3) 1 e . (4) 1 exp( g (t )) Модель работы синапса. Первоначально нейроны не объединены в сеть, им необходимо создать синапсы. Порождение и развитие синаптических соединений происходит согласно правилу Хебба. Синаптические соединения между нейронами создаются только тогда, когда активация пресинаптического и постинаптического нейрона совпадают во времени. Первоначально синапсы создаются благодаря случайной генерации потенциалов действия неповрежденными нейронами (пейсмекерные потенциалы). После того, как синапсы созданы, они начинают передавать сигнал в соответствии с модифицированным STDP (Spike-timing-dependent plasticity) правилом (рис. 1). ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 Рис. 1. Правило коррекции синаптических весов В общих чертах правило выглядит, как классическое STDP, но предложенный алгоритм корректировки весов отличается введением оценки изменения состояния нейрона, связанного с полученными через данный синапс входами. Данная модификация правила кажется биологически обоснованной, так как она согласуется с концепцией постсинаптической десенсетизации [1] и обучения на единичном изолированном нейроне. Процесс оценки входов в нейрон и соответствующей корректировки весов заключается в уменьшении веса синапса, если постсинаптический нейрон активно генерировал потенциалы действия на протяжении определенного числа промежутков времени, и это привело к снижению эндогенной гомеостатической оценки нейрона. Гомеостатически-обусловленное снижение весов приносит два преимущества. Во-первых, оно нейтрализует главный недостаток STDP правила, связанный с постоянным возрастанием весов. Во-вторых, это позволяет нейрону осуществлять выбор между входными сигналами, не приводящими к ухудшению его среднего гомеостатического состояния. Предложенный подход к снижению веса позволяет нейронной сети осуществлять гомеостатически-обусловленные переключения сигнала, что согласуется с концепцией, согласно которой, нервная система стремится к состоянию минимально допустимого возбуждения. Это также согласуется с физиологическими находками [6] которые относят управление постсинаптическими переключениями к уровню концентрации ионов кальция в нейронах (одного из важнейших показателей гомеостатического равновесия клетки [4]). Оценка функционирования сети гомеостатических нейронов ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 в симуляции целенаправленного поведения Наилучшим образом изучить функционирование контрольной системы, основанной на гомеостатических нейронах можно в процессе симуляции относительно реалистичной модели целенаправленного поведения искусственного агента. Для симуляции был выбран простой водный полип – Гидра, поскольку данное животное обладает достаточно простой нервной системой, подобной сети. Также поведение Гидры достаточно простое и хорошо изученное. Таким образом, структура предполагаемой модели останется простой для понимания. Постановка задачи. Реальная Гидра имеет пять видов нейронов, но мы сосредоточим внимание только на четырех из них: нейроны, ответственные за тактильные сенсоры, нейроны, ответственные за сенсоры кишечной полости («желудка»), нейроны, ответственные за фотосенсоры, нейроны, контролирующие захват жертвы. Пока Гидра не подготовлена к захвату, она не может поймать и поглотить пищу, даже если она находится поблизости. Когда Гидра не ловит добычу на протяжении некоторого времени, она начинает чувствовать голод и нейроны, ответственные за желудок активируются и активируют нейроны, ответственные за приготовление к поимке пищи. Только в случае, если весь этот порядок действий осуществлён, Гидра способна поймать добычу. В тоже время, приготовление к поимке пищи каждый раз, когда Гидра чувствует голод, не представляется энергетически эффективным, так как маловероятно, что во все эти моменты времени жертва будет поблизости. Более эффективным с энергетической точки зрения представляется поимка пищи по сигналу тактильного сенсора – если Гидра чувствует пищу в окрестностях, она готовится ее поймать. Аналогично можно рассуждать и по поводу задачи фототаксиса – когда Гидра испытывает отрицательный или положительный фототаксис, но должна осуществить поведенческий выбор и выйти из пространства светового комфорта для поимки пищи. Поимка пищи – единственный путь получения энергии Гидры, которая в последующем расходуется на функционирование нервной системы, передвижения и охоту. ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 Рис. 2. Моделируемый организм и принципиальная схема его нервной системы Далее попробуем смоделировать описанное поведение Гидры, используя бионические модели нейронов изначально несвязанных между собой. Симуляционные эксперименты. Чтобы изучить работу бионической нейронной сети в динамике была разработана симуляционная среда содержащая модель Гидры (рис. 3), способной двигаться по горизонтали, направленный источник света и рачков, которые наиболее концентрируются в области с достаточно интенсивным, но не чрезмерным, освещением. Исходно, среда содержит 200 рачков. Когда количество рачков доходит до 20, среда пополняется дополнительно 20 рачками. Рис. 3. Общий вид симуляционной платформы: ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 А – Гидра, Б – направленный источник света, В – рачки, Г – сенсор касания, Д – сенсор желудка, Е – сенсор света слева, Ж – сенсор света справа, З – афферентные нейроны, И – эфферентные нейроны, К – эффектор подготовки к захвату, Л – эффектор движения вправо, М – эффектор движения влево, Н – полоски, отражающие время нахождения Гидры в определенной точке Для всех симуляций в дальнейшем для Гидры была установлена награда за поимку рачка – 1500 энергетических элементов. Каждое «поглощение» рачка (в том числе и безуспешное) стоит Гидре 50 энергетических единиц. Затраты на функционирование сети зависят от гомеостатической рассогласованности нейронов и могут доходить до порядка 200 единиц энергии в один момент времени для всей сети. Каждое перемещение Гидры на 5 шагов вправо или влево стоит 100 энергетических единиц. В каждой симуляции Гидре был присвоен исходный энергетический баланс в 10000 единиц, чтобы дать ей время на обучение и формирование нейронной сети. Ниже представлены результаты моделирования с наиболее показательными результатами. Мы рассмотрим поведение Гидры с отрицательным фототаксисом и сравним нейронную сеть с пластичностью и без пластичности в задаче с динамическим источником света. Как видно на рис. 4, Гидра с пластичной нервной системой передвигалась в течение моделирования, вслед за светом, при этом, не всегда находясь в точке, удаленной от света. Ей приходилось с определенной частотой приближаться к источнику света, выходя из зоны комфорта для поимки рачков. ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 Рис. 4. Результаты симуляции отрицательного фототаксиса в среде с подвижным светом для Гидры с пластичной нервной системой, А – полоски, отражающие время нахождения Гидры в определенной точке Это видно из рис. 5, где на графике А представлены передвижения Гидры, а на графике Б – передвижения источника света. Рис. 5. Результаты моделирования Гидры в динамичной среде без пластичности в нервной системе – все веса фиксированны: А – позиция Гидры в пространстве, Б – позиция света в пространстве, В – Количество рачков в среде, Г – запас энергии Гидры Также на рис. 6 можно заметить, что в определенный период Гидра попала в точку максимальной интенсивности света и не могла из него выйти, так как не могла осуществить выбор между равноценной интенсивностью света справа и слева. Такое положение продолжалось до момента, когда захват добычи ни совпал с движением вправо, и ни сформировалась кратковременная ассоциативная связь между этими двумя сигналами. Тогда, ведомая голодом, Гидра вышла в точку оптимального для себя освещения. Также, по графику Г на рис. 6 видно, что около 1500 шагов понадобилось Гидре, чтобы сформировать синаптические соединения и научится осуществлять поведенческий выбор между светом и «охотой». Затем Гидра стабильно накапливала энергию, даже в условиях низкой насыщенности среды пищей. ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 Рис. 6. Результаты моделирования Гидры в динамичной среде: А – позиция Гидры в пространстве, Б – позиция света в пространстве, В – Количество рачков в среде, Г – запас энергии Гидры Случай поведения Гидры без пластичности в аналогичной динамической среде можно рассмотреть на рис. 5. На нем видно, что Гидра не была в состоянии сопровождать источник света и активно выбирать между светом и «охотой». Тем не менее, Гидра была способна к накоплению энергии с самого начала симуляции, без необходимости к обучению. Но, когда среда стала не такой благоприятной, свет стал дальше, а рачков стало меньше, Гидра стала неминуемо терять энергию. Без пластичности Гидра не могла адаптивно вести себя. Таким образом, можно сделать вывод, что благодаря гомеостатическим свойствам нейронов в сети Гидра могла осуществлять простейшее поведение – кормление. В тоже время, без предложенного алгоритма обучения Гидра не была способна к адаптивному поведению в динамической среде. Выводы В данной работе был рассмотрен бионический подход к моделированию нейронного контроллера, сочетающий в себе гомеостатические свойства нейрона, как клетки и STDP-пластичность, учитывающая память нейрона о его гомеостатических состояниях. Гомеостатически-зависимое STDP правило позволяет предотвратить неограниченный рост синапсов и осуществить оптимальный для нейрона поведенческий выбор. Нейронная сеть, представленная в работе, способна ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2 к автономной самоорганизации и достижению целенаправленного поведения в интересах агента. Дальнейшим развитием предложенного подхода может стать моделирование гомеостатических свойств нейронов, базирующееся на их клеточной ионной динамике. Список литературы 1. Bi, G. and Poo, M. Synaptic modification of correlated activity: Hebb's postulate revisited// Ann. Rev. Neurosci. 2001.V. 24. P. 139-166. 2. Gover N. D., Abrams T. W. Insights into a molecular switch that gates sensory neuron synapses during habituation in Aplysia. // Neurob of Learn and Mem., 2009. V.92. № 2. P. 155-165. 3. Grechenko T. N. Conditioned inhibition of action potential generation in isolated Helix pomatia neurons. // Neurosci Behav Physiol., 1990. V. 20. № 5. P.452-459. 4. Marder, E. and Prinz, A.A. Modelling stability in neuron and network function: the role of activity in homeostasis. // BioEssays. 2002. № 24. P. 11451154. 5. Sandler U., Tsitolovsky L. Fuzzy dynamics of brain activity. // Fuzzy Sets and Systems. 2005. V. 121. № 2. P. 237-245. 6. Shalizi, A., Gaudilliere, B., Yuan, Z., Shirogane, T., Stegmuller, J., Ge, Q., Tan, Y., Schulman, B., Harper, J.W. and Bonni A. A calcium-regulated MEF2 simulation switch controls postsynaptic dendritic differentiation. // Science. 2006. V. 311. P. 1012–1017. 7. Емельянов-Ярославский Л. Б. Интеллектуальная квазибиологическая система Индуктивный автомат. М.: Наука, 1990. 8. Лахман К., Комаров М., Канаевский Д, Куливец С., Цитоловский Л., Редько В. Нейронные сети, основанные не гомеостатических нейронах: самоорганизация и целенаправленное поведение. http://habrahabr.ru/blogs/artificial_intelligence/101926/ ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2