Источник: Гуревич Л.А.,А.Н. Вахитов Мультиагентные системы // Введение в Computer Sciencе. – 2005. –с.116-139. Мультиагентные системы Гуревич Лев и Вахитов Александр * 1 В ведение М уль т и а ге н т н ы е системы созданы д ля реш ения различны х задач искусственного интеллекта, в которы х присутствует несколько участников. Основным понятием является агент,. О п р е д е л е н и е 1. Агент, - нечто, что способно восприним ать свое окруж ение через сенсоры и изм енять его своими действиям и. Современный подход к искусственному интеллекту основано на понятии рационального агент а, который всегда старается оптим изировать соответствую щ ую м еру полезности своих действий. Н априм ер, люди могут рассм атриваться как агенты с глазами в качестве сенсоров и способные что-то д ел ать при помощи рук. Роботы способны воспринимать мир через камеры и передвигаться при помощи колес. Д л я программ граф ический интерф ейс является средством и восприятия, и действия. О днако, агенты редко являю тся одиночными системами. Ч ащ е они взаим одействую т д руг с другом . Системы , содерж ащ ие группу агентов, которы е могут взаим одействовать м еж ду собой и назы ваю тся м у л ь т и а г е н т н ы м и сист,емами. 2 Х арактеристики мультиагентных систем К аки е характеристики отличаю т мультиагентны е системы от одноагентных. М ож но вы делить следую щие различия: 2.1 С труктура агента Ч а с то агенты сконструированы по-разному, наприм ер програм м ы , написанны е разны м и лю дьми. Р азл и ч и я могут заклю чаться в оборудовании и программном обеспечении. Ч асто таких агентов назы ваю т гет ерогенными в противополож ность гом огенны м , которы е сконструированы идентичным образом и имеют изначально одинаковы е возм ож ности. О днако различие не так очевидно; агенты , основанные на одинаковы х оборудовании и програм м ах, но ведущ ие себя по- разному, тож е м огут назы ваться гетерогенными. ‘ конспект: М ак арова А лёна с наш ей помощ ью 1 3 Рациональный агент 2.2 2 О круж ение О круж ение агентов м ож ет бы ть статическим ( не зависящ им от времени ) или динам ическим ( не стационарным ). И з-за простоты обработки и более строгого м атем атического описания больш инство методов искусственного ин теллекта в одноагентном случае были разработаны д ля статического окруж ения. В м ультиагентны х системах ж е хотя бы само присутствие нескольких агентов д елает окруж ение динам ичны м . 2.3 Восприятие И нф о р м ац и я, которой обладает система агентов, является обычно распределенной: агенты м огут следить за окруж ением из разны х положений, получать инф орм ацию в различны е моменты времени или ин терпретировать эту инф орм ацию по разному. Таким образом, состояние окруж ения является частично обозримым д ля каж дого агента. 3 Рациональны й агент Здесь будет описана проблема при няти я оптим ального реш ения. Э то означает, что агенту на каж дом ш аге следует вы брать наилучш ее действие, исходя из того, что ему известно об окруж аю щ ем мире. Вводится т.н. мера полезности действий агента, которую он постоянно пытается оптим изировать. Рационального агента такж е назы ваю т разум ны м . В дальнейш ем мы главным образом будем р ассм атри вать только вы числительны х агентов, т.е. тех, что созданы д ля реш ения специальны х задач и приводятся в исполнение на вы числительны х устройствах. 3.1 П ринятие реш ения агентом П редполож им , что н а каж дом временном ш аге £ = 1, 2 , . . . агент может из конечного набора возм ож ны х действий А вы брать какое-то действие аг. И нтуитивно понятно, что, чтобы д ей ствовать рационально, агент долж ен оценивать и прош лое, и будущее при выборе дальнейш их действий. Под прош лым подразум евается то, что агент воспринял и какие действия предпринял до момента времени 1;, а под будущим - что он ож и дает и что собирается потом д елать. Если обозначим от наблюдение агента в момент времени т , тогд а д л я вы бора оптим ального действия в момент времени £ в общем от действий ат, предш ествую щ ую моменту времени £. Ф ункция п (о \, ах, о2, а2, ..., ог) = аг, которая отображ ает набор пар наблю дение-действие до момента времени t в оптимальное действие аг назы вается стратегией агента. Если сможем найти ф ункцию п, осущ ествляю щ ую данное отображ ение, то часть задачи об отыскании оптим ального реш ения на основе прош лого 3 Рациональный агент 3 будет реш ена. О днако, определение и реализаци я такой ф ункции проблематично; слож ная история м ож ет содерж ать больш ое количество пар наблюдений, которы е м огут меняться от одной задачи к другой. Более того сохранение всех наблюдений требует очень больш ого объема пам яти, а соответственно и росту сложности вычислений. Э тот ф а к т приводит к необходимости использования более простых стратегий. Н априм ер, агент мож ет игнорировать всю историю наблюдений за исклю чением последнего. В этом случае стратегия принимает вид п ( о г) = аг, которы й отображ ает текущ ее восприятие агента в действие. Агент, которы й, отображ ает текущ ее восприятие ог в новое действие аг назы вается рефлексивным, а его стратегию назы ваю т реакт ивной или стратегией без пам ят и. В озникает естественный вопрос: насколько хорошим м ож ет бы ть такой реф лексивны й агент? К а к мы увидим дальш е, он мож ет бы ть довольно неплохим. 3.2 О круж ение и свойство М аркова И з сказанного выш е следует, что понятия окруж ения и агента являю тся спаренны м и, так что одно из них не мож ет бы ть определено без другого. Ф акти чески , р азличие м еж ду агентом и его окруж ением не всегда отчетливо и это иногда ослож няет проведению четкой границы м еж ду ними. Д л я простоты предполож им , что сущ ествует мир, в котором есть один или более агентов, в котором они воспринимаю т, дум аю т и действую т. О п р е д е л е н и е 4. К о ллективная ин ф орм ация, которая содерж ится в окруж аю щ ем мире в момент времени Ь, и которая в а ж н а д л я исполняемой задачи, назы вается сост оянием мира и обозначается М нож ество состояний м ира обозначим через Б. В зависимости от природы задачи, мир мож ет бы ть дискрет ны м или непрерывны,м. Д искретны й мир характеризуется конечным числом состояний. П римером м ож ет сл у ж и ть игра в ш ахм аты . С другой стороны примером непреры вного м ира м ож ет сл уж и ть мобильный робот, который мож ет свободно передвигаться в декартовой системе координат. Больш инство из сущ ествующ их технологий искусственного ин теллекта созданы д ля дискретного м ира, поэтому мы будем в дальнейш ем рассм атри вать именно его. 3.3 Н аблю даемость В аж н ое свойство, характеризую щ ее мир с точки зрения агента, связано с восприятием. М ы будем говорить, что мир полностью наблю даем, если текущ ее восприятие агента ог полностью описывает состояние м ира В противополож ность этому, в частично наблюдаемом мире текущ ее восприятие ог описы вает лиш ь часть инф орм ации о состоянии м ира задаю щ ую вероятностное распределение Р (« (Ю м еж ду действительны м и состояниями мира. Таким образом, м ож но рассм атри вать как случайную величину, распределенную 3 Рациональный агент 4 на Б. Ч асти чн ая наблю даем ость м ож ет бы ть вы звана двумя ф актам и . Первый из них это помехи в сенсорной информации агента. Н апример, вследствие несоверш енства сенсоров, в разны е моменты времени агент м ож ет восприним ать одно и то ж е состояние м ира по разному. В озм ож но так ж е что д ля агента некоторы е состояния неразличим ы . 3.4 Свойство М аркова Р ассм отрим снова реф лексивного агента с реактивной тактикой п (о г) = аг в полностью обозреваемом мире. П редполож ение обозреваемое™ подразумевает, что = ои и таким образом такти ка агента п ( в г) = аг. Д ругим и словами, в обозреваемом мире такти ка реф лексивного агента является отображ ением из состояний м ира в действия. В ы года состоит в том, что во многих задачах состояние м ира в момент времени t д ает полное описание истории до момента времени 1;. О п р е д е л е н и е 5. П ро такое состояние мира, которое содерж ит всю важ ную инф орм ацию о прошлом в конкретной задаче, говорят, что оно является М арковским или обладает свойством М аркова. И з выш е сказанного мы можем сделать вывод, что в М арковском мире агент м ож ет безопасно использовать стратегию без пам яти д ля принятия реш ения вместо теоретически оптимальной стратегии, которая мож ет требовать много пам яти. Д о сих пор мы рассм атривали , как стратегия агента м ож ет зависеть от последнего события и отдельны х характеристик окруж ения. О днако, как мы обсуж дапи вначапе, принятие оптим ального реш ения мож ет такж е браться из оценки будущего. 3.5 Стохастические переходы К а к бы ло упом януто выш е, в каж ды й момент времени £ агент вы бирает действие аг из конечного м нож ества действий А. После вы бора агентом действия мир меняется как его следствие. М одель перехода( иногда назы ваю т моделью мира) определят как меняется мир после соверш ения действия. Если текущ ее состояние м ира и агент соверш ает действие аг, мы можем вы делить д в а случая: • В дет ерм инист ическом мире, модель перехода отображ ает единственным образом пару состояние-действие (вг, а г) в новое состояние в4+ 1 . В ш ахм атах наприм ер, каж ды й ход изм еняет игровую позицию. • - действие в распределение вероятности Р ( 8 г+1\8г, а г) состояний. К а к и в рассмотренном выш е случае с частичной обозреваемостью , это случайная величина, которая мож ет приним ать все возмож ны е значения в множ естве Б с соответствую щ ей вероятностью Р (в ( + 1 |в(, аг). 3 Рациональный агент 5 С ам ы е практические прилож ения вклю чаю т стохастические модели перехода, наприм ер, движ ение робота неточно из-за того, что его колеса скользят и т.п. К а к мы могли зам ети ть, иногда частичная обозреваем ость является следствием неточности восприятия агентом его окруж ения. Здесь мы видим другой прим ер, где неточность играет роль, а именно, мир м еняется, когда соверш ается действие. В стохастическом мире э ф ф ек т действия агента не известен заранее. В место этого есть случайны й элемент, который определяет как меняется мир вследствие действия. Ясно, что стохастичность при переходе из одного состояния в другое вносит дополнительны е сложности в задаче принятия оптим ального реш ения агентом. Д л я классического искусственного ин теллекта целью отдельной задачи является ж елаем ое состояние мира. Таким образом, планирование определяется как поиск оптимальной стратегии. К огд а мир детерм инистический, планирование переходит в поиск по г р а ф у д л я каж дого варианта сущ ествую щ его метода. В стохастическом ж е мире мож ет не перейти в простой поиск по граф у, так как переход из состояния в состояние не является детерминистическим Теперь агент при планировании приним ать в расчет неточности переходов. Ч тобы понять, как это м ож ет бы ть использовано, зам етим , что в детерминистическом мире агент предпочитает по умолчанию конечное состояние неконечному. В общем случае, агент сохраняет настройки при переходе из состояния в состояние. Н априм ер, робот, играю щ ий в ф утбол, будет стараться забить очко, стараться меньш е стоять с мячом перед пустыми воротами и т.п. Ч то бы ф о р м ал и зо вать это понятие, свяж ем с каж ды м состоянием а вещ ественное число и (а), назы ваем ое полезностью состояния этого агента. Ф орм ально, д л я д вух состояний а и а* вы полняется и (а) > и (а*) тогд а и только тогда, когда агент предпочитает состояние в состоянию а% а и (а) = и (а*), если д ля агента эти состояния неразличим ы . И нтуитивно понятно, что чем выше полезность, тем выгоднее состояние, в котором находится агент. Зам етим , что в м ультиагентны х системах ж елаем ое состояние д ля одного из агентов м ож ет не бы ть ж елаем ы м д ля остальны х. Н апример, в ф утболе забивание гола является неж елательны м д ля противополож ной команды. 3.6 П ринятие реш ения в стохастическом мире Теперь возникает вопрос, как агент мож ет эф ф ек ти вн о использовать ф ункции полезности д ля при няти я реш ения. П редполож им , что у нас мир стохастический с моделью перехода Р ( а ^ ^ , а ^ , находящ ийся в состоянии а( до тех пор, и (а ) полезности состояния какого-то агента. П редполож им , что у нас только один агент. Тогда принятие реш ения основано на предположении, что оптим альное действие агента долж но бы ть максимумом полезности, т.е. а* = а г д т а х Е Р (аг+11аг,аг)и (аг+г), 4 Теория ш р 6 где сум м ирование происходит по всевозмож ны м состояниям в(+ 1 . Э то значит, что чтобы увидеть насколько полезно действие, агент долж ен ум нож ить полезность каж дого возм ож ного конечного состояния на вероятность попадания в это состояние, и потом просум м ировать полученный результат. Тогда агент мож ет вы брать действие а*, у которого будет м аксим альн ая сумма. Если каж дое состояние м ира имеет величину полезности, агент мож ет произвести вы числения и вы брать оптим альное действие д ля каж дого возм ож ного состояния. Т огда агент со стратегией мож ет оптим ально переводить состояние в действие. 4 Теория игр Здесь мы обсудим принятие реш ения в мультиагентны х системах, где группа агентов взаим одействую т и одновременно приним аю т решение. Мы используем теорию игр д л я ан ал и за задачи, в частности, стратегических игр, где мы изучим итеративное исклю чение точно определенны х действий и равновесие Н эш а. К а к мы уж е видели, действие агента на окруж ение мож ет оставаться неопределенны м, и это м ож ет н ак лад ы вать неопределенность на принятие реш ения. В м ультиагентны х системах, где агенты принимаю т решение в одно врем я, агент м ож ет не зн ать о решении других участвую щ их агентов. Ясно, что агент долж ен д ействовать в зависимости от действий других агентов. М ультиагентное принятие реш ения является предметом теории игр. Теория пы тается предугадать поведение взаимодействую щ их агентов в состоянии неопределенности и основывается на двух предполож ениях. Вопервы х, взаимодействую щ ие агенты рациональны , а во-вторы х, принятие реш ения происходит в зависимости от реш ения других агентов. В зависимости от способа принятия реш ения агентами мы можем вы делить д ва типа игры. В стратегической игре каж ды й агент вы бирает свою стратегию только один р аз в начале игры , а затем все агенты производят действия одновременно. В игре в обобщенной ф орм ы агенты могут м енять стратегию на протяж ении всей игры . Д ругое отличие состоит в полноте или не полноте известности инф орм ации о других агентах. Будем рассм атри вать только игры , где агент владеет всей инф орм ацией, касаю щ ейся других агентов. 4.1 С тратегические игры С тратегическая и гр а(такж е назы ваем ая норм альной формой) является простейшей моделью взаим одействия агентов в теории игр. Ее мож но рассм атри вать как м ультиагентное расш ирение прош лой модели, и характеризую щ ееся следуЮ 1цими свойствам и : • А гентов не меньш е одного (и > 1) • К а ж д ы й агент 1 вы бирает действие а* (назы ваемое стратегией) из собственного м нож ества действий Л*. В ектор (а1: ? ,а п ), т.е. действие, назы вается совм ест ны м дейст вием и обозначается (а*). М ы будем пользоваться обозначением а — д л я обозначения всех действий агента 4 Теория ш р 7 кром е ьго , а такж е (а- г , а г) д л я обозначения совместного действия, где агент 1 соверш ает действие аг. • определено как содерж ащ ее п агентов, их м нож ества действий А г и их вы игры ш и. • К а ж д ы й агент 1 имеет собственное значение ф ункции дей стви я Q*(s а) которая вы числяет полезность совместного действия д ля агента 1. К аж д ы й агент м ож ет отдавать разны е предпочтения разны м совместным действиям . М ы предполагаем, что ф ункц ия вы игры ш а заранее определена и ф иксирована. • о друге, м нож ества действий д руг д руга и выигрыш и д руг друга. Все это в игре и есть общее знание агентов. • вы бираю т свои действия одновременно и независимо. Ни один агент не знает о принятии реш ения другого агента до тех пор, пока решение не будет принято. В итоге в стратегических играх каж ды й агент вы бирает одно действие и получает результат в зависимости то выбора общего действия. Э то совместное действие назы вается исходом игры . Хотя ф ун кц и я вы игры ш а агента является общим знанием, агент не знает заранее о выборе действия другим агентом. С амое лучш ее, что он мож ет - так это попы таться угадать действие другого агента. Р е ш ением игры является предсказание исхода, используя предположение, что все агенты рациональны е и стратегические. 4.2 И теративное исклю чение строго дом инирую щ их действий П ервое важ ное понятие основано на предположении, что рациональны й агент никогда не вы бирает подоптим альное решение. П од подоптимальным решением мы подразумеваем действие, которое вне зависимости от того, что делаю т другие агенты , всегда будет в результате менее вы игрыш ны м д ля агента, чем какое-то другое действие. С ф орм улируем это иначе: Будем говорить, что действие аг агента г явл яется строго доминирую щ им н ад другим действием а[, если и г(а- г ,а'г) > и г(а- г , а г) д л я всех действий а -г д руги х агентов. В этом определении и г(а- г , а г) явл яется вы игры ш ем агента 1, которы й получается, если он вы берет действие аг пока остальны е агенты вы полняю т действие а -г Х арактеристикой итеративного исклю чения строго доминирую щ их действий является то, что агенты м огут не сохранять веру в стратегии других агентов д ля того, чтобы вы числить их оптим альное действие. Единственное, что требуется это предположение в общем знании, что все агенты рациональны . о Координация 4.3 8 Равновесие Нэш а Равновесие Н эш а является более значительны м понятием чем ит ерат ивное •исключение строго д ом и ниру ю щ их дейст вий в том смысле, что она порож дает более точное предсказание результатов в широком классе игр. Э то ф орм альн о м ож ет бы ть определено следующим образом: Р авновесие Н эш а это общее действие а* такое, что д л я каж до го агента г вы полняется и*(а*_а*) > ( а * а * ) д л я всех действий а* € Л* Зам етим , что в отличие от итеративного исклю чения строго доминирую щ их действий (И И С Д Ц ), которое описывает реш ение игры посредством алгоритм а, Равновесие Н эш а описы вает в терминах возм ож ны х состояний. В равновесие Н эш а каж дого агента является оптим альны м ответом на действие другого агента. О п р е д е л е н и е 8. Совместное действие а назы вается оптим альны м действием Парето, если ни д л я какого из действий а' не вы полняется щ (а ') > и*(а) д ля любого агента 1. Выш е мы предполож или, что во время игры агент 1 будет вы бирать действие, которое берется из м нож ества его действий Л*. О днако, это не всегда так. Во многих случаях у агента есть причина п роявлять стохастичность г вы бирает действие а* в процессе с некоторым распределением вероятностей Рг(а*), которое м ож ет бы ть разны м д л я разны х агентов. О п р е д е л е н и е 9. С м еш анная стратегия агента 1 это распределение вероятностей действий а* € Л* В своей известной теореме Нэш показа:], что стратегическая игра с конечным числом агентов и конечным числом действий всегда достигает равновесия в смешанной стратегии. 5 К оординация Рассм отрим зад ач у координации, то есть, как отдельное решение агента м ож ет повлиять на принятие общего реш ения. Различаю щ ееся будущее м ультиагентны х систем ф акти чески означает, что процесс принятия решения м ож ет бы ть распространенны м . Э то значит, что нет центрального агента, которы й контролирует, что делает каж ды й агент в каж ды й момент времени. К аж д ы й агент сам реш ает, какое действие он совершит. К оординация реализуется с помощ ью распределения агентов по ролям. То есть агент, понимая, что он наиболее подходит д ля выполнения определенной роли, присваивает ее себе. К ром е того, м ож ет сущ ествовать заранее определенный набор правил, которы ми долж ны руководствоваться агенты . Н апример, таким правилом является пропускание помехи справа в правилах дорож ного движ ения. Д ругим 6 Общее знание 9 примером м ож ет послуж ить игра роботов в ф утбол. К ом ан д а роботов старается забить мяч в ворота противополож ной команды . Здесь координация обеспечивает то, что наприм ер, д в а робота из одной команды не пытаю тся уд ари ть мяч в один одновременно. Здесь нет контролирую щ его агента, который мог бы и н структи ровать роботов в реальном времени бить или не бить м яч. Они сами долж ны это реш ать. 6 О бщ ее знание Р аньш е мы предполагали, что мир полностью обозрим. Теперь ослабим это предположение и рассмотрим случай, где некоторы е состояния невидимы д ля агента. В частично обозреваемом мире агент долж ен всегда р азм ы ш л ять о том, что он знает об окруж аю щ ем мире и том , что знаю т другие агенты , п реж де чем при нять решение. Ч тобы д ей ствовать рационально, агент долж ен всегда реагировать на то, что он узнает о текущ ем состоянии мира. Если мир полностью обозреваем, то агент мож ет действовать практически не р азм ы ш л яя. В частично обозреваемом мире агент долж ен вним ательно рассм атривать, что он знает и что не знает перед выбором действия. И нтуитивно понятно, что чем больш е агент знает о состоянии, тем лучш ее решение он может сделать. В м ультиагентны х системах рациональны й агент мож ет приним ать в расчет знание других агентов о состоянии(то есть инф орм ацию , которой они владею т о состоянии). Т акж е он долж ен рассм атри вать то, что другие агенты знаю т о его действиях и знаю т ли они что знает ли он о том, что он о них знает. То, что д ва рациональны х агента всегда хотят закл ю чи ть пари, не является общим знанием. В качестве прим ера приведем головоломку о ш апках. Т рое агентов(наприм ер, девуш ки) сидят вокруг стола, на каж дой из них надета ш апка, которая м ож ет бы ть либо белой либо красной. К аж д ы й агент знает цвет ш апки двух д ругих, но не знает цвета своей. Ч еловек, который наблю дает за ними со стороны (ведущ ий), просит их повернуться и спраш ивает, знаю т ли они какого цвета их ш апка. К аж д ы й агент д ает отрицательны й ответ. Тогда ведущ ий объявляет, что, по крайней мере, на одном из них красн ая ш апка, а затем снова просит их повернуться. Первый агент говорит Нет, второй агент говорит Нет, но, когда он спраш ивает третьего агента, он отвечает Д а. К а к получилось, что третий агент в конце м ож ет определить цвет своей ш апки. Если у агентов одинаковые стратегии и им известно о том, что делаю т агенты в текущ ем состоянии, то агенты долж ны д ел ать одинаковые действия 7 К оммуникация М ультиагентное взаимодействие часто ассоциируется с некоторой формой общения. М ы используем общение в повседневной ж изни, д ля совместного реш ения зад ач , д ля того, чтобы договариваться с другим и, или просто для 7 Коммуникация 10 обмена информ ацией с другим и. К а к мы видели, в головоломке о ш ляпах путем ответов на вопросы агенты смогли сф орм ули ровать более точное утверж дение задачи и, в конечном счете, реш ить ее. К огда мы говорим о вы числительны х агентах, общение рассм атривается на некотором уровне абстракции. Н а более низком (netw ork) уровне можно сказать, что можно бы ть уверенны м, что сообщ ения, пересы лаемы е агентами д руг другу, безопасно и вовремя дойдут до адресатов. Д л я этого сущ ествую т протоколы. Н а среднем язы ковом уровне можно основы ваться на множ естве основных слов язы ка и их стандартны х изм енениях, так что агенты , говорящ ие на одном язы ке, могли поним ать д руг друга. И последний уровень- уровень применения, т.е. м ож но эф ф ек ти вн о использовать общение д ля реш ения стандартны х м ультиагентны х зад ач , наприм ер, координация или согласование. К а к мы уж е поняли, состояние м ира характеризуется количеством агентов, их возмож ными действиям и и выгодой агентов, если они вовлечены в стратегическую игру, и другим и аспектами внеш него окруж ения. В таких случаях какой-то агент м ож ет бы ть д езактивирован в некоторых состояниях, потому что ему присвоена некоторая роль. А налогично, если состояние м ира частично обозреваемо д ля агентов, каж ды й агент обладает различны м и уровнями знания о настоящем состоянии мира. Ф орм ально м ож но описать коммуникацию рассмотрением каж дой первообразной коммуникации как действия, которое обновляет знание агентов о состоянии. Н аиболее общие типы процесса коммуникации (они использую тся,наприм ер, в правилах дорож ного д виж ения): • И нф орм ирую щ ие • К аж д ы й процесс коммуникации мож ет повлиять на знания агентов поразному. С другой стороны он мож ет бы ть использован д ля инф орм ирования о выборе действий агентом. М ож но д ат ь простую интерпретацию другом у процессу коммуникации. Н априм ер, запрещ ение м ож ет играть роль, запрещ аю щ ую деакти вацию какого-то действия в отдельной ситуации. У казы ваю щ ий процесс м ож ет проявляться в организованной группе агентов, в которой агент с большим авторитетом мож ет д авать команды другим агентам. Н екоторы е язы ки коммуникации агентов могут получаться в объединениях агентов, которы е направлены на стан дартизацию процесса коммуникации. Д ействие м ож но рассм атри вать как действие, которое м еняет знание вовлеченного агента о состоянии. Рассм отрев множ ество возмож ны х коммуникационных актов, агент долж ен зад ум аться над вопросом какой акт использовать и кому передавать инф орм ацию . Мы приписываем телеком муникационному а к т у значение такое, как индикатор полезности акта. Н о откуда мы возьмем это значение? С тр у кту р а, которая позволяет долж ны м образом определить 8 Структура агента 11 значение коммуникации, это Баессова игра. Э та модель является стратегической игрой, но с частичной обозреваемостью . Мы имеем некоторое количество агентов, множ ество состояний м ира, ф ункц ию инф орм ации д ля различную д ля каж дого агента. Т акж е предполагаем, что каж дое попадание в состояние случается с некоторой вероятностью , которая р авн а д ля всех агентов, и что это определяет стратегическую игру с соответствую щ им вы игрыш ем. Таким образом, агенты м огут вы числять значение всех возмож ны х коммуникационны х акто в в некоторой ситуации и затем вы брать одну, у которой значение самое большое. Н а практике, однако, принятие оптим ального реш ения что п ередавать и кому мож ет потребовать больш их вы числительны х затрат, которы е м огут ум еньш ить способности агента. П реимущ еством использования коммуникации является то, что больше не нуж но пы таться угады вать действия других агентов. Путем коммуникации агенты могут определить способности д руг друга и распределить роли в игре. Н а практике, однако, это не всегда возмож но. Н априм ер, в частично обозреваемом мире. К о гда общение м еж ду агентами возмож но, агенты сами вы числяю т свои способности к той или иной роли, а затем посы лаю т эту инф орм ацию остальным агентам. 8 8.1 С труктура агента С ам озаинтересованны е агенты Рассм отрим м ультиагентную систему, где агенты могут кооперироваться. Тот ф ак т, что агенты объединяю тся д ля достиж ения общей цели, приводит нас к разработке алгоритм а, подобного координационному алгоритму, в котором агенты стараю тся передать как мож но больше инф ормации о себе и вести себя по инструкции. Ф утбольный робот, наприм ер, никогда не начнет п рисваивать чуж ую роль, так как это мож ет потенциально нанести вред всей команде. Н а практике, однако, мы часто имеем дело с сам озаинтересованны м и агентам и, наприм ер, агенты , которые защ ищ аю т интересы владельца, который хочет м аксим изировать свою прибыль. Типичны й пример подобного программного агента это электронны й аукцион в И нтернете. Р азраб отк а ал гори тм а или протокола д ля подобной системы чащ е встречаю щ аяся зад ач а, чем в кооперирующ ем случае. В о-первы х, мы долж ны руководить агентом , участвуя в протоколе, которы й заранее тож е не известен. В о-вторы х, нуж но приним ать во внимание ф ак т, что м ож ет попы таться начать использовать протокол в собственных интересах, приводя к подоптим апьному результату. Э то не исклю чает возмож ности, что агент м ож ет начать врать, если это необходимо. 9 О бучение П редполож им , что наш мир стохастичен и пусть д л я каж дого состояния м ира определена некая ф у н кц и я Я($), которая определяет полезность состояния б д ля наш его агента. А гент хочет найти такую последовательность действий 9 Обучение 12 { a t } (политику, обозначеныую как п), что в итоге он придет в м аксим ально полезное состояние. То есть он хочет найти максимум по всем возможным политикам величины м ато ж и д ан и я суммы р я д а из R ( s t ) при t от единицы до бесконечности с ум еньш аю щ ими коэф ф ициентам и Y (д ля того чтобы р я д сош елся). М атож идание используется, так как мир не детерм инирован, иначе нам бы были однозначно известны все перехода м ира м еж ду состояниями после какого-то наш его действия, и мы бы поиском в гр аф е переходов нашли оптим альны й путь. О п р е д е л е н и е 10. Эти R (s) назы ваю тся reinforcements. П ростым и эф ф екти вн ы м способом вычисления наибольш ей полезности является метод ит ерации присваивания. Н апример, используя его в лабиринте, где ям ы обозначены малой полезностью —10,все кл етки полезностью - 1 / 3 0 и ф иниш ны е клетки (которы х нуж но достичь) полезностью 10, получим оптим альную полезность и оптим альную политику. Ч тобы посчитать R( s ) и U *(п), нуж но б рать в качестве начальны х какието(более-менее разум ны е) значения R (s) и по ним считать U( s) - полезности состояний - в процессе деятельности агента. Э ти U(s) считаю тся пош аговым присваиванием: U(s) := R( s ) + y m a x ^ ^ P( s ' \ s , a) U( s ' ) , где м аксимум берется по всем а, а сумма- по всем s'. П рисваивание происходит до тех пор, пока с некоторой точностью они не сойдутся к чему-то. Тогда и получится ответ - наилучш ая политика. 9.1 Q -learning- алгоритм U(s) величины Q(a, s)(пoлeзнocти действия а в состоянии м ира s). Э ти величины тож е вначале полагаются случайны ми, а потом сходятся к некоторым значениям в ходе итераций присваивания после каж дого действия агента в процессе обучения. Q( s , a) := (1 — A) Q( s , a) + X( R + y m ax Q ( s ' , a')) , где A e (0,1) а смысл величины А в том, что это доля, н а которую мы позволяем каж до м у присваиванию изм ен ять значение Q(s, a).