Мультиагентные системы

Источник: Гуревич Л.А.,А.Н. Вахитов Мультиагентные системы // Введение в Computer Sciencе. – 2005. –с.116-139. Мультиагентные системы Гуревич Лев и Вахитов Александр * 1 В ведение М уль т и а ге н т н ы е системы созданы д ля реш ения различны х задач искусственного интеллекта, в которы х присутствует несколько участников. Основным понятием является агент,. О п р е д е л е н и е 1. Агент, - нечто, что способно восприним ать свое окруж ение через сенсоры и изм енять его своими действиям и. Современный подход к искусственному интеллекту основано на понятии рационального агент а, который всегда старается оптим изировать соответствую щ ую м еру полезности своих действий. Н априм ер, люди могут рассм атриваться как агенты с глазами в качестве сенсоров и способные что-то д ел ать при помощи рук. Роботы способны воспринимать мир через камеры и передвигаться при помощи колес. Д л я программ граф ический интерф ейс является средством и восприятия, и действия. О днако, агенты редко являю тся одиночными системами. Ч ащ е они взаим одействую т д руг с другом . Системы , содерж ащ ие группу агентов, которы е могут взаим одействовать м еж ду собой и назы ваю тся м у л ь т и а г е н т н ы м и сист,емами. 2 Х арактеристики мультиагентных систем К аки е характеристики отличаю т мультиагентны е системы от одноагентных. М ож но вы делить следую щие различия: 2.1 С труктура агента Ч а с то агенты сконструированы по-разному, наприм ер програм м ы , написанны е разны м и лю дьми. Р азл и ч и я могут заклю чаться в оборудовании и программном обеспечении. Ч асто таких агентов назы ваю т гет ерогенными в противополож ность гом огенны м , которы е сконструированы идентичным образом и имеют изначально одинаковы е возм ож ности. О днако различие не так очевидно; агенты , основанные на одинаковы х оборудовании и програм м ах, но ведущ ие себя по- разному, тож е м огут назы ваться гетерогенными. ‘ конспект: М ак арова А лёна с наш ей помощ ью 1 3 Рациональный агент 2.2 2 О круж ение О круж ение агентов м ож ет бы ть статическим ( не зависящ им от времени ) или динам ическим ( не стационарным ). И з-за простоты обработки и более строгого м атем атического описания больш инство методов искусственного ин теллекта в одноагентном случае были разработаны д ля статического окруж ения. В м ультиагентны х системах ж е хотя бы само присутствие нескольких агентов д елает окруж ение динам ичны м . 2.3 Восприятие И нф о р м ац и я, которой обладает система агентов, является обычно распределенной: агенты м огут следить за окруж ением из разны х положений, получать инф орм ацию в различны е моменты времени или ин терпретировать эту инф орм ацию по разному. Таким образом, состояние окруж ения является частично обозримым д ля каж дого агента. 3 Рациональны й агент Здесь будет описана проблема при няти я оптим ального реш ения. Э то означает, что агенту на каж дом ш аге следует вы брать наилучш ее действие, исходя из того, что ему известно об окруж аю щ ем мире. Вводится т.н. мера полезности действий агента, которую он постоянно пытается оптим изировать. Рационального агента такж е назы ваю т разум ны м . В дальнейш ем мы главным образом будем р ассм атри вать только вы числительны х агентов, т.е. тех, что созданы д ля реш ения специальны х задач и приводятся в исполнение на вы числительны х устройствах. 3.1 П ринятие реш ения агентом П редполож им , что н а каж дом временном ш аге £ = 1, 2 , . . . агент может из конечного набора возм ож ны х действий А вы брать какое-то действие аг. И нтуитивно понятно, что, чтобы д ей ствовать рационально, агент долж ен оценивать и прош лое, и будущее при выборе дальнейш их действий. Под прош лым подразум евается то, что агент воспринял и какие действия предпринял до момента времени 1;, а под будущим - что он ож и дает и что собирается потом д елать. Если обозначим от наблюдение агента в момент времени т , тогд а д л я вы бора оптим ального действия в момент времени £ в общем от действий ат, предш ествую щ ую моменту времени £. Ф ункция п (о \, ах, о2, а2, ..., ог) = аг, которая отображ ает набор пар наблю дение-действие до момента времени t в оптимальное действие аг назы вается стратегией агента. Если сможем найти ф ункцию п, осущ ествляю щ ую данное отображ ение, то часть задачи об отыскании оптим ального реш ения на основе прош лого 3 Рациональный агент 3 будет реш ена. О днако, определение и реализаци я такой ф ункции проблематично; слож ная история м ож ет содерж ать больш ое количество пар наблюдений, которы е м огут меняться от одной задачи к другой. Более того сохранение всех наблюдений требует очень больш ого объема пам яти, а соответственно и росту сложности вычислений. Э тот ф а к т приводит к необходимости использования более простых стратегий. Н априм ер, агент мож ет игнорировать всю историю наблюдений за исклю чением последнего. В этом случае стратегия принимает вид п ( о г) = аг, которы й отображ ает текущ ее восприятие агента в действие. Агент, которы й, отображ ает текущ ее восприятие ог в новое действие аг назы вается рефлексивным, а его стратегию назы ваю т реакт ивной или стратегией без пам ят и. В озникает естественный вопрос: насколько хорошим м ож ет бы ть такой реф лексивны й агент? К а к мы увидим дальш е, он мож ет бы ть довольно неплохим. 3.2 О круж ение и свойство М аркова И з сказанного выш е следует, что понятия окруж ения и агента являю тся спаренны м и, так что одно из них не мож ет бы ть определено без другого. Ф акти чески , р азличие м еж ду агентом и его окруж ением не всегда отчетливо и это иногда ослож няет проведению четкой границы м еж ду ними. Д л я простоты предполож им , что сущ ествует мир, в котором есть один или более агентов, в котором они воспринимаю т, дум аю т и действую т. О п р е д е л е н и е 4. К о ллективная ин ф орм ация, которая содерж ится в окруж аю щ ем мире в момент времени Ь, и которая в а ж н а д л я исполняемой задачи, назы вается сост оянием мира и обозначается М нож ество состояний м ира обозначим через Б. В зависимости от природы задачи, мир мож ет бы ть дискрет ны м или непрерывны,м. Д искретны й мир характеризуется конечным числом состояний. П римером м ож ет сл у ж и ть игра в ш ахм аты . С другой стороны примером непреры вного м ира м ож ет сл уж и ть мобильный робот, который мож ет свободно передвигаться в декартовой системе координат. Больш инство из сущ ествующ их технологий искусственного ин теллекта созданы д ля дискретного м ира, поэтому мы будем в дальнейш ем рассм атри вать именно его. 3.3 Н аблю даемость В аж н ое свойство, характеризую щ ее мир с точки зрения агента, связано с восприятием. М ы будем говорить, что мир полностью наблю даем, если текущ ее восприятие агента ог полностью описывает состояние м ира В противополож ность этому, в частично наблюдаемом мире текущ ее восприятие ог описы вает лиш ь часть инф орм ации о состоянии м ира задаю щ ую вероятностное распределение Р (« (Ю м еж ду действительны м и состояниями мира. Таким образом, м ож но рассм атри вать как случайную величину, распределенную 3 Рациональный агент 4 на Б. Ч асти чн ая наблю даем ость м ож ет бы ть вы звана двумя ф актам и . Первый из них это помехи в сенсорной информации агента. Н апример, вследствие несоверш енства сенсоров, в разны е моменты времени агент м ож ет восприним ать одно и то ж е состояние м ира по разному. В озм ож но так ж е что д ля агента некоторы е состояния неразличим ы . 3.4 Свойство М аркова Р ассм отрим снова реф лексивного агента с реактивной тактикой п (о г) = аг в полностью обозреваемом мире. П редполож ение обозреваемое™ подразумевает, что = ои и таким образом такти ка агента п ( в г) = аг. Д ругим и словами, в обозреваемом мире такти ка реф лексивного агента является отображ ением из состояний м ира в действия. В ы года состоит в том, что во многих задачах состояние м ира в момент времени t д ает полное описание истории до момента времени 1;. О п р е д е л е н и е 5. П ро такое состояние мира, которое содерж ит всю важ ную инф орм ацию о прошлом в конкретной задаче, говорят, что оно является М арковским или обладает свойством М аркова. И з выш е сказанного мы можем сделать вывод, что в М арковском мире агент м ож ет безопасно использовать стратегию без пам яти д ля принятия реш ения вместо теоретически оптимальной стратегии, которая мож ет требовать много пам яти. Д о сих пор мы рассм атривали , как стратегия агента м ож ет зависеть от последнего события и отдельны х характеристик окруж ения. О днако, как мы обсуж дапи вначапе, принятие оптим ального реш ения мож ет такж е браться из оценки будущего. 3.5 Стохастические переходы К а к бы ло упом януто выш е, в каж ды й момент времени £ агент вы бирает действие аг из конечного м нож ества действий А. После вы бора агентом действия мир меняется как его следствие. М одель перехода( иногда назы ваю т моделью мира) определят как меняется мир после соверш ения действия. Если текущ ее состояние м ира и агент соверш ает действие аг, мы можем вы делить д в а случая: • В дет ерм инист ическом мире, модель перехода отображ ает единственным образом пару состояние-действие (вг, а г) в новое состояние в4+ 1 . В ш ахм атах наприм ер, каж ды й ход изм еняет игровую позицию. • - действие в распределение вероятности Р ( 8 г+1\8г, а г) состояний. К а к и в рассмотренном выш е случае с частичной обозреваемостью , это случайная величина, которая мож ет приним ать все возмож ны е значения в множ естве Б с соответствую щ ей вероятностью Р (в ( + 1 |в(, аг). 3 Рациональный агент 5 С ам ы е практические прилож ения вклю чаю т стохастические модели перехода, наприм ер, движ ение робота неточно из-за того, что его колеса скользят и т.п. К а к мы могли зам ети ть, иногда частичная обозреваем ость является следствием неточности восприятия агентом его окруж ения. Здесь мы видим другой прим ер, где неточность играет роль, а именно, мир м еняется, когда соверш ается действие. В стохастическом мире э ф ф ек т действия агента не известен заранее. В место этого есть случайны й элемент, который определяет как меняется мир вследствие действия. Ясно, что стохастичность при переходе из одного состояния в другое вносит дополнительны е сложности в задаче принятия оптим ального реш ения агентом. Д л я классического искусственного ин теллекта целью отдельной задачи является ж елаем ое состояние мира. Таким образом, планирование определяется как поиск оптимальной стратегии. К огд а мир детерм инистический, планирование переходит в поиск по г р а ф у д л я каж дого варианта сущ ествую щ его метода. В стохастическом ж е мире мож ет не перейти в простой поиск по граф у, так как переход из состояния в состояние не является детерминистическим Теперь агент при планировании приним ать в расчет неточности переходов. Ч тобы понять, как это м ож ет бы ть использовано, зам етим , что в детерминистическом мире агент предпочитает по умолчанию конечное состояние неконечному. В общем случае, агент сохраняет настройки при переходе из состояния в состояние. Н априм ер, робот, играю щ ий в ф утбол, будет стараться забить очко, стараться меньш е стоять с мячом перед пустыми воротами и т.п. Ч то бы ф о р м ал и зо вать это понятие, свяж ем с каж ды м состоянием а вещ ественное число и (а), назы ваем ое полезностью состояния этого агента. Ф орм ально, д л я д вух состояний а и а* вы полняется и (а) > и (а*) тогд а и только тогда, когда агент предпочитает состояние в состоянию а% а и (а) = и (а*), если д ля агента эти состояния неразличим ы . И нтуитивно понятно, что чем выше полезность, тем выгоднее состояние, в котором находится агент. Зам етим , что в м ультиагентны х системах ж елаем ое состояние д ля одного из агентов м ож ет не бы ть ж елаем ы м д ля остальны х. Н апример, в ф утболе забивание гола является неж елательны м д ля противополож ной команды. 3.6 П ринятие реш ения в стохастическом мире Теперь возникает вопрос, как агент мож ет эф ф ек ти вн о использовать ф ункции полезности д ля при няти я реш ения. П редполож им , что у нас мир стохастический с моделью перехода Р ( а ^ ^ , а ^ , находящ ийся в состоянии а( до тех пор, и (а ) полезности состояния какого-то агента. П редполож им , что у нас только один агент. Тогда принятие реш ения основано на предположении, что оптим альное действие агента долж но бы ть максимумом полезности, т.е. а* = а г д т а х Е Р (аг+11аг,аг)и (аг+г), 4 Теория ш р 6 где сум м ирование происходит по всевозмож ны м состояниям в(+ 1 . Э то значит, что чтобы увидеть насколько полезно действие, агент долж ен ум нож ить полезность каж дого возм ож ного конечного состояния на вероятность попадания в это состояние, и потом просум м ировать полученный результат. Тогда агент мож ет вы брать действие а*, у которого будет м аксим альн ая сумма. Если каж дое состояние м ира имеет величину полезности, агент мож ет произвести вы числения и вы брать оптим альное действие д ля каж дого возм ож ного состояния. Т огда агент со стратегией мож ет оптим ально переводить состояние в действие. 4 Теория игр Здесь мы обсудим принятие реш ения в мультиагентны х системах, где группа агентов взаим одействую т и одновременно приним аю т решение. Мы используем теорию игр д л я ан ал и за задачи, в частности, стратегических игр, где мы изучим итеративное исклю чение точно определенны х действий и равновесие Н эш а. К а к мы уж е видели, действие агента на окруж ение мож ет оставаться неопределенны м, и это м ож ет н ак лад ы вать неопределенность на принятие реш ения. В м ультиагентны х системах, где агенты принимаю т решение в одно врем я, агент м ож ет не зн ать о решении других участвую щ их агентов. Ясно, что агент долж ен д ействовать в зависимости от действий других агентов. М ультиагентное принятие реш ения является предметом теории игр. Теория пы тается предугадать поведение взаимодействую щ их агентов в состоянии неопределенности и основывается на двух предполож ениях. Вопервы х, взаимодействую щ ие агенты рациональны , а во-вторы х, принятие реш ения происходит в зависимости от реш ения других агентов. В зависимости от способа принятия реш ения агентами мы можем вы делить д ва типа игры. В стратегической игре каж ды й агент вы бирает свою стратегию только один р аз в начале игры , а затем все агенты производят действия одновременно. В игре в обобщенной ф орм ы агенты могут м енять стратегию на протяж ении всей игры . Д ругое отличие состоит в полноте или не полноте известности инф орм ации о других агентах. Будем рассм атри вать только игры , где агент владеет всей инф орм ацией, касаю щ ейся других агентов. 4.1 С тратегические игры С тратегическая и гр а(такж е назы ваем ая норм альной формой) является простейшей моделью взаим одействия агентов в теории игр. Ее мож но рассм атри вать как м ультиагентное расш ирение прош лой модели, и характеризую щ ееся следуЮ 1цими свойствам и : • А гентов не меньш е одного (и > 1) • К а ж д ы й агент 1 вы бирает действие а* (назы ваемое стратегией) из собственного м нож ества действий Л*. В ектор (а1: ? ,а п ), т.е. действие, назы вается совм ест ны м дейст вием и обозначается (а*). М ы будем пользоваться обозначением а — д л я обозначения всех действий агента 4 Теория ш р 7 кром е ьго , а такж е (а- г , а г) д л я обозначения совместного действия, где агент 1 соверш ает действие аг. • определено как содерж ащ ее п агентов, их м нож ества действий А г и их вы игры ш и. • К а ж д ы й агент 1 имеет собственное значение ф ункции дей стви я Q*(s а) которая вы числяет полезность совместного действия д ля агента 1. К аж д ы й агент м ож ет отдавать разны е предпочтения разны м совместным действиям . М ы предполагаем, что ф ункц ия вы игры ш а заранее определена и ф иксирована. • о друге, м нож ества действий д руг д руга и выигрыш и д руг друга. Все это в игре и есть общее знание агентов. • вы бираю т свои действия одновременно и независимо. Ни один агент не знает о принятии реш ения другого агента до тех пор, пока решение не будет принято. В итоге в стратегических играх каж ды й агент вы бирает одно действие и получает результат в зависимости то выбора общего действия. Э то совместное действие назы вается исходом игры . Хотя ф ун кц и я вы игры ш а агента является общим знанием, агент не знает заранее о выборе действия другим агентом. С амое лучш ее, что он мож ет - так это попы таться угадать действие другого агента. Р е ш ением игры является предсказание исхода, используя предположение, что все агенты рациональны е и стратегические. 4.2 И теративное исклю чение строго дом инирую щ их действий П ервое важ ное понятие основано на предположении, что рациональны й агент никогда не вы бирает подоптим альное решение. П од подоптимальным решением мы подразумеваем действие, которое вне зависимости от того, что делаю т другие агенты , всегда будет в результате менее вы игрыш ны м д ля агента, чем какое-то другое действие. С ф орм улируем это иначе: Будем говорить, что действие аг агента г явл яется строго доминирую щ им н ад другим действием а[, если и г(а- г ,а'г) > и г(а- г , а г) д л я всех действий а -г д руги х агентов. В этом определении и г(а- г , а г) явл яется вы игры ш ем агента 1, которы й получается, если он вы берет действие аг пока остальны е агенты вы полняю т действие а -г Х арактеристикой итеративного исклю чения строго доминирую щ их действий является то, что агенты м огут не сохранять веру в стратегии других агентов д ля того, чтобы вы числить их оптим альное действие. Единственное, что требуется это предположение в общем знании, что все агенты рациональны . о Координация 4.3 8 Равновесие Нэш а Равновесие Н эш а является более значительны м понятием чем ит ерат ивное •исключение строго д ом и ниру ю щ их дейст вий в том смысле, что она порож дает более точное предсказание результатов в широком классе игр. Э то ф орм альн о м ож ет бы ть определено следующим образом: Р авновесие Н эш а это общее действие а* такое, что д л я каж до го агента г вы полняется и*(а*_а*) > ( а * а * ) д л я всех действий а* € Л* Зам етим , что в отличие от итеративного исклю чения строго доминирую щ их действий (И И С Д Ц ), которое описывает реш ение игры посредством алгоритм а, Равновесие Н эш а описы вает в терминах возм ож ны х состояний. В равновесие Н эш а каж дого агента является оптим альны м ответом на действие другого агента. О п р е д е л е н и е 8. Совместное действие а назы вается оптим альны м действием Парето, если ни д л я какого из действий а' не вы полняется щ (а ') > и*(а) д ля любого агента 1. Выш е мы предполож или, что во время игры агент 1 будет вы бирать действие, которое берется из м нож ества его действий Л*. О днако, это не всегда так. Во многих случаях у агента есть причина п роявлять стохастичность г вы бирает действие а* в процессе с некоторым распределением вероятностей Рг(а*), которое м ож ет бы ть разны м д л я разны х агентов. О п р е д е л е н и е 9. С м еш анная стратегия агента 1 это распределение вероятностей действий а* € Л* В своей известной теореме Нэш показа:], что стратегическая игра с конечным числом агентов и конечным числом действий всегда достигает равновесия в смешанной стратегии. 5 К оординация Рассм отрим зад ач у координации, то есть, как отдельное решение агента м ож ет повлиять на принятие общего реш ения. Различаю щ ееся будущее м ультиагентны х систем ф акти чески означает, что процесс принятия решения м ож ет бы ть распространенны м . Э то значит, что нет центрального агента, которы й контролирует, что делает каж ды й агент в каж ды й момент времени. К аж д ы й агент сам реш ает, какое действие он совершит. К оординация реализуется с помощ ью распределения агентов по ролям. То есть агент, понимая, что он наиболее подходит д ля выполнения определенной роли, присваивает ее себе. К ром е того, м ож ет сущ ествовать заранее определенный набор правил, которы ми долж ны руководствоваться агенты . Н апример, таким правилом является пропускание помехи справа в правилах дорож ного движ ения. Д ругим 6 Общее знание 9 примером м ож ет послуж ить игра роботов в ф утбол. К ом ан д а роботов старается забить мяч в ворота противополож ной команды . Здесь координация обеспечивает то, что наприм ер, д в а робота из одной команды не пытаю тся уд ари ть мяч в один одновременно. Здесь нет контролирую щ его агента, который мог бы и н структи ровать роботов в реальном времени бить или не бить м яч. Они сами долж ны это реш ать. 6 О бщ ее знание Р аньш е мы предполагали, что мир полностью обозрим. Теперь ослабим это предположение и рассмотрим случай, где некоторы е состояния невидимы д ля агента. В частично обозреваемом мире агент долж ен всегда р азм ы ш л ять о том, что он знает об окруж аю щ ем мире и том , что знаю т другие агенты , п реж де чем при нять решение. Ч тобы д ей ствовать рационально, агент долж ен всегда реагировать на то, что он узнает о текущ ем состоянии мира. Если мир полностью обозреваем, то агент мож ет действовать практически не р азм ы ш л яя. В частично обозреваемом мире агент долж ен вним ательно рассм атривать, что он знает и что не знает перед выбором действия. И нтуитивно понятно, что чем больш е агент знает о состоянии, тем лучш ее решение он может сделать. В м ультиагентны х системах рациональны й агент мож ет приним ать в расчет знание других агентов о состоянии(то есть инф орм ацию , которой они владею т о состоянии). Т акж е он долж ен рассм атри вать то, что другие агенты знаю т о его действиях и знаю т ли они что знает ли он о том, что он о них знает. То, что д ва рациональны х агента всегда хотят закл ю чи ть пари, не является общим знанием. В качестве прим ера приведем головоломку о ш апках. Т рое агентов(наприм ер, девуш ки) сидят вокруг стола, на каж дой из них надета ш апка, которая м ож ет бы ть либо белой либо красной. К аж д ы й агент знает цвет ш апки двух д ругих, но не знает цвета своей. Ч еловек, который наблю дает за ними со стороны (ведущ ий), просит их повернуться и спраш ивает, знаю т ли они какого цвета их ш апка. К аж д ы й агент д ает отрицательны й ответ. Тогда ведущ ий объявляет, что, по крайней мере, на одном из них красн ая ш апка, а затем снова просит их повернуться. Первый агент говорит Нет, второй агент говорит Нет, но, когда он спраш ивает третьего агента, он отвечает Д а. К а к получилось, что третий агент в конце м ож ет определить цвет своей ш апки. Если у агентов одинаковые стратегии и им известно о том, что делаю т агенты в текущ ем состоянии, то агенты долж ны д ел ать одинаковые действия 7 К оммуникация М ультиагентное взаимодействие часто ассоциируется с некоторой формой общения. М ы используем общение в повседневной ж изни, д ля совместного реш ения зад ач , д ля того, чтобы договариваться с другим и, или просто для 7 Коммуникация 10 обмена информ ацией с другим и. К а к мы видели, в головоломке о ш ляпах путем ответов на вопросы агенты смогли сф орм ули ровать более точное утверж дение задачи и, в конечном счете, реш ить ее. К огда мы говорим о вы числительны х агентах, общение рассм атривается на некотором уровне абстракции. Н а более низком (netw ork) уровне можно сказать, что можно бы ть уверенны м, что сообщ ения, пересы лаемы е агентами д руг другу, безопасно и вовремя дойдут до адресатов. Д л я этого сущ ествую т протоколы. Н а среднем язы ковом уровне можно основы ваться на множ естве основных слов язы ка и их стандартны х изм енениях, так что агенты , говорящ ие на одном язы ке, могли поним ать д руг друга. И последний уровень- уровень применения, т.е. м ож но эф ф ек ти вн о использовать общение д ля реш ения стандартны х м ультиагентны х зад ач , наприм ер, координация или согласование. К а к мы уж е поняли, состояние м ира характеризуется количеством агентов, их возмож ными действиям и и выгодой агентов, если они вовлечены в стратегическую игру, и другим и аспектами внеш него окруж ения. В таких случаях какой-то агент м ож ет бы ть д езактивирован в некоторых состояниях, потому что ему присвоена некоторая роль. А налогично, если состояние м ира частично обозреваемо д ля агентов, каж ды й агент обладает различны м и уровнями знания о настоящем состоянии мира. Ф орм ально м ож но описать коммуникацию рассмотрением каж дой первообразной коммуникации как действия, которое обновляет знание агентов о состоянии. Н аиболее общие типы процесса коммуникации (они использую тся,наприм ер, в правилах дорож ного д виж ения): • И нф орм ирую щ ие • К аж д ы й процесс коммуникации мож ет повлиять на знания агентов поразному. С другой стороны он мож ет бы ть использован д ля инф орм ирования о выборе действий агентом. М ож но д ат ь простую интерпретацию другом у процессу коммуникации. Н априм ер, запрещ ение м ож ет играть роль, запрещ аю щ ую деакти вацию какого-то действия в отдельной ситуации. У казы ваю щ ий процесс м ож ет проявляться в организованной группе агентов, в которой агент с большим авторитетом мож ет д авать команды другим агентам. Н екоторы е язы ки коммуникации агентов могут получаться в объединениях агентов, которы е направлены на стан дартизацию процесса коммуникации. Д ействие м ож но рассм атри вать как действие, которое м еняет знание вовлеченного агента о состоянии. Рассм отрев множ ество возмож ны х коммуникационных актов, агент долж ен зад ум аться над вопросом какой акт использовать и кому передавать инф орм ацию . Мы приписываем телеком муникационному а к т у значение такое, как индикатор полезности акта. Н о откуда мы возьмем это значение? С тр у кту р а, которая позволяет долж ны м образом определить 8 Структура агента 11 значение коммуникации, это Баессова игра. Э та модель является стратегической игрой, но с частичной обозреваемостью . Мы имеем некоторое количество агентов, множ ество состояний м ира, ф ункц ию инф орм ации д ля различную д ля каж дого агента. Т акж е предполагаем, что каж дое попадание в состояние случается с некоторой вероятностью , которая р авн а д ля всех агентов, и что это определяет стратегическую игру с соответствую щ им вы игрыш ем. Таким образом, агенты м огут вы числять значение всех возмож ны х коммуникационны х акто в в некоторой ситуации и затем вы брать одну, у которой значение самое большое. Н а практике, однако, принятие оптим ального реш ения что п ередавать и кому мож ет потребовать больш их вы числительны х затрат, которы е м огут ум еньш ить способности агента. П реимущ еством использования коммуникации является то, что больше не нуж но пы таться угады вать действия других агентов. Путем коммуникации агенты могут определить способности д руг друга и распределить роли в игре. Н а практике, однако, это не всегда возмож но. Н априм ер, в частично обозреваемом мире. К о гда общение м еж ду агентами возмож но, агенты сами вы числяю т свои способности к той или иной роли, а затем посы лаю т эту инф орм ацию остальным агентам. 8 8.1 С труктура агента С ам озаинтересованны е агенты Рассм отрим м ультиагентную систему, где агенты могут кооперироваться. Тот ф ак т, что агенты объединяю тся д ля достиж ения общей цели, приводит нас к разработке алгоритм а, подобного координационному алгоритму, в котором агенты стараю тся передать как мож но больше инф ормации о себе и вести себя по инструкции. Ф утбольный робот, наприм ер, никогда не начнет п рисваивать чуж ую роль, так как это мож ет потенциально нанести вред всей команде. Н а практике, однако, мы часто имеем дело с сам озаинтересованны м и агентам и, наприм ер, агенты , которые защ ищ аю т интересы владельца, который хочет м аксим изировать свою прибыль. Типичны й пример подобного программного агента это электронны й аукцион в И нтернете. Р азраб отк а ал гори тм а или протокола д ля подобной системы чащ е встречаю щ аяся зад ач а, чем в кооперирующ ем случае. В о-первы х, мы долж ны руководить агентом , участвуя в протоколе, которы й заранее тож е не известен. В о-вторы х, нуж но приним ать во внимание ф ак т, что м ож ет попы таться начать использовать протокол в собственных интересах, приводя к подоптим апьному результату. Э то не исклю чает возмож ности, что агент м ож ет начать врать, если это необходимо. 9 О бучение П редполож им , что наш мир стохастичен и пусть д л я каж дого состояния м ира определена некая ф у н кц и я Я($), которая определяет полезность состояния б д ля наш его агента. А гент хочет найти такую последовательность действий 9 Обучение 12 { a t } (политику, обозначеныую как п), что в итоге он придет в м аксим ально полезное состояние. То есть он хочет найти максимум по всем возможным политикам величины м ато ж и д ан и я суммы р я д а из R ( s t ) при t от единицы до бесконечности с ум еньш аю щ ими коэф ф ициентам и Y (д ля того чтобы р я д сош елся). М атож идание используется, так как мир не детерм инирован, иначе нам бы были однозначно известны все перехода м ира м еж ду состояниями после какого-то наш его действия, и мы бы поиском в гр аф е переходов нашли оптим альны й путь. О п р е д е л е н и е 10. Эти R (s) назы ваю тся reinforcements. П ростым и эф ф екти вн ы м способом вычисления наибольш ей полезности является метод ит ерации присваивания. Н апример, используя его в лабиринте, где ям ы обозначены малой полезностью —10,все кл етки полезностью - 1 / 3 0 и ф иниш ны е клетки (которы х нуж но достичь) полезностью 10, получим оптим альную полезность и оптим альную политику. Ч тобы посчитать R( s ) и U *(п), нуж но б рать в качестве начальны х какието(более-менее разум ны е) значения R (s) и по ним считать U( s) - полезности состояний - в процессе деятельности агента. Э ти U(s) считаю тся пош аговым присваиванием: U(s) := R( s ) + y m a x ^ ^ P( s ' \ s , a) U( s ' ) , где м аксимум берется по всем а, а сумма- по всем s'. П рисваивание происходит до тех пор, пока с некоторой точностью они не сойдутся к чему-то. Тогда и получится ответ - наилучш ая политика. 9.1 Q -learning- алгоритм U(s) величины Q(a, s)(пoлeзнocти действия а в состоянии м ира s). Э ти величины тож е вначале полагаются случайны ми, а потом сходятся к некоторым значениям в ходе итераций присваивания после каж дого действия агента в процессе обучения. Q( s , a) := (1 — A) Q( s , a) + X( R + y m ax Q ( s ' , a')) , где A e (0,1) а смысл величины А в том, что это доля, н а которую мы позволяем каж до м у присваиванию изм ен ять значение Q(s, a).

Мультиагентные системы

Related documents

Products

Support

Мультиагентные системы

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib