Мультиагентные системы

advertisement
Источник: Гуревич Л.А.,А.Н. Вахитов Мультиагентные системы // Введение в Computer
Sciencе. – 2005. –с.116-139.
Мультиагентные системы
Гуревич Лев и Вахитов Александр *
1
В ведение
М уль т и а ге н т н ы е системы созданы д ля реш ения различны х задач искусственного
интеллекта, в которы х присутствует несколько участников. Основным понятием
является агент,.
О п р е д е л е н и е 1. Агент, - нечто, что способно восприним ать свое окруж ение
через сенсоры и изм енять его своими действиям и.
Современный подход к искусственному интеллекту основано на понятии
рационального агент а, который всегда старается оптим изировать соответствую щ ую
м еру полезности своих действий. Н априм ер, люди могут рассм атриваться
как агенты с глазами в качестве сенсоров и способные что-то д ел ать при
помощи рук. Роботы способны воспринимать мир через камеры и передвигаться
при помощи колес. Д л я программ граф ический интерф ейс является средством
и восприятия, и действия. О днако, агенты редко являю тся одиночными
системами. Ч ащ е они взаим одействую т д руг с другом . Системы , содерж ащ ие
группу агентов, которы е могут взаим одействовать м еж ду собой и назы ваю тся
м у л ь т и а г е н т н ы м и сист,емами.
2
Х арактеристики мультиагентных систем
К аки е характеристики отличаю т мультиагентны е системы от одноагентных.
М ож но вы делить следую щие различия:
2.1
С труктура агента
Ч а с то агенты сконструированы по-разному, наприм ер програм м ы , написанны е
разны м и лю дьми. Р азл и ч и я могут заклю чаться в оборудовании и программном
обеспечении. Ч асто таких агентов назы ваю т гет ерогенными в противополож ность
гом огенны м , которы е сконструированы идентичным образом и имеют изначально
одинаковы е возм ож ности. О днако различие не так очевидно; агенты , основанные
на одинаковы х оборудовании и програм м ах, но ведущ ие себя по- разному,
тож е м огут назы ваться гетерогенными.
‘ конспект: М ак арова А лёна с наш ей помощ ью
1
3 Рациональный агент
2.2
2
О круж ение
О круж ение агентов м ож ет бы ть статическим ( не зависящ им от времени )
или динам ическим ( не стационарным ). И з-за простоты обработки и более
строгого м атем атического описания больш инство методов искусственного
ин теллекта в одноагентном случае были разработаны д ля статического окруж ения.
В м ультиагентны х системах ж е хотя бы само присутствие нескольких агентов
д елает окруж ение динам ичны м .
2.3
Восприятие
И нф о р м ац и я, которой обладает система агентов, является обычно распределенной:
агенты м огут следить за окруж ением из разны х положений, получать инф орм ацию
в различны е моменты времени или ин терпретировать эту инф орм ацию по разному. Таким образом, состояние окруж ения является частично обозримым
д ля каж дого агента.
3
Рациональны й агент
Здесь будет описана проблема при няти я оптим ального реш ения. Э то означает,
что агенту на каж дом ш аге следует вы брать наилучш ее действие, исходя из
того, что ему известно об окруж аю щ ем мире. Вводится т.н. мера полезности
действий агента, которую он постоянно пытается оптим изировать. Рационального
агента такж е назы ваю т разум ны м . В дальнейш ем мы главным образом
будем р ассм атри вать только вы числительны х агентов, т.е. тех, что созданы
д ля реш ения специальны х задач и приводятся в исполнение на вы числительны х
устройствах.
3.1
П ринятие реш ения агентом
П редполож им , что н а каж дом временном ш аге £ = 1, 2 , . . .
агент может
из конечного набора возм ож ны х действий А вы брать какое-то действие аг.
И нтуитивно понятно, что, чтобы д ей ствовать рационально, агент долж ен
оценивать и прош лое, и будущее при выборе дальнейш их действий. Под
прош лым подразум евается то, что агент воспринял и какие действия предпринял
до момента времени 1;, а под будущим - что он ож и дает и что собирается
потом д елать. Если обозначим от наблюдение агента в момент времени
т , тогд а д л я вы бора оптим ального действия в момент времени £ в общем
от
действий ат, предш ествую щ ую моменту времени £.
Ф ункция п (о \, ах, о2, а2, ..., ог) = аг, которая отображ ает
набор пар наблю дение-действие до момента времени t в оптимальное действие
аг назы вается стратегией агента.
Если сможем найти ф ункцию п, осущ ествляю щ ую данное отображ ение,
то часть задачи об отыскании оптим ального реш ения на основе прош лого
3 Рациональный агент
3
будет реш ена. О днако, определение и реализаци я такой ф ункции проблематично;
слож ная история м ож ет содерж ать больш ое количество пар наблюдений,
которы е м огут меняться от одной задачи к другой. Более того сохранение
всех наблюдений требует очень больш ого объема пам яти, а соответственно и
росту сложности вычислений. Э тот ф а к т приводит к необходимости использования
более простых стратегий. Н априм ер, агент мож ет игнорировать всю историю
наблюдений за исклю чением последнего. В этом случае стратегия принимает
вид п ( о г) = аг, которы й отображ ает текущ ее восприятие агента в действие.
Агент, которы й, отображ ает текущ ее восприятие ог в
новое действие аг назы вается рефлексивным, а его стратегию назы ваю т
реакт ивной или стратегией без пам ят и.
В озникает естественный вопрос: насколько хорошим м ож ет бы ть такой
реф лексивны й агент? К а к мы увидим дальш е, он мож ет бы ть довольно
неплохим.
3.2
О круж ение и свойство М аркова
И з сказанного выш е следует, что понятия окруж ения и агента являю тся
спаренны м и, так что одно из них не мож ет бы ть определено без другого.
Ф акти чески , р азличие м еж ду агентом и его окруж ением не всегда отчетливо
и это иногда ослож няет проведению четкой границы м еж ду ними. Д л я
простоты предполож им , что сущ ествует мир, в котором есть один или более
агентов, в котором они воспринимаю т, дум аю т и действую т.
О п р е д е л е н и е 4. К о ллективная ин ф орм ация, которая содерж ится в окруж аю щ ем
мире в момент времени Ь, и которая в а ж н а д л я исполняемой задачи, назы вается
сост оянием мира и обозначается
М нож ество состояний м ира обозначим
через Б.
В зависимости от природы задачи, мир мож ет бы ть дискрет ны м или
непрерывны,м. Д искретны й мир характеризуется конечным числом состояний.
П римером м ож ет сл у ж и ть игра в ш ахм аты . С другой стороны примером
непреры вного м ира м ож ет сл уж и ть мобильный робот, который мож ет свободно
передвигаться в декартовой системе координат. Больш инство из сущ ествующ их
технологий искусственного ин теллекта созданы д ля дискретного м ира, поэтому
мы будем в дальнейш ем рассм атри вать именно его.
3.3
Н аблю даемость
В аж н ое свойство, характеризую щ ее мир с точки зрения агента, связано
с восприятием. М ы будем говорить, что мир полностью наблю даем, если
текущ ее восприятие агента ог полностью описывает состояние м ира
В
противополож ность этому, в частично наблюдаемом мире текущ ее восприятие
ог описы вает лиш ь часть инф орм ации о состоянии м ира задаю щ ую вероятностное
распределение Р (« (Ю м еж ду действительны м и состояниями мира. Таким
образом,
м ож но рассм атри вать как случайную величину, распределенную
3 Рациональный агент
4
на Б. Ч асти чн ая наблю даем ость м ож ет бы ть вы звана двумя ф актам и . Первый
из них это помехи в сенсорной информации агента. Н апример, вследствие
несоверш енства сенсоров, в разны е моменты времени агент м ож ет восприним ать
одно и то ж е состояние м ира по разному. В озм ож но так ж е что д ля агента
некоторы е состояния неразличим ы .
3.4
Свойство М аркова
Р ассм отрим снова реф лексивного агента с реактивной тактикой п (о г) = аг в
полностью обозреваемом мире. П редполож ение обозреваемое™ подразумевает,
что
= ои и таким образом такти ка агента п ( в г) = аг. Д ругим и словами, в
обозреваемом мире такти ка реф лексивного агента является отображ ением
из состояний м ира в действия. В ы года состоит в том, что во многих задачах
состояние м ира в момент времени t д ает полное описание истории до момента
времени 1;.
О п р е д е л е н и е 5. П ро такое состояние мира, которое содерж ит всю важ ную
инф орм ацию о прошлом в конкретной задаче, говорят, что оно является
М арковским или обладает свойством М аркова.
И з выш е сказанного мы можем сделать вывод, что в М арковском мире
агент м ож ет безопасно использовать стратегию без пам яти д ля принятия
реш ения вместо теоретически оптимальной стратегии, которая мож ет требовать
много пам яти.
Д о сих пор мы рассм атривали , как стратегия агента м ож ет зависеть
от последнего события и отдельны х характеристик окруж ения. О днако,
как мы обсуж дапи вначапе, принятие оптим ального реш ения мож ет такж е
браться из оценки будущего.
3.5
Стохастические переходы
К а к бы ло упом януто выш е, в каж ды й момент времени £ агент вы бирает
действие аг из конечного м нож ества действий А. После вы бора агентом
действия мир меняется как его следствие. М одель перехода( иногда назы ваю т
моделью мира) определят как меняется мир после соверш ения действия.
Если текущ ее состояние м ира
и агент соверш ает действие аг, мы можем
вы делить д в а случая:
• В дет ерм инист ическом мире, модель перехода отображ ает единственным
образом пару состояние-действие (вг, а г) в новое состояние в4+ 1 . В
ш ахм атах наприм ер, каж ды й ход изм еняет игровую позицию.
•
- действие в распределение вероятности Р ( 8 г+1\8г, а г) состояний. К а к
и в рассмотренном выш е случае с частичной обозреваемостью ,
это случайная величина, которая мож ет приним ать все возмож ны е
значения в множ естве Б с соответствую щ ей вероятностью Р (в ( + 1 |в(, аг).
3 Рациональный агент
5
С ам ы е практические прилож ения вклю чаю т стохастические модели
перехода, наприм ер, движ ение робота неточно из-за того, что его колеса
скользят и т.п.
К а к мы могли зам ети ть, иногда частичная обозреваем ость является следствием
неточности восприятия агентом его окруж ения. Здесь мы видим другой
прим ер, где неточность играет роль, а именно, мир м еняется, когда соверш ается
действие. В стохастическом мире э ф ф ек т действия агента не известен заранее.
В место этого есть случайны й элемент, который определяет как меняется
мир вследствие действия. Ясно, что стохастичность при переходе из одного
состояния в другое вносит дополнительны е сложности в задаче принятия
оптим ального реш ения агентом.
Д л я классического искусственного ин теллекта целью отдельной задачи
является ж елаем ое состояние мира. Таким образом, планирование определяется
как поиск оптимальной стратегии. К огд а мир детерм инистический, планирование
переходит в поиск по г р а ф у д л я каж дого варианта сущ ествую щ его метода.
В стохастическом ж е мире мож ет не перейти в простой поиск по граф у,
так как переход из состояния в состояние не является детерминистическим
Теперь агент при планировании приним ать в расчет неточности переходов.
Ч тобы понять, как это м ож ет бы ть использовано, зам етим , что в детерминистическом
мире агент предпочитает по умолчанию конечное состояние неконечному.
В общем случае, агент сохраняет настройки при переходе из состояния в
состояние. Н априм ер, робот, играю щ ий в ф утбол, будет стараться забить
очко, стараться меньш е стоять с мячом перед пустыми воротами и т.п.
Ч то бы ф о р м ал и зо вать это понятие, свяж ем с каж ды м состоянием а вещ ественное
число и (а), назы ваем ое полезностью состояния этого агента. Ф орм ально,
д л я д вух состояний а и а* вы полняется и (а) > и (а*) тогд а и только тогда,
когда агент предпочитает состояние в состоянию а% а и (а) = и (а*), если
д ля агента эти состояния неразличим ы . И нтуитивно понятно, что чем выше
полезность, тем выгоднее состояние, в котором находится агент. Зам етим ,
что в м ультиагентны х системах ж елаем ое состояние д ля одного из агентов
м ож ет не бы ть ж елаем ы м д ля остальны х. Н апример, в ф утболе забивание
гола является неж елательны м д ля противополож ной команды.
3.6
П ринятие реш ения в стохастическом мире
Теперь возникает вопрос, как агент мож ет эф ф ек ти вн о использовать ф ункции
полезности д ля при няти я реш ения. П редполож им , что у нас мир стохастический
с моделью перехода Р ( а ^ ^ , а ^ , находящ ийся в состоянии а( до тех пор,
и (а )
полезности состояния какого-то агента. П редполож им , что у нас только
один агент. Тогда принятие реш ения основано на предположении, что оптим альное
действие агента долж но бы ть максимумом полезности, т.е.
а* = а г д т а х
Е Р (аг+11аг,аг)и (аг+г),
4
Теория ш р
6
где сум м ирование происходит по всевозмож ны м состояниям в(+ 1 . Э то значит,
что чтобы увидеть насколько полезно действие, агент долж ен ум нож ить
полезность каж дого возм ож ного конечного состояния на вероятность попадания
в это состояние, и потом просум м ировать полученный результат. Тогда
агент мож ет вы брать действие а*, у которого будет м аксим альн ая сумма.
Если каж дое состояние м ира имеет величину полезности, агент мож ет произвести
вы числения и вы брать оптим альное действие д ля каж дого возм ож ного состояния.
Т огда агент со стратегией мож ет оптим ально переводить состояние в действие.
4
Теория игр
Здесь мы обсудим принятие реш ения в мультиагентны х системах, где группа
агентов взаим одействую т и одновременно приним аю т решение. Мы используем
теорию игр д л я ан ал и за задачи, в частности, стратегических игр, где мы
изучим итеративное исклю чение точно определенны х действий и равновесие
Н эш а. К а к мы уж е видели, действие агента на окруж ение мож ет оставаться
неопределенны м, и это м ож ет н ак лад ы вать неопределенность на принятие
реш ения. В м ультиагентны х системах, где агенты принимаю т решение в
одно врем я, агент м ож ет не зн ать о решении других участвую щ их агентов.
Ясно, что агент долж ен д ействовать в зависимости от действий других
агентов. М ультиагентное принятие реш ения является предметом теории
игр. Теория пы тается предугадать поведение взаимодействую щ их агентов в
состоянии неопределенности и основывается на двух предполож ениях. Вопервы х, взаимодействую щ ие агенты рациональны , а во-вторы х, принятие
реш ения происходит в зависимости от реш ения других агентов. В зависимости
от способа принятия реш ения агентами мы можем вы делить д ва типа игры.
В стратегической игре каж ды й агент вы бирает свою стратегию только
один р аз в начале игры , а затем все агенты производят действия одновременно.
В игре в обобщенной ф орм ы агенты могут м енять стратегию на протяж ении
всей игры . Д ругое отличие состоит в полноте или не полноте известности
инф орм ации о других агентах. Будем рассм атри вать только игры , где агент
владеет всей инф орм ацией, касаю щ ейся других агентов.
4.1
С тратегические игры
С тратегическая и гр а(такж е назы ваем ая норм альной формой) является простейшей
моделью взаим одействия агентов в теории игр. Ее мож но рассм атри вать
как м ультиагентное расш ирение прош лой модели, и характеризую щ ееся
следуЮ 1цими свойствам и :
• А гентов не меньш е одного (и > 1)
• К а ж д ы й агент 1 вы бирает действие а* (назы ваемое стратегией) из
собственного м нож ества действий Л*. В ектор (а1: ? ,а п ), т.е. действие,
назы вается совм ест ны м дейст вием и обозначается (а*). М ы будем
пользоваться обозначением а — д л я обозначения всех действий агента
4
Теория ш р
7
кром е ьго , а такж е (а- г , а г) д л я обозначения совместного действия,
где агент 1 соверш ает действие аг.
•
определено как содерж ащ ее п агентов, их м нож ества действий А г и их
вы игры ш и.
• К а ж д ы й агент 1 имеет собственное значение ф ункции дей стви я Q*(s а)
которая вы числяет полезность совместного действия д ля агента 1. К аж д ы й
агент м ож ет отдавать разны е предпочтения разны м совместным действиям .
М ы предполагаем, что ф ункц ия вы игры ш а заранее определена и ф иксирована.
•
о друге, м нож ества действий д руг д руга и выигрыш и д руг друга. Все
это в игре и есть общее знание агентов.
•
вы бираю т свои действия одновременно и независимо. Ни один агент
не знает о принятии реш ения другого агента до тех пор, пока решение
не будет принято.
В итоге в стратегических играх каж ды й агент вы бирает одно действие и
получает результат в зависимости то выбора общего действия. Э то совместное
действие назы вается исходом игры . Хотя ф ун кц и я вы игры ш а агента является
общим знанием, агент не знает заранее о выборе действия другим агентом.
С амое лучш ее, что он мож ет - так это попы таться угадать действие другого
агента. Р е ш ением игры является предсказание исхода, используя предположение,
что все агенты рациональны е и стратегические.
4.2
И теративное исклю чение строго дом инирую щ их действий
П ервое важ ное понятие основано на предположении, что рациональны й
агент никогда не вы бирает подоптим альное решение. П од подоптимальным
решением мы подразумеваем действие, которое вне зависимости от того,
что делаю т другие агенты , всегда будет в результате менее вы игрыш ны м
д ля агента, чем какое-то другое действие. С ф орм улируем это иначе:
Будем говорить, что действие аг агента г явл яется строго
доминирую щ им н ад другим действием а[, если и г(а- г ,а'г) > и г(а- г , а г) д л я
всех действий а -г д руги х агентов.
В этом определении и г(а- г , а г) явл яется вы игры ш ем агента 1, которы й
получается, если он вы берет действие аг пока остальны е агенты вы полняю т
действие а -г
Х арактеристикой итеративного исклю чения строго доминирую щ их действий
является то, что агенты м огут не сохранять веру в стратегии других агентов
д ля того, чтобы вы числить их оптим альное действие. Единственное, что
требуется это предположение в общем знании, что все агенты рациональны .
о Координация
4.3
8
Равновесие Нэш а
Равновесие Н эш а является более значительны м понятием чем ит ерат ивное
•исключение строго д ом и ниру ю щ их дейст вий в том смысле, что она порож дает
более точное предсказание результатов в широком классе игр. Э то ф орм альн о
м ож ет бы ть определено следующим образом:
Р авновесие Н эш а это общее действие а* такое, что д л я
каж до го агента г вы полняется и*(а*_а*) > ( а * а * ) д л я всех действий а* €
Л*
Зам етим , что в отличие от итеративного исклю чения строго доминирую щ их
действий (И И С Д Ц ), которое описывает реш ение игры посредством алгоритм а,
Равновесие Н эш а описы вает в терминах возм ож ны х состояний. В равновесие
Н эш а каж дого агента является оптим альны м ответом на действие другого
агента.
О п р е д е л е н и е 8. Совместное действие а назы вается оптим альны м действием
Парето, если ни д л я какого из действий а' не вы полняется щ (а ') > и*(а)
д ля любого агента 1.
Выш е мы предполож или, что во время игры агент 1 будет вы бирать
действие, которое берется из м нож ества его действий Л*. О днако, это не
всегда так. Во многих случаях у агента есть причина п роявлять стохастичность
г
вы бирает действие а* в процессе с некоторым распределением вероятностей
Рг(а*), которое м ож ет бы ть разны м д л я разны х агентов.
О п р е д е л е н и е 9. С м еш анная стратегия агента 1 это распределение вероятностей
действий а* € Л*
В своей известной теореме Нэш показа:], что стратегическая игра с конечным
числом агентов и конечным числом действий всегда достигает равновесия
в смешанной стратегии.
5
К оординация
Рассм отрим зад ач у координации, то есть, как отдельное решение агента
м ож ет повлиять на принятие общего реш ения. Различаю щ ееся будущее
м ультиагентны х систем ф акти чески означает, что процесс принятия решения
м ож ет бы ть распространенны м . Э то значит, что нет центрального агента,
которы й контролирует, что делает каж ды й агент в каж ды й момент времени.
К аж д ы й агент сам реш ает, какое действие он совершит. К оординация реализуется
с помощ ью распределения агентов по ролям. То есть агент, понимая, что
он наиболее подходит д ля выполнения определенной роли, присваивает ее
себе. К ром е того, м ож ет сущ ествовать заранее определенный набор правил,
которы ми долж ны руководствоваться агенты . Н апример, таким правилом
является пропускание помехи справа в правилах дорож ного движ ения. Д ругим
6
Общее знание
9
примером м ож ет послуж ить игра роботов в ф утбол. К ом ан д а роботов старается
забить мяч в ворота противополож ной команды . Здесь координация обеспечивает
то, что наприм ер, д в а робота из одной команды не пытаю тся уд ари ть мяч
в один одновременно. Здесь нет контролирую щ его агента, который мог бы
и н структи ровать роботов в реальном времени бить или не бить м яч. Они
сами долж ны это реш ать.
6
О бщ ее знание
Р аньш е мы предполагали, что мир полностью обозрим. Теперь ослабим это
предположение и рассмотрим случай, где некоторы е состояния невидимы
д ля агента. В частично обозреваемом мире агент долж ен всегда р азм ы ш л ять
о том, что он знает об окруж аю щ ем мире и том , что знаю т другие агенты ,
п реж де чем при нять решение. Ч тобы д ей ствовать рационально, агент долж ен
всегда реагировать на то, что он узнает о текущ ем состоянии мира. Если
мир полностью обозреваем, то агент мож ет действовать практически не
р азм ы ш л яя. В частично обозреваемом мире агент долж ен вним ательно рассм атривать,
что он знает и что не знает перед выбором действия. И нтуитивно понятно,
что чем больш е агент знает о состоянии, тем лучш ее решение он может
сделать. В м ультиагентны х системах рациональны й агент мож ет приним ать
в расчет знание других агентов о состоянии(то есть инф орм ацию , которой
они владею т о состоянии). Т акж е он долж ен рассм атри вать то, что другие
агенты знаю т о его действиях и знаю т ли они что знает ли он о том, что
он о них знает. То, что д ва рациональны х агента всегда хотят закл ю чи ть
пари, не является общим знанием.
В качестве прим ера приведем головоломку о ш апках. Т рое агентов(наприм ер,
девуш ки) сидят вокруг стола, на каж дой из них надета ш апка, которая
м ож ет бы ть либо белой либо красной. К аж д ы й агент знает цвет ш апки
двух д ругих, но не знает цвета своей. Ч еловек, который наблю дает за ними
со стороны (ведущ ий), просит их повернуться и спраш ивает, знаю т ли они
какого цвета их ш апка. К аж д ы й агент д ает отрицательны й ответ. Тогда
ведущ ий объявляет, что, по крайней мере, на одном из них красн ая ш апка,
а затем снова просит их повернуться. Первый агент говорит Нет, второй
агент говорит Нет, но, когда он спраш ивает третьего агента, он отвечает
Д а. К а к получилось, что третий агент в конце м ож ет определить цвет своей
ш апки.
Если у агентов одинаковые стратегии и им известно о том, что делаю т
агенты в текущ ем состоянии, то агенты долж ны д ел ать одинаковые действия
7
К оммуникация
М ультиагентное взаимодействие часто ассоциируется с некоторой формой
общения. М ы используем общение в повседневной ж изни, д ля совместного
реш ения зад ач , д ля того, чтобы договариваться с другим и, или просто для
7 Коммуникация
10
обмена информ ацией с другим и. К а к мы видели, в головоломке о ш ляпах
путем ответов на вопросы агенты смогли сф орм ули ровать более точное
утверж дение задачи и, в конечном счете, реш ить ее. К огда мы говорим
о вы числительны х агентах, общение рассм атривается на некотором уровне
абстракции. Н а более низком (netw ork) уровне можно сказать, что можно
бы ть уверенны м, что сообщ ения, пересы лаемы е агентами д руг другу, безопасно
и вовремя дойдут до адресатов. Д л я этого сущ ествую т протоколы. Н а среднем
язы ковом уровне можно основы ваться на множ естве основных слов язы ка
и их стандартны х изм енениях, так что агенты , говорящ ие на одном язы ке,
могли поним ать д руг друга. И последний уровень- уровень применения,
т.е. м ож но эф ф ек ти вн о использовать общение д ля реш ения стандартны х
м ультиагентны х зад ач , наприм ер, координация или согласование. К а к мы
уж е поняли, состояние м ира характеризуется количеством агентов, их возмож ными
действиям и и выгодой агентов, если они вовлечены в стратегическую игру,
и другим и аспектами внеш него окруж ения. В таких случаях какой-то агент
м ож ет бы ть д езактивирован в некоторых состояниях, потому что ему присвоена
некоторая роль. А налогично, если состояние м ира частично обозреваемо
д ля агентов, каж ды й агент обладает различны м и уровнями знания о настоящем
состоянии мира. Ф орм ально м ож но описать коммуникацию рассмотрением
каж дой первообразной коммуникации как действия, которое обновляет знание
агентов о состоянии. Н аиболее общие типы процесса коммуникации (они
использую тся,наприм ер, в правилах дорож ного д виж ения):
• И нф орм ирую щ ие
•
К аж д ы й процесс коммуникации мож ет повлиять на знания агентов поразному. С другой стороны он мож ет бы ть использован д ля инф орм ирования
о выборе действий агентом. М ож но д ат ь простую интерпретацию другом у
процессу коммуникации. Н априм ер, запрещ ение м ож ет играть роль, запрещ аю щ ую
деакти вацию какого-то действия в отдельной ситуации. У казы ваю щ ий процесс
м ож ет проявляться в организованной группе агентов, в которой агент с
большим авторитетом мож ет д авать команды другим агентам. Н екоторы е
язы ки коммуникации агентов могут получаться в объединениях агентов,
которы е направлены на стан дартизацию процесса коммуникации. Д ействие
м ож но рассм атри вать как действие, которое м еняет знание вовлеченного
агента о состоянии. Рассм отрев множ ество возмож ны х коммуникационных
актов, агент долж ен зад ум аться над вопросом какой акт использовать и
кому передавать инф орм ацию . Мы приписываем телеком муникационному
а к т у значение такое, как индикатор полезности акта. Н о откуда мы возьмем
это значение? С тр у кту р а, которая позволяет долж ны м образом определить
8
Структура агента
11
значение коммуникации, это Баессова игра. Э та модель является стратегической
игрой, но с частичной обозреваемостью . Мы имеем некоторое количество
агентов, множ ество состояний м ира, ф ункц ию инф орм ации д ля различную
д ля каж дого агента. Т акж е предполагаем, что каж дое попадание в состояние
случается с некоторой вероятностью , которая р авн а д ля всех агентов, и
что это определяет стратегическую игру с соответствую щ им вы игрыш ем.
Таким образом, агенты м огут вы числять значение всех возмож ны х коммуникационны х
акто в в некоторой ситуации и затем вы брать одну, у которой значение
самое большое. Н а практике, однако, принятие оптим ального реш ения что
п ередавать и кому мож ет потребовать больш их вы числительны х затрат,
которы е м огут ум еньш ить способности агента.
П реимущ еством использования коммуникации является то, что больше
не нуж но пы таться угады вать действия других агентов. Путем коммуникации
агенты могут определить способности д руг друга и распределить роли в
игре. Н а практике, однако, это не всегда возмож но. Н априм ер, в частично
обозреваемом мире. К о гда общение м еж ду агентами возмож но, агенты сами
вы числяю т свои способности к той или иной роли, а затем посы лаю т эту
инф орм ацию остальным агентам.
8
8.1
С труктура агента
С ам озаинтересованны е агенты
Рассм отрим м ультиагентную систему, где агенты могут кооперироваться.
Тот ф ак т, что агенты объединяю тся д ля достиж ения общей цели, приводит
нас к разработке алгоритм а, подобного координационному алгоритму, в
котором агенты стараю тся передать как мож но больше инф ормации о себе и
вести себя по инструкции. Ф утбольный робот, наприм ер, никогда не начнет
п рисваивать чуж ую роль, так как это мож ет потенциально нанести вред
всей команде. Н а практике, однако, мы часто имеем дело с сам озаинтересованны м и
агентам и, наприм ер, агенты , которые защ ищ аю т интересы владельца, который
хочет м аксим изировать свою прибыль. Типичны й пример подобного программного
агента это электронны й аукцион в И нтернете. Р азраб отк а ал гори тм а или
протокола д ля подобной системы чащ е встречаю щ аяся зад ач а, чем в кооперирующ ем
случае. В о-первы х, мы долж ны руководить агентом , участвуя в протоколе,
которы й заранее тож е не известен. В о-вторы х, нуж но приним ать во внимание
ф ак т, что м ож ет попы таться начать использовать протокол в собственных
интересах, приводя к подоптим апьному результату. Э то не исклю чает возмож ности,
что агент м ож ет начать врать, если это необходимо.
9
О бучение
П редполож им , что наш мир стохастичен и пусть д л я каж дого состояния
м ира определена некая ф у н кц и я Я($), которая определяет полезность состояния
б д ля наш его агента. А гент хочет найти такую последовательность действий
9
Обучение
12
{ a t } (политику, обозначеныую как п), что в итоге он придет в м аксим ально
полезное состояние. То есть он хочет найти максимум по всем возможным
политикам величины м ато ж и д ан и я суммы р я д а из R ( s t ) при t от единицы
до бесконечности с ум еньш аю щ ими коэф ф ициентам и Y (д ля того чтобы
р я д сош елся).
М атож идание используется, так как мир не детерм инирован, иначе нам
бы были однозначно известны все перехода м ира м еж ду состояниями после
какого-то наш его действия, и мы бы поиском в гр аф е переходов нашли
оптим альны й путь.
О п р е д е л е н и е 10. Эти R (s) назы ваю тся reinforcements.
П ростым и эф ф екти вн ы м способом вычисления наибольш ей полезности
является метод ит ерации присваивания. Н апример, используя его в лабиринте,
где ям ы обозначены малой полезностью —10,все кл етки полезностью - 1 / 3 0
и ф иниш ны е клетки (которы х нуж но достичь) полезностью 10, получим
оптим альную полезность и оптим альную политику.
Ч тобы посчитать R( s ) и U *(п), нуж но б рать в качестве начальны х какието(более-менее разум ны е) значения R (s) и по ним считать U( s) - полезности
состояний - в процессе деятельности агента. Э ти U(s) считаю тся пош аговым
присваиванием:
U(s) := R( s ) + y m a x ^ ^ P( s ' \ s , a) U( s ' )
, где м аксимум берется по всем а, а сумма- по всем s'. П рисваивание происходит
до тех пор, пока с некоторой точностью они не сойдутся к чему-то. Тогда и
получится ответ - наилучш ая политика.
9.1
Q -learning- алгоритм
U(s)
величины Q(a, s)(пoлeзнocти действия а в состоянии м ира s). Э ти величины
тож е вначале полагаются случайны ми, а потом сходятся к некоторым значениям
в ходе итераций присваивания после каж дого действия агента в процессе
обучения.
Q( s , a) := (1 — A) Q( s , a) + X( R + y m ax Q ( s ' , a'))
, где A e (0,1) а смысл величины А в том, что это доля, н а которую мы
позволяем каж до м у присваиванию изм ен ять значение Q(s, a).
Download