презентация - Российская ассоциация искусственного интеллекта

реклама
МОДЕЛИ, МЕТОДЫ И ИНСТРУМЕНТАЛЬНЫЕ ПРОГРАММНЫЕ
СРЕДСТВА КОНСТРУИРОВАНИЯ ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМ
ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ РЕАЛЬНОГО ВРЕМЕНИ
Еремеев А.П.
ЦДУ
2015
МОДЕЛИ, МЕТОДЫ И ИНСТРУМЕНТАЛЬНЫЕ ПРОГРАММНЫЕ
СРЕДСТВА КОНСТРУИРОВАНИЯ ИНТЕЛЛЕКТУАЛЬНЫХ
СИСТЕМ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ РЕАЛЬНОГО
ВРЕМЕНИ
Национальный исследовательски университет «МЭИ»
Еремеев Александр Павлович - зав. кафедрой Прикладной математики,
лауреат премии Президента РФ в области образования, действительный
член РАЕН, д.т.н., проф.
E-mail: [email protected]
АННОТАЦИЯ
Рассматриваются методы, модели и базовые инструментальные
программные средства конструирования перспективных ИСППР РВ
семиотического типа.
Основное внимание уделяется темпоральным моделям и методам на их
основе: обучение с подкреплением (Reinforcement Learning),
темпоральные прецеденты и аналогии, темпоральные сети Петри.
Рассматриваются примеры практического применения.
Более подробная информация о разработках в области искусственного
интеллекта на кафедре прикладной математики и в НИУ «МЭИ» в целом
содержится в работах:
1. Вагин В.Н., Еремеев А.П. Модели, методы и инструментальные средства
разработки интеллектуальных систем поддержки принятия решений на основе
нетрадиционных логик. Вопросы кибернетики: Сборник статей / Под ред. В.Г.
Беликова, А.Е. Никольског. – М.: Издательство «Спутник +». 2014. - С. 113-132.
2. Вагин В.Н., Еремеев А.П. Научная школа искусственного интеллекта в МЭИ на
базе кафедры прикладной математики: становление и результаты // Вестник МЭИ.
2015. Спецвыпуск «МЭИ - 85 лет». - С. 29-37.
3. Вагин В.Н., Еремеев А.П., Дзегеленок И.И., Колосов О.С., Фролов А.Б.
Становление и развитие научной школы искусственного интеллекта в Московском
энергетическом институте // Программные продукты и системы. 2010. № 3. С. 3-16.
ВВЕДЕНИЕ
•
ИСППР РВ относятся к классу динамических интеллектуальных систем
семиотического типа, предназначенных для помощи лицам,
принимающим решения (ЛПР) в проблемных ситуациях при управлении,
мониторинге и диагностике сложных технических и организационных
систем (объектов).
•
Назначением ИСППР РВ является анализ сложившейся на объекте ситуации
и поиск решения в условиях наличия различного типа неопределенности
(НЕ-факторов) в поступающей информации (с различных сенсоров и
датчиков), а также и в сформированной базе экспертных знаний (неполнота,
нечеткость, наличие противоречий).
•
К базовым элементам ИСППР РВ относятся: анализатор проблемной
ситуации, блок поиска решений и объяснения результата, блок
обучения, адаптации и модификации, блоки моделирования,
прогнозирования, приобретения и накопления знаний, а также базы
данных, знаний и моделей.
•
АНАЛИЗАТОР
ПРОБЛЕМНОЙ
СИТУАЦИИ
БЛОК ПОИСКА
РЕШЕНИЙ
БАЗА
ДАННЫХ
БЛОК МОДЕЛИРОВАНИЯ
БЛОК ОБУЧЕНИЯ,
АДАПТАЦИИ И
МОДИФИКАЦИИ
БАЗА
МОДЕЛЕЙ
БЛОК
ПРОГНОЗИРОВАНИЯ
БЛОК ОБЪЯСНЕНИЯ
НАЙДЕННОГО РЕШЕНИЯ
БАЗА
ЗНАНИЙ
БЛОК
ПРИОБРЕТЕНИЯ И НАКОПЛЕНИЯ
ЗНАНИЙ
ИНТЕРФЕЙС С ВНЕШНЕЙ СРЕДОЙ (ОБЪЕКТ, СУБД И Т.Д.)
ИНТЕРФЕЙС С ПОЛЬЗОВАТЕЛЕМ (ЛПР, ЭКСПЕРТ, ИНЖ.
ЗНАНИЙ, АДМИНИСТРАТОР И Т.Д.)
БАЗОВАЯ АРХИТЕКТУРА ИСППР РВ
Специфика ИСППР РВ
•
•
•
•
•
•
В основе ИСППР РВ лежит интеграция способных к адаптации,
модификации и обучению (т.е. способных к развитию и изменению
своего состояния) моделей представления и оперирования знаниями,
ориентированных на специфику проблемной/ предметной области и
соответствующего типа неопределенность.
Необходимость получения решения в условиях временных ограничений,
определяемых реальным управляемым процессом;
Необходимость учета временного фактора при описании проблемной
ситуации и в процессе поиска решения;
Невозможность получения всей объективной информации, необходимой
для решения, и, в связи с этим, использование субъективной, экспертной
информации;
Многовариантность поиска, необходимость применения методов
правдоподобного вывода и активного участия в процессе поиска ЛПР;
Наличие недетерминизма, необходимость коррекции и введения
дополнительной информации в базу знаний системы при поиске
решения.
Основные задачи, решаемые с помощью ИСППР РВ
•
диагностика и мониторинг – выяснение (в реальном
времени) где, когда и какого типа возникла проблемная
ситуация;
•
поиск решения (планирование) – нахождение оптимальной
или
допустимой
относительно
заданного
критерия
(критериев) оценки последовательности действий по
достижению поставленной цели;
•
прогнозирование – составление на модели прогноза развития
ситуации для оценки эффективности рекомендуемых
действий (решений) по разрешению проблемной ситуации;
•
взаимодействие с ЛПР (экспертом) – формирование базы
экспертных знаний и выдача информации (совета) ЛПР.
Основные принципы конструирования ИСППР РВ
1. ОТКРЫТОСТЬ И ДИНАМИЧНОСТЬ
2. СЕМИОТИЧНОСТЬ
3. АДАПТИВНОСТЬ И ОБУЧАЕМОСТЬ
4. ПРИМЕНЕНИЕ КОГНИТИВНОЙ ГРАФИКИ И ГИПЕРТЕКСТА В
ОТОБРАЖЕНИИ ИНФОРМАЦИИ
5. РАСПРЕДЕЛЕННОСТЬ И ПАРАЛЛЕЛЬНОСТЬ ОБРАБОТКИ
ИНФОРМАЦИИ
6. ПРИМЕНЕНИЕ ВЫСОКОПРОИЗВОДИТЕЛЬНОЙ ВЫЧИСЛИТЕЛЬНОЙ
ТЕХНИКИ, ВКЛЮЧАЯ ПАРАЛЛЕЛЬНЫЕ СИСТЕМЫ И КЛАСТЕРЫ, И
ЭФФЕКТИВНЫХ ИНСТРУМЕНТАЛЬНЫХ СРЕДСТВ (G2+GDA, CLIPS,
СИМПР-Windows, РДО, и др.)
ИСППР как систему семиотического типа можно определить набором
SS = <M, R(M), F(M), F(SS)>,
•
•
•
•
где M={M1,…,Mn} – множество формальных или логико-лингвистических
моделей, реализующих определенные интеллектуальные функции;
R(M) – множество правил выбора необходимой модели или совокупности
моделей в текущей ситуации, т.е. правил, реализующих отображение R(M): SM,
где S – множество возможных ситуаций (состояний), которое может быть и
открытым, или S'M, где S' – некоторое множество обобщенных ситуаций
(состояний), например, нормальных (штатных), аномальных или аварийных, при
попадании в которые происходит смена модели;
F(M)={F(M1),…,F(Mn)} – множество правил модификации моделей Mi, i=1,…,n.
Каждое правило F(Mi) реализует отображение F(Mi): S''MiM'i, где S''S, M'i –
некоторая модификация модели Mi;
F(SS) – правило модификации собственно системы SS – ее базовых конструкций
M, R(M), F(M) и, возможно, самого правила F(SS), т.е. F(SS) реализует целый ряд
отображений (или комплексное отображение) F(SS): S'''MM', S'''R(M)R'(M),
S'''F(M)F'(M), S'''F(SS)F'(SS), где S'''S, S'''S'=, S'''S''=, т.е. правила
модификации данного типа используются в ситуациях, когда имеющихся
множеств моделей, правил выбора и правил модификации недостаточно для
поиска решения (решений) в сложившейся проблемной ситуации. Причем для
модификации F(SS) могут быть использованы как внутренние средства
порождения моделей и правил (гипотез), так и внешние метазнания, отражающие
прагматический аспект проблемной ситуации.
Задачи темпоральных рассуждений
•

В интеллектуальных системах необходимо зачастую использование
явного представления (моделирования) времени как особой субстанции.
При этом возникают специфические задачи, называемые задачами
временных (темпоральных) рассуждений, среди которых выделяются
следующие [Schwalb, 1998]:
Поддержка темпоральной согласованности – проверка
согласованности базы знаний (БЗ) при добавлении в нее новой
информации. В случае несогласованности БЗ необходимо локализовать
соответствующее подмножество утверждений и разрешить (или
принять) противоречия;
 Ответы на темпоральные запросы – ответы на запросы,
касающиеся временных аспектов данных и знаний. Запросы могут быть
как простыми, например, нахождение факта, справедливого в заданный
момент времени, так и сложными, например, определение момента или
интервала времени, когда некоторое множество утверждений станет
истинным.
Известно, что обычная логика высказываний является
неадекватной для формулировки утверждений о
поведении сложных систем, т.е. об изменении их
состояний
В обычной логики операции  и  коммутативны: A()B  B()A.
Но это не верно для многих высказываний ЕЯ, например:
«Некто умер и его похоронили»; «Оператор включил установку и произошел взрыв».
Использование операции →:
Пример: «Посланный запрос когда-нибудь позже будет обработан».
Нельзя использовать утверждение: ПОСЛАН (запрос) → ОБРАБОТАН (запрос), т.к.
предикат ПОСЛАН (запрос) имеет значение «истина» в некоторый момент времени t, а
предикат ОБРАБОТАН (запрос) – в другой (более поздний момент) t’>t.
Утверждение «Вчера он сказал, что отправит сообщение завтра, следовательно,
он сказал, что отправит его сегодня» нельзя формально доказать в логике
высказываний.
Проблема: Атомарные высказывания (утверждения) в приведенных
конструкциях могут быть истинны в один момент времени и ложны в другой.
Использование ИППП
«Посланный запрос когда-нибудь позже будет обработан».
t  0ПОСЛАНЗАПРОС, t   t '  t ОБСЛУЖЕН ЗАПРОС, t'
«Лифт никогда не пройдет мимо этажа, вызов от которого поступил, но
еще не обслужен»
t  0t '  t ВЫЗОВ Лифт, t   t1 : t  t1  t 'ОБСЛУЖЕН Лифт, t1   t 2 : t  t 2  t 'ОСТАНОВ Лифт, t 2 
Необходимо строить довольно сложные, громоздкие и трудно
воспринимаемые конструкции.
Для спецификации соответствующих свойств (зависимостей)
необходимы логические утверждения, истинность которых
зависит от времени, т.е. необходимо использование
ТЕМПОРАЛЬНЫХ ЛОГИК (TEMPORAL LOGICS).
Темпоральные зависимости
Два типа зависимостей:
• Количественные
 количественные меры на временной оси
 “сбой произошел в 17.00”
• Качественные
только относительное положение во времени событий или
действий
“сначала произошел сбой в системе питания, затем аварийное
отключение”
Оперирование с обоими типами зависимостей 
выразительность представления возрастает
Моделирование темпоральных зависимостей
Ситуационное исчисление
[McCarthy, 1963]
Моделирование изменения
системы во времени
STRIPS-системы
[Fikes, Nilsson, 1971]
Tense Logic
[Prior, 1967]
Темпоральные расширения
классической логики
Явное моделирование
времени
Linear Temporal Logic (LTL)
[Pnueli, 1977]
Модальные темпоральные логики
Computational Tree Logic (CTL)
[Clarke, 1981]
Интервальные логики
[Allen, 1983]
14
1. СХЕМЫ МЕТОДОВ ОБУЧЕНИЯ С
ПОДКРЕПЛЕНИЕМ
•
•
•
•
Если процессы принятия решений строго формализованы, то для их описания
может быть применена марковская модель процесса принятия решений,
определяемая в общем виде набором (S,A,T,R), где S - множество возможных
состояний, A - множество допустимых воздействий (преобразований) на элементы
из S, T: S×A → S - функция переходов (преобразования состояний), R: S×A → Vфункция оценки, позволяющая оценивать итоги преобразований (V - некоторое
упорядоченное множество).
В общем случае функция переходов T является вероятностной и может быть
определена посредством множества вероятностей переходов {Pi,j(a)}, где Pi,j(a) вероятность события T(si,a)=sj. Функция R также может быть вероятностной.
Известно, что для марковской модели процесса принятия решений эффект от
воздействий зависит только от текущего состояния и не зависит от предыстории
процесса, т.е. справедливо соотношение
s(t+Δt) = T(s(t),u(t),v(t)),
где sS - текущее состояние (ситуация), u(t)A, v(t)A - управляемые и
неуправляемые (внешние) воздействия, Δt - дискрет времени [Еремеев и др.,
2008]. Таким образом, марковская модель не имеет памяти, так как
предполагается, что знаний о текущем состоянии и о воздействиях достаточно для
нахождения оптимального (стохастического оптимального - в случае
вероятностной модели) решения (управления) для достижения целевого состояния
•
•
•
Однако марковская модель имеет ограниченное применение и ориентирована на
ИСППР, предназначенные в основном для статических проблемных областей,
характеризующихся полнотой и достоверностью как заложенных в систему
знаний, так и поступающей для анализа информации от внешней среды или ЛПР.
Для динамических проблемных областей, на которые ориентированы ИСППР
РВ, как уже отмечалось, условие полноты и достоверности поступающей
информации может не выполняться. Это может обуславливаться различными
факторами, например, сбоями или выходом из строя датчиков и сенсоров, не
полным учетом внешних воздействий, неполнотой и противоречивостью базы
знаний, ошибками ЛПР и т.д. В этих условиях марковская модель не дает
адекватного описания процесса принятия решений и необходимо использовать
немарковскую модель, обладающую памятью и позволяющую учитывать
предысторию изменения состояний. При этом справедливо соотношение
s(t+Δt) = F(s(t),s(t-Δt),…,s(t-nΔt),u(t),u(t-Δt),…,u(t-mΔt), v(t),v(t-Δt)),…,v(t-kΔt)),
где n, m, k - целые числа, удовлетворяющие ограничениям nΔt≤t, mΔt≤t, kΔt≤t.
Качество принимаемых решений можно попытаться улучшить, если учитывать
также информацию о последствиях принимаемых решений (т.е. выполняя
прогнозирования), моделируя состояния s(t+2Δt), s(t+3Δt),…), используя
информацию из базы знаний (если там накапливается информация о прошлом
опыте) или от модуля прогнозирования ИСППР РВ.
•
•
•
Методы обучения с подкреплением, или подкрепленного обучения (reinforcement
learning, RL) – одна из наиболее активно развиваемых областей искусственного
интеллекта, направленная на создание перспективных интеллектуальных систем
[Саттон и др., 2011], в том числе таких ее представителей как интеллектуальные
системы поддержки принятия решений (ИСППР), включая ИСППР реального
времени (ИСППР РВ).
Предположим, что неопределенность (неполнота, нечеткость, недостоверность и
т.п.) поступающей в базу данных (рабочую память) ИСППР информации о
текущем состоянии проблемной области (объекта, среды) связана в основном с
ошибочной работой датчиков (сенсоров) или ошибками соответствующего
оперативно-диспетчерского персонала (ЛПР). В функции RL-обучения входит в
этом случае адаптация немарковской модели к сложившейся ситуации за счет
анализа предыстории процесса принятия решений и повышение, таким образом,
качества принимаемых решений.
В RL-обучении модуль принятия решений, способный посредством
взаимодействия с внешней средой и анализа оценочной функции (функции
платежа) корректировать стратегию принятия решений, называется агентом.
•
•
•
•
Задачей агента является нахождение в процессе обучения
оптимальной (для марковских процессов) или допустимой
(удовлетворительной) стратегии принятия решений. Наиболее
эффективный интеллектуальный агент должен уметь поддерживать
несколько путей обучения (приобретения опыта) и адаптировать
накопленный опыт к изменениям в окружающей среде.
В RL-обучении взаимодействие “агент - окружающая среда”
моделируется посредством контроллера, связывающего ИСППР
(ИСППР РВ) и среду. На каждом временном шаге контроллер выполняет
действие, которое заставляет среду менять состояние и генерировать
платеж. Целью агента является нахождение такой стратегии принятия
решений (политики), которая максимизирует со временем средний
платеж.
Следует отметить, что согласно [Саттон и др., 2011] современное
обучение с подкреплением (RL-обучение) на 90% ориентировано на
финитные (т.е. с конечным числом состояний и действий) марковские
процессы принятия решений.
Далее остановимся на RL-методах, которые могут быть использованы в
ИСППР РВ и при наличии немарковских процессов.
Обобщенная схема взаимодействия "агент окружающая среда"
Окружающая среда
Состояния (S)
Выплаты
V
Процесс
восприятия
Действия
(A)
Процесс
воздействия
Встроенный
контроллер
АГЕНТ
Рис. 1. Схема взаимодействия «агент – среда»
•
Процесс восприятия отображает состояния среды (проблемной области)
во внутренние представления агента, а процесс воздействия отображает
предлагаемые агентом воздействия в действия (преобразования) внешней
среды.
•
Подкреплённое обучение представляет класс задач, в которых
автономный агент, действуя в определенной среде, должен найти
оптимальную стратегию взаимодействия с ней. Информация для
обучения автономного агента предоставляется в форме простого
скалярного платежа, имеющего определенное количественное значение
для каждого перехода среды из одного состояния в другое. При этом
вполне возможна ситуация, в которой восприятие агента не позволяет
точно определить текущее состояние среды, что приводит к более
сложной задаче принятия решений в условиях неопределённости
(так называемые задачи со скрытым состоянием). Задачи такого рода
являются центральными в искусственном интеллекте, теории управления
и исследовании операций.
Формально задачу со скрытым состоянием можно
описать как кортеж
< S, A, T, R, Ω, O >
где S – конечный набор состояний среды;
A – конечный набор действий;
T : SAΔ(S) – функция перехода состояний, дающая распределение
состояний среды по начальному состоянию и выполненному агентом
действию;
R : SA – функция вознаграждений, дающая действительное число
(ожидаемую немедленную выплату) по начальному состоянию и
выполненному агентом действию;
Ω – конечный набор наблюдений, которые может сделать агент;
O: SAΔ(Ω) – функция наблюдений, дающая распределение
возможных наблюдений по начальному состоянию и выполненному
агентом действию.
•
•
•
Нетрудно заметить, что подкортеж < S, A, T, R > представляет лежащий в
основе задачи марковский процесс принятия решений. Если бы
функция наблюдений давала истинное состояние среды с абсолютной
уверенностью, проблема свелась бы к полностью обозримому
марковскому процессу, и для решения задачи можно было бы
эффективно применить, например, методы динамического
программирования.
Однако, в общем случае это не так: одно и то же наблюдение может
иметь место в более чем одном состоянии среды и эти состояния могут
требовать выполнения разных действий. В такой ситуации целесообразно
применить один из методов RL-обучения.
Функция вознаграждений R(s,a) может задаваться различными
способами в зависимости от задачи: как простая таблица значений, как
множество накопленных ощущений с аппроксимацией для
непосещённых областей пространства состояний-действий, а также как
искусственная нейронная сеть, дающая для заданного состояния
приближение функции R.
Хотя RL-обучение по сути базируется на методе "проб и ошибок", оно имеет
ряд достоинств для применения в ИСППР РВ, в том числе:
• использование простой обратной связи на основе скалярных
платежей;
• поддержка режима быстрого реагирования, когда агенту необходимо
быстро адаптироваться к изменениям внешней среды;
• интерактивность и возможность изменения (пополнения)
анализируемых данных (предыстории);
• действенность в недетерминированных средах;
• эффективность в сочетании с темпоральными моделями для задач
нахождения последовательных решений;
• открытость к модификации и сравнительная простота включения в
интеллектуальные системы различного назначения (планирования,
управления, обучения и т.д.).
•
Для возможности обучения и адаптации к изменениям внешней среды
агент должен обладать памятью для хранения предыстории. При этом
возникает ряд проблем, связанных с объемом доступной агенту
информации о прошлом, запоминанием, хранением, использованием
доступной информации и т.д.
•
Для решения данных проблем агент может использовать скользящее
окно для истории или строить зависящую от состояния прогнозную
модель окружающей среды. Может применяться и комбинация этих
подходов, когда агент анализирует чувствительную к предыстории
политику принятия решений непосредственно при обучении.
•
На рис. 2 приведены схемы методов RL-обучения, реализующие данные
подходы. Во всех представленных методах используется нейроподобная
сеть (Q-сеть), функция "значения-действия" (Q-функция) и временной
фактор. Пошаговое обучение Q-сети происходит на основе анализа
временных различий Q-функции.
значение действия
значение действия
текущее состояние &
последние N состояний &
последние N действий
состояние
действие
следующее
состояние выплата
состояние
действие контекстуальная
информация
(б)
(а)
модель
память
Q-сеть
Q-сеть
значение действия
память
действие
Q-сеть
контекстуальная
информация
состояние
(в)
Рис. 2. Схемы методов RL-обучения: (а) окно,
(б) рекуррентная, (в) комплексная
действие
•
•
В наиболее простом методе "окно" (рис. 2а) агент для формирования Qфункции использует текущее состояние и предысторию за N последних
шагов (N последних состояний и N реализованных действий), т.е.
используется прямой доступ к информации о прошлом через скользящее
окно размера N. Преимуществом данного метода является сравнительная
простота реализации и открытость. Однако качество обучения и
сложность реализации существенно зависят от размера окна, определить
который заранее (особенно для динамических проблемных областей)
может быть довольно сложно или вообще невозможно.
С одной стороны, если выбранный размер окна слишком мал, то для
построения оптимальной (если в результате обучения придем к
марковской модели) или удовлетворительной Q-функции может
оказаться недостаточно информации. С другой стороны, если размер
окна выбран слишком большим или если окно должно быть большим для
хранения актуальной, но сильно растянутой во времени информации, то
может возникнуть дополнительная проблема обобщения поступающей
информации для возможности ее сохранения и обработки, что может, в
свою очередь, привести к значительным дополнительным временным
затратам на обучение.
• Метод окна в силу своей простоты и открытости имеет как
самостоятельное применение (например, в случае достаточно
статической проблемной области), так и вспомогательное в
качестве предварительного этапа обучения для других более
сложных и комбинированных методов, позволяя довольно
быстро провести начальное обучение и выявить
предпочтительную стратегию обучения.
• Метод окна также используется как базовый при сравнении
различных методов обучения.
•
Рекуррентный (рис. 2б) и комбинированный (рис. 2в) методы
используют для обучения помимо информации о текущем состоянии и
так называемую контекстуальную информацию сравнительно
небольшого объема, которая отбирается из большого объема
исторической информации, хранимой в памяти. Если контекст корректен
(достаточен для адекватного описания проблемной области), то в
результате обучения получим марковскую модель процесса принятия
решений с возможностью нахождения оптимальной стратегии принятия
решений (политики управления).
•
Отличие рекуррентного и комбинированного методов состоит в способе
построения контекста. Рекуррентный метод использует для обучения
только Q-сеть, а комбинированный метод - еще параллельно работающий
дополнительный модуль предсказания (прогнозирования), позволяющий
ускорить процесс обучения.
•
•
•
Следует подчеркнуть, что рекуррентный и комбинированный методы
существенно более сложные в реализации, чем метод окна, и
гарантируют нахождение оптимальных стратегий лишь в случае
корректного контекста, проблема построения которого может быть
успешно решена, как правило, только для статических или близких к ним
областей, когда НЕ-факторы входной информации могут быть
скомпенсированы посредством анализа предыстории процесса.
Для динамических проблемных областей НЕ-факторы обычно
присутствуют постоянно и проблема нахождения корректного контекста
становится трудноразрешимой. В этом случае, естественно,
осуществляется поиск не оптимального, а приемлемо (допустимого,
удовлетворительного) решения.
Таким образом, для применения в ИСППР РВ рекомендуется в
качестве базового использовать метод окна. Пример использования
этого метода в демонстрационном прототипе ИСППР РВ,
выполненном в инструментальной среде G2, являющейся достаточно
эффективным средством конструирования экспертных систем
реального времени, описан в [Еремеев и др., 2008].
Иллюстративный пример
•
Для иллюстрации метода рассмотрим следующую задачу: необходимо
найти закономерность - вероятность хорошо окрашенных деталей в
общем потоке хорошо и плохо окрашенных деталей для их последующей
сортировки по разным ящикам при условии неисправности сенсора
(датчика) цвета, используя для обучения платежи, поступающие от
внешней среды.
•
Предполагается, что на анализ (вход агента) поступают детали в ящиках
из различных источников. Процентное содержание хорошо окрашенных
деталей для каждого из источников задается случайным образом в
пределах от 0.0 до 100.0 процентов. Среда производит выплату в размере
1 за правильно отсортированную деталь и 0 - в противном случае.
Реализация метода и моделирование выполнены в инструментальной
программной среде G2, являющейся эффективным средством
конструирования экспертных систем реального времени и позволяющей
работать с предысториями и темпоральными данными
•
Определены следующие иерархически взаимосвязанные
классы объектов:
•
•
•
•
•
EQUPMENT - суперкласс верхнего уровня для классов агента и ящиков;
ROBOT - класс для агента;
BOX - класс (суперкласс) для двух классов ящиков, включающий INBOX - класс
для входного множества ящиков и OUTBOX - класс (суперкласс) для выходного
множества ящиков, включающий, в свою очередь, REDOUTBOX - класс ящиков
для хорошо окрашенных (красных) деталей и BLACKOUTBOX - класс ящиков
для плохо окрашенных (черных) деталей;
FLOW-PIPE - вспомогательный класс соединений для организации связи между
объектами разных классов;
SHOP-LIST - класс списка для процентного содержания хорошо окрашенных
деталей из разных источников.
•
•
•
•
•
Для каждого объекта соответствующего класса вычисляются и выводятся
на экран рабочего пространства текущие значения его основных
характеристик.
Для INBOX это процентное содержание хорошо окрашенных деталей,
цвет текущей детали, количество оставшихся ящиков и количество
оставшихся в нем деталей;
для ROBOT - текущая вероятность появления хорошо окрашенной
детали, количество проанализированных деталей и состояние агента (on активное, off - пассивное);
а для REDOUTBOX и BLACKOUTBOX - процентное содержание
хорошо и плохо окрашенных деталей и общее число деталей в ящиках.
На рабочем пространстве также представлен постоянно обновляющийся
в процессе обучения график изменения вероятности появления хорошо
окрашенной детали с точки зрения агента.
•
Для обучения используются сохраненные в процессе последних n секунд
(для используемых входных выборок n≤6) работы предыстории
следующих параметров: платежи от среды PSi; определенное по
платежам в процессе обучения процентное соотношение числа хорошо
окрашенных деталей в общем потоке CNj, текущая вероятность PA
появления хорошо окрашенной детали по мнению агента.
•
Введем следующие обозначения:
 PSi, i=1,2,3 - среднее значение выплат среды за последние 2i секунд,
которое можно интерпретировать как долю правильных решений
(ответов) агента по распознаваний деталей ко всем ответам;
 CNi, i=1,2,3 - найденное среднее значение процента хорошо
окрашенных деталей в потоке за последние 2i секунд.
 Установлено, что за n секунд агент обрабатывает 15n деталей.
Результаты моделирования
•
В результате моделирования с использованием метода "окно" в процессе
обучения были получены следующие зависимости вероятности
предсказания агентом хорошо окрашенной детали от значений PSi, CNi,
i=1,2,3:
 PA = (6∙PA + 4∙(1 - PS3)∙CN3)/(10 - 4∙PS3), если PS3 < 0.15;
 PA = (3∙PA + (1 - PS2) ∙CN2)/(4 - PS2), если PS3  0.15 и PS2 < 0.25;
 PA = (9∙PA + (1 - PS1) ∙CN2)/(10 - PS1), если PS3  0.15 и PS2  0.25 и
PS1 < 0.50.
 В случае (PS3  0.15 и PS2  0.25 и PS1  0.50) обучение не требуется,
т.к. закономерность для данного входного потока считается
найденной.
Рис.3. Рабочее пространство с результатами
моделирования
•
•
•
На мнемосхеме в верхней части экрана слева от образа агента изображен входной
ящик и приведены характеристики входного потока (сверху вниз: вероятность (в
процентах) появления хорошо окрашенной детали, признак-цвет хорошо
окрашенной (1) или плохо окрашенной (0) текущей детали, количество деталей в
текущем ящике, количество оставшихся ящиков). В конце моделирования (для
заданного входного потока) количество деталей в текущем ящике и количество
оставшихся ящиков равно нулю.
Справа от образа агента указывается определенный агентом в процессе обучения
процент появления хорошо окрашенных деталей и под ним - число
проанализированных деталей и статус агента на текущий момент. Еще правее
изображены два выходных ящика - с хорошо окрашенными и плохо окрашенными
деталями, около которых указывается процент таких деталей (сверху) и их
количество в ящике (снизу).
В нижней части экрана приведен график, отображающий в динамике процесс
обучения, т.е. настройки агента на вероятность (процент) появления хорошо
окрашенной детали на входе. Моделирование показало, что при входной выборке
не менее 600 деталей агент довольно быстро обучается и PA принимает значение
практически совпадающее с действительным.
МЕТОДЫ ИЕРАРХИЧЕСКОГО ОБУЧЕНИЯ С
ПОДКРЕПЛЕНИЕМ
•
•
•
Методы иерархического RL-обучения в плане их применения для ИСППР
достаточно подробно описаны в работах [Еремеев и др., 2008; 2009]. Остановимся
на этих методах в контексте их использования в ИСППР РВ. К основным
достоинством этих методов относится их применимость для поиска
решения в случае задач большого масштаба.
Иерархическая организация обучения также позволяет осуществлять
координацию обучения множества агентов (в том числе с различными методами
обучения) на разных уровнях. Ещё одно достоинство такого подхода – повторное
использование накопленного опыта, что позволяет агенту, обученному
некоторому полезному поведению, применить свой опыт (знания) к другой
(подобной) задаче без необходимости повторного обучения. Кроме того,
иерархическое RL-обучения позволяет оперировать с так называемыми
полумарковскими процессами принятия решений, в которых длительность
выполнения отдельного действия может занимать больше одного шага времени.
Существует достаточно много методов иерархического RL-обучения. Рассмотрим
два метода, наиболее подходящих для использования в ИСППР РВ.
•
•
•
В рамках так называемой иерархической абстракции машин (HAM - hierarchical
abstraction of machines) используется стратегия на основе построения
иерархий контроллеров с конечными состояниями, каждый из которых
может вызывать другой как процедуру.
HAM является, по сути, программой, которая ограничивает список действий,
которые агент может выполнить в каждом состоянии. Например, для задачи
поиска выхода в лабиринте очень простая программа может предложить агенту
стратегию «периодически двигайся вправо или вниз», что исключит из
рассмотрения все другие стратегии, которые предусматривают движение вверх
или влево. HAM расширяют эту простую идею ограничивающих стратегий,
предоставляя иерархические средства представления ограничений на разных
уровнях детализации и специфики.
HAM-машина определяется набором состояний, функцией переходов и исходным
состоянием машины, которое может быть одним из следующих: состояния
действия – исполняют действия в среде; состояния вызова – исполняют другие
машины как подпрограммы; состояния выбора – недетерминистически выбирают
следующее состояние машины; состояния остановки – прекращают выполнение
машины и возвращают управление предыдущему состоянию вызова. Функция
переходов определяет следующее состояние НАМ-машины после состояния
действия или вызова как стохастическую функцию текущего состояния машины и
некоторые особенности результирующего состояния среды. Машины обычно
будут использовать частичное описание среды для определения следующего
состояния.
•
•
Метод HAM может дать ещё большее преимущество в контексте RLобучения, где затраты, требуемые для получения решения обычно плохо
масштабируются с размером задачи, а также сфокусировать анализ
пространства состояний, уменьшив фазу «слепого поиска», через
которую должны пройти агенты RL-обучения во время изучения новой
среды.
Обучение также будет проходить быстрее, так как агент эффективно
оперирует в редуцированном пространстве состояний. Однако данный
метод несколько отходит от формального описания задачи RL-обучения,
так как вводит состояния разного типа.
•
•
•
Другой подход к иерархическому подкреплённому обучению − HSM
(Hierarchical Short-term Memory) основывается на использовании
только одного агента, но при наличии нескольких уровней памяти.
Применяя кратковременную память на абстрактных решениях, каждое из
которых использует иерархию поведений, можно организовать
запоминание на более информативном уровне абстракции.
Особенность такого подхода состоит в том, что агент может получать
информацию о точке принятия решения, имевшей место много шагов
времени назад, игнорируя точную последовательность низкоуровневых
наблюдений и выполненных действий.
2. МОДЕЛИ РАССУЖДЕНИЙ НА ОСНОВЕ
ПРЕЦЕДЕНТОВ И АНАЛОГИЙ
Понятия аналогии и рассуждения на основе аналогий
В большинстве энциклопедических источников аналогия определяется как сходство
предметов (явлений, процессов) в каких-либо свойствах.
Рассуждение на основе аналогий определяется как метод вывода, который позволяет
обнаружить подобие между несколькими заданными объектами и, благодаря переносу
фактов и знаний, справедливых для одних объектов, на основе этого подобия на другие
объекты, определить способ решения задачи или предсказать неизвестные факты и знания.
Задача поиска решения на основе аналогий
Задача поиска решения на основе аналогий, как правило, включает в себя следующие
этапы:
Поиск подходящего источника для аналогии. Имея целевую проблему (задачу),
требуется определить потенциальный источник аналогии, при этом необходимо
акцентировать внимание на тех свойствах источника и цели, которые подтверждают
правомерность применения аналогии;
Уточнение. Определив на предыдущем этапе источник аналогии, необходимо выделить
дополнительные свойства и отношения источника аналогии;
Отображение и вывод. Осуществляется отображение свойств источника аналогии в
целевую область с использованием установленных соответствий и вывода на основе
аналогий;
Подтверждение. Наличие этого этапа обусловлено необходимостью проверять
корректность полученного отображения.
При необходимости возможно включение еще одного этапа – обучения по аналогии.
Рассуждения на основе прецедентов
Прецедент определяется как случай, имевший место ранее и служащий примером или
оправданием для последующих случаев подобного рода.
Рассуждение на основе прецедентов (CBR – Case-Based Reasoning) является подходом,
позволяющим решить новую (неизвестную) задачу, используя или адаптируя решение уже
известной задачи.
Как правило, методы рассуждения на основе прецедентов включают в себя четыре
основных этапа, образующие так называемый CBR-цикл, структура которого представлена на
рисунке.
 Извлечение наиболее
соответствующего (подобного)
прецедента (или прецедентов) для
сложившейся ситуации из библиотеки
прецедентов;
 Повторное использование
извлеченного прецедента для
попытки решения текущей проблемы
(задачи);
 Пересмотр и адаптация в случае
необходимости полученного решения
в соответствии с текущей проблемой
(задачей);
 Сохранение вновь принятого
решения как части нового прецедента.
Структурная аналогия
Представление знаний в виде семантической сети (СС)
Определение 1. Семантическая сеть есть графовая структура <V,E> с
помеченными вершинами и дугами, где V и E - множества вершин и дуг
соответственно. Вершины могут отображать объекты (понятия, события,
действия и т.д.) предметной области, а дуги - отношения между объектами.
Обозначим PV – множество рассматриваемых свойств на СС, а Pv –
множество свойств, которыми обладает объект vV.
Утверждение Объекты v, v'V пересекаются на СС тогда и только тогда,
когда Pvv' = Pv  Pv'  , где Pvv' – множество общих свойств объектов v и v', а Pv
и Pv' – множества свойств объектов v и v' соответственно.
Введем следующие обозначения:
 Множество объектов СС, обладающих свойством p, обозначим Vp .
 Множество объектов СС, пересекающихся с объектом vV, обозначим
Vv.
Структуру СС рассмотрим на примере, взятом из области энергетики –
оперативного управления атомным энергоблоком (рис. 1 и рис. 2).
Структура аналогии с учетом контекста
Определение 2. Аналогия задается
набором (четверкой) A=<O,C,R,p>, где
O – источник (origin),
C – пересечение (crossover),
R – приёмник (receiver),
p – свойство (property) для определения
первоначального контекста.
Определение 5. Объект O является
источником для аналогии A тогда и только тогда,
когда (OV) & (pPO) & (nO≤nC) & (nO<<nC) &
(nOC<nO) & (nOC>1) & (nOC≥nRC), где nO обозначает
количество свойств источника O, nOC – количество
общих свойств источника O и пересечения C,
(nO<<nC) означает, что источник O не должен
быть много меньше пересечения C (т.е.
исключается
возможность
поглощения
пересечением С источника O); остальные
обозначения аналогичны предыдущему определению.
Определение 3. Объект R является
приемником для аналогии A тогда и только
тогда, когда (RV)&(pPR).
Определение 4. Объект C является
пересечением для аналогии A тогда и только
тогда, когда (CV) & (pPC) & (nR≤nC) &
(nR<<nC) & (nRC<nR) & (nRC>1), где nR и nC
обозначают
соответственно
количество
свойств приемника R и пересечения C, а nRC –
количество общих свойств приемника R и
пересечения C, (nR<<nC) означает, что
приемник R не должен быть много меньше
пересечения C (т.е. исключается возможность
поглощения пересечением С приемника R, так
как при этом повышается вероятность
получения ненаучной аналогии).
Введем следующие обозначения:

Множество объектов-кандидатов на
пересечения C для аналогии A обозначим VC .

Множество объектов-кандидатов на
источника O для аналогии A обозначим VO .

роль
роль
Множество аналогий A обозначим VА.
Определение 6. Множество POCR=POPCPR
обозначает контекст, в котором проводится
аналогия A.
Определение 7. Аналогия A=<O,C,R,p>
называется “хорошей” аналогией тогда и только
тогда, когда существует другая аналогия A', такая
что A'=<O',C,R,p>, OO'.
Рис. 1. Фрагмент СС для представления на объекте ситуаций
Рис. 2. Фрагмент СС с тремя ситуациями для подсистемы САОЗ
Базовый алгоритм поиска решения на основе структурной аналогии с
учетом контекста
Входные данные алгоритма: СС с информацией о предметной области,
приемник R и свойство p для определения первоначального контекста.
Алгоритм поиска решения на основе структурной аналогии свойств с
учетом контекста включает следующие этапы:
1. Определить объекты на СС, обладающие свойством p для определения
первоначального контекста.
2. В соответствии с опр. 4 подобрать кандидатов на роль пересечения C.
3. В соответствии с опр. 5 идентифицировать кандидатов на роль источника
O.
4. Рассмотреть различные источники О и пересечения C и в соответствии с
опр. 7 из полученных аналогий определить “хорошие”.
5. Полученные аналогии можно предварительно упорядочить, например,
учитывая контекст, а затем выдать их пользователю (ЛПР).
Пользователь (ЛПР) из выданных ему аналогий делает окончательный
выбор наилучших с его точки зрения аналогий и на их основе осуществляется
перенос фактов (свойств), справедливых для источника, на приемник аналогии
(т.е. PR = PR  PO \ PRO).
Модифицированная структура аналогии с учетом контекста
Модификация структуры аналогии с учетом контекста заключается в
том, что вместо свойства p для определения первоначального
контекста рассматривается множество свойств P, которое
определяет первоначальный контекст аналогии и может быть пустым.
Данная модификация позволяет:
• более детально уточнить первоначальный контекст и тем самым
сократить время поиска решения, что очень важно для ИСППР РВ;
• осуществить поиск решения на основе аналогий без уточнения
первоначального контекста (т.е. решается задача определения
потенциальных источников для аналогии) и в результате получить
аналогии в различных контекстах, хотя это и потребует больших затрат
вычислительных ресурсов.
Кроме того, в модифицированной структуре аналогии предполагается
осуществлять перенос от источника O на приемник R фактов (свойств),
уместных в контексте C (т.е. PR=PR  (POС \ POСR )), в отличие от базового
варианта, в котором уместность свойств в контексте не рассматривается
(PR = PR  (PO \ PRO )).
Пример
Рассмотрим работу предложенного алгоритма на примере, взятом из области энергетики –
оперативного управления атомным энергоблоком (рис. 1 и рис. 2).
В качестве приемника R для аналогии возьмем менее определенную Ситуацию 4, а множество
свойств P будет включать два свойства TH11S24 Откл-Закр и TH11S25 Откл-Закр. Время поиска решения
t не будем ограничивать.
На первом шаге определяем множество VP' = VP\{Ситуация 4}, где VP = {Ситуация 1, Ситуация 2,
Ситуация 3, Ситуация 4} – множество объектов СС, обладающих свойствами P (т.е. VP' ={Ситуация 1,
Ситуация 2, Ситуация 3}); VA=.
На втором шаге, так как VP'≠, то выбираем первый элемент VP' – Ситуация 1.
Для него выполняем: источник O для аналогии не был задан на входе алгоритма, поэтому VA'=
(вспомогательное множество аналогий) и выясняем, что Ситуация 1 не подходит на роль пересечения C в
соответствии с опр. 4 (т.к. количество общих свойств у Ситуации 1 и Ситуации 4 равно количеству свойств
у Ситуации 4).
Далее выбираем следующий элемент VP' – Ситуация 2 и для него подобным образом выясняем, что
Ситуация 2 не подходит на роль пересечения C.
Последним из VP' выбираем объект – Ситуация 3, который подходит на роль пресечения C. Поэтому
остальные объекты из VP' (Ситуация 1, Ситуация 2) по очереди пробуем на роль источника O в
соответствии с опр. 5 и в случае успеха добавляем полученную аналогию A=<O,C,R,P> в VA'. В данном
примере Ситуация 1 и Ситуация 2 подходят на роль источника O, поэтому в VA' добавляем две аналогии:
A1 = <Ситуация 1, Ситуация 3, Ситуация 4, P>;
A2 = <Ситуация 2, Ситуация 3, Ситуация 4, P>.
Так как VA' > 1, то VA = VA'.
На третьем шаге, так как VA ≠ , то выдаем аналогии из VA (A1 и A2) ЛПР и переходим к
заключительному четвертому шагу (Конец).
На основе полученных аналогий A1 и A2 для Ситуации 4 можно считать справедливым новый факт о
том, что имеет место Рекомендация Подпитать насос TH11D01 Борным концентратом 40 г/кг.
Методы оценки полученных аналогий
Предложенный метод оценки аналогий с учетом контекста
После получения аналогий для приемника R, содержащихся в VA, возникает задача
выбора из этого множества наиболее предпочтительных аналогий, которое обозначим
VA*. Введем отношение предпочтения на множестве аналогий с учетом контекста.
Определения:
•
Аналогия A=<O,C,R,P> предпочтительнее аналогии A'=<O',C',R,P> (A≻A') тогда
и только тогда, когда nOCR > nO'C'R , где nOCR и nO'C'R – число свойств в множествах POCR
и PO'C'R , обозначающих контекст для аналогий A и A'.
•
Аналогия A=<O,C,R,P> и аналогия A'=<O',C',R,P> равнозначны (несравнимы)
тогда и только тогда, когда nOCR = nO'C'R .
•
Для случая, когда у аналогий могут быть разные приемники R и R' и разные
свойства P и P' для определения первоначального контекста, отношение предпочтения
определяется следующим образом:
•
Аналогия A=<O,C,R,P> предпочтительнее аналогии A'=<O',C',R',P'> (A≻A')
тогда и только тогда, когда kOCR > kO'C'R', где kOCR = nOCR / (nRС + nOС – nOCR), kO'C'R' =
nO'C'R' / (nR'C' + nO'C' – nO'C'R'). Величина kOCR отражает аналогичность (схожесть) в
заданном контексте приемника R и источника O и может быть выражена в
процентах, а nOCR и nO'C'R' – число свойств в множествах POCR и PO'C'R', обозначающих
контекст для аналогий A и A', nRС, nR'C', nOС, nO'C' – число свойств в множествах PRС, P
R'C', POС, P O'C'.
•
Аналогия A=<O,C,R,P> и аналогия A'=<O',C',R',P'> равнозначны (несравнимы)
тогда и только тогда, когда kOCR = k O'C'R'.
Пример оценки полученных аналогий
Рассмотрим процедуру оценки аналогий с учетом контекста для двух аналогий,
полученных в приведенном ранее примере для алгоритма 1:
A1 = <Ситуация 1, Ситуация 3, Ситуация 4, P>,
P = {TH11S24 Откл-Закр, TH11S25 Откл-Закр},
PСитуация 1,Ситуация 3,Ситуация 4 = {Откл САОЗ 1, Подпитать TH11D01 Борным
концентратом 40 г/кг, И TH11S24 TH11S25, TH11S24 Откл-Закр, TH11S25 Откл-Закр},
PСитуация 1,Ситуация 3 = {Откл САОЗ 1, Подпитать TH11D01 Борным концентратом 40
г/кг,
И TH11S24 TH11S25, TH11S24 Откл-Закр, TH11S25 Откл-Закр, Рекомендация
Подпитать TH11D01 Борным концентратом 40 г/кг},
PСитуация 4,Ситуация 3 ={Откл САОЗ 1, Подпитать TH11D01 Борным концентратом 40
г/кг,
И TH11S24 TH11S25, TH11S24 Откл-Закр, TH11S25 Откл-Закр},
nСитуация 1,Ситуация 3,Ситуация 4 =5,
nСитуация 1,Ситуация 3 = 6,
nСитуация 4,Ситуация 3 = 5,
kСитуация 1,Ситуация 3,Ситуация 4 = nСитуация 1,Ситуация 3,Ситуация 4 /(nСитуация 4,Ситуация 3 +
nСитуация 1,Ситуация 3 - n Ситуация 1,Ситуация 3,Ситуация 4) = 5/(5+6–5) = 0,8333 (83,33 %);
Для аналогии A2 = <Ситуация 2, Ситуация 3, Ситуация 4, P> подобным образом
получим оценку kСитуация 2,Ситуация 3,Ситуация 4 = 0,8333 (83,33 %).
Таким образом, из примера видно, что две полученные аналогии являются
равнозначными, так как их сравнительные оценки имеют одинаковое значение равное
83,33%, поэтому они обе могут быть внесены в VA* (т.е. VA*={A1, A2}) и представлены ЛПР
для выбора более предпочтительной с его токи зрения аналогии.
Предложенный метод оценки аналогий с учетом важности параметров
объекта
Данный метод базируется на заданных пользователем (экспертом или ЛПР)
значениях важности параметров приемника R, для которого необходимо найти
аналогии. Эти значения задаются пользователем от 0 до 1 или в процентах от 0 до 100
% (по умолчанию важность параметра равна нулю).
После того как найдены аналогии, для них можно получить оценки важности imp в
процентах, зависящие от важности параметров, включенных в множество POCR,
обозначающее контекст для аналогии:
imp = impP / impMAX 100%,
где impP – сумма значений важности всех параметров, входящих в POCR, impMAX –
сумма значений важности всех параметров PR приемника R.
Рассмотрим получение сравнительных оценок для аналогий с учетом важности
параметров объекта на следующем примере. Приемник R обладает следующими
свойствами: {p1, p2, p3, p4, p5}, а значение важности этих параметров (в %): {80, 0, 10, 0,
5}.
Пусть в результате применения алгоритма поиска решения на основе структурной
аналогии с учетом контекста получены две аналогии A1 и A2.
Определим оценки важности imp для этих аналогий:
A1=<O1,C1,R,P>, PO1C1R={p1, p3}, imp1=90/95=0,9474 (94,74%);
A2=<O2,C2,R,P>, PO2C2R={p2, p3, p4, p5}, imp2=15/95=0,1579 (15,79%).
Применение разработанной системы в рамках
ИСППР РВ для поддержки оперативнодиспетчерского персонала энергоблока на примере
КО
Разработка БП для систем экспертного диагностирования технического
объекта управления (ТОУ) и определения управляющих воздействий
подразделяется на следующие этапы:
• Создание базы БП (ББП);
• Формирование БП для подсистем ТОУ;
• Настройка созданных БП для подсистем ТОУ;
• Добавление прецедентов в БП для различных подсистем ТОУ;
• Проверка добавленных прецедентов;
• Тестирование сформированных и заполненных БП посредством поиска
решения на основе прецедентов;
• Сохранение созданной ББП для последующей передачи ее в оперативную
эксплуатацию.
Система компенсации объема в контуре водо-водяного энергетического
реактора (ВВЭР) АЭС
Компенсатор объема (КО) необходим для реакторов, охлаждаемых водой под давлением, и
предназначен для компенсации температурных изменений объема воды, заполняющей реакторный контур.
Он используется для создания давления при пуске и поддержания давления в эксплуатации, а также для
ограничения отклонений давления в аварийных режимах. На АЭС применяют только паровой КО,
технологическая схема которого представлена на рисунке.
1 – запорный клапан;
2 – регулирующий клапан;
3 – подвод азота;
4 – компенсатор объема (КО);
5 – трубчатые электронагреватели;
6 – отбор проб парогазовой смеси;
7 – отбор проб воды;
8 – предохранительные клапаны;
9 – фланцевый разъем (на случай
раздельного проведения
гидроиспытаний);
10 – реактор;
11 – охлаждение;
12 – газовая сдувка;
13 – подвод воды;
14 – барботер (ББ);
15 – отбор проб.
В оперативном режиме считывание параметров с датчиков для всего объекта управления и для системы
КО производится системой контроллеров с интервалом в 4 секунды.
Схема функционирования ИСППР РВ с использованием разработанной
системы
Объект управления
Система
контроллеров
Ситуации
База
данных
База
библиотек
прецедентов
Анализ ситуаций
База
знаний
Решатель
Отображение
результатов
ЛПР
Система поиска
управляющих воздействий
на основе аналогий и
прецедентов
28
Структура БП для КО
Основное окно КБП с прецедентами
из БП для КО
Далее осуществляется настройка БП (т.е. указываются веса параметров и пороговое значение для степени
сходства). После проверки прецедентов осуществляется тестирование разработанной БП для КО, что
предполагает применение механизмов рассуждения на основе прецедентов.
Основное окно РСС
Окно для задания параметров поиска
решения на основе аналогий
Окно выдачи результатов поиска решения
на основе аналогий
Поиск решения на основе прецедентов
Рассмотрим ситуацию, когда все аналоговые параметры находятся в пределах нормы. Все дискретные
параметры для текущей ситуации находятся в промежуточном положении (т.е. их значения соответствуют “0”),
кроме вентиля газовой сдувки TS35S01, который закрыт (т.е. его значение соответствует “2”), а также насоса
TG10D03 и трех насосов подпитки TK11D02, TK12D02 и TK13D02, которые отключены (т.е. их значения
соответствуют “2”).
Теперь рассмотрим другую текущую ситуацию, отличающуюся от предыдущей ситуации тем, что
информации о состоянии насоса подпитки TK13D02 и состоянии вентиля газовой сдувки TS35S01 нет (т.е. их
значения не заданы). Осуществив поиск по БП системы КО обнаружим, что для новой ситуации прецеденты,
которые имеют степень сходства с новой ситуацией большую порогового значения, отсутствуют. По этой
причине обратимся к РСС для осуществления поиска решения на основе структурной аналогии (т.е.
попытаемся найти значения параметров, которые не были заданы).
3. РАСКРАШЕННЫЕ СЕТИ ПЕТРИ КАК
ИНСТРУМЕНТ МОДЕЛИРОВАНИЯ
СЛОЖНЫХ ОБЪЕКТОВ
•
Сети Петри (СП) позволяют естественно описывать синхронизацию,
параллелизм, конфликт и причинную зависимость, а также наглядно
представлять структуру и поведение систем. Основы теории обычных СП
изложены, например, в работе [Котов, 1984]. Можно вводить ряд
дополнительных правил и условий в алгоритмы моделирования, получая
ту или иную разновидность СП.
•
В частности, теория раскрашенных (цветных ) сетей Петри (РСП)
разрабатывается более 25 лет рабочей группой под руководством
профессора Курта Йенсена [Jensen, 1984].
•
Существенным недостатком классических СП является отсутствие учета
фактора времени. Это не позволяет эффективно моделировать те
реальные процессы, в которых от текущего времени зависит состояние
анализируемой системы. Поэтому были разработаны различные
темпоральные модификации СП, среди которых можно выделить три
основных класса: временные СП (ВСП), в которых временные
ограничения накладываются на переходы; стохастические СП (ССП),
основанные на концепции стохастических временных задержек;
функциональные СП (ФСП), для которых временные задержки
определяются как функции аргументов.
•
ВСП и ССП являются частными случаями ФСП, поскольку функции
временных задержек позволяют задать как детерминированные и
недетерминированные задержки для первого класса, так и
стохастические задержки для второго.
•
РСП – это графоориентированный язык для проектирования, описания,
имитации и контроля распределенных и параллельных систем.
Графическими примитивами показывается течение процесса, а
конструкциями специального языка имитируется необходимая обработка
данных. Показано [Jensen, 1984], что для каждой РСП можно построить
обычную СП, и наоборот. Преимуществом РСП перед обычными СП
является более компактный и удобный язык моделирования.
•
РСП реального времени (РСП РВ) [Szpyrka et al, 2006] являются
функциональным подклассом РСП, ориентированным на моделирование
и анализ систем реального времени. По сравнению с РСП, в РСП РВ
используется другая модель времени и приоритеты переходов, на них
наложены некоторые структурные ограничения, что в итоге позволяет
разработчикам прямое моделирование элементов.
Приведем в качестве примера использования РСП РВ модель
автоматической остановки поезда
•
•
•
В кабине машиниста каждые 60 секунд загорается световой сигнал, чтобы
проверить, контролирует ли он идущий поезд. Если машинист проигнорирует
световой сигнал, то через 6 секунд включается звуковой сигнал. Если машинист
не дезактивирует его в течение 3 секунд, срабатывает механизм аварийного
торможения.
Модель РСП РВ для данного примера, представленная на рис 1., содержит шесть
мест: ContrSyst - элемент, контролирующий систему; Console - консоль в кабине
для отображения сигналов; Brake - механизм торможения; Driver -машинист
поезда; Timer1 и Timer2- таймеры; и пять переходов: TurnOnLS -включение
светового сигнала; TurnOnSS - включение звукового сигнала; TurnOnBrake запуск механизма торможения; Disactivate - дезактивация машинистом сигналов;
Activity - моделирование действий машиниста.
Задана начальная маркировка, начальные значения временных меток равны нулю
и опущены. Переход Disactivate имеет приоритет 1, остальные переходы – 0
(опущены на схеме). Весовые и временные выражения дуг разделены знаком @.
Если временное выражение равно 0, то оно опущено. Каждая дуга с двумя
стрелками заменяет для наглядности пару дуг.
Рис. 1. Модель системы остановки поезда на основе РСП РВ
Средства моделирования на основе РСП РВ с
темпоральной логикой
•
•
Известный аппарат РСП РВ предполагает работу с количественными
темпоральными зависимостями, однако ясно, что выразительность
представления увеличится при наличии средств, позволяющих выражать
как количественные, так и качественные е зависимости. Поэтому для
эффективного использования РСП РВ в составе ИСППР РВ необходимо
решить задачу представления и оперирования качественными
темпоральными зависимостями.
В качестве одного из возможных путей решения этой проблемы
предлагается модифицировать РСП РВ, добавив возможность
использовать аппарат временных логик, а именно, темпоральную
интервальную логику Аллена [Allen, 1983], которая характеризуется
достаточной выразительностью и наличием полиномиальных алгоритмов
вывода, что позволяет использовать ее в ИС типа ИСППР РВ. В качестве
темпоральных примитивов в ней используются интервалы, что важно
при моделировании сложных систем. Точечные (оперирующие
моментами) темпоральные логики недостаточно чувствительны к
смысловым различиям, отображающими ситуации не только в тот или
иной момент времени, но и на интервале.
Множество базовых интервальных отношений
интервальной логики Аллена
Отношение и его
инверсия
Обозначения
X before Y
b
Y after X
bi
X meets Y
m
Y met-by X
mi
X overlaps Y
o
Y overlapped-by X
oi
X during Y
d
Y includes X
di
X starts Y
s
Y started-by X
si
X finishes Y
f
Y finished-by X
Fi
X equals Y
E
Иллюстрация
X
Y
Отношения между конечными
точками
X- < Y-, X- < Y+,
X+ < Y-, X+ < Y+
X
Y
X- < Y-, X- < Y+,
X+ = Y-, X+ < Y+
X
Y
X- < Y-, X- < Y+,
X+ > Y-, X+ < Y+
X
Y
X
Y
X
Y
X
Y
X- > Y-, X- < Y+,
X+ > Y-, X+ < Y+
X- = Y-, X- < Y+,
X+ > Y-, X+ < Y+
X- > Y-, X- < Y+,
X+ > Y-, X+ = Y+
X- = Y-, X- < Y+,
X+ > Y-, X+ = Y+
•
•
•
•
Формальное определение РСП РВ с использованием темпоральной
логики Аллена приведено в работе [Еремеев, Королев, 2011].
Модель системы остановки поезда, построенная с помощью данного
аппарата, представлена на рис. 2.
Переход к логике Аллена привел к сужению множества цветов и
разбиению сети на две несвязные подсети, одна из которых
определяет работу механизма аварийного торможения, а другая
моделирует действия машиниста. Формулы логики Аллена
применены в данном случае как защитные функции переходов DisactLS и
DisactSS, обозначающих своевременную реакцию ЛПР (машиниста) на
световой и звуковой сигнал соответственно. Главным преимуществом в
данном случае является возможность задавать не конкретное время
реакции, как в случае ЦСП РВ, а интервалы, на которых машинист
может дезактивировать систему и каждый из которых определяет
дальнейшее поведение модели.
Таким образом, включение в модель аппарата интервальной
темпоральной логики позволило адекватно отразить
неопределенность, присущую задаче.
Рис. 2. Модель системы остановки поезда на основе
ЦСП РВ с темпоральной логикой
•
Компьютерное моделирование в ИСППР РВ актуально как для теоретических
исследований, так и для практического применения. Создание инструментария
для решения подобных задач представляет серьезную проблему, прежде всего
потому, что среда разработки должна поддерживать концепцию РВ, а также из-за
уникальности разрабатываемых моделей.
•
Отметим, что некоторые современные системы, в частности, G2 инструментальный комплекс конструирования систем РВ (Gensym Corp.,
США) позволяют реализовывать подобные проекты. G2 является объектноориентированной интегрированной средой для разработки и сопровождения
приложений – ИС РВ, использующих базы знаний. В отличие от систем,
ориентированных на какую-то одну методологию или на конкретную предметную
область, G2 интегрирует в себе множество взаимодополняющих методов
искусственного интеллекта, что упрощает и ускоряет процесс разработки
приложений и позволяет делать их достаточно универсальными [Еремеев и др.,
2012]. Эти особенности позволили разработать в данной среде достаточно
эффективный инструментарий для моделирования систем на основе РСП РВ, в
том числе, с поддержкой темпоральной логики Аллена.
Рис. 3. Модель системы остановки поезда в среде G2
ЗАКЛЮЧЕНИЕ
•
По тематике «Разработка методов, моделей и базовых инструментальных
средств конструирования ИСППР семиотического типа на основе
нетрадиционных логик» научной группой кафедры прикладной
математики НИУ «МЭИ» (научные руководители лауреаты премии
Президента РФ в области образования, действительные члены РАЕН,
члены Научного совета РАИИ, профессора Вагин В.Н., Еремеев А.П.)
опубликовано более 200 статей в журналах «Новости искусственного
интеллекта», «Известия АН СССР. Техническая кибернетика», «Известия
РАН. Теория и системы управления», «РАН. Искусственный интеллект и
принятие решений», «Программные продукты и системы»,
«Автоматика», «Энергетика» и др., материалах российских и
международных конференций по проблемам искусственного интеллекта
и конструирования интеллектуальных систем.
•
По данной проблематике выполняются исследования по грантам РФФИ и
другим федеральным программам.
Список литературы
•
•
•
•
•
•
•
•
•
•
•
[Саттон и др., 2011] Саттон Р.С., Барто Э.Г. Обучение с подкреплением: пер. с англ. – М.:
БИНОМ. Лаборатория знаний, 2011.
[Еремеев и др., 2008] Еремеев А.П., Подогов И.Ю. Обобщенный метод иерархического
подкрепленного обучения для интеллектуальных систем поддержки принятия решений //
Программные продукты и системы. – 2008. - № 2. - С. 35-39.
[Еремеев и др., 2009] Еремеев А.П., Подогов И.Ю. Методы подкрепленного обучения для
систем поддержки принятия решений реального времени // Вестник МЭИ. – 2009. - № 2. - С.
153-161.
[Вагин и др., 2001] Вагин В.Н., Еремеев А.П. Некоторые базовые принципы построения
интеллектуальных систем поддержки принятия решений реального времени // Изв. РАН.
Теория и система управления. - 2001. - № 6. – С. 114-123.
[Поспелов, 1981] Поспелов Д.А. Логико-лингвистические модели в системах управления. М., Энергоиздат, 1981.
[Майн и др., 1977] Майн Х., Осаки С. Марковские процессы принятия решений. -М.: Наука,
1977.
[Lin et al., 1992] L-J. Lin L-G. and Mitchell T. Memory approaches to reinforcement learning in
non-Markovian domains. Technical Report CMU-CS-92-138, Carnegie Mellon University. - 1992.
[Еремеев и др., 1999] Еремеев А.П., Тихонов Д.А., Шутова П.В. Поддержка принятия
решений в условиях неопределенности на основе немарковской модели // Изв. РАН. Теория и
системы управления. - 1999. - № 5. - С. 75-88.
[Parr et al., 1998] Parr R. and Russell S. Reinforcement learning with hierarchies of machines //
Advances in Neural Information Processing Systems. – 1998. - 10. – Р. 1043-1049.
[Taylor et al., 2011] Taylor M.T., Stone P. An Introduction to Intertask Transfer for Reinforcement
Learning // AI magazine. – 2011. – Vol. 32, N. 1. – P. 15-34.
[Mehta et al., 2011] Mehta N., Ray S., Tadepalli P., Dietterich T. Automatic Discovery and
Transfer of Task Hierarchies in Reinforcement Learning // AI magazine.– 2011.–V. 32, N. 1.–P.35-50.
Список литературы (2)
• Вагин В.Н. Дедукция и обобщение в системах принятия решений. – М.: Наука, 1988. 384 с.
• Вагин В.Н. Дедуктивный вывод на знаниях // Искусственный интеллект. Справочник. Кн. 2.
Модели и методы / Под. Ред. Д.А. Поспелова. – М.: Радио и связь, 1990. С. 89-105.
• Башлыков А.А., Еремеев А.П. Экспертные системы поддержки принятия решений в энергетике.
М.: Изд-во МЭИ, 1994. 216 с.
• Вагин В.Н., Головина Е.Ю., Загорянская А.А., Фомина М.В. Достоверный и правдоподобный
вывод в интеллектуальных системах / Под. Ред. В.Н. Вагина, Д.А. Поспелова. – 2-е изд., испр. и
доп. - М.: ФИЗМАТЛИТ, 2008. 712 с.
• Efficient Decision Support Systems - Practice and Challenges From Current to Future, Chiang Jao
(Ed.), ISBN: 978-953-307-326-2, InTech, Chapter 6, Alexander P. Eremeev and Vadim N. Vagin (2011).
Common Sense Reasoning in Diagnostic Systems, pp. 99-120. Available from:
http://www.intechopen.com/articles/show/title/common-sense-reasoning-in-diagnostic-systems
• Интеллектуальные системы. Коллективная монография. / Под ред. В.М. Курейчика. - М:
Физматлит, 2005, 2007, 2009, 2010, 2011, Ростов-на-Дону: Издательство ЮФУ, 2013.
• Кандрашина Е.Ю., Литвинцева Л.В., Поспелов Д.А. Представление знаний о времени и
пространстве в интеллектуальных системах. / Под ред. Д.А. Поспелова. М.: Наука. Гл. ред. физ.мат. лит., 1989.
• Трубников Н.И. Проблемы времени в свете философского мировоззрения // Вопросы
философии, 1978. - №2. - С. 111-121.
• Еремеев А.П., Троицкий В.В. Модели представления временных зависимостей в
интеллектуальных системах поддержки принятия решений // Известия РАН. Теория и системы
управления, 2003. - № 5. - С. 75-88.
Список литературы (3)
•
•
•
•
•
•
McCarthy J., Hayes P.J. Some philosophical problems from the standpoint of artificial
intelligence // Machine Intelligence. - Edinburgh University Press, 1969. №4. - Pp. 463-502.
Fikes R., Nilsson N. STRIPS: a new approach to the application of theorem proving to
problem solving. // Artificial Intelligence. 1971. №2. Pp. 189-208.
Слинина Я. А., Караваева Э.Ф., Мигунова А.И. Символическая логика. – СПб.: Изд-во
С.-Петерб. ун-та, 2005.
A. Gereviny and L. Schubert. Efficient Algorithms for Qualitative Reasoning about Time.
Technical report 496, Department of Computer Science, University of Rochester, Rochester,
NY, 1993.
Еремеев А.П., Троицкий В.В. Концепции и модели представления времени и их
применение в интеллектуальных системах. // Новости искусственного интеллекта. 2004. №1. С. 6-29.
Еремеев А.П., Куриленко И.Е. Реализация механизма временных рассуждений в
современных интеллектуальных системах // Известия РАН. Теория и системы
управления, 2007. - № 2. - С. 120-136.
Список литературы (4)
• Allen J. F., Ferguson G. Actions and Events in Interval Temporal Logic. // Technical
Report, S21, 1994.
• Tarjan R. Depth-first search and linear graph algorithms // SIAM. 1973. № 1.
• Van Beek P., Manchak D. W. The Design and Experimental Analysis of Algorithms for
Temporal Reasoning // J. Artificial Intelligence Research. 1996. № 4.
• Allen J.F. Maintaining Knowledge about Temporal Intervals // Comm. ACM. 1983. № 26.
• Krokhin A., Jonsson P. Reasoning about temporal relations: The tractable subalgebras of
Allen’s interval algebra // Technical Report PRG-RR-01-12. Computing Laboratory,
Oxford University, 2001.
• Jonsson P., Drakengren T., Backstrom C. Computational complexity of relating time
points and intervals // Artificial Intelligence, 1999. № 109 (1-2).
• Еремеев А.П., Куриленко И.Е. Реализация временных рассуждений для
интеллектуальных систем поддержки принятия решений реального времени //
Программные продукты и системы, 2005. - №2. - С. 8-16.
• Gerevini A., Incremental Qualitative Temporal Reasoning Algorithms for the Point
Algebra and the ORD-Horn Class // Techn. report RT 2005-07-46, University of
Rochester, 2005.
Список литературы (5)
• Башлыков А.А., Еремеев А.П. Семиотические системы реального времени для
интеллектальной поддержки принятия решений пи управлении сложными
технологическими объектами. // Информационно-измерительные и управляющие
системы, № 5, т. 11, 2013, с. 49-57. ISSN 2070-0814
• Еремеев А.П., Королев Ю.И. Методология и инструментальные средства для разработки
интеллектуальных систем реального времени на основе цветных сетей Петри. // Вестник
Ростовского государственного университета путей сообщения. Научно-технический
журнал, № 3 (51), 2013, с. 53-60. ISSN 0201-727X.
• Eremeev A.P., Fomina M.V. Modeling of Reasoning in Intelligent Systems by Means of
Integration of Methods Based on Case-Based Reasoning and Inductive Notions Formation.//
Proceedings of BRICS-CCI’2013 – 1st BRICS Countries Congress on Computational
Intelligence and CBIC’2013 – 11th Brazilian Congress on Computational Intelligence, 8-11
Sept. 2013, pp. 317-322. Recife, Brazil.
• Александр Еремеев, Иван Куриленко. Методы моделирования временных зависимостей
в интеллектуальных системах с использованием темпоральных прецедентов. //
International Journal “Models & Information Analisys”, 2013, Volume 2, Number 4, pp. 324335.
Скачать