На правах рукописи Горишний Дмитрий Владимирович МЕТОДЫ И АЛГОРИТМЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ДЛЯ СИСТЕМ ДИАГНОСТИРОВАНИЯ УСТРОЙСТВ ЖЕЛЕЗНОДОРОЖНОЙ АВТОМАТИКИ Специальность: 05.13.06 – Автоматизация и управление технологическими процессами и производствами (на транспорте) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Ростов-на-Дону 2010 2 Работа выполнена в государственном образовательном учреждении высшего профессионального образования «Ростовский государственный университет путей сообщения» (РГУПС) Научный руководитель: доктор технических наук, профессор Мамаев Энвер Агапашаевич Официальные оппоненты: доктор технических наук, профессор Лябах Николай Николаевич кандидат технических наук, профессор Родзин Сергей Иванович Ведущая организация: Научно-исследовательский и проектноконструкторский институт информатизации, автоматизации и связи на железнодорожном транспорте (ОАО «НИИАС») Защита диссертации состоится 20 декабря 2010г. в 13:00 часов на заседании диссертационного совета Д 218.010.03 при Ростовском государственном университете путей сообщения по адресу: 344038, г. Ростовна-Дону, пл. Ростовского Стрелкового Полка Народного Ополчения, 2, конференц-зал. С диссертацией можно ознакомиться в библиотеке университета. Автореферат разослан 19 ноября 2010 г. . Ученый секретарь диссертационного совета Д 218.010.03 доктор технических наук, профессор Бутакова М.А. 3 ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность работы. Стратегия развития железнодорожного транспорта, принятая ОАО «РЖД», предусматривает первоочередное решение ключевых задач, в числе которых обеспечение роста эффективности, устойчивости и безопасности перевозок, развитие новейших систем управления технологическими процессами на основе инновационных технологий, снижение негативного влияния «человеческого фактора» за счет внедрения современных информационных и компьютерных технологий. В этой связи приоритетным направлением работ является разработка и внедрение систем технического диагностирования и мониторинга (ТДМ) устройств железнодорожной автоматики и телемеханики (ЖАТ), которые позволят минимизировать время поступления информации об изменениях состояния устройств и возникших сбоях, повысить эффективность действий обслуживающего персонала, оптимизировать процесс выполнения работ по техническому обслуживанию и ремонту устройств ЖАТ и перейти к стратегии технического обслуживания «по фактическому состоянию». В настоящее время широкое распространение получили такие системы ТДМ устройств ЖАТ, как АПК-ДК, АСДК и АДК-СЦБ. На основе этих систем на уровне железных дорог организуются Центры технического диагностирования и мониторинга (ЦТДМ), в которых аккумулируется и обрабатывается информация о текущем состоянии устройств ЖАТ. Значительный объем поступающей и накопленной информации, в сочетании с вышеперечисленными задачами, делает актуальной разработку интеллектуальных систем, включающих базу знаний, подсистемы анализа данных, поддержки принятия решений и взаимодействия с персоналом ЦТДМ. Подобные интеллектуальные системы позволят оптимизировать процесс технического обслуживания, повысить эффективность работы персонала ЦТДМ, и засчет этого снизить число возникающих сбоев устройств ЖАТ. Степень разработанности проблемы. Постановке перечисленных в диссертации задач предшествовали многочисленные теоретические исследования, труды и практические разработки ученых и специалистов в России и за рубежом. В области теории и практики разработки моделей, методов и алгоритмов, лежащих в основе диагностирования большой вклад внесли своими работами В.М. Глушков, И.Е. Дмитренко, В.Н. Иванченко, В.М. Лисенков, В.В. Сапожников, Вл.В. Сапожников. В области теории и практики создания современных технологий управления на железнодорожном транспорте, а также в области создания аппаратно-программных средств автоматизации процессов технического диагностирования большой вклад внесли своими работами В.М. Алексеев, А.В. Горелик, В.Б. Гуменников, И.Д. Долгий, Л.Т. Кузин, И.К. Лакин, Э.К. Лецкий, Е.Н. Розенберг, Е.М. Тарасов, А.Н. Шабельников, Д.В. Швалов и другие ученые. Фундаментальный вклад в теорию и практику управления сложными динамическими объектами с использованием искусственного интеллекта, 4 а также в разработку программных систем обработки информации на основе использования математических, информационных и имитационных моделей внесли А.Н. Аверкин, С.Е. Ададуров, В.И. Апатцев, А.П. Батурин, Л.С. Берштейн, М.А. Бутакова, А.Н. Гуда, А.П. Еремеев, Л. Заде, В.П. Карелин, Н.Н. Лябах, В.И. Колесников, В.М. Курейчик, С.М. Ковалев, Э.А. Мамаев, Е. Мамдани, Г.С. Осипов, В.Е. Павлов, Д.А. Поспелов, С.И. Родзин, Л.П. Тулупов, В.Ф. Хорошевский, А.В. Чернов и другие ученые. Объектом исследования является система интеллектуального анализа данных для технического диагностирования и мониторинга устройств железнодорожной автоматики и телемеханики. Предмет исследования – принципы построения, методы и алгоритмы синтеза моделей зависимостей между диагностическими состояниями устройств ЖАТ. Исследования выполнялись в рамках следующих пунктов паспорта специальности 05.13.06 – Автоматизация и управление технологическими процессами и производствами (на транспорте): п. 9 – «Методы эффективной организации и ведения специализированного информационного и программного обеспечения АСУТП, АСУП, АСТПП и др., включая базы и банки данных и методы их оптимизации»; п. 15 – «Теоретические основы, методы и алгоритмы интеллектуализации решения прикладных задач при построении АСУ широкого назначения (АСУТП, АСУП, АСТПП и др.). Цель работы. Целью диссертации является исследование и разработка новых методов синтеза моделей зависимостей, как основы построения систем поддержки принятия решений для технического диагностирования и мониторинга устройств ЖАТ. Основные задачи, определяемые целью исследования: 1. Разработка принципов построения моделей зависимостей между диагностическими состояниями устройств ЖАТ. 2. Разработка базовых интеллектуальных методов синтеза моделей на основе анализа данных диагностирования устройств ЖАТ. 3. Разработка интеллектуальных методов формирования и анализа нечетко-темпоральных описаний зависимостей, а также описаний изменения параметров устройств при смене диагностического состояния. 4. Разработка структуры программной реализации подсистем обработки данных и структуры базы знаний. 5. Разработка методики и программных средств автоматизации адаптации программного обеспечения системы интеллектуального анализа данных. Решение поставленных задач позволит повысить эффективность применения программных средств СТДМ, засчет автоматизации и интеллектуализации процессов взаимодействия системы и персонала Центров технического диагностирования и мониторинга. Методы исследования. Исследования проводились с использованием методов теории информации, теории кодирования, теории графов, теории вероятности, теории нечетких множеств и элементов темпоральной логики. 5 Научная новизна диссертационной работы заключается в следующем: 1. Предложен новый подход к представлению зависимостей между диагностическими состояниями устройств ЖАТ на основе сетевой модели с вероятностными и нечетко-темпоральными атрибутами для повышения эффективности организации и ведения базы знаний интеллектуальной системы. 2. Разработан комплексный метод ассоциативного анализа данных и построения сетевой модели зависимостей между событиями, разработаны алгоритмы построения модели на основе принципа минимальной длины описания и модифицированной логарифмической метрики модели. 3. Разработан метод нечетко-темпорального описания зависимостей между диагностическими состояниями устройств ЖАТ и алгоритм формирования НТО зависимости по диагностическим данным. 4. Разработан метод и алгоритмы формирования нечетко-темпорального описания изменения параметров контролируемого объекта на основе анализа протоколов измерений. Практическая ценность работы заключается в применении результатов исследования для разработки системы интеллектуального анализа данных (ИАД) на базе системы технического диагностирования и мониторинга (ТДМ), для Центра технического диагностирования и мониторинга устройств ЖАТ на Северо-Кавказской железной дороге, а также для разработки систем автоматизации адаптации программного обеспечения и автоматизации проектирования диагностических комплексов. В частности, в работе достигнуты следующие практические результаты: 1. Разработано серверное программное обеспечение, реализующее методы и алгоритмы выявления зависимостей между диагностическими состояниями устройств ЖАТ, функциональность выявления фактов проведения работ по техническому обслуживанию и ремонту (ТОиР) устройств и передачи информации в систему АСУ-Ш-2. 2. Разработана клиентская часть программного обеспечения, реализующая взаимодействие системы ИАД с АРМ ШДМ (АРМ технолога ЦТДМ). 3. Разработана структура базы диагностических данных и базы знаний, содержащей модели выявленных зависимостей, на основе средств СУБД MS SQL Server. 4. Разработаны программные средства автоматизации адаптации (в части конфигураций и состава дистрибутива) программного обеспечения системы ИАД и сервера унифицированного информационного взаимодействия (СУИВ), автоматизации процесса проектирования диагностических комплексов (информационное обеспечение, проектная документация, схемы линий связи). Практическое использование результатов исследования для построения системы интеллектуального анализа данных технического диагностирования устройств ЖАТ позволило автоматизировать: выявление зависимостей между диагностическими состояниями; контроль эффективности и своевременности выполнения работ по ТОиР устройств ЖАТ; процесс формирования 6 информационного и адаптации программного обеспечения системы ИАД и СУИВ. Достоверность и обоснованность. Достоверность и обоснованность научных положений, выводов и результатов, сформулированных в диссертации, подтверждается результатами вычислительных экспериментов на практических и модельных задачах, публикациями и докладами на научнопрактических конференциях, а также актами внедрения результатов работы. Реализация результатов работы. Предложенные принципы и методы синтеза экспертных моделей, алгоритмы анализа диагностических данных и принципы представления знаний в системах технического диагностирования реализованы в программном комплексе интеллектуального анализа данных ИАД-ЦТДМ, разработанного для расширения функциональности системы ТДМ на уровне Центра технического диагностирования и мониторинга. Апробация основных теоретических и практических результатов работы проводилась на совместном заседании кафедр «Автоматика и телемеханика на железнодорожном транспорте», «Информатика» и «Логистика и управление транспортными системами» РГУПС; Всеросс. научно-практ. конференции «Транспорт-2005», г. Ростов-на-Дону, 2005 г.; Международной школеконференции по приоритетным направлениям развития науки и техники, г.Москва, 2006 г.; Всеросс. научно-практ. конференции «Транспорт-2006», г. Ростов-на-Дону, 2006 г.; VI Международной научно-практ. конференции «Телекомтранс-2008», г. Сочи, 2008 г.; Всеросс. научно-практ. конференции «Транспорт-2008», г. Ростов-на-Дону, 2008 г.; Международной научно-практ. конференции «Проблемы и перспективы развития транспортного комплекса: образование, наука», посвященной 80-летию РГУПС, г. Ростов-на-Дону, 2009 г.; Всеросс. научно-практ. конференции «Транспорт-2009», г. Ростов-наДону, 2009 г.; XI Международной научно-техн. конференции «Кибернетика и высокие технологии 21 века», г. Воронеж, 2010 г.; Всероссийской научнопракт. конференции «Транспорт-2010», г. Ростов-на-Дону, 2010 г.; VII Международной научно-практ. конференции «Телекомтранс-2010», г. Сочи, 2010 г.; Всеросс. научно-практ. конф. «Математические методы и интеллектуальные системы в экономике и образовании» г. Ижевск, 2010 г.; XI Всеросс. научно-техн. конф. «Научные исследования и разработки в области авиационных, космических и транспортных систем» г. Воронеж, 2010 г.; XIV Международной научно-практ. конф. «Актуальные проблемы информатики и информационных технологий» г. Тамбов, 2010 г. Публикации. По теме диссертационной работы опубликовано 17 печатных работ, в том числе 4 работы опубликованы в изданиях, входящих в список ведущих рецензируемых научных журналов и изданий ВАК. Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложений. Общий объем работы составляет 171 страницу машинописного текста, 53 рисунка, 8 таблиц. Список литературы включает 131 наименование работ отечественных и зарубежных авторов. 7 КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ Во введении обоснована актуальность темы диссертационной работы, сформулированы цели и задачи исследования, перечислены полученные практические результаты, дано общее описание выполненной работы. В первой главе дается обзор различных систем технического диагностирования, современных систем хранения и интеллектуального анализа данных, применяемых в них методов. Рассматриваются как системы технического диагностирования устройств СЦБ, так и системы, применяемые в других отраслях. Отмечается необходимость интеллектуализации систем ТДМ, их интеграции с системами анализа данных и поддержки принятия решений. Как известно, основная задача системы диагностирования устройств железнодорожной автоматики и телемеханики – формирование точного диагноза состояния станционных и перегонных устройств. Современные системы диагностирования и мониторинга должны не только обеспечивать высокий уровень автоматизации деятельности эксплуатационного персонала, но и обладать высокой гибкостью, адаптивностью к изменяющимся условиям эксплуатации, способностью к обработке трудноформализуемой информации и поддержке пользователей при анализе данной информации и принятии решений. Эти качества могут быть реализованы только за счет применения особых методологий построения программных систем и использования интеллектуальных методов анализа данных, извлечения знаний из данных и принятия решений в условиях неопределенности. Лидерами в железнодорожной отрасли РФ среди систем диагностирования и удаленного мониторинга являются: система диспетчерского контроля и диагностики устройств ЖАТ АПК-ДК, автоматизированная система диспетчерского контроля АСДК и система автоматизации контроля и диагностирования устройств сигнализации, централизации и блокировки АДК-СЦБ. Сравнение с системами диагностирования, применяемыми в других отраслях, таких например, как нефтехимия, нефтегазодобыча, энергетика, авиация и телекоммуникации, показывает низкую степень интеллектуализации и поддержки экспертных функций систем диагностирования устройств ЖАТ. Функциональность и эффективность современной информационной системы в значительной степени зависит от полноты, релевантности и актуальности базы знаний, используемой для формирования экспертных оценок, выработки решений и рекомендаций. Перечисленные ключевые характеристики баз знаний в свою очередь в значительной мере зависят от качества источников и технологий извлечения знаний. Проанализировано развитие технологий от использования файловых систем хранения до появления систем управления базами данных, иерархического и сетевого подходов, реляционной модели и объектноориентированных баз данных. Дан обзор принципов построения систем 8 хранения и интеллектуального анализа данных (ИАД). Рассмотрены этапы извлечения полезной информации и фрагментов знаний из данных. Отмечен важный положительный фактор внедрения ИАД в процесс технического диагностирования – возможность автоматизированного выявления некоторых закономерностей, не формализованных ранее экспертами. Проведенный анализ показал необходимость применения интеллектуальных методов анализа данных и экспертных систем в железнодорожной отрасли, что позволит устранить отставание в уровне автоматизации, повысить эффективность работы персонала центров диагностирования и мониторинга, а также обеспечить поддержку принятия решений при обработке внештатных диагностических состояний контролируемых объектов. Во второй главе рассмотрена проблематика представления знаний, которая считается одним из наиболее важных направлений работ в области искусственного интеллекта, поскольку выбор правильного способа представления знаний является не менее значимым фактором, влияющим на эффективность интеллектуальной системы не в меньшей степени, чем разработка методов и реализация в виде программного обеспечения алгоритмов, которые обеспечивают извлечение знаний из исходных данных. Выполнен анализ существующих подходов к представлению знаний в интеллектуальных системах, таких как логический, сетевой, продукционный и фреймовый подходы. С учетом требований, предъявляемых к модели знаний о зависимостях между диагностическими состояниями, таких как наглядность, компактная форма визуализации, возможность применения процедур логического вывода, сделан вывод о целесообразности применения сетевого подхода к представлению знаний. Рассмотрен ряд существующих методов интеллектуального анализа данных, а именно: методы деревьев решений, нейронных сетей, визуализации, генетических алгоритмов, эволюционного программирования, ассоциативного анализа. С учетом основных задач диагностики технических устройств, таких как раннее обнаружение отклонений в работе устройств, фиксация и анализ предотказных состояний и своевременное предупреждение аварийных ситуаций и отказов, сделан вывод о необходимости применения в разрабатываемой системе интеллектуального анализа данных таких методов, которые позволили бы выявлять устойчивые зависимости смен состояний, приводящие к отказу устройства, и формировать на их основе базу знаний. Сравнение вышеперечисленных методов с точки зрения решения задач выявления зависимостей и их представления в простом и понятном для пользователя системы виде, показало преимущество методов ассоциативного анализа. Основной недостаток таких методов, выражающийся в непосредственном использовании данных из хранилища при каждом запросе, может быть устранен путем разработки модифицированного комплексного метода, относящегося к данной группе методов, но более ориентированного 9 на создание моделей зависимостей между диагностическими состояниями устройств для формирования базы знаний. Комплексный метод ассоциативного анализа включает этапы анализа данных и синтеза моделей: на этапе анализа данных выявляются устойчивые последовательности событий, на их основе синтезируются и помещаются в базу знаний модели зависимостей, а для формирования прогноза дальнейшего изменения состояния устройства, или оказания поддержки в принятии решения, в базе знаний выполняется поиск подходящей последовательности по критерию соответствия текущему и предыдущим состояниям устройства, и в зависимости от задачи, делается вывод о наиболее вероятном варианте развития событий, либо выбирается решение, которое было признано ранее правильным в аналогичной ситуации. Проведен анализ методов формирования рассуждений на основе неполных данных с учетом специфики трудноформализуемых процессов функционирования устройств ЖАТ, по результатам которого выявлена полезность применения средств вероятностного и нечетко-логического подходов на этапе использования выявленных зависимостей для поддержки принятия решений персонала центра диагностирования и мониторинга, и как следствие – необходимость дополнения модели зависимостей диагностических состояний соответствующими атрибутами, например, введение нечеткой лингвистической переменной позволяет оценить длительность пребывания устройства в данном (соответствующем элементу модели) состоянии, а с помощью таблицы условных вероятностей можно оценить вероятность перехода устройства в одно из связанных с текущим состояний. Третья глава посвящена разработке принципов построения и вида представления моделей зависимостей между диагностическими состояниями, разработке методов и алгоритмов анализа данных технического диагностирования. Предложена сетевая модель представления зависимостей между диагностическими состояниями устройств на основе байесовской сети (БС), определяемой как двойка G, B , в которой первый компонент G является направленным ациклическим графом, вершины которого соответствуют возможным событиям исследуемой предметной области, а ребра – причинноследственным связям между этими событиями. Второй компонент двойки – B, представляет собой множество параметров, определяющих сеть – набор таблиц условных вероятностей. Он содержит параметры x | paX Px i | pa X i для i i каждого возможного значения xi из X и p a X из Pa X , где Pa X i обозначает набор родителей переменной X i в G . Каждая переменная X i в графе G представляется в виде вершины. Связи между вершинами сети являются причинно-следственными, т.е. связь A B имеет место, когда событие A является причиной возникновения события B. Такой подход к построению модели позволяет представить выявленные зависимости в терминах вероятности. Графически структура БС может быть i i i 10 представлена в виде дерева, полидерева, решетки, либо сочетания подобных структур. Таким образом, базу знаний о предметной области можно условно представить как комбинацию фрагментов знаний (ФЗ), каждый из которых содержит модель представления вероятностных зависимостей между диагностическими состояниями устройств одного типа. На рис. 1 приведен пример вероятностной модели зависимостей между диагностическими состояниями с указанием априорных и условных вероятностей. P(A)=0,05 P(B)=0,05 P(C)=0,01 B C A P(D|B)=0,5 D P(E|A,C)=0,1 P(G|D,C)=0,2 E P(F|A,D,C)=0,05 G F P(H|F )=0,1 H P(J|F,G)=0,1 P(I|H,F)=0,3 I J P(K|I,J)=0,2 K Рисунок 1. Пример вероятностной модели представления зависимостей Для синтеза предлагаемой сетевой модели разработан комплексный метод ассоциативного анализа данных диагностирования технических устройств, позволяющий выявить зависимости между проявлениями различных диагностических состояний, включающий следующие основные этапы: выбор временного интервала для анализа; загрузка диагностических данных; выбор периода дискретизации временного интервала; преобразование данных из одномерного вида (символьный временной ряд, каждый символ которого представляет событие некоторого типа) 11 к матрице, состоящей из признаков Ei,j проявления анализируемых событий j-го типа за i-й период дискретизации временного интервала; алгоритмическая обработка матрицы признаков Ei,j, позволяющая на основе заданного критерия определить структуру сетевой модели, соответствующую диагностическим данным. В качестве критериев соответствия структуры модели диагностическим данным предлагается использовать минимум длины описания (МДО) модели и модифицированную логарифмическую метрику Купера-Гершковича. Критерий МДО по сути эквивалентен условию минимума неопределенности, вносимой свободными параметрами модели, или иначе говоря – минимальности расхождений между моделью и поведением моделируемого объекта, представленным в виде набора диагностических данных этого объекта. Релизация принципа МДО требует оценки «лаконичности» модели относительно имеющихся данных. Поскольку синтез модели можно интерпретировать как построение описания наблюдаемых данных, то в качестве такой оценки (метрики) выбирается длина полученного описания. Таким образом, принцип МДО формулируется следующим образом: из набора вариантов следует выбрать ту модель, которая позволяет описать данные наиболее коротко. Правила построения описания (и оценка его длины) и будут являться формализацией понятия «адекватности» описания модели. Задача определения длины описания модели выглядит следующим образом. Сначала задается множество обучающих данных 1 2 N D d1 ,d n , di xi xi xi , где n – количество наблюдений, каждое наблюдение состоит из N≥2 переменных X(1), X(2),…, X(N), каждая j-я переменная (j=1,…,N) имеет A j 0,1,, a j 1 a j 2 состояний, каждая структура сети gG представляется N множествами предков (П(1), …, П(N)), т.е. для X(j), П(j) – это множество родительских вершин, такое что П(j) X(1),…, X(N) | X(j). Тогда МДО структуры gG при заданной последовательности из n наблюдений xn=d1 d2 …dn вычисляется по формуле: k 2g log n , L g, xn H g, xn где (1) k(g) – число независимых условных вероятностей в сетевой структуре g, H(g, xn) – эмпирическая энтропия: H g , x n H j, g , x n k g k j, g jJ jJ Длина описания j-й вершины вычисляется по формуле: k j2, g log n ; L j, g , x n H j, g , x n где k(j,g) – количество независимых условных вероятностей j-й вершины k j , g a j 1 a k , k j где j 1, , j 1, j 1, , N т.е. П j X k : k j . – множество индексов вершин-предков X(j), 12 Эмпирическая энтропия j-й вершины вычисляется по формуле: H j, g , x n n sS j , g qA j nq, s, j, g log nq, s, j, g , ns, j, g n ns, j , g I i j s ; nq, s, j , g I xi q, i j s , i 1 i 1 где (j)=П(j) означает X(k)= x(k), k(j), т.е. пребывание множества вершинпредков X(j) в одном из возможных состояний, а функция I(E)=1, когда предикат Е=true, в противном случае I(E)=0. Для исключения необходимости анализа всех альтернативных структур сетевой модели, зададим порядок анализа зависимостей по убыванию значения взаимной информации между парами переменных хi и xj, представленных узлами сети: p( xi , y j ) P( X , Y ) n m . p( xi , y j ) log MI ( X , Y ) MI log (2) P ( X ) P ( Y ) p ( x ) p ( y ) i 1 j 1 i j На рис. 2 приведена блок-схема предлагаемого эвристического алгоритма синтеза сетевой модели зависимостей по диагностическим данным с использованием принципа МДО (1) и предварительным упорядочением связей между событиями, представленными узлами модели, по значению взаимной информации (2). В качестве альтернативного критерия соответствия структуры модели диагностическим данным можно использовать метрику Купера-Гершковича. Пусть Z – множество дискретных переменных, где переменная ziZ имеет ri возможных значений, D – набор данных, содержащий m наблюдений, причем каждое наблюдение содержит значения каждой из переменных ziZ (пропущенных значений нет), а g – модель зависимостей (байесовская сеть), вершины которой соответствуют переменным zi. Каждой вершине Xig соответствует множество родительских вершин i, которое может быть пустым. Пусть φij определяет j-й набор означиваний i относительно D, и существует qi таких означиваний. Определим Nijk как число наблюдений среди D, при которых вершина Xi означивалась, как vij, а i – как φij, ri тогда N i , j N i , j ,k , а расчетная формула метрики К2: k 1 P g, x n Pg N n qi i 1 j 1 ri 1 ! i, j ri 1 ! ri N i , j , k !. k 1 (3) Недостатком такой метрики является сложность вычисления и оперирования факториалами больших чисел, и как одно из следствий – ограниченность объема используемой выборки. Для решения этой проблемы введем и будем использовать модифицированную логарифмическую метрику ЛК2: ri n qi n F g , x log ri 1 ! log N i , j ri 1 ! log N i , j , k ! . (4) i 1 j 1 k 1 13 а) обобщенная блок-схема алгоритма б) блок-схема эвристического алгоритма синтеза модели зависимостей Рисунок 2. Блок-схемы алгоритмов синтеза модели зависимостей Для упрощения вычисления факториалов воспользуемся из свойств гамма-функции Эйлера, а именно: (n 1) n!, => log( n!) log( (n 1)) . одним 14 Для вычисления натурального логарифма гамма-функции существует приближение асимптотического разложения (формула Стирлинга): 1 1 ln( (n)) ln 2 n ln n n . 2 12n Следовательно, используя в формуле (4) натуральные логарифмы, получим: ri n qi F g , x n ln ri ln N i , j ri ln N i , j ,k 1 . (5) i 1 j 1 k 1 По результатам вычислительных экспериментов, использование метрик К2 (3) и ЛК2 (5) на одних и тех же выборках обучающих данных приводит к одинаковым результатам, но использование ЛК2 уменьшает вычислительную сложность алгоритма и позволяет работать с большими выборками данных. Для оценивания качества обучения моделей по наборам данных с помощью разработанных алгоритмов, использующих вышеописанные метрики, воспользуемся способом подсчёта количества лишних, отсутствующих и реверсированных связей в обученной сети по сравнению с оригинальной. В качестве меры ошибки обучения используем значения структурной разности между обученной и оригинальной сетевыми моделями: n n i 1 i 1 i Cardinality i B | i A i A | i B где B – сетевая модель на выходе алгоритма (обученная модель), A – оригинальная модель, n – количество вершин сети, i(B) – множество предков i-й вершины сети B, i(A) – множество предков i-й вершины оригинальной сети A, Сardinality() – мощность конечного множества , которое определяется как количество элементов принадлежащих множеству . В качестве оригинальной модели использована модель зависимостей между диагностическими состояниями, показанная на рис.1 и содержащая 11 вершин. На основе данной модели по методу Монте-Карло сгенерированы наборы обучающих данных по 100, 200, 500 и 1000 записей. Таблица 1. Результаты сравнения работы алгоритмов МДО и ЛК2 Объем выборки Алгоритм Лишние связи Отсутствующие связи Реверсированные связи Структурная разность Время выполнения алгоритма, с 100 МДО 0 1 2 3 15 К2 2 1 1 4 19 200 МДО 0 1 1 2 20 К2 1 1 1 3 27 500 МДО 0 0 1 1 34 К2 1 0 1 2 44 1000 МДО К2 0 0 0 0 1 1 1 1 69 90 15 Далее наборы обучающих данных переданы на вход алгоритмов МДО и ЛК2, синтезированы модели зависимостей, подсчитано количество лишних, отсутствующих и реверсированных связей в моделях, рассчитаны значения структурной разности. Результаты сведены в таблице 1. На основе выполненного сравнения можно сделать вывод о том, что оба алгоритма могут быть использованы для синтеза моделей зависимостей между диагностическими состояниями в составе системы интеллектуального анализа данных, причем лучшими характеристиками (минимальной структурной разностью результирующей модели и быстродействием) обладает алгоритм, построенный на основе критерия МДО. Для повышения информативности модели зависимостей и обеспечения поддержки методов формирования рассуждений на основе неполных данных предлагается дополнить модель атрибутами нечетко-темпорального описания зависимостей между событиями. Формирование нечетко-темпоральных описаний зависимостей осуществляется с помошью следующего разработанного метода. Для описания длительности интервала, разделяющего начальные моменты групп однотипных событий, и количества реализаций однотипных событий в группе, используем лингвистические переменные «длительность» и «частота». Базовые терм-множества этих переменных имеют вид: «длительность» { малая, небольшая, средняя, большая }; «частота» { однократно, несколько, многократно }. Очередность и относительное положение событий во времени представим с помощью интервальных отношений темпоральной логики Аллена: «предшествует»/«следует», «стыкуется»/«начинается со стыка», «перекрывает»/«перекрывается», «начинает»/«начинается», «включается»/ «включает», «завершает»/«завершается», «совпадает». Нечетко-темпоральное описание зависимостей между событиями – это набор четверок TFDD = {«длительность» – Ti , «частота первого события» – F1i , «частота второго события» – F2i , «темпоральное отношение» – Ri } (TFDD – Temporal Fuzzy Dependency’s Description), например зависимость между двумя диагностическими состояниями может быть описывана так: TFDD = { Ti =«малая», F1i =«многократно», F2i =«однократно», Ri =«перекрывает»}. Разработан алгоритм формирования нечетко-темпорального описания зависимости между событиями на основе фрагмента модели, содержащего пару событий, и временного ряда реализации событий (диагностического протокола). Функции принадлежности значений лингвистических переменных заданы с помощью стандартных кусочно-линейных Z-, П- и S-функций. Например, вид функции принадлежности переменной «длительность интервала» показан на рис.3. 16 малая небольшая средняя большая 1 0 5 10 15 T, мин Рисунок 3. Функция принадлежности значений лингвистической переменной «длительность интервала» Для более детального описания обстоятельств перехода устройства в то или иное диагностическое состояние и комплексного анализа данных протокола измеряемых параметров устройства предлагается метод формирования нечетко-темпорального описания изменения параметра объекта диагностирования. Основой метода является нечеткое описание вариантов изменения параметра во времени с учетом темпоральных отношений между элементами данного описания параметров объекта. Для задания нечетких термов введем четыре лингвистических переменных: «начальная величина параметра», «изменение параметра», «длительность изменения», «выход за норму». Базовые терм-множества этих переменных имеют вид: «начальная величина {малый, небольшой, средний, параметра» большой, значительный} «изменение { значительное уменьшение, среднее параметра» уменьшение, малое изменение, среднее увеличение, значительное увеличение} «длительность { малая, небольшая, средняя, большая} изменения» { ниже нормы, на нижней границе, в пределах «выход за норму» нормы, на верхней границе, выше нормы} Для выражения относительного положения изменений параметров во времени используем, как и в предыдущем методе, интервальные отношения темпоральной логики Аллена. Нечеткое описание изменения одного параметра объекта – это последовательность четверок FC = {«начальная величина параметра» – Vi , «изменение параметра» – C i , «длительность изменения» – Ti , «выход за норму» – Ni }, например изменения следующего вида (рис.4) описываются последовательностью, приведенной в табл.2. 17 FC1 FC2 FC3 FC4 FC5 FC6 FC7 FC8 FC9 Рисунок 4. Пример изменения тока перевода стрелки Таблица 2. Последовательность нечетких описаний изменения параметра № 1 2 3 4 5 6 7 8 9 Начальная величина параметра от небольшого от небольшого от большого от среднего от среднего от большого от среднего от среднего от небольшого Изменение параметра малое изменение большое увеличение среднее уменьшение малое изменение среднее увеличение среднее уменьшение малое изменение среднее уменьшение малое изменение Длительность изменения небольшая малая малая средняя малая малая средняя малая средняя Выход за норму в пределах нормы выше нормы в пределах нормы в пределах нормы выше нормы в пределах нормы в пределах нормы в пределах нормы в пределах нормы Предложены алгоритмы формирования нечетко-темпоральных описаний зависимостей между диагностическими состояниями и изменений параметров устройства при смене состояния. В четвертой главе освещены вопросы практической реализации системы интеллектуального анализа данных ТДМ, вошедшей в состав программного обеспечения Дорожного диагностического центра технического диагностирования и мониторинга (ДДЦ ТДМ) Северо-Кавказской железной дороги, а также вспомогательных программных средств. Система ИАД ТДМ состоит из нескольких подсистем (рис.5): база знаний, подсистема анализа диагностических данных и формирования моделей зависимостей между диагностическими состояниями, подсистема формирования нечетко-темпоральных описаний зависимостей ДС, подсистема формирования нечетко-темпоральных описаний изменений параметров устройств, подсистема пользовательского интерфейса. При проектировании подсистем в первую очередь принимались во внимание принципы расширяемости, открытости и высокой степени интеграции с реляционными хранилищами данных. Программное обеспечение системы ИАД реализовано в двухуровневой архитектуре «клиент-сервер», что обеспечивает масштабируемость, надежность хранения и производительность обработки информации на серверном уровне, многопользовательский режим работы. Серверная часть системы включает 18 в себя подсистемы хранения и анализа данных, реализована на базе СУБД MS SQL Server и Windows-служб. Клиентская часть системы выполняет функции подсистемы пользовательского интерфейса, представляет собой приложение для ОС Windows. И серверная, и клиентская части системы реализованы с применением объектно-ориентированного языка программирования C#.NET и языка структурированных запросов SQL. Разработаны структуры базы данных системы диагностирования и базы знаний системы ИАД ТДМ. Представлено описание подсистем, реализующих предложенные методы и алгоритмы, на базе серверных Windows-служб. Приведено описание подсистемы выявления фактов выполнения работ по ТОиР устройств ЖАТ, реализованной на основе СУБД MS SQL Server. Рисунок 5. Архитектура системы ИАД ТДМ Одной из важных задач программного обеспечения ДДЦ ТДМ является задача выявления устойчивых последовательностей смен диагностических состояний контролируемых объектов с целью их классификации силами экспертов, определения необходимых действий по реагированию на ситуацию и дальнейшего выполнения этих действий в автоматическом режиме. Для решения задачи выявления и описания последовательностей была разработана и включена в состав системы ИАД подсистема формирования нечетко-темпоральных описаний смен диагностических состояний. Подсистема состоит из двух основных компонентов: службы оперативного анализа диагностических протоколов и службы анализа диагностических данных, помещенных в хранилище (рис.6). Выявленные паттерны (последовательности нечетко-темпоральных описаний смен диагностических состояний) пополняют базу знаний системы ИАД, и применяются как в качестве источника информации для классификации сбоев устройств, так и в качестве исходных данных для подробного анализа 19 результатов диагностирования объектов станций, выполняемого оперативным персоналом ДДЦ ТДМ. Таймер 1 Таймер 2 Получение новых протоколов Обновление конфигурации и поиск новых последовательностей База диагностических данных Сервер протоколов АДК-СЦБ нет Есть новые протоколы? Перечень сохраненных последовательностей НТО да Поиск соответствий сохраненным последовательностям нет да Найдены соответствия? Классификация сбоев согласно экспертным оценкам, соответствующим последовательностям НТО Рисунок 6. Структурная схема подсистемы формирования НТО зависимостей и классификации сбоев устройств ЖАТ Для выявления фактов проведения работ по техническому обслуживанию и ремонту (ТОиР) выполняется анализ данных диагностирования устройств ЖАТ. Алгоритм отнесения сбоя к ТОиР (рис.7) основан на использовании НТО зависимостей. Для каждого вида работ по ТОиР, проявляющегося как сбой устройства, определяется последовательность правил (НТО зависимостей). Из этих последовательностей формируется таблица в базе знаний системы, и далее, при диагностировании сбоя устройства, выполняется проверка соответствия сбоя последовательности. Вывод о совпадении сбоя с элементом последовательности НТО делается на основании сравнения значения достоверности, вычисляемого как нечеткая конъюнкция значений функций принадлежности при подстановке в них параметров текущего сбоя, с заданным пороговым значением. Комплексный анализ последовательностей сбоев устройств в соответствии с вышеописанным алгоритмом производится на уровне центрального поста диагностирования и мониторинга. В качестве базового программного обеспечения, позволяющего хранить знания и данные и производить оперативный анализ поступающих диагностических данных, используется СУБД MS SQL Server 2005. Взаимодействие с системой АСУ-Ш-2 позволяет успешно решать задачи повышения эффективности функционирования хозяйства СЦБ за счет автоматизации контроля выполнения работ по ТОиР, обеспечения полноты и достоверности оперативной информации. Со стороны СТДМ в АСУ-Ш-2 передаются данные о выявленных сбоях в работе устройств ЖАТ и фактах проведения ТОиР, от АСУ-Ш-2 в СТДМ поступают данные для проведения анализа, например, план технического обслуживания, информация о характеристиках устройств и т.д. Таким образом, взаимодействие системы 20 ТДМ и АСУ-Ш-2 обеспечивает возможность принятия персоналом ДДЦ ТДМ управляющих решений и контроль их выполнения. Запись в хранилище нового сбоя Сбой соответствует очередному элементу одной из последовательностей во временной таблице? нет Сбой соответствует начальному элементу одной из последовательностей? да Фиксация записи о предыдущем сбое нет да Запись о текущем сбое во временную таблицу Является ли текущее правило конечным? нет да Очистка временной таблицы от предыдущих записей текущей группы сбоев Классификация сбоя как работы по ТОиР с достоверностью min(Di) Завершение обработки нового сбоя Рисунок 7. Блок-схема алгоритма выявления работ по ТОиР с использованием метода нечетко-темпорального описания Сформулированы принципы автоматизации формирования информационного (ИО) и адаптации программного обеспечения (ПО) системы ИАД ТДМ и системы СУИВ, выполнен анализ типовой и индивидуальной частей ИО, конфигураций и состава дистрибутива ПО, выполнена разработка соответствующих программных средств. Автоматизация формирования xml-конфигураций ПО СУИВ и ИАД ТДМ позволила исключить ошибки, вызванные «человеческим фактором», внедрить автоматическую проверку корректности ИО по заданным правилам, значительно сократить трудоемкость и временные затраты на подготовку дистрибутивов ПО. Разработаны программные средства контроля рабочих параметров и синхронизации структуры баз данных ДДЦ ТДМ, автоматизированы операции развертывания, создания полных и выборочных копий базы данных. Разработанная подсистема входит в состав программного обеспечения серверов ШД, установленных в ДДЦ ТДМ Северо-Кавказской и Куйбышевской железных дорог. Приведено описание разработанных программных средств автоматизации проектирования диагностических комплексов. Решены задачи автоматизации и контроля ввода исходных данных, проверки целостности и корректности данных при оперативном внесении изменений, автоматизации разработки 21 структурных схем линий связи и электропитания с помощью программного взаимодействия с графической средой САПР AutoCAD. В заключении изложены основные выводы и результаты диссертационной работы. В приложения вынесены примеры xml-конфигурирования структур моделей зависимостей, фрагменты исходного кода разработанных программных средств, а также акты об использовании результатов диссертационной работы в Центре технического диагностирования и мониторинга Северо-Кавказской железной дороги и на научнопроизводственном предприятии «ЮгПромАвтоматизация». ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ В ходе выполнения диссертационной работы получены следующие основные теоретические и практические результаты: 1. Проведенный анализ состояния и актуальных проблем технического диагностирования устройств железнодорожной автоматики и телемеханики, а также современных систем диагностирования, применяемых на транспорте и в других областях, позволил выявить потребность в интеллектуализации систем ТДМ ЖАТ, развитии экспертных функций и применении методов интеллектуального анализа данных, что повысит эффективность работы персонала центров диагностирования и мониторинга, а также обеспечит поддержку принятия решений при обработке внештатных ситуаций на контролируемых объектах. 2. Выполненный анализ существующих подходов к представлению знаний в интеллектуальных системах и методов интеллектуального анализа данных, с учетом требований, предъявляемых к модели знаний о зависимостях между диагностическими состояниями, и основных задач диагностики технических устройств, позволил сделать вывод о целесообразности применения сетевого подхода к представлению знаний и сформулировать общую идею комплексного метода ассоциативного анализа данных 3. Предложена сетевая модель представления зависимостей между диагностическими состояниями устройств ЖАТ, содержащая такие атрибуты, как таблицы условных вероятностей и нечетко-темпоральные описания смен диагностических состояний и изменений измеряемых параметров контролируемых устройств, что позволяет расширить спектр подходов, применяемых при использовании базы знаний выявленных зависимостей для реализации экспертных функций и поддержки принятия решений. 4. Разработан комплексный метод ассоциативного анализа данных и построения сетевой модели зависимостей между диагностическими состояниями, разработаны алгоритмы построения модели зависимостей на основе принципа минимальной длины описания и модифицированной логарифмической метрики Купера-Гершковича. 5. Разработаны методы и алгоритмы формирования нечеткотемпорального описания зависимостей между диагностическими состояниями 22 и описания последовательности изменений параметров контролируемых устройств ЖАТ. 6. Разработана структура системы интеллектуального анализа данных, включающая подсистемы анализа диагностических данных и формирования моделей зависимостей между диагностическими состояниями, формирования нечетко-темпоральных описаний зависимостей ДС, формирования нечеткотемпоральных описаний изменений параметров устройств, подсистему пользовательского интерфейса и базу знаний. 7. Сформулированы принципы и разработаны программные средства автоматизации формирования информационного и адаптации программного обеспечения системы ИАД-ТДМ, контроля рабочих параметров баз данных, автоматизации проектирования диагностических комплексов. ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИОННОЙ РАБОТЫ Издания, рекомендованные ВАК: 1. Горишний, Д.В. Cистема интеллектуального анализа данных технического диагностирования устройств железнодорожной автоматики и телемеханики / Д.В. Горишний // Вестник Ростовского государственного университета путей сообщения, 2010. – №2. – С. 73-79. 2. Горишний, Д.В. Алгоритм выявления зависимостей между сбоями устройств железнодорожной автоматики и телемеханики / Д.В. Горишний, Э.А.Мамаев // Наука и техника транспорта, 2010. – №2. – С. 60-72. 3. Горишний, Д.В. Эвристический алгоритм синтеза модели зависимостей между событиями / Д.В. Горишний // Вестник Донского государственного технического университета, 2010 – №5. – С. 683-691. 4. Горишний, Д.В. Моделирование структуры зависимостей между сбоями устройств железнодорожной автоматики и телемеханики / Д.В. Горишний // Известия вузов. Северо-Кавказский регион. Технические науки, 2010. – №5. – С. 3-6. Другие издания: 5. Горишний Д.В. Автоматизация проектирования линий связи железнодорожных диагностических комплексов / Д.В. Горишний // Тезисы докладов международной школы-конференции по приоритетным направлениям развития науки и техники. – Москва: РГУИТП, 2006. – С. 21-22. 6. Горишний, Д.В. Автоматизация учета выполнения работ по техническому обслуживанию устройств СЦБ / Д.В. Горишний, С.А.Рухленко // Труды Всерос. научно-практ. конф. «Транспорт-2006». – Ростов-н/Д: РГУПС, 2006. – С. 249-250. 7. Горишний, Д.В. Подсистема анализа и визуализации статистических данных по аварийным ситуациям на устройствах железнодорожной автоматики и телемеханики / Д.В. Горишний // Сборник докладов 6-й Международной научно-практической конференции «ТелекомТранс-2008». – Ростов-н/Д: РГУПС, 2008. – С. 60-64. 23 8. Горишний, Д.В. Разработка подсистемы управления структурой и синхронизации баз данных / Д.В. Горишний // Труды Всерос. научно-практ. конф. «Транспорт-2009». – Ростов-н/Д: РГУПС, 2009. – С. 50-51. 9. Горишний, Д.В. Разработка базы знаний системы технического диагностирования и мониторинга на основе байесовских сетей доверия // Труды международной научно-практ. конф. «Проблемы и перспективы развития транспортного комплекса». – Ростов-н/Д: РГУПС, 2009. – С. 317-318. 10. Горишний, Д.В. Методы интеллектуального анализа данных для систем технического диагностирования и мониторинга / Д.В. Горишний // Труды РГУПС. – 2009. – № 1. – С. 35-40. 11. Горишний, Д.В. Синтез модели зависимостей между событиями на основе критерия описания минимальной длины / Д.В. Горишний // Сборник докладов XI Международной научно-технической конференции «Кибернетика и высокие технологии XXI века». – Воронеж, 2010. – Т.2 – С. 898-908. 12. Горишний, Д.В. Экономика и технология систем технического диагностирования устройств железнодорожной автоматики и телемеханики / Д.В. Горишний // Труды Всерос. научно-практ. конф. «Транспорт-2010». – Ростов-н/Д: РГУПС, 2010. – С. 187-188. 13. Горишний, Д.В. Автоматизация формирования xml-конфигураций программного обеспечения сервера унифицированного информационного взаимодействия / Д.В. Горишний // Сборник докладов 7-й Международной научно-практической конференции «ТелекомТранс-2010». – Ростов-н/Д: РГУПС, 2010. – С. 135-139. 14. Горишний, Д.В. Разработка подсистемы выявления зависимостей между сбоями устройств ЖАТ / Д.В. Горишний, Э.А. Мамаев // Сборник докладов 7-й Международной научно-практической конференции «ТелекомТранс-2010». – Ростов-н/Д: РГУПС, 2010. – С. 139-146. 15. Горишний Д.В. Интеллектуальная система поддержки принятия решений для управления процессом технического обслуживания / Д.В. Горишний / Д.В. Горишний, Э.А. Мамаев // Труды Всерос. научно-практ. конф. «Математические методы и интеллектуальные системы в экономике и образовании». – Ижевск, 2010. – С. 103-106. 16. Горишний, Д.В. Автоматизация управления техническим обслуживанием устройств железнодорожной автоматики и телемеханики / Д.В. Горишний // Труды XI Всеросс. научно-техн. конф. «Научные исследования и разработки в области авиационных, космических и транспортных систем». – Воронеж, 2010. – С. 124-125. 17. Горишний, Д.В. Методы синтеза вероятностной модели зависимостей / Д.В. Горишний // Труды XIV Международной научно-практ. конф. «Актуальные проблемы информатики и информационных технологий». – Тамбов, 2010. – С. 345-347. Личный вклад автора в работах, выполненных в соавторстве: /2/ - разработка модели зависимостей, алгоритма синтеза модели и программного обеспечения; /6/ - разработка алгоритмов и программного обеспечения; /14/ - обзор методов анализа данных, разработка структур подсистемы и базы знаний; /16/ - описание функциональности ДДЦ ТДМ. Горишний Дмитрий Владимирович МЕТОДЫ И АЛГОРИТМЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ДЛЯ СИСТЕМ ДИАГНОСТИРОВАНИЯ УСТРОЙСТВ ЖЕЛЕЗНОДОРОЖНОЙ АВТОМАТИКИ Специальность: 05.13.06 – Автоматизация и управление технологическими процессами и производствами (на транспорте) Автореферат диссертации на соискание ученой степени кандидата технических наук Подписано к печати ______ 2010г. Формат бумаги 60x84/16 Бумага офсетная. Ризография. Усл.печ.л. 1,0. Тираж 100. Заказ № Ростовский государственный университет путей сообщения. Ризография РГУПС. 344038, г. Ростов-на-Дону, пл. Ростовского Стрелкового Полка Народного Ополчения, 2.