Методы интеллектуального анализа данных и некоторые их приложения1 д.ф.м.н., профессор Игорь Машечкин к.ф.м.н., доцент Михаил Петровский, Московский Государственный Университет, факультет вычислительной математики и кибернетики, лаборатория «Технологий программирования» E-mail: [email protected] С развитием и повсеместным внедрением информационных технологий увеличивается объем и сложность хранимой информации. Происходит так называемый эффект “Data Explosion”, т.е. возникает ситуация когда размер и сложная структура хранимых данных не позволяют эксперту извлекать из них полезную информацию с помощью традиционных инструментов анализа, основанных на теории информационного поиска и математической статистике. В связи с этим возникает необходимость в разработке программных средств автоматизированного анализа данных большого объема. Для этого используются системы интеллектуального анализа данных (ИАД, англ. Data Mining), задача которых заключается в выявлении скрытых, нетривиальных, содержательных закономерностей в больших объемах разнородных, сложно структурированных данных [1]. ИАД объединяет совокупность методов и технологий из различных областей знаний, включая статистический анализ, методы машинного обучения и искусственного интеллекта, информационный поиск, технологии построения и организации хранилищ и баз данных, а также методы визуализации информации и верификации моделей. Эти методы и технологии используются в системах ИАД для решения задач: классификации, прогнозирования, кластерного анализа, поиска исключений, выявления трендов и других. В первой части доклада даётся краткий обзор ИАД, включая основные определения, термины и области практического применения, вводится понятие процесса ИАД и типовой архитектуры программной системы ИАД, обсуждаются задачи ИАД и методы их решения, делается попытка позиционировать системы ИАД среди множества существующих программных аналитических систем [1]. Вторая часть доклада посвящена практическим проектам, выполняемым в лаборатории «Технологий программирования» ВМиК МГУ, по разработке и реализации прикладных программных систем, основанных на технологии ИАД, в таких областях как: компьютерная безопасность [2-5]: использование методов ИАД для обнаружения внутренних и внешних вторжений, моделирование и анализ поведения пользователей компьютерных систем; электронный документооборот [6-8]: интеллектуальная фильтрация и рубрикация электронной почты, анализ и многотемная классификация HTTP трафика, автоматическое аннотирование и рубрикация электронных документов; анализ производственных и технологических процессов [9]: применение ИАД для выявления нештатных ситуаций, а также для прогнозирования и оценки качества; системы поддержки принятия решений: использование технологии ИАД в составе ПО ситуационных центров. Литература 1. 1 Han J., Kamber M. Data Mining: Concepts and Techniques // Morgan Kaufmann, 2000. http://synthesis.ipi.ac.ru/sigmod/seminar/s20090226 2. Петровский М.И. Алгоритмы выявления исключений в системах интеллектуального анализа данных //Журнал «Программирование», Москва, 2003, №4, сc. 66-80. 3. Mikhail Petrovskiy. Fuzzy Kernel-based Method for Real-time Network Intrusion Detection //Springer-Verlag, Lecture Notes in Computer Science, 2003, vol. 2887, pp. 189-200. 4. Машечкин И.В., Петровский М.И., Трошин С.В., Шестимеров А.А. Система мониторинга и анализа поведения пользователей компьютерной системы // САИТ-2007. Системный анализ и информационные технологии, Обнинск, 2007, сс. 183-187 5. Mikhail Petrovskiy. A Data Mining Approach to Learning Probabilistic User Behavior Models from Database Access Log. // Springer-Verlag, Software and Data Technologies (Selected Papers), 2008, vol. 10, pp. 323-332. 6. Igor Mashechkin, Mikhail Petrovskiy and Andrey Rozinkin. Enterprise Anti-spam Solution Based on Machine Learning Approach // Proceedings of 7th International Conference on Enterprise Information Systems, USA, Miami, 2005, Vol. 2, pp.188-193. 7. М.И. Петровский, В.В. Глазкова, Алгоритмы машинного обучения для задачи анализа и рубрикации электронных документов//Журнал "Вычислительные методы и программирование", 2007, Т.8, сс. 57-69. 8. Машечкин И.В., Петровский М.И., Глазкова В.В., Масляков В.А. Концепция построения систем анализа и фильтрации Интернет-трафика на основе методов интеллектуального анализа данных //Математические методы распознавания образов: 13я Всероссийская конференция. М.: МАКС Пресс, 2007, сс. 494-496 9. Р.В. Курынин, И.В. Машечкин, М.И. Петровский. Применение модифицированного метода нечетких деревьев решений для анализа и прогнозирования качества продукции в производственном процессе.// Международная научная конференция «Проблемы кибернетики и информатики», Азербайджан, Баку, 2006, cc. 49-52.