ИСПОЛЬЗОВАНИЕ МЕТОДОЛОГИИ DATA MINING ПРИ РЕШЕНИИ ЗАДАЧ ОБРАБОТКИ СОЦИАЛЬНЫХ ДАННЫХ Доцент кафедры прикладных информационных технологий Института общественных наук РАНХиГС к.т.н., доцент Мосягин Александр Борисович [email protected] Введение 2 Сегодня в прикладных социологических исследованиях происходит настоящая революция, связанная с появлением принципиально новых источников данных, прежде всего основанных на т.н. объективной регистрации реального поведения людей. На основе новых информационных технологий различные субъекты (госорганы и бизнес-структуры) собирают огромные массивы данных (Big Data), которые используются в социальной диагностике и прикладных исследованиях. Аналитики даже предрекают смерть традиционным методам социологических исследований, в большей мере основанным на субъективной информации, получаемой в ходе разного рода опросов. Существует хорошее высказывание, что "За последние годы, когда, стремясь к повышению эффективности и прибыльности бизнеса, при создании БД все стали пользоваться средствами обработки цифровой информации, появился и побочный продукт этой активности - горы собранных данных: И вот все больше распространяется идея о том, что эти горы полны золота". В прошлом процесс добычи золота в горной промышленности состоял из выбора участка земли и дальнейшего ее просеивания большое количество раз. 1 Понятие Data Mining 3 Термин Data Mining часто переводится как добыча данных, извлечение информации, раскопка данных, интеллектуальный анализ данных, средства поиска закономерностей, извлечение знаний, анализ шаблонов, раскопка знаний в базах данных. Понятие "обнаружение знаний в базах данных" (Knowledge Discovery in Databases, KDD) можно считать синонимом Data Mining. Понятие Data Mining, появившееся в 1978 году, приобрело высокую популярность в современной трактовке примерно с первой половины 1990-х годов. До этого времени обработка и анализ данных осуществлялся в рамках прикладной статистики, при этом в основном решались задачи обработки небольших баз данных. 2 4 Факторы возникновения и развития Data Mining совершенствование аппаратного и программного обеспечения; совершенствование технологий хранения и записи данных; накопление большого количества ретроспективных данных; совершенствование алгоритмов обработки информации. 3 Определение Data Mining 5 Data Mining- это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации), т.е. это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретаций знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Методология Data Mining – это мультидисциплинарная область, возникшая и развивающаяся на базе таких наук как прикладная статистика, распознавание образов, искусственный интеллект, теория баз данных и др. 4 6 Data Mining как мультидисциплинарная область 5 Основа технологии Data Mining 7 Концепция шаблонов (patterns), которые представляют собой закономерности, свойственные выборкам данных, которые могут быть выражены в форме, понятной человеку. Цель поиска закономерностей – представление данных в виде, отражающем искомые процессы. Построение моделей прогнозирования также является целью поиска таких закономерностей. Чтобы максимально использовать мощность масштабируемых инструментов Data Mining, в социологических исследованиях необходимо выбрать, очистить и преобразовать данные, иногда интегрировать информацию, добытую из внешних источников, и установить специальную среду для работы Data Mining алгоритмов. 6 Технология Data Mining 8 Data Mining - это процесс поддержки принятия решений, в данных скрытых закономерностей ( шаблонов информации). основанный на поиске Технологию Data Mining достаточно точно определяет Григорий Пиатецкий-Шапиро (Gregory Piatetsky-Shapiro) - один из основателей этого направления: Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Суть и цель технологии Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей. Неочевидных - это значит, что найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем. Объективных - это значит, что обнаруженные закономерности будут полностью соответствовать действительности, в отличие от экспертного мнения, которое всегда является субъективным. Практически полезных - это значит, что выводы имеют конкретное значение, которому можно найти практическое применение. Знания - совокупность сведений, которая образует целостное описание, соответствующее некоторому уровню осведомленности об описываемом вопросе, предмете, проблеме и т.д. Использование знаний (knowledge deployment) означает действительное применение найденных знаний для достижения конкретных преимуществ (например, в конкурентной борьбе за рынок). 7 Data Mining как часть рынка информационных технологий 9 Агентство Gartner Group, занимающееся анализом рынков информационных технологий, в 1980-х годах ввело термин " Business Intelligence " (BI), деловой интеллект или бизнес-интеллект. Этот термин предложен для описания различных концепций и методов, которые улучшают бизнес решения путем использования систем поддержки принятия решений. Business Intelligence - программные средства, функционирующие в рамках предприятия и обеспечивающие функции доступа и анализа информации, которая находится в хранилище данных, а также обеспечивающие принятие правильных и обоснованных управленческих решений. BI-системы также известны под названием Систем Поддержки Принятия Решений (СППР, DSS, Decision Support System). Эти системы превращают данные в информацию, на основе которой можно принимать решения, т.е. поддерживающую принятие решений. Gartner Group определяет состав рынка систем Business Intelligence как набор программных продуктов следующих классов: средства построения хранилищ данных (data warehousing, ХД); системы оперативной аналитической обработки (OLAP); информационно-аналитические системы (Enterprise Information Systems, EIS); средства интеллектуального анализа данных (data mining); инструменты для выполнения запросов и построения отчетов (query and reporting tools). 8 Мнение экспертов о Data Mining 10 Руководство по приобретению продуктов Data Mining (Enterprise Data Mining Buying Guide) компании Aberdeen Group: " Data Mining - технология добычи полезной информации из баз данных. Однако в связи с существенными различиями между инструментами, опытом и финансовым состоянием поставщиков продуктов, предприятиям необходимо тщательно оценивать предполагаемых разработчиков Data Mining и партнеров. Чтобы максимально использовать мощность масштабируемых инструментов Data Mining коммерческого уровня, предприятию необходимо выбрать, очистить и преобразовать данные, иногда интегрировать информацию, добытую из внешних источников, и установить специальную среду для работы Data Mining алгоритмов. Результаты Data Mining в большой мере зависят от уровня подготовки данных, а не от "чудесных возможностей" некоего алгоритма или набора алгоритмов. Около 75% работы над Data Mining состоит в сборе данных, который совершается еще до того, как запускаются сами инструменты. Неграмотно применив некоторые инструменты, предприятие может бессмысленно растратить свой потенциал, а иногда и миллионы долларов". Мнение Херба Эдельштайна (Herb Edelstein), известного в мире эксперта в области Data Mining, Хранилищ данных и CRM: "Недавнее исследование компании Two Crows показало, что Data Mining находится все еще на ранней стадии развития. Многие организации интересуются этой технологией, но лишь некоторые активно внедряют такие проекты. Удалось выяснить еще один важный момент: процесс реализации Data Mining на практике оказывается более сложным, чем ожидается. IT-команды увлеклись мифом о том, что средства Data Mining просты в использовании. Предполагается, что достаточно запустить такой инструмент на терабайтной базе данных, и моментально появится полезная информация. На самом деле, успешный Data Mining-проект требует понимания сути деятельности, знания данных и инструментов, а также процесса анализа данных ". 9 Недостатки технологии Data Mining 11 Data Mining не может заменить аналитика Сложность разработки и эксплуатации приложения Data Mining Квалификация пользователя Извлечение полезных сведений невозможно без хорошего понимания сути данных Сложность подготовки данных Большой процент ложных, недостоверных или бессмысленных результатов Высокая стоимость Наличие достаточного количества репрезентативных данных 10 Отличия Data Mining от других методов анализа данных 12 Традиционные методы анализа данных (статистические методы) и OLAP в основном ориентированы на проверку заранее сформулированных гипотез (verificationdrivendata mining) и на "грубый" разведочный анализ, составляющий основу оперативной аналитической обработки данных (OnLine Analytical Processing, OLAP), в то время как одно из основных положений Data Mining поиск неочевидных закономерностей. Инструменты Data Mining могут находить такие закономерности самостоятельно и также самостоятельно строить гипотезы о взаимосвязях. Поскольку именно формулировка гипотезы относительно зависимостей является самой сложной задачей, преимущество Data Mining по сравнению с другими методами анализа является очевидным. Большинство статистических методов для выявления взаимосвязей в данных используют концепцию усреднения по выборке, приводящую к операциям над несуществующими величинами, тогда как Data Mining оперирует реальными значениями. OLAP больше подходит для понимания ретроспективных данных, Data Mining опирается на ретроспективные данные для получения ответов на вопросы о будущем. 11 Перспективы технологии Data Mining 13 Относительно перспектив направления развития: Data Mining возможны следующие выделение типов предметных областей с соответствующими им эвристиками, формализация которых облегчит решение соответствующих задач Data Mining, относящихся к этим областям; создание формальных языков и логических средств, с помощью которых будут формализованы рассуждения и автоматизация которых станет инструментом решения задач Data Mining в конкретных предметных областях; создание методов Data Mining, способных не только извлекать из данных закономерности, но и формировать некие теории, опирающиеся на эмпирические данные ; преодоление существенного отставания возможностей инструментальных средств Data Mining от теоретических достижений в этой области. 12 Классификация стадий Data Mining 14 Data Mining может состоять из двух или трех стадий : Стадия 1. Выявление закономерностей ( свободный поиск ). Стадия 2. Использование выявленных закономерностей для предсказания неизвестных значений ( прогностическое моделирование ). В дополнение к этим стадиям иногда вводят стадию валидации, следующую за стадией свободного поиска. Цель валидации - проверка достоверности найденных закономерностей. Стадия 3. Анализ исключений - стадия предназначена для выявления и объяснения аномалий, найденных в закономерностях. Итак, процесс Data Mining последовательных стадий: может быть представлен СВОБОДНЫЙ ПОИСК (в том числе ВАЛИДАЦИЯ) -> -> ПРОГНОСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ -> -> АНАЛИЗ ИСКЛЮЧЕНИЙ рядом таких 13 Классификация методов Data Mining 15 Технологические методы: 1. Непосредственное использование данных, или сохранение данных. 2. Выявление и использование формализованных закономерностей, или дистилляция шаблонов. Статистические методы: 1. Дескриптивный анализ и описание исходных данных. 2. Анализ связей (корреляционный анализ, дисперсионный анализ). 3. Многомерный статистический анализ (компонентный анализ, дискриминантный анализ, многомерный регрессионный анализ, канонические корреляции и др.). 4. Анализ временных рядов (динамические модели и прогнозирование). и регрессионный анализ, факторный Кибернетические методы: искусственные нейронные сети (распознавание, кластеризация, прогноз); эволюционное программирование (в т.ч. алгоритмы метода группового учета аргументов); генетические алгоритмы (оптимизация); ассоциативная память (поиск аналогов, прототипов); нечеткая логика; деревья решений; системы обработки экспертных знаний. Методы Data Mining также можно классифицировать по задачам Data Mining: В соответствии с такой классификацией выделяют две группы. Первая из них - это подразделение методов Data Mining на решающие задачи сегментации (т.е. задачи классификации и кластеризации) и задачи прогнозирования. 14 Поставщики Data Mining 16 15 17 Программные пакеты с инструментами Data Mining STATA, S-PLUS, Stadia, STATGRAPHICS, SYSTAT, Minitab SPSS (SPSS, Clementine), Statistica (StatSoft), SAS Institute (SAS Enterprise Miner), Cognos 16 Заключение 18 Области, где применения технологии Data Mining, скорее всего, будут успешными, имеют такие особенности: требуют решений, основанных на знаниях; имеют изменяющуюся окружающую среду; имеют доступные, достаточные и значимые данные; обеспечивают высокие дивиденды от правильных решений. И все эти характеристики присущи социологии. Таким образом, технология Data Mining постоянно развивается, привлекает к себе все больший интерес, как со стороны научного мира, так и со стороны применения достижений технологии в бизнесе, социологических исследованиях. С сентября 2014 г. в Институте общественных наук создана и успешно функционирует кафедра Прикладных информационных технологий, состоящей из математиков-информатиков, обладающих большим опытом использования, разработки и внедрения информационных технологий в различные прикладные области. В том числе, есть и специалисты, способные обучать и передавать знания методологии Data Mining, особенностей использования алгоритмов и инструментов программных приложений для обработки и анализа структурированных данных. 17 Литература 19 1. Encyclopedia of Data Warehousing and Mining. – Idea Group Inc., 2006. 2. Vercellis C. Business Intelligence: Data Mining and Optimization for Decision Making. – Wiley Publishing, Inc., 2009. 3. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям: Учебное пособие. 2-е изд., испр. – СПб: Питер, 2013. – 704 с. 4. Сайт http://www.kdnuggets.com/ - современные технологии использования Data Mining в прикладных областях, особенности применения инструментария технологии 5. Сайт http://www.knowldiscovery.com/ - периодические издания по Data Mining // Data Mining and Knowledge Discovery. 18