Л 2: Введение в Data Mining
"За последние годы, когда, стремясь к повышению
эффективности и прибыльности бизнеса, при
создании БД все стали пользоваться средствами
обработки цифровой информации, появился и
побочный продукт этой активности - горы
собранных
данных:
И
вот
все
больше
распространяется идея о том, что эти горы
полны золота".
Определение Data Mining
Data Mining - это процесс обнаружения в сырых данных ранее
неизвестных, нетривиальных, практически полезных и доступных
интерпретации знаний, необходимых для принятия решений в
различных сферах человеческой деятельности.
Суть и цель технологии Data Mining можно охарактеризовать так: это
технология, которая предназначена для поиска в больших объемах
данных неочевидных, объективных и полезных на практике
закономерностей. Неочевидных - это значит, что найденные
закономерности не обнаруживаются стандартными методами
обработки информации или экспертным путем. Объективных - это
значит, что обнаруженные закономерности будут полностью
соответствовать действительности, в отличие от экспертного мнения,
которое всегда является субъективным. Практически полезных - это
значит, что выводы имеют конкретное значение, которому можно
найти практическое применение.
Data Mining как мультидисциплинарная область
• Понятие Статистики. Статистика - это наука о методах сбора данных, их
обработки и анализа для выявления закономерностей, присущих
изучаемому явлению.
Статистика является совокупностью методов планирования эксперимента,
сбора данных, их представления и обобщения, а также анализа и получения
выводов на основании этих данных. Статистика оперирует данными,
полученными в результате наблюдений либо экспериментов. Одна из
последующих глав будет посвящена понятию данных.
• Понятие Машинного обучения. Единого определения машинного обучения
на сегодняшний день нет.
Машинное обучение можно охарактеризовать как процесс получения
программой новых знаний. Митчелл в 1996 году дал такое определение:
"Машинное обучение - это наука, которая изучает компьютерные алгоритмы,
автоматически улучшающиеся во время работы".
Одним из наиболее популярных примеров алгоритма машинного обучения
являются нейронные сети.
Сравнение статистики, машинного обучения и Data
Mining
Статистика
Более, чем Data Mining, базируется на теории.
Более сосредотачивается на проверке гипотез.
Машинное обучение
Более эвристично.
Концентрируется на улучшении работы агентов
обучения.
Data Mining
Интеграция теории и эвристик.
Сконцентрирована
на
едином
процессе
анализа данных, включает очистку данных,
обучение, интеграцию и визуализацию результатов.
Развитие технологии баз данных
1960-е гг.
В 1968 году была введена в эксплуатацию первая промышленная СУБД система IMS
фирмы IBM.
1970-е гг.
В 1975 году появился первый стандарт ассоциации по языкам систем
обработки данных - Conference on Data System Languages (CODASYL), определивший
ряд фундаментальных понятий в теории систем баз данных, которые до сих пор
являются основополагающими для сетевой модели данных. В дальнейшее развитие
теории баз данных большой вклад был сделан американским математиком Э.Ф.
Коддом, который является создателем реляционной модели данных.
1980-е гг.
В течение этого периода многие исследователи экспериментировали с новым
подходом в направлениях структуризации баз данных и обеспечения к ним доступа.
Целью этих поисков было получение реляционных прототипов для более простого
моделирования данных. В результате, в 1985 году был создан язык, названный SQL.
На сегодняшний день практически все СУБД обеспечивают данный интерфейс.
1990-е гг.
Появились специфичные типы данных - "графический образ", "документ", "звук",
"карта". Типы данных для времени, интервалов времени, символьных строк с
двухбайтовым представлением символов были добавлены в язык SQL. Появились
технологии DataMining, хранилища данных, мультимедийные базы данных и webбазы данных.
Возникновение и развитие Data
Mining обусловлено различными факторами,
основными среди которых являются следующие
• совершенствование аппаратного и программного
обеспечения;
• совершенствование технологий хранения и
записи данных;
• накопление большого количества
ретроспективных данных;
• совершенствование алгоритмов обработки
информации.
Понятие Data Mining
Data Mining - это процесс поддержки принятия решений,
основанный
на
поиске
в данных скрытых закономерностей (шаблонов информации.
Технологию Data Mining достаточно точно определяет
Григорий Пиатецкий-Шапиро (Gregory Piatetsky-Shapiro) - один
из основателей этого направления:
Data
Mining
это
процесс
обнаружения
в
сырых
данных
ранее
неизвестных,
нетривиальных,
практически полезных и доступных интерпретации знаний,
необходимых для принятия решений в различных сферах
человеческой деятельности.
Суть и цель технологии Data Mining можно охарактеризовать
так: это технология, которая предназначена для поиска в
больших объемах данных неочевидных, объективных и
полезных на практике закономерностей.
Неочевидных - это значит, что найденные закономерности не
обнаруживаются стандартными методами обработки информации или
экспертным путем.
Объективных - это значит, что обнаруженные закономерности будут
полностью соответствовать действительности, в отличие от
экспертного мнения, которое всегда является субъективным.
Практически полезных - это значит, что выводы имеют конкретное
значение, которому можно найти практическое применение.
Знания - совокупность сведений, которая образует целостное
описание, соответствующее некоторому уровню осведомленности об
описываемом вопросе, предмете, проблеме и т.д.
Использование
знаний
(knowledge
deployment)
означает
действительное применение найденных знаний для достижения
конкретных преимуществ (например, в конкурентной борьбе за
рынок).
Анализ бизнес
информации – основные
принципы
Последовательность работы
Выдвижение гипотез
Сбор и систематизация данных
Построение модели, объясняющей
имеющиеся факты
Тестирование модели и интерпретация
результатов
Применение полученной модели
Способы анализа данных
Главным лицом в процессе анализа
данных является эксперт – специалист в
предметной области.
Несмотря на то, что существует
большое количество аналитических
задач, методы их решения можно
поделить на 2 категории:
Извлечение и визуализация данных
Построение и использование моделей
Общая схема анализа
Эксперт (специалист в предметной области)
Гипотеза (предположение)
Извлечение и
визуализация:
OLAP, таблицы,
диаграммы, карты…
Построение моделей:
прогнозирование,
кластеризация,
классификация…
Интерпретация результатов
Визуализация данных
В случае визуализации эксперт формулирует
некоторым образом запрос к системе, извлекает
нужную информацию из различных источников и
просматривает полученные результаты.
На основе имеющихся сведений он делает
выводы, которые и являются результатом
анализа. Существует множество способов
визуализации данных:
OLAP (кросс-таблицы и кросс-диаграммы)
Таблицы, диаграммы, гистограммы
Карты, проекции, срезы и прочие
Достоинства и недостатки
визуализации
Достоинства:
•Простота создания
•Работа на данных малого объема и низкого качества
•Возможность использования экспертных знаний
Недостатки:
•Неспособность обрабатывать большие объемы
•Неспособность анализа сложных закономерностей
•Сильная зависимость от конкретного эксперта
•Отсутствие возможности тиражирования
Построение моделей
Построение моделей является универсальным
способом изучения окружающего мира. Этот
способ позволяет обнаруживать зависимости,
прогнозировать, разбивать на группы и решать
множество других интеллектуальных задач.
Но самое главное, что полученные таким образом
знания можно тиражировать, т.е. построенную
одним человеком модель могут применять другие
без необходимости понимания методик, при
помощи которых эти модели построены.
Методика извлечения знаний
Несмотря на большое количество
разнообразных бизнес-задач почти все они
решаются по единой методике. Эта методика
называется Knowledge Discovery in Databases.
Она описывает не конкретный алгоритм или
математический аппарат, а
последовательность действий, которую
необходимо выполнить для построения
модели (извлечения знания). Данная методика
не зависит от предметной области, это набор
атомарных операций, комбинируя которые
можно получить нужное решение.
Knowledge Discovery in
Databases
Источники данных
Исходные данные
Выборка
Очищенные данные
Очистка
Трансформация
Трансформированные данные
Data Mining
Модели (шаблоны)
Знания
Интерпретация
KDD – выборка данных
Первым шагом в анализе является получение
исходной выборки. На основе этих данных и
строятся модели. На этом шаге необходимо
активное участие эксперта для выдвижения
гипотез и отбора факторов, влияющих на
анализируемый процесс. Желательно, чтобы
данные были уже собраны и консолидированы.
Крайне необходимо наличие удобных механизмов
подготовки выборок.
Чаще всего в качестве источника рекомендуется
использовать специализированное хранилище
данных, агрегирующее всю необходимую для
анализа информацию.
KDD – очистка данных
Реальные данные для анализа редко бывают
хорошего
качества.
Необходимость
предварительной обработки при анализе данных
возникает независимо от того, какие технологии и
алгоритмы используются. Более того, эта задача
может представлять самостоятельную ценность в
областях,
не
имеющих
непосредственного
отношения к анализу данных.
К задачам очистки относятся:
•Заполнение пропусков и редактирование аномалий
•Сглаживание, очистка от шумов
•Редактирование дубликатов и противоречий
•Устранение незначащих факторов
и прочее…
KDD – трансформация данных
Трансформация данных – последний этап перед,
собственно, анализом. Различные алгоритмы
анализа
требуют
специальным
образом
подготовленные
данные,
например,
для
прогнозирования
необходимо
преобразовать
временной ряд при помощи скользящего окна.
Задачи трансформации данных:
•Скользящее окно
•Приведение типов
•Выделение временных интервалов
•Преобразование непрерывных значений в
дискретные и наоборот
•Сортировка, группировка, агрегация
и прочее…
KDD – Data Mining
Data Mining – это процесс обнаружения в «сырых»
данных, ранее неизвестных и нетривиальных,
практически
полезных
и
доступных
интерпретации
знаний,
необходимых
для
принятия
решений
в
различных
сферах
человеческой деятельности.
Информация, найденная в процессе применения
методов Data Mining, должна быть нетривиальной
и ранее неизвестной, например, средние продажи
не являются таковыми. Знания должны
описывать новые связи между свойствами,
предсказывать значения одних признаков на
основе других.
Data Mining – задачи
Задачи, решаемые методами Data Mining:
Классификация – это отнесение объектов к
одному из заранее известных классов.
Регрессия
–
установление
зависимости
непрерывных выходных переменных от входных
значений.
Кластеризация – объекты внутри кластера
должны быть «похожими» друг на друга и
отличаться от объектов, вошедших в другие
кластеры.
Ассоциация – нахождение зависимости, что из
события X следует событие Y.
Последовательность
–
установление
зависимостей между связанными во времени
событиями.
Можно говорить еще и о задаче анализа отклонений –
выявление наиболее нехарактерных шаблонов.
Data Mining – алгоритмы
Для решения вышеописанных задач
используются различные методы и алгоритмы
Data Mining. Ввиду того, что Data Mining
развивался и развивается на стыке таких
дисциплин, как статистика, теория информации,
машинное обучение, теория баз данных, вполне
закономерно, что большинство алгоритмов и
методов Data Mining были разработаны на основе
различных методов из этих дисциплин.
На сегодня наибольшее распространение
получили самообучающиеся методы и машинное
обучение.
KDD – интерпретация
В случае, когда извлеченные знания непрозрачны
для пользователя, должны существовать методы
постобработки, позволяющие привести их к
интерпретируемому виду.
Для оценки качества полученной модели нужно
использовать как формальные методы оценки,
так и знания эксперта.
Полученные модели являются по сути
формализованными знаниями эксперта, поэтому
их можно тиражировать.
Достоинства и недостатки
моделей
Достоинства:
•Возможность тиражирования знаний
•Обработка огромных объемов данных
•Обнаружение нетривиальных закономерностей
•Формализация процесса принятия решений
Недостатки:
•Строгие требования к качеству и количеству данных
•Неспособность
анализировать
нестандартные
случаи
•Высокие требования к знаниям эксперта
Аналитическая система
Наиболее оптимальной с точки зрения
гибкости, возможностей и простоты
использования является аналитическая
система состоящая из хранилища данных,
механизмов визуализации и методов
построения моделей.
Подобная система позволяет
комбинировать подходы к анализу данных.
На стыке использования различных
методов анализа получаются наиболее
интересные результаты.
Схема аналитической системы
Учетные системы
СУБД
Документы
Интернет
Хранилище данных
Извлечение данных
Построение моделей:
Визуализация:
Регулярная отчетность,
нерегламентированные
запросы
Очистка, трансформация,
кластеризация, классификация,
регрессия, ассоциация,
последовательность
Интерпретация результатов
Решаемые бизнес-задачи
Подавляющее большинство бизнес-задач
сводится к комбинированию описанных методов.
Фактически, ранее были описаны базовые блоки,
из которых собирается практически любое
бизнес-решение:
•План-факторный анализ – визуализация
данных
•Прогнозирование – задача регрессии
•Управление
рисками
–
регрессия,
кластеризация и классификация
•Стимулирование спроса – кластеризация,
ассоциация
•Оценка эластичности спроса – регрессия
•Выявление предпочтений клиентов –
последовательность, кластеризация…
Скачать