Афанасьева С. В. «Технология интеллектуального анализа

advertisement
НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ
«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»
Санкт-Петербургский филиал
Кафедра бизнес-информатики
С. В. Афанасьева
Технология
интеллектуального
анализа данных
Учебное пособие
Москва • Санкт-Петербург
2013
УДК 519.876
ББК 32.973
А94
Рекомендовано к печати Учебно-методическим советом
НИУ ВШЭ – Сакт-Петербург
Р е ц е н з е н т ы:
к. э. н., заведующий кафедрой менеджмента НИУ ВШЭ — СанктПетербург А.А. Кайсаров;
доцент кафедры информатики СПбГУ М.В. Дмитриева
Афанасьева, С. В. Технология интеллектуального анализа данных: учеб.
А94 пособие [Текст] / С. В. Афанасьева ; Нац. исслед. ун-т «Высшая школа экономики», Санкт-Петербургский филиал. — М.: Нац. исслед. ун-т «Высшая
школа экономики», 2013. — 152 с. — 60 экз. — ISBN 978-5-7598-1053-7
(в обл.).
Учебное пособие посвящено изучению методов и приобретению практических навыков анализа данных. В качестве инструментальной системы
применяется система управления базами данных Microsoft SQL Server 2005
(или выше) и Microsoft Excel 2007 (или выше).
Учебное пособие знакомит с принципами работы и возможностями
применения новой технологии интеллектуального анализа данных, используя «Надстройки интеллектуального анализа данных Microsoft SQL
Server 2005 для Office 2007». Данные надстройки интеллектуального анализа
данных помогают выявлять закономерности и тенденции, существующие в
сложных данных, визуализировать такие закономерности в виде диаграмм и
интерактивных средств просмотра.
Также можно анализировать корреляции и формировать прогнозы для
данных, хранящихся в таблицах Microsoft Office Excel, или создавать и
изменять модели интеллектуального анализа данных, хранящиеся в экземпляре служб SQL Server Analysis Services (SSAS).
Материал учебного пособия апробирован автором в курсах, которые
преподавались студентам Национального исследовательского университета «Высшая школа экономики».
УДК 519.876
ББК 32.973
ISBN 978-5-7598-1053-7
 Афанасьева С.В., 2013
 Оформление. Отдел оперативной полиграфии
НИУ ВШЭ — Санкт-Петербург, 2013
Оглавление
Введение..................................................................................................7
Глава 1. Основные понятия интеллектуального анализа данных............9
1.1. Постановка задачи..............................................................11
1.2. Подготовка данных.............................................................11
1.3. Просмотр данных................................................................12
1.4. Построение моделей...........................................................12
1.5. Исследование и проверка моделей.....................................13
1.6. Развертывание и обновление моделей...............................14
Глава 2. Технология интеллектуального анализа данных.....................16
2.1. Средства для прогноза, анализа и представления
выводов...................................................................................... 16
2.2. Системные требования.......................................................18
2.3. Установка надстройки........................................................19
2.4. Настройка надстройки интеллектуального анализа..........19
Глава 3. Алгоритмы интеллектуального анализа данных......................22
3.1. Выбор алгоритма.................................................................22
3.2. Структуры и модели интеллектуального анализа
данных..................................................................................25
Глава 4. Средства анализа таблиц для Excel.........................................28
4.1. Анализ ключевых факторов влияния (Analize Key
Influencers)...........................................................................29
4.1.1. Использование средства «Анализ ключевых
факторов влияния».....................................................29
4.1.2. Основные сведения об отчете по ключевым
факторам влияния......................................................32
4.1.3. Анализ ключевых факторов влияния (сравнение).......33
4.2. Средство анализа «Поиск категорий»................................34
4.2.1. Использование средства «Поиск категорий»............34
3
С.В. Афанасьева. Технология интеллектуального анализа данных
4.2.2. Основные сведения об отчете о категориях..............37
4.3. Средство «Заполнение по образцу»....................................40
4.3.1. Использование средства «Заполнение по образцу»......41
4.3.2. Диалоговое окно «Расширенный выбор
столбцов»....................................................................43
4.3.3. Основные сведения об отчете о закономерностях.......44
4.4. Средство «Прогноз»............................................................46
4.4.1. Использование средства «Прогноз»..........................47
4.4.2. Диалоговое окно «Прогноз»......................................50
4.4.3. Основные сведения об отчете прогноза....................51
4.5. Средство «Выделение исключений»...................................51
4.5.1. Использование средства «Выделение
исключений»..............................................................52
4.5.2. Основные сведения об отчете средства «Выделение
исключений»..............................................................53
4.6. Анализ сценария.................................................................56
4.6.1. Сценарий «Поиск решения»......................................56
4.6.1.1. Использование средства «Поиск решения»......57
4.6.1.2. Диалоговое окно «Поиск решения»...............57
4.6.1.3. Основные сведения о результатах анализа
поиска решения..............................................60
4.6.2. Сценарий «Анализ гипотетических вариантов».......62
4.6.2.1. Использование сценария анализа
вариантов........................................................62
4.6.2.2. Диалоговое окно «Анализ гипотетических
вариантов».......................................................64
4.6.2.3. Основные сведения о результатах анализа
вариантов........................................................65
Глава 5. Клиент интеллектуального анализа данных для Excel.............67
5.1. Обзор надстройки «Клиент интеллектуального анализа
данных».................................................................................68
5.1.1. Подготовка данных....................................................69
5.1.2. Моделирование данных.............................................69
5.1.3. Точность и проверка..................................................70
5.1.4. Использование модели и управление моделями......71
5.1.5. Соединения................................................................71
4
Оглавление
5.2. Подготовка данных.............................................................72
5.2.1. Просмотр данных.......................................................73
5.2.1.1. Использование мастера просмотра
данных.............................................................73
5.2.2. Очистка данных..........................................................77
5.2.2.1. Выбросы (очистка данных).............................77
5.2.2.2. Переразметка данных.....................................82
5.2.3. Секционирование данных.........................................85
5.2.3.1. Использование мастера секционирования
данных..............................................................87
5.3. Моделирование данных......................................................93
5.3.1. Классификация..........................................................94
5.3.1.1. Использование мастера классификации
данных............................................................94
5.3.1.2. Диалоговое окно «Завершение»....................96
5.3.2. Оценка........................................................................98
5.3.2.1. Использование мастера оценки данных.......98
5.3.2.2. Использование средства «Обзор»................103
5.3.3. Кластеризация..........................................................109
5.3.3.1. Использование мастера «Кластер»..............109
5.3.3.2. Использование средства «Обзор»................ 111
5.3.4. Взаимосвязи.............................................................115
5.3.4.1. Использование мастера взаимосвязей........116
5.3.4.2. Использование средства «Обзор»................118
5.3.5. Прогноз.....................................................................123
5.3.5.1. Использование мастера
прогнозирования.........................................124
5.3.5.2. Использование средства «Обзор»................125
5.3.5.3. Вкладка «Диаграммы»..................................125
5.3.6. Дополнительно, или Создание и добавление
новых моделей..........................................................127
5.3.6.1. Создание модели интеллектуального анализа
данных............................................................128
5.3.6.2. Добавление модели в структуру....................132
5.4. Точность и проверка.........................................................136
5.4.1. Диаграмма точности.................................................136
5.4.2. Матрица классификации.........................................140
5
С.В. Афанасьева. Технология интеллектуального анализа данных
5.4.3. Диаграмма роста прибыли.......................................141
5.5. Использование модели и управление моделями.............147
5.5.1. Использование модели............................................147
5.5.1.1. Мастер «Обзор»............................................147
5.5.1.2. Мастер «Запрос»...........................................149
5.5.2. Управление моделями..............................................149
5.6. Соединения.......................................................................150
Список литературы..............................................................................151
6
Введение
Интеллектуальный анализ данных Data Mining — это современная технология анализа информации. Цель данной технологии — нахождение в накопленных данных, необходимых для принятия оптимальных решений в различных областях человеческой деятельности. И в последнее время становится все более популярной у предприятий малого и среднего бизнеса, а не только в узком кругу специалистов, как это было несколько лет назад.
Надстройки интеллектуального анализа данных Microsoft SQL
Server 2005 (2008) для Office 2007 (или Microsoft SQL Server 2008
для Office 2010) предназначены для выявления скрытых шаблонов
и взаимосвязей в данных, чтобы улучшить качество и глубину их
анализа. Для использования этих компонент вы должны иметь
возможность подключаться к базе данных SQL Server 2005 (или
2008) Analysis Services. Но для работы с компонентами SQL Server
Analysis Services через MS Office наличие знаний и опыта работы с
серверными базами данных не обязательно.
Компоненты интеллектуального анализа данных MS Office
2007 доступны для бесплатной загрузки и состоят из:
•• средств анализа табличных данных для Excel, которые позволяют использовать Analysis Services для анализа и выявления закономерностей в данных из электронных таблиц
Microsoft Excel;
•• клиентских компонентов Data Mining для Excel, предоставляющих возможность для создания, настройки и сопровождения проекта Data Mining. В этой части надстройки
предоставляются также средства для:
——подготовки данных;
——построения, оценки и управления моделями;
——получения результатов прогнозирования с использованием как табличных данных Excel в качестве источника, так и внешних источников, доступных базе данных
Analysis Services;
7
С.В. Афанасьева. Технология интеллектуального анализа данных
•• шаблонов Data Mining для Visio, которые предоставляют
возможность графического отображения, форматирования, описания и распространения результатов моделирования Data Mining в виде диаграмм.
Далее познакомимся с этими компонентами подробнее.
В пособии используется термин «SQL Server 2005», или «SQL
Server», но все рассматриваемые возможности существуют и в
версии «SQL Server 2008». Все, что далее описано, относится к
версиям Microsoft SQL Server 2005 (или выше) и Microsoft Excel
2007 (или выше).
Все алгоритмы Analysis Services, рассмотренные далее, реализованы фирмой Microsoft; особенности использования аналогичных алгоритмов других фирм (например, Oracle) здесь не рассматриваются.
Практические задания по темам находятся в сетевом каталоге
преподавателя.
8
Глава 1. Основные понятия
интеллектуального анализа данных
Интеллектуальный анализ данных часто описывается как процесс извлечения допустимых, достоверных данных, а также данных
с быстрым доступом из крупных баз данных. Другими словами, интеллектуальный анализ извлекает шаблоны и тренды, существующие в данных. Такие шаблоны и тренды могут быть собраны воедино и определены как модель интеллектуального анализа данных.
Модели интеллектуального анализа данных могут применяться к
конкретным бизнес-сценариям, например:
•• прогнозирование продаж;
•• почтовая рассылка определенным клиентам;
•• определение продуктов, которые с высокой долей вероятности могут быть проданы вместе;
•• выявление последовательностей в том порядке, в котором клиенты добавляют продукты в корзину для покупок.
Нужно понимать, что построение модели интеллектуального
анализа данных является составной частью более масштабного
процесса, начинающегося с определения базовой проблемы, которую модель будет решать, и заканчивающегося развертыванием
этой модели в рабочей среде. Данный процесс может быть задан
при помощи следующих шести базовых шагов:
1. Постановка задачи.
2. Подготовка данных.
3. Просмотр данных.
4. Построение моделей.
5. Исследование и проверка моделей.
6. Развертывание и обновление моделей.
На следующей диаграмме (рис. 1) представлены связи между
всеми шагами процесса и технологии Microsoft SQL Server 2005,
которые можно использовать для выполнения каждого шага.
9
С.В. Афанасьева. Технология интеллектуального анализа данных
Рис. 1. Диаграмма связей процессов
Хотя представленный процесс носит циклический характер,
каждый шаг не обязательно ведет напрямую к следующему шагу.
Создание модели интеллектуального анализа данных представляет собой динамический итеративный процесс. Выполнив обзор
данных, пользователь может обнаружить, что существующих данных недостаточно для создания требуемых моделей интеллектуального анализа данных, что, соответственно, ведет к необходимости поиска дополнительных данных. Можно разработать несколько моделей и понять, что они не решают сформулированной
задачи. Следовательно, требуется изменение характеристик задачи. Таким образом, важно понимать, что создание модели интеллектуального анализа данных является процессом и что каждый
шаг такого процесса может быть повторен столько раз, сколько
необходимо для создания эффективной модели.
SQL Server 2005 представляет интегрированную среду для со­
здания и работы с моделями интеллектуального анализа данных,
известную как среда Business Intelligence Development Studio. Данная среда включает алгоритмы интеллектуального анализа данных и средства, облегчающие разработку исчерпывающего решения, применимого в рамках самых разных проектов.
10
Глава 1. Основные понятия интеллектуального анализа данных
1.1. Постановка задачи
Первым шагом процесса интеллектуального анализа данных
является четкое определение бизнес-задачи.
Этот шаг включает анализ бизнес-требований, определение
масштаба проблемы, метрик, по которым будет выполняться
оценка модели, а также определение конечной цели проекта интеллектуального анализа данных. Эти задачи можно сформулировать в виде следующих вопросов:
•• Что необходимо найти?
•• Какой атрибут набора данных необходимо предсказать?
•• Какие типы связей необходимо найти?
•• Надо ли делать прогнозы на основании модели интеллектуального анализа данных или просто найти интересу­
ющие шаблоны и связи?
•• Каким образом распределяются данные?
•• Как связаны столбцы, а в случае с несколькими таблицами — как связаны таблицы?
Чтобы ответить на эти вопросы, возможно, потребуется исследовать уровень доступности данных, изучить потребности пользователей в отношении доступных данных. Если данные не поддерживают потребностей пользователей, то может возникнуть необходимость в изменении определения проекта.
1.2. Подготовка данных
Вторым шагом процесса интеллектуального анализа данных
является объединение и очистка данных, которые были определенны во время первого шага.
Службы Microsoft SQL Server 2005 Integration Services (SSIS) содержат все средства, необходимые для завершения данного шага,
включая преобразования для очистки и объединения данных.
Данные могут находиться в разных частях компании и храниться в различных форматах или содержать такие ошибки согласования, как дефектные или отсутствующие записи.
Например, согласно данным может оказаться, что клиент купил
продукт еще до своего рождения или регулярно делает покупки в
11
С.В. Афанасьева. Технология интеллектуального анализа данных
магазине, расположенном за 2000 километров от дома. Прежде чем
перейти к разработке моделей, необходимо устранить эти несоответствия.
Обычно пользователь работает с очень большим набором данных и не может просмотреть каждую транзакцию. Следовательно,
для просмотра данных и выявления несогласованности в них необходимо использовать какой-либо вид автоматизации, например
тот, который имеется в службах Integration Services.
1.3. Просмотр данных
Третьим шагом процесса интеллектуального анализа данных
является просмотр подготовленных данных.
Для принятия правильных решений при создании моделей необходимо понимать данные.
Методы исследования данных включают в себя расчет мини­
мальных и максимальных значений, расчет средних и стандарт­
ных отклонений и изучение распределения данных.
После исследования данных можно определить, содержит ли
набор данных дефектные данные или нет, а затем разработать
стратегию по устранению несоответствий.
Конструктор представлений источников данных в среде
BI Development Studio содержит несколько средств, которые можно использовать для просмотра данных.
1.4. Построение моделей
Четвертым шагом процесса интеллектуального анализа данных является построение моделей интеллектуального анализа
данных.
Прежде чем построить модель, необходимо случайным образом
разделить подготовленные данные в отдельные наборы обуча­
ющих и контрольных данных.
Набор обучающих данных используется для построения модели, а контрольный набор данных — для проверки точности модели
12
Глава 1. Основные понятия интеллектуального анализа данных
путем создания прогнозирующих запросов. Чтобы разделить набор
данных, можно использовать Преобразование «Процентная выборка» в службах Integration Services.
Знания, полученные при выполнении шага 3 «Просмотр данных»,
помогут определить и создать модель интеллектуального анализа данных. Обычно модель содержит входные столбцы, идентифицирующий
столбец и прогнозируемый столбец. Данные столбцы можно затем
определить в новой модели при помощи языка расширений интеллектуального анализа данных или мастера интеллектуального анализа данных в среде BI Development Studio.
После определения структуры модели интеллектуального анализа данных выполняется ее обработка и наполнение пустой
структуры шаблонами, описывающими модель. Данный процесс
известен как обучение модели. Шаблоны выявляются путем применения в отношении исходных данных математического алгоритма. SQL Server 2005 содержит отдельный алгоритм для каждого типа модели, доступной для построения. Для настройки каждого алгоритма можно использовать параметры.
Модель интеллектуального анализа данных определяется объектом структуры интеллектуального анализа данных, объектом
модели интеллектуального анализа данных и алгоритмом интеллектуального анализа данных.
Службы Microsoft SQL Server 2005 Analysis Services (SSAS) содержат следующие алгоритмы:
•• алгоритм дерева принятия решений (Microsoft);
•• алгоритм кластеризации (Microsoft);
•• упрощенный алгоритм Байеса (Microsoft);
•• алгоритм взаимосвязей (Microsoft);
•• алгоритм кластеризации последовательностей (Microsoft);
•• алгоритм временных рядов (Microsoft);
•• алгоритм нейронной сети (Microsoft) (службы SSAS);
•• алгоритм логистической регрессии (Microsoft);
•• алгоритм линейной регрессии (Microsoft).
1.5. Исследование и проверка моделей
Пятым шагом процесса интеллектуального анализа данных является исследование построенных моделей и проверка их эффективности.
13
С.В. Афанасьева. Технология интеллектуального анализа данных
Прежде чем развернуть модель в рабочей среде, необходимо
проверить эффективность работы модели. Кроме того, возможно,
было создано несколько моделей, и необходимо выяснить, какая
из них наиболее эффективна. Если ни одна из моделей, созданных при выполнении шага 4 «Построение моделей», не обладает
нужной эффективностью, может возникнуть необходимость вернуться к предыдущему шагу процесса и либо изменить постановку
задачи, либо выполнить повторное изучение данных в исходном
наборе данных.
Тренды и шаблоны, обнаруживаемые алгоритмами, можно исследовать при помощи средств просмотра в конструкторе интеллектуального анализа данных в среде BI Development Studio. Точность
прогнозов, создаваемых моделями, можно проверить при помощи таких средств конструктора, как диаграмма точности предсказаний и матрица классификации. Для этих средств требуются
контрольные данные, выделенные из исходного набора данных во
время выполнения построения модели.
1.6. Развертывание и обновление моделей
Последним шагом процесса интеллектуального анализа данных является развертывание в рабочей среде наиболее эффективных моделей.
После развертывания в рабочей среде моделей интеллектуального анализа данных можно выполнять множество различных задач, соответствующих потребностям пользователя. Ниже перечислены некоторые задачи, доступные для выполнения:
•• Используйте модели для создания прогнозов, которые затем могут быть использованы для принятия бизнесрешений. SQL Server предоставляет язык расширений
интеллектуального анализа данных, который можно использовать для создания прогнозирующих запросов, и
построитель прогнозирующих запросов для помощи в
построении запросов.
•• Используйте службы Integration Services для создания пакета, в котором модель интеллектуального анализа данных используется для интеллектуального распределения
входящих данных по разным таблицам.
14
Глава 1. Основные понятия интеллектуального анализа данных
Например, при постоянном обновлении базы данных за счет
включения потенциальных клиентов модель интеллектуального
анализа данных может использоваться совместно со службами Integration Services для разделения входящих данных на клиентов,
которые с высокой долей вероятности купят продукт, и клиентов,
которые с высокой долей вероятности не купят продукт.
Создайте отчет, который позволяет пользователям формировать прямой запрос в соответствии с текущей моделью интеллектуального анализа данных.
Обновление модели является составной частью стратегии развертывания. По мере получения организацией все большего объема данных возникает необходимость повторной обработки моделей с целью улучшения их эффективности.
15
Глава 2. Технология
интеллектуального анализа данных
Надстройки интеллектуального анализа данных Microsoft SQL
Server для Office предоставляют мастера и средства, которые упрощают получение из данных полезных сведений. Они помогают
выявлять закономерности и тенденции, которые существуют в
сложных данных, визуализировать такие закономерности в виде
диаграмм и интерактивных средств просмотра, а затем формировать цветные сводные отчеты для презентаций и бизнесаналитики. Можно анализировать корреляции и формировать
прогнозы для данных, хранящихся в таблицах Microsoft Office
Excel, или создавать и изменять модели интеллектуального анализа данных, которые хранятся в экземпляре служб SQL Server
Analysis Services (SSAS), а также получать результаты в графическом виде в программе Microsoft Office Visio.
Для пользователей, занимающихся бизнес-аналитикой или
интеллектуальным анализом данных, эти надстройки предоставляют мощные и простые в использовании средства для работы с
моделями интеллектуального анализа данных в службах Analysis
Services.
2.1. Средства для прогноза, анализа и представления выводов
Пользователи, не имеющие опыта интеллектуального анализа
данных, должны начать со средства анализа таблиц для Excel, которое включает несложные в использовании средства для следующих задач:
•• анализ факторов, влияющих на результат;
•• определение категорий данных;
•• ввод значений, основанных на предоставляемых примерах;
•• создание прогнозов, основанных на ряде данных;
•• идентификация потенциально плохих значений в данных;
16
Глава 2. Технология интеллектуального анализа данных
•• выполнение анализа возможных гипотетических вариантов;
•• идентификация требований для достижения указанной
цели;
•• создание листа, который может быть использован для вычисления оценок;
•• анализ шаблонов продуктов, часто покупаемых совместно.
Пользователям, знакомым с интеллектуальным анализом данных или которым необходимы более мощные средства для прогнозирующей аналитики, следует использовать мастера и диалоговые окна, предоставляемые клиентом интеллектуального анализа
данных для Excel. Используя возможности клиента, можно создавать и проверять структуры и модели интеллектуального анализа
данных, а также управлять ими при сохранении данных в Excel.
Клиент интеллектуального анализа данных для Excel полезен для
следующих задач:
•• Подготовка данных: исследование, очистка, переразметка
и секционирование данных.
•• Анализ: классификация данных, предсказание тенденций, идентификация корреляций и поиск кластеров.
•• Проверка и оценка: создание диаграмм для анализа точности
решений интеллектуального анализа данных и графическое
представление результатов вместе с общими статистическими измерениями.
•• Представление: обзор результатов при помощи пользовательских средств просмотра. Для отслеживания и управления аналитическими процессами используется встроенный мастер документации.
•• Расширенный интеллектуальный анализ данных: построение структур данных, поддерживающих многосторонний
анализ, и создание пользовательских моделей интеллектуального анализа данных. Создание пользовательских
запросов интеллектуального анализа данных с помощью
интерактивного пользовательского интерфейса.
•• Управление: просмотр и управление существующими решениями интеллектуального анализа данных, хранящихся в экземпляре служб SQL Server Analysis Services.
17
Download