Goncharov — Data Mining

advertisement
9:30
Приветственный кофе
10:00
Ключевой доклад
11:45
Аппаратные решения HP
для платформы Microsoft BI
Microsoft Excel как OLAP клиент.
Преодоление ограничений
Обед
12:45
13:30
Методика построения хранилищ данных на
FastTrack DW и PDW
Анализ «что-если» в Excel 2010 и
OLAP write-back в планировании продаж
14:45
Реляционное моделирование для больших
хранилищ данных
Прогнозирование навигации на сайте
(Data Mining)
Кофе-брейк
16:30
17:00
Анализ вторичных продаж на базе SQL
Server 2008 R2
SQL-клиника
Некоторые сценарии практического
использования DAX в PowerPivot
18:00
Закрытие конференции
18:15
Кофе-брейк
18:30
Лабораторные работы
Не забудьте начать запись доклада!
Прогнозирование навигации на сайте
Максим Гончаров
Microsoft
Максим Гончаров
Microsoft
Специалист по платформе приложений
E-mail: maxgon@microsoft.com
http://www.businessdataanalytics.ru/
Содержание
 Задачи Data Mining
 Описательный анализ
 Предиктивный анализ
 Web Mining – кратко
 Web Usage Mining
 Кластеризация цепочек последовательностей Microsoft
 Пример проекта – калькулятор переходов
Задачи Data Mining
Описательный анализ
 Какая структура клиентской базы? Какой профиль
идеального клиента?
 Какие есть взаимосвязи между характеристиками
клиентов?
 Какие события происходят одновременно? Какие
услуги приобретаются вместе?
 Какие события наступают последовательно?
Откажется ли клиент от сотрудничества при данном
шаблоне взаимодействия?
Предиктивный анализ
 Откликнется ли клиент на данную маркетинговую
кампанию?
 Какова ценность клиента с данными
характеристиками?
 Какой размер прибыли будет в следующем
месяце?
 Какие из потенциальных клиентов вероятно
совершат приобретение услуги в следующем
месяце?
Кластерный анализ
Сегментация – обнаружение структуры данных

На какие группы можно разбить клиентов?

Какая структура продаж?

Какие характеристики у мошеннических транзакций?
Разбиение постоянных клиентов книжного интернет-магазина по интересам.
Анализ путей влияния
Байесовские сети – обнаружение путей влияния факторов

Как связаны образование, доход и регион проживания?

Как влияет семейное положение на покупку товара?
Цепочки влияния характеристик клиента
Деревья решений – факторы влияния
Что влияет на приобретение банковского продукта
Деревья решений – классификация

Откликнется ли клиент с данными характеристиками на наше предложение?

Что характерно для клиента, собирающегося отказаться от услуг нашей
компании?

Скоринг, приоритезация лидов.
Дерево решения: что влияет на размер заказа продажи?
Прогнозирование временных рядов

Прогноз продаж по товарным категориям и группам клиентов.

Прогноз обращений в колл-центр.

Прогноз движения на складе.
Прогноз продаж банковских услуг по категориям
Ассоциативные правила

Какие события происходят вместе?

Какие товары и услуги продаются совместно?

Cross-sales, up-sales.
Книги, покупаемые совместно
Анализ цепочек последовательностей

Приобретение каких продуктов следует ожидать в следующем месяце от
человека, открывшего в этом месяце счет и получившего дебетовую карту?

С какой вероятностью от нас уйдет клиент при данной последовательности
действий?
Временные шаблоны покупок велосипедных аксессуаров
Web Mining – кратко
Web Mining - кратко

Поиск информации – применение математической лингвистики и обработки естественных
языков.

Анализ структуры сегментов сети –



хабы - из такой страницы ссылки идут на наиболее значимые
ресурсы;
авторитеты - страницы, на которые ссылаются большое
количеством авторов по данной
Выявление знаний из веб-ресурсов – обработка с точки зрения автоматической
классификации, составления оглавлений, выявления ключевых слов и
общих тем.

Персонализация информации – адаптация навигации, контента,
баннеров и т.д. под пользователя.
Web Usage Mining
Web Usage Mining
Поиск шаблонов в поведении пользователей – поиск закономерностей в
шаблонах взаимодействия пользователя с веб-ресурсом с целью прогнозирования его
последующих действий.
С точки зрения применения алгоритмов интеллектуального анализа данных при поиске
шаблонов пользовательского поведения чаще всего используются следующие методики:

Кластеризация - поиск групп похожих посетителей, сайтов, страниц и т.д.

Ассоциации - поиск совместно запрашиваемых страниц, заказываемых товаров.

Анализ последовательностей - поиск последовательностей действий. Наиболее
часто применяется вариант алгоритма apriori, разработанного для анализа частых
наборов, но модифицированного для выявления частых фрагментов
последовательностей и переходов.
Анализ последовательностей действий
Microsoft Sequential Clustering
Модель предполагает, что все последовательности разбиты на некоторое количество
групп (кластеров). В каждой группе последовательности представляют собой
Марковскую цепь, т.е. вероятность перехода в следующее состояние в группе
определяется только текущим состоянием и не зависит от более ранних состояний.
Таким образом, алгоритм разбивает последовательности на похожие группы и
вычисляет в каждой группе условные вероятности переходов. Это позволяет не
только прогнозировать следующее значение состояния на основании его прошлых
состояний, но и получить описание существующих шаблонов переходов.
Демо-проект по прогнозированию
навигации на сайте
Описание проекта
Источник посещений – http://www.sitebuilder.ru








HTTP модуль на IIS, регистрирующий серверные переменные запросов в БД
Access
Хранилище SQL Server’а, хранит всю историю навигаций по сессиям
Пакет Integration Services, загружающий Access файл в БД SQL, дополняющий
данные (географией запроса и т.п.)
Куб Analysis Services – анализ по требованию всех показателей навигации и
запросов.
Модели Data Mining для анализа закономерностей навигации
Сборки .NET – расширение запросов к моделям
Фиксированные отчеты по навигации
Веб-приложения, например калькулятор навигации.
Структура данных
Куб
Куб
Модель Data Mining
Фиксированные отчеты
Прогнозирование
Стандартная реализация – двухходовка:
1. На основании истории кликов определить какому кластеру
принадлежит пользователь.
2. Прогноз следующего клика – наиболее вероятный переход в данном
кластере.
На самом деле есть еще такой подход: вычислить наиболее вероятный
переход с учетом принадлежности пользователя ко всем кластерам с
учетом вероятности принадлежности.
Калькулятор прогнозирования следующего шага
Запрос на прогнозирование
SELECT FLATTENED
(
SELECT
[Page Name] AS [Prediction],
PredictProbability([Page Name]) AS [PredictProbability],
(
SELECT
[Page Name] AS [PageName],
$PROBABILITY AS [Probability]
FROM PredictHistogram([Page Name])
WHERE $PROBABILITY >= 0.01
) AS h
FROM PredictSequence([Pages Visited], 1)
) AS d
FROM
[Pages Visit Order Model]
NATURAL PREDICTION JOIN
(
SELECT
(
SELECT 0 AS [Row Num], 'Портал в компании Адидас' AS [Page Name]
UNION SELECT 1 AS [Row Num], 'Портал компании BBK' AS [Page Name]
) AS [Pages Visited]
) AS t
Ответы на вопросы
Спасибо за внимание!
<Имя, Фамилия>
<Компания>
E-mail: <…@...>
9:30
Приветственный кофе
10:00
Ключевой доклад
11:45
Аппаратные решения HP
для платформы Microsoft BI
Microsoft Excel как OLAP клиент.
Преодоление ограничений
Обед
12:45
13:30
Методика построения хранилищ данных на
FastTrack DW и PDW
Анализ «что-если» в Excel 2010 и
OLAP write-back в планировании продаж
14:45
Реляционное моделирование для больших
хранилищ данных
Прогнозирование навигации на сайте
(Data Mining)
Кофе-брейк
16:30
17:00
Анализ вторичных продаж на базе SQL
Server 2008 R2
SQL-клиника
Некоторые сценарии практического
использования DAX в PowerPivot
18:00
Закрытие конференции
18:15
Кофе-брейк
18:30
Лабораторные работы
Download