Третий лист отчета Customer Segment Analysis содержит

advertisement
Прикладные аспекты использования программного обеспечения SAS
для решения практических задач Data Science.
Автор: к.т.н. Александр Терентьев
e-mail: o.terentiev@gmail.com
Киев - 2016
Оглавление
SAS Visual Analytics для Retail (VA Retail). ....................................................................................................... 2
Первый лист отчета Store Overview. ........................................................................................................... 2
Второй лист отчета Store Performance. ...................................................................................................... 4
Третий лист отчета Customer Segment Analysis. ........................................................................................ 5
Четвертый лист отчета Customer Purchase Behavior. ................................................................................ 7
Пятый лист отчета Merchandise Analysis. ................................................................................................... 9
Прогнозирование количества проданных билетов (Air forecast). ............................................................. 11
2
SAS Visual Analytics для Retail (VA Retail).
Пример выполнения клиентской аналитики средствами визуализации SAS Visual Analytics.
Среди всех доступных отчетов нужно выбрать отчет Customer Analysis из категории Retail.
Первый лист отчета Store Overview.
Первый лист отчета Store Overview содержит всю информацию по продажам в разрезе
регионов.
Выбрав регион US Atlantic Coast и населенный пункт NY.
3
В результате фильтрации по региональному признаку можно увидеть детализированную
информацию по населенным пунктам:
1. В New york продажи составляют 76 081 $ при общей торговой площади магазинов 147 207
кв.м.
2. В Southampton (Саутгемптон – город на юго-востоке штата Нью-Йорк) продажи
составляют 191 189 $ при общей торговой площади магазинов 146 689 кв.м.
Как видно при пересчете доходности на кв.м. торговля в Саутгемптон является более
прибыльной, что визуально отображается более глубоким синим цветом.
Цветовая шкала диапазонов расположена справа:
4
Второй лист отчета Store Performance.
Второй лист отчета Store Performance содержит всю информацию по продажам в разрезе
мест продаж:
- Mall – торговый центр
- Rural – сельские магазины
- Street – уличная торговля
- Strip – торговый центр формата «стрип-молл» по северо-американскому образцу.
Концепция торговой недвижимости "стрип-молл" (от слова strip – полоса) широко
распространена и чрезвычайно успешна в Канаде, США и Западной Европе. Архитектурная
концепция - одно- или двухэтажный торговый центр, где магазины расположены в линию
полукругом или, в зависимости от конфигурации участка, повторяют форму букв "Г" или
"П".
5
Третий лист отчета Customer Segment Analysis.
Третий лист отчета Customer Segment Analysis содержит сегменты клиентов (всего три
сегмента) с детализацией:
- по типу акционных программ
- категории товаров
- типов товаров
Рисунок. Потребительское поведение клиентов 1 сегмента.
По рисунку видно, что клиенты 1 сегмента чаще всего приобретают товары для мужчин
(категория товаров = men), а именно мужские тапочки (тип товара = men slippers).
6
В то время как клиенты 3 сегмента предпочитают товарные категории:
- электроника (electronics)
- продуктовые товары (grocery)
- товары для женщин (woman)
и чаще всего приобретают товары:
- женские сумочки (woman handbags)
- тонеры и чернила (ink and toners)
- масла (oils)
- женскую верхнюю одежду (woman tops).
Рисунок. Потребительское поведение клиентов 3 сегмента.
7
Четвертый лист отчета Customer Purchase Behavior.
Четвертый лист отчета Customer Purchase Behavior содержит сегменты (подсегменты)
клиентов (всего три сегмента и 7 возрастных подгрупп) с детализацией:
- по категории приобретаемых товаров
- по времени совершения покупок
- по дням недели совершения покупок.
Так товары из категории электроника чаще всего приобретаются в субботу с 15 до 16 часов.
8
В то время как клиенты 3 сегмента товары категории woman чаще всего покупают с 12 до 16
часов по средам.
9
Пятый лист отчета Merchandise Analysis.
Пятый лист отчета Merchandise Analysis содержит анализ групп товаров по поставщикам.
Рисунок ниже показывает, что среди категории товаров woman чаще всего приобретаются
женские сумочки (woman bags), причем всего двух поставщиков – Oak и Pine.
10
Рисунок ниже показывает, что до 26 декабря 2009 года больше всего покупались сумки
поставщика Oak, а после объемы сравнялись с поставщиком Pine, а в последствии сумки Pine
стал продаваться лучше по сравнению с Oak.
Полезные ссылки.
www.tadviser.ru/index.php/Продукт:SAS_Visual_Analytics
11
Прогнозирование количества проданных билетов (Air forecast).
Рассматривается классический пример анализа временных рядов с использованием
авторегресионной модели.
Набор данных Air содержит историю продаж авиабилетов с января 1949 года по декабрь
1960 года.
Для прогнозирования используется стандартный встроенный в SAS Enterprise Guide
компонент – Основное прогнозирование. Для которого заданы настройки:
- метод прогнозирования – пошаговая авторегрессия
- количество шагов прогнозирования = 6 (на 6 месяцев вперед)
- временной интервал = месяц (месячные наблюдения).
12
На графике результатов прогнозов методом пошаговой регрессии можно увидеть:
- черная штриховая линия – реальные значения
- синяя линия – прогноз
- красные линии – верхний и нижний 95% доверительные интервалы прогноза.
13
Файл с результатами прогноза содержит набор данных с
- датой (месяц-год)
- типом данных
- - Actual – реальное значение
- - Forecast – прогноз
- - Residual – остаток модели (разница между реальным и спрогнозированными знчениями)
- - L95 – нижняя граница 95% доверительного интервала
- - U95 – верхняя граница 95% доверительного интервала
- само значение соответствующего типа данных.
14
Файл с значениями оценок модели и статистическими характеристиками.
- N – количество наблюдений в обучающей выборке
- DF – число степеней свободы (по факту в данном случае – число наблюдений для
построения модели)
- SIGMA – подобранный автоматически параметр модели
- CONSTANT –значение оценки свободного члена
- LINEAR - подобранный автоматически параметр модели описывающий тренд (в данном
случае линейный)
- AR01 - значение оценки авторегрессора 1го порядка
- AR02 - значение оценки авторегрессора 2го порядка
….
- AR13 - значение оценки авторегрессора 13го порядка
- RMSE – среднеквадратическая ошибка. Для построенной модели в среднем на каждом
месяце прогнозирования ошибаемся на 13 билетов.
- RSQUARE – статистика R-квадрат. Значение 0,98 очень высокое и почти близко к 1.
Download