ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ «НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ «ВЫСШАЯ ШКОЛА ЭКОНОМИКИ» Московский институт электроники и математики Ермишина Наталия Андреевна ПРОГНОЗИРОВАНИЕ ПРОДАЖ С ПОМОЩЬЮ ПРОГРАММЫ STATISTICA Выпускная квалификационная работа студента образовательной программы бакалавриата «Прикладная информатика» по направлению 09.03.03 Прикладная информатика Студент Н.А. Ермишина Рецензент д. ф.- м. н., проф. Г.И.Ивченко Научный руководитель к. ф.-м. н., доцент Л.А. Манита Консультант к. ф.-м. н. В.П. Боровиков Москва 2015г. Оглавление Введение ...................................................................................................................................................................... 3 Глава 1. Формулировка задачи. Описание основных методов .............................................................................. 5 §1. Постановка задачи ............................................................................................................................................ 5 §2. Структура данных ............................................................................................................................................ 5 §3.Временной ряд ................................................................................................................................................... 6 3.1 Методы анализа временных рядов.................................................................................................................. 6 3.2 Составляющие временного ряда ................................................................................................................. 6 3.3 Аддитивная и мультипликативная модели ................................................................................................ 7 3.4 Детерминированная составляющая ............................................................................................................ 7 3.5 Случайная составляющая ............................................................................................................................ 8 Глава 2. Возможности прогнозирования в программе STATISTICA .................................................................. 10 §1. Модели экспоненциального сглаживания и их реализация в пакете STATISTICA ................................ 10 §2. Простое экспоненциальное сглаживание ..................................................................................................... 10 §3. Выбор оптимального значения параметра α ................................................................................................ 11 §4. Индексы качества подгонки .......................................................................................................................... 12 §5. Начальное сглаженное значение S(0) ........................................................................................................... 13 §6. Параметры экспоненциального сглаживания .............................................................................................. 14 §7. Линейный, экспоненциальный и демпфированный тренды....................................................................... 15 §8. Модели экспоненциального сглаживания временных рядов ..................................................................... 16 §9. Методология Бокса – Дженкинса идентификации ARIMA модели .......................................................... 18 §10. Определение модели .................................................................................................................................... 19 §11. Оценка модели .............................................................................................................................................. 21 §12. Проверка модели .......................................................................................................................................... 21 §13. Прогнозирование на основе ARIMA моделей ........................................................................................... 22 §13. Идентификации сезонных моделей ARIMA .............................................................................................. 22 §14. Преимущества и недостатки ARIMA моделей .......................................................................................... 23 Глава 3. Построение адекватной модели для исходных данных. Оценка модели. Построение прогноза ....... 24 §1. Визуальный анализ ......................................................................................................................................... 24 §2. Применение метода экспоненциальное сглаживание ................................................................................. 24 §3. Реализация модели ARIMA для исходных данных ..................................................................................... 27 §4. Оценка построенных моделей ....................................................................................................................... 30 Заключение................................................................................................................................................................ 32 Используемые обозначения ..................................................................................................................................... 33 Список литературы................................................................................................................................................... 34 2 Введение В современном мире сложно обойтись без прогнозирования продаж. Понимание этого процесса помогает упростить и повысить его точность. Прогнозирование продаж – это оценка объема продаж, который можно получить при соблюдении особых условий и осуществление некоторых событий. Данный показатель можно использовать, чтобы скорректировать план продаж. Можно сказать, что основной целью и задачей многих специалистов, анализирующих данные, считается прогнозирование. Современные методы прогнозирования позволяют с высокой точностью предсказать различные показатели. При анализе временных рядов выделяют 2 основные задачи: - определить тип временного ряда - построить прогноз (т.е. предсказать последующие значения ряда по значениям до текущего момента) Универсальных методов прогнозирования не существует. При неправильном выборе условий, в частности требуемой длины и времени прогнозирования, существенно может снизиться эффективность выбранного метода. Выделяют три типа прогноза по времени: -краткосрочный прогноз: подходит для построения на несколько шагов вперед, для него применяют методы: экспоненциальное сглаживание, авторегрессия и проинтегрированное скользящее среднее (АРПСС) и нейронные сети - среднесрочный прогноз: подходит для построения прогноза на один или половину сезонного цикла, используемые методы позволяют отслеживать качество прогноза в зависимости от того, на какой временной промежуток строится прогноз, применяемые методы: экспоненциальное сглаживание -долгосрочный прогноз: стандартные статистические методы не используются, и требуется применение комплексного подхода, например, использование регрессионных моделей или нейронных сетей. Кроме того, необходимо проверять построенную модель, на адекватность, так как недостаточно просто построить модель. В дипломной работе рассматривается задача прогнозирования объема продаж на основе реальных данных. Задача диплома является актуальной, так как каждому предприятию, малому или крупному, необходимо оценить какой ожидается спрос, чтобы правильно составить план закупок. Неверные решения могут привести к крупным потерям, вплоть до ликвидации предприятия. Основные методы, используемые в работе – экспоненциальное сглаживание и авторегрессия и проинтегрированное скользящее среднее. Мы используем пакет STATISTCA, встроенные модули для анализов временных рядов. Применяемые методы широко 3 используются в задачах прогнозирования в различных сферах деятельности человека. В [1] рассматривают модели ARIMA для среднесрочного прогноза продаж для предприятий различных сфер деятельности. Исходными данными является помесячный временной ряд товарооборота за несколько последних лет. В исследовании были построены годовые прогнозы продаж компаний, представленных на рынке промышленной электротехники (продажи по всей компании), строительных материалов (продажи компании по одной товарной группе) и периодической печатной продукции (продажи торговой точки). Прогнозы строились с помощью статистического пакета IBM SPSS Statistics. В [2] приводится обзор одного из статистических методов прогнозирования продаж. На примере данных прогнозируют прибыль, а точнее размер месячной прибыли. Рассматривают различные виды трендов и рассказывают, как его выделить. В статье [3] анализируют данные розничного магазина и на основе расчетов сезонной вариации строят прогноз продаж по кварталам. Дипломная работа состоит из введения, трех глав, заключения. В главе 1 формулируется задача, а также некие теоретические сведения. Во второй главе описаны возможности пакета STATISTICA для построения моделей продаж и прогнозирования. В главе 3 применяются модули, реализованные в STATISTICA. 4 Глава 1. Формулировка задачи. Описание основных методов §1. Постановка задачи В дипломной работе используются реальные данные, предоставленные компанией STATSOFT. Используя предоставленные данные, рассмотрим методы прогнозирования временных рядов: экспоненциальное сглаживание, авторегрессия и проинтегрированное скользящее среднее. Анализ реальных данных производится в модуле «Анализ и прогнозирование временных рядов» программы STATISTICA [4]. После этого строится прогноз, используя наиболее подходящий метод и точный метод. §2. Структура данных Данные представлены Таблицей 1 Таблица 1. Исходные данные 5 Первый, третий, пятый столбец обозначают недели, второй, четвертый столбец это объёмы продаж, единица измерения тыс.шт./неделя. Данные предоставлены за два года и две месяца. §3.Временной ряд Временной ряд - это последовательность чисел, состоящая из значений протекающего во времени процесса. Их измеряют последовательно через равные временные промежутки. Нумеруют их в соответствии с номером момента. В различных областях деятельности человека используют данные типа временных рядов: цены на акции, еженедельные объемы продаж, месячные объемы осадков, периодически измеряемые температуры воздуха. 3.1 Методы анализа временных рядов Существует множество различных методов анализа временных рядов. Наиболее распространённые из них: Корреляционный анализ позволяет выделить сильно влияющие периодические зависимости и их лаги (задержки) внутри процесса (автокорреляция) или же между несколькими процессами (кросскорреляция) Сглаживание предназначено для удаления сезонных колебаний во временном ряде Модели авторегрессии и скользящего среднего используют для описания и построения прогнозов для процессов, для которых можно заметить однородные колебания около среднего значения 3.2 Составляющие временного ряда Анализируя временной ряд, стараются разделить его на закономерную составляющую и случайную. Под закономерной (детерминированной) составляющей x1, … , xn понимают числовую последовательность d1, …, dn, значения которой вычисляются по определенному правилу. Эта составляющая показывает влияние определенных факторов. Но не во всех случаях известны математические модели изучаемых процессов, поэтому поведение временного ряда приходится изучать по исследуемым значениям ВР. Например, при изучении предоставленных данных рис.1 мы можем описать детерминированную часть ряда в виде комбинации линейной функции (в течение двух лет объемы продаж постепенно увеличивались) и периодической функции. Это составляющая отражает влияние времени года на объёмы продаж. 6 Рисунок 1. График временного ряда с детерминирующей составляющей Совместное влияние этих компонент может быть на достаточно длительном периоде времени. Это дает возможность построить прогноз для похожих временных рядов. Если полностью выделить детерминированную составляющую в поведении ряда, то оставшаяся часть выглядит непредсказуемо. Она называется случайной компонентой временного ряда. 3.3 Аддитивная и мультипликативная модели Рассмотрим наиболее простые формы разложения временного ряда на детерминированную и случайную компоненту. Под аддитивной моделью представляют временной ряд в виде суммы закономерной и случайной компонент: xt=dt+εt при t=1, … , n Под мультипликативной моделью представляют ряд в виде произведения компонент: xt=dt*εt при t=1, … , n 3.4 Детерминированная составляющая Необходимо учитывать объективные факторы и закономерности, которые приводят к формированию модели закономерной компоненты при её выборе. Чаще всего рассматривают три компоненты: тренд trt, сезонность st и цикличность ct. Формула аддитивной и мультипликативной моделей ряда: dt= trt + st + ct при t=1, … , n и dt= trt * st * ct при t=1, … , n соответственно. Тренд временного ряда trt при t=1, … , n -- плавно изменяющаяся, не циклическая компонента, которая описывает влияние долговременных, постепенно влияющих факторов. 7 Под сезонной компонентой st при t=1, … , n понимают последовательности почти повторяющихся циклов. Она описывает поведение временного ряда, которое меняется регулярно в течении конкретного периода. Например, объем продаж цветов перед праздниками или объем продаж товаров для школьников в преддверии начала учебного года. Но, тем не менее, сезонная компонента может быть иметь плавающий характер. Под циклической компонентой понимают ct при t=1, … , n описание длительных периодов относительного подъема и спада, состоит из циклов, меняющихся по протяженности и амплитуде. Это обычно плавные и заметные изменения, но которые не относят ни к периодической компоненте, ни к тренду. 3.5 Случайная составляющая В большинстве случаев, не удается описать временной ряд только лишь детерминированной составляющей, в нем есть случайная компонента, поведение которой нельзя заранее предсказать. Для описания этой составляющей используют такое понятие, как случайный или стохастический процесс. Под ним понимают функцию от t, заданную на множестве Т. Значения этой функции при каждом tϵT являются случайными величинами Выделяют два типа случайных процессов: -случайный процесс с непрерывным временем -случайный процесс с дискретным временем Если T является конечным множеством, то случайный процесс - это совокупность случайных величин. Если T является бесконечным множеством, то для того, чтобы случайный процесс был задан, нужно: чтобы для каждого t из T была определена функция распределения величины X(t): Ft(X)= P(X(t) ≤ х); для каждой пары элементов t1, t2 из T определена функция распределения двумерной случайной величины (X(t1), X(t2)): F t 1,t2(х1, х2) = P(X(t1)≤ х1,X(t2)< х2), и для любого количества элементов t1, t2, … , tn из множества T определена n-мерная функция распределения величины (X(t1), X(t2), … , X(tn)): F t 1,t2, …,tn (х1, х2, … ,xn) = P(X(t1)≤ х1,X(t2)< х2, … , X(tn)< хn). Перечислим ниже основные используемые типы случайных процессов. Гауссовские случайные процессы Нормальные (гауссовские) случайные процессы считаются важным классом случайных процессов. Все конечномерные распределения данных процессов считаются нормальными. С целью глубокого описания гауссовских процессов довольно указать его двумерные распределения. Белый шум 8 Белый шум - последовательность независимых одинаково распределенных случайных величин с нулевым средним. Белый шум называется гауссовским, если случайные величины имеют одно и тоже нормальное распределение. Процессы скользящего среднего Рассмотрим белый шум: независимые одинаково распределенные величины – ε1, ε2, … , εt. Процесс скользящего среднего со средним µ называют процесс X(t): X(tn)= εt+Ɵ εt-1+ µ, где Ɵ- некоторый числовой коэффициент, µ- константа. Этот процесс является простейшим обобщением процессов белого шума. Процессы авторегрессии Процессом авторегрессии со средним значением µ - это процесс X(t), для которого выполняются соотношения: X(t)- µ=φ· (X(t-1) - µ)+ εt, где параметры µ и φ – постоянный величины. Члены этого процесса, разделенные промежутком времени h>0, не становятся независимыми, насколько большое не было h. Но при этом, зависимость между ними убывает с ростом h, если |φ|<1. Марковское свойство Процессы называются марковскими, если их поведение определяется состояние в настоящем и воздействиями, которые будут осуществляться в будущем, а состояние до настоящего времени несущественно. Но в обычных обстоятельствах нет возможности проверить, обладает ли этим свойством наблюдаемый временной ряд или нет. Стационарность В приложениях широко используют такое свойство случайных процессов, как стационарность, а именно, процессы, вероятностные характеристики которых не зависят от времени. Определенный ранее процесс белого шума называется стационарным. 9 Глава 2. Возможности прогнозирования в программе STATISTICA §1. Модели экспоненциального сглаживания и их реализация в пакете STATISTICA Выделение и анализ детерминированной составляющей временного ряда выполняется часто с помощью выравнивания или сглаживания его. Методы экспоненциального сглаживания (МЭС) используют для сглаживания значений наблюдаемого рядя, выделения случайной составляющей и прогнозирования будущих значений. В этих моделях можно учитывать как сезонность, так и тренд. В STATISTICA возможно использование моделей с аддитивным и мультипликативным шумом. Идея МЭС состоит в том, что исходный ряд усредняется с некоторыми весами, и образуется новый ВР, но с меньшей случайностью, т.е. дисперсией, и поведение нового ВР можно уже прогнозировать. Чтобы воспользоваться модулем «Экспоненциальное сглаживание и прогнозирование» в STATISTICA необходимо зайти: Анализ –> Углубленные методы анализа –> Временные ряды и прогнозирование и выбрать опцию «Экспоненциальное сглаживание и прогноз» рис.2 Рисунок 2. Панель меню вкладки «Анализ временных рядов» §2. Простое экспоненциальное сглаживание Простое экспоненциальное сглаживание задается формулой: S (t ) x(t ) (1 ) S (t 1), где S (t ) новый ВР, x(t ) исходный ряд, некоторый фиксированный параметр. 10 0 1, чем меньше значения , тем в большей степени мы будем подавлять случайную компоненту, т.е. колебания исходного ряда и шума. Если равно 1, то все прошлые наблюдения игнорируются, если равно 0, то игнорируются текущие наблюдения. §3. Выбор оптимального значения параметра α Существуют различные аргументы выбора подходящего параметра сглаживания. Некоторые исследования показывают, что на практике обычно советуется брать меньше 0,30. Многие исследователи приходят к заключению, что лучше всего оценивать оптимально по данным, чем просто “наугад” или пользоваться искусственными рекомендациями. При анализе реальных моделей параметр сглаживания ищется с помощью опции «Поиск на сетке» рис.3 Рисунок 3. Выполнение поиска на сетке Исследуется сетка значений от 0,1 до 0,9, с шагом равным 0,1. Затем выбирается такой параметр , для которого минимальна сумма квадратов (или среднее квадратов) остатков (наблюдаемые значения минус прогнозируемые на шаг вперед). В программе STATISTICA модуль «Временные ряды и прогнозирование» предлагает пользователю найти лучший параметр с помощью минимизации автоматически. В окне «Автоматический поиск» рис.4. 11 Рисунок 4. Выполнение автоматического поиска параметров Для минимизации средней квадратической ошибки, средней абсолютной ошибки или средней абсолютной относительной ошибки используется квазиньютоновская процедура. Во многих случаях эта процедура более эффективна, чем модуль «поиск на сетке» (особенно, если имеется несколько параметров). §4. Индексы качества подгонки Прямым способом оценки прогноза, который получается на основе определенного значения параметра , является построение графика наблюдаемых значений и построение прогнозов на шаг вперед. Из такого графика будет видно, на каких именно участках прогноз лучше, а на каких хуже. Как и при проведении других анализов, визуальная проверка часто является наиболее пригодной для оценки точности прогноза экспоненциального сглаживания, но существуют и другие меры ошибки, которые используются для определения оптимального значения параметра . Все эти меры автоматически вычисляются в модуле «Временные ряды и прогнозирование». Меры ошибки: 1 Средняя ошибка (ME – Mean Error). 𝑀𝐸 = ∑𝑁 𝑖=1(𝑌𝑖 − 𝑌𝑖 ) Она 𝑁 вычисляется усреднением ошибок на каждом шаге. Данная мера имеет недостаток: положительные и отрицательные ошибки при суммировании самоуничтожаются, следовательно, данная мера не является удовлетворительным индикатором прогноза. 12 1 𝑁 Средняя абсолютная ошибка (MAE – Mean Absolute Error). 𝑀𝐴𝐸 = ∑𝑁 𝑖=1|𝑌𝑖 − 𝑌𝑖 | Вычисляется как среднее абсолютных ошибок. В том случае, когда ее значение равно 0, мы имеем совершенный прогноз. Ее преимущество состоит в том, что она не придает большого значения выбросам. Сумма квадратов ошибок (SSE), среднеквадратическая ошибка 1 𝑁 2 2 (MSE – Mean Squared Error). 𝑆𝑆𝐸 = ∑𝑁 𝑖=1(𝑌𝑖 − 𝑌𝑖 ) ; 𝑀𝑆𝐸 = ∑𝑖=1(𝑌𝑖 − 𝑌𝑖 ) 𝑁 Данные критерии часто используются при выборе лучшей модели прогнозирования. Каждое значение ошибки прогноза при расчете данных мер возводится в квадрат, что показывает большие ошибки прогноза. Данный недостаток важно учитывать, так как модель прогнозирования, постоянно дающая средние по величине ошибки, во многих случаях может быть лучше другой модели, имеющей малые ошибки, но периодически дающей неприемлемые по абсолютной величине выбросы. Относительная ошибка (ОО). Выражает качество подгонки в терминах относительных ошибок. 𝑌𝑖 − 𝑌𝑖 ∙ 100 𝑌𝑖 Средняя относительная ошибка (СОО). Считается как среднее относительных ошибок. 𝑂𝑂 = 𝑁 1 (𝑌𝑖 − 𝑌𝑖 ) 𝐶𝑂𝑂 = ∑ 𝑁 𝑌𝑖 𝑖=1 Средняя абсолютная относительная ошибка (САОО). Используется для оценки качества подгонки в целом, т.к. отрицательные и положительные значения относительных ошибок будут подавлять друг друга. 𝑁 |𝑌𝑖 − 𝑌𝑖 | 1 𝐶𝐴𝑂𝑂 = ∑ 𝑁 𝑌𝑖 𝑖=1 §5. Начальное сглаженное значение S(0) Обратив внимание на формулу простого экспоненциального сглаживания, то заметим, что необходимо знать значение S (0) для вычисления первого сглаженного элемента. Для определения 1-го сглаженного элемента необходимо знать S(0). Если к началу процедуры сглаживания уже имеются некоторые данные, то вместо S(0) можно использовать усреднение этих данных. 13 Во многих рекомендациях по применению экспоненциального сглаживания рекомендуется выбирать начально значение таким образом, чтобы оно давало наилучший прогноз. Но с другой стороны, действие выбора ослабевает с увеличением длины ряда. В модуле «Временные ряды и прогнозирование» в STATISTICA существует выбор для задания различных начальных значений, кроме того, начальное значение можно вычислить автоматически. §6. Параметры экспоненциального сглаживания Выбор параметров экспоненциального сглаживания располагается во вкладке «Дополнительно» рис.5. Рисунок 5. Параметры экспоненциального сглаживания В полях «Alpha», «Delta», «Gamma», «Phi» задаются параметры экспоненциального сглаживания. Параметр «Alpha» Он необходим для всех моделей экспоненциального сглаживания. Параметр «Delta» Это сезонный сглаживающий параметр, нужен лишь в моделях с сезонностью. Прогноз на аддитивных моделях рассчитывается по формуле: Forecast (t ) S (t ) I (t lag ), где I сглаженный сезонный фактор: I (t ) I (t lag ) Delta (1 Alpha) e(t ), где e(t ) разность между элементами наблюдаемого ряда и элементами прогноза в момент времени t, 14 lag сезонный период. Формула для мультипликативных моделях: Forecast (t ) S (t ) I (t lag ) где I сглаженный сезонный фактор: I (t ) I (t lag ) Delta (1 Alpha ) e(t ) / S (t ). Параметр «Delta» может принимать значения в отрезке между 0 и 1. Если он равен нулю, то сезонная составляющая остается такой же и на следующем цикле, что и на предыдущем. Если показатель «Delta» равен одному, то сезонная составляющая предельно меняется модель с сезонностью, наиболее подходящее значение «Delta» лежит между 0 и 1. Параметр «Gamma» Является параметром сглаживания тренда. Применяется в моделях с демпфированным трендом (ДТ) в рядах без сезонности и в моделях с экспоненциальным и линейным трендом. Если «Gamma» равна нулю, то тренд не меняется для всех значений ВР (и для всех прогнозов). Если она равна одному, то тренд задается полностью ошибками наблюдений. Параметр «Phi» Является параметром сглаживания тренда. Применяется в моделях с ДТ. Данный параметр включает изменения тренда, т.е. показывает как быстро он затухает или наоборот возрастает. §7. Линейный, экспоненциальный и демпфированный тренды Выбор данных параметров появляется после нажатия на кнопку «Экспоненциальное сглаживание и прогноз» рис.6. 15 Рисунок 6. Панель меню В общей модели можно учесть сезонный фактор и тренд: Отсутствие тренда; Линейный; Экспоненциальный; Демпфированный (затухающий). Вернемся к рынку продаж. Пример линейного тренда Например, каждый год продажи повысились на 1 миллион. В таком случае мы имеем дело с линейным трендом. Пример экспоненциального тренда Например, каждый год продажи повышаются в 1,3 раза. В таком случае мы имеем дело с экспоненциальным трендом. Пример демпфированного тренда Например, в первом году продажи возросли на 1 миллион, во втором году увеличение составило только 80% по сравнению с предыдущим годом, т.е. продажи возросли на 800000; в следующем году снова повышение было только на 80%, т.е. на 800,000*0.8 = 640,000 и т.д. В таком случае мы имеем дело с демпфированным (затухающим) трендом. §8. Модели экспоненциального сглаживания временных рядов Тип модели 16 Модели экспоненциального сглаживания классифицируются как сезонные или несезонные. Сезонные модели доступны, только если периодичность, определенная при помощи узла интервалов времени, сезонная. Типы сезонной периодичности: периоды циклов, года, кварталы, месяцы, дни в неделю, часы в день, минуты в день и секунды в день. Простая модель Эта модель подходит для рядов, в которых отсутствует тренд и сезонность. Единственный обоснованный параметр такой модели предназначен для сглаживания уровня ряда. Простая модель экспоненциального сглаживания в наибольшей степени напоминает модель АРПСС с нулевым порядком авторегрессии, единичными порядками дифференцирования и скользящего среднего, и не имеющую константы. Линейный тренд Модель Холта Эта модель подходит для рядов, в которых имеется линейный тренд и отсутствует сезонность. Относящиеся к ней параметры предназначены для сглаживания уровня и тренда, независимого в этой модели. Модель экспоненциального сглаживания Холта в наибольшей степени напоминает модель АРПСС с нулевым порядком авторегрессии и двумя порядками дифференцирования и скользящего среднего. Демпфированный тренд Эта модель подходит для рядов, в которых линейный тренд затухает, а сезонность отсутствует. Ее основные параметры предназначены для сглаживания уровня, тренда и скорости затухания тренда. Затухающая модель экспоненциального сглаживания в наибольшей степени напоминает модель АРПСС с единичными порядками авторегрессии и дифференцирования, имеющую порядок скользящего среднего, равный двум. Простая сезонная модель Эта модель подходит для ряда, в котором нет никакого тренда, а сезонная вариация постоянна во времени. Ее основные параметры сглаживания - уровень и сезонная составляющая. Сезонная модель экспоненциального сглаживания в наибольшей степени напоминает модель АРПСС с нулевым порядком авторегрессии (единичными порядками несезонного и сезонного дифференцирования) и ненулевые коэффициенты скользящего среднего для лагов 1, p и p+1, где p - число периодов сезонности. Для ежемесячных данных p = 12. Аддитивная модель Винтера Эта модель подходит для ряда с линейным трендом и сезонной вариацией, не меняющейся с течением времени. Ее основные параметры сглаживания - уровень, тренд и сезонная составляющая. Сезонная аддитивная модель Винтера в наибольшей степени напоминает модель АРПСС с нулевым порядком авторегрессии (единичными порядками несезонного и сезонного дифференцирования) и ненулевые коэффициенты скользящего среднего для лагов p, где p - число периодов сезонности. Для ежемесячных данных p = 12. 17 Мультипликативная модель Винтера Эта модель подходит для ряда с линейным трендом и сезонной вариацией, изменяющейся с величиной ряда. Ее основные параметры сглаживания - уровень, тренд и сезонная составляющая. Мультипликативная модель экспоненциального сглаживания Винтера не похожа ни на одну из моделей АРПСС. §9. Методология Бокса – Дженкинса идентификации ARIMA модели У методологии прогнозирования Бокса – Дженкинса есть существенное отличие от других методов, а именно не требуется особенной структуры в данных, на основе которых нужно построить прогноз. В ней используется итеративный подход к выявлению подходящей модели среди общего множества моделей. Затем выделенная модель сравнивается с историческими значениями, чтобы проверить точность модели. Модель является допустимой, если остатки малы, случайно распределены и не содержат важной информации. Если заданная модель не удовлетворяет критериям, процесс повторяется ещё раз, но уже используется улучшенная модель. Данная процедура проводится до тех пор, пока не найдётся хорошая модель. После этого модель можно использовать для построения прогнозов. Эту стратегию выбора модели можно иллюстрируется следующим образом: 18 §10. Определение модели Первым этапом необходимо выяснить, стационарный ли ряд. Для этого требуется исследовать график ВР и график выборочной автокорреляционной функции (АФ). Если ряд не стационарный, то в большинстве случаев его можно преобразовать в стационарный ряд, если исходный ряд заменить на ряд разностей. В таком случае модель ARIMA строится уже для ряда разностей. Несмотря на то, что в таких моделях используются разности, на основе таких модели можно сделать прогноз для исходных данных ВР. После преобразования ряда, вторым этапом, необходимо определить общие параметры модели, которую в дальнейшем планируется использовать. На этом шаге выполняется сравнение коэффициентов АФ и ЧАФ, найденных для данных, с теоретическими значениями для разнообразных моделей ARIMA. Каждая модель ARIMA имеет собственный комплект коэффициентов автокорреляции и частной автокорреляции, необходимо научиться сравнивать выборочные значения с теоретическими. Стартовый выбор модели рассматривается как пробный, так как возникает некоторая неоднозначность при идентификации модели ARIMA на основе структуры выборочных АФ и ЧАФ. Для определения численных значений параметров p, q рассматривают: Частные автокорреляционные функции ряда Выборочные автокорреляционные функции ряда Существуют закономерности, которые связывают поведение автокорреляционной и частной автокорреляционной функций ряда и параметры p, q : Пусть исследуется прогресс авторегрессии порядка p. Тогда его ЧАФ обрывается на лаге p. АФ плавно спадает. Другими словами, если выборочные автокорреляции приближается к нулю, а частные автокорреляции быстро отсекаются, то в модели должны включаться авторегрессионные слагаемые; Пусть наблюдается прогресс скользящего среднего порядка q. Тогда его автокорреляция обрывается на лаге q. ЧАФ плавно спадает. Другими словами, если выборочные автокорреляции достаточно быстро отбрасываются, а частные автокорреляции плавно приближаются к нулю, то в модели должны включаться слагаемые скользящего среднего. В модели с параметрами p и q не равными нулю автокорреляционная функция представляется в виде суммы экспонент и затухающих синусоид. 19 То есть, если график выборочной автокорреляции и график частной автокорреляции плавно стремятся к нулю, то это обозначает, что необходимо включить в модель авторегрессионных слагаемых и слагаемые скользящего среднего. Посчитав количество значимых слагаемых в этих составляющих можно определить их общий порядок. Практика показывает, что многие наблюдаемых рядов, описанных смешанной моделью можно отнести с достаточной точностью к одному из пяти классов: Модели авторегрессии (МА) с одним параметром: p 1, q 0; МА с двумя параметрами: p 2, q 0; Модели скользящего среднего (МСС) с одним параметром: p 0, q 1; МСС с двумя параметрами: p 0, q 2; МА с одним параметром и МСС с одним параметром: p q 1. Имеются следующие практические критерии для определения этих моделей с помощью автокорреляционных и частных автокорреляционных функций: 1. Один параметр авторегрессии (Модель АР(1)): АФ экспоненциально затухает, ЧАФ имеет выброс на первом лаге; 2. Два параметра авторегрессии (Модель АР(2)): АФ имеет форму уменьшающейся волны вида синуса или экспоненциально уменьшается; ЧАФ имеет выброс только для первого и второго сдвигов (для остальных задержек значения равны нулю); 3. Один параметр СС (Модель СС(1)): АФ имеет выброс на первом сдвиге (оставшиеся элементы равны нулю); ЧАФ экспоненциально уменьшается – либо с переменным знаком, либо монотонно; 4. Два параметра СС (Модель СС(2)): АФ имеет выбросы на первом и втором сдвигах (оставшиеся значения равны нулю); ЧАФ имеет форму волны вида синуса или экспоненциально уменьшается; 5. Один параметр авторегрессии и один параметр СС (Модель АРСС(1,1)): АФ экспоненциально уменьшается, начиная с 1 задержки (первое значение не равно нулю), уменьшение может быть монотонное и колебательное; в ЧАФ преобладает затухающий экспоненциальный элемент, либо монотонный, либо с переменным знаком (1-е значение не равно нулю). При одинаковых условиях предпочтение отдают наиболее простым моделям. Принцип экономии Если имеется ограниченный объем данных, относительно не сложно найти модель с большим числом параметров, которая сможет хорошо заменить одни объекты более простыми, но близкими к исходным. Однако если построить прогноз, используя такую модель, вероятнее всего, из-за большого разброса 20 значений данных, так как присутствуют случайные ошибки моделирования, прогноз получится плохим. Исходя из такой особенности, основная цель это построение наиболее простой модели, которая сможет адекватно показать главные особенности исходных данных. §11. Оценка модели После выбора пробной модели производится оценка ее параметров. Значения параметров в моделях ARIMA выбираются путем уменьшения суммы квадратов ошибок подгоночных параметров. Для этого используется нелинейный метод наименьших квадратов. После минимизации ошибок и вычисления стандартной ошибки вводится и интерпретируется величина t. Параметры. оказывающие существенное влияние на поведение модели, оставляются, а несущественные параметры отбрасываются. Дополнительно вычисляются остаточная среднеквадратическая ошибка (ОСО) и оценка изменений ошибки. ОСО определяется как: n s2 et2 t 1 nr Y Y n t 1 t nr 2 t , где et Yt Yt остаток в момент времени t; n количество остатков; r общее число оцениваемых параметров. ОСО используется для сравнения и оценки разнообразных моделей. А также, используется для определения граничной ошибки прогнозирования. §12. Проверка модели Необходимо проверить модель на адекватность, перед тем, как начать построение прогноза. Если остатки случайны, то модель считается адекватной. Большинство графиков остатков, используемых при анализе построенной модели в регрессионном анализе, могут пригодиться для анализа остатков в модели ARIMA. Особенно гистограмма остатков и нормальный вероятностный график (для проверки нормальности) являются очень полезными, а также необходимо построить график их временной последовательности для проверки разброса значений. Отдельные остаточные автокорреляции должны быть небольшими и должны располагаться в окрестности нуля внутри диапазона 2 n . Значительная остаточная автокорреляция при малых и сезонных периодах задержки означает, что выбранная модель не удовлетворяет условиям адекватности и необходимо выбрать иную модель или изменить имеющуюся. Характеристика функции остаточной автокорреляции в общем должна соответствовать автокорреляциям, найденным для набора случайных ошибок. 21 С помощью критерия «хи-квадрат» проводится общая проверка адекватности модели, который базируется на Q-статистике Бокса – Льюинга. Этот критерий оценивает общие размеры остаточных коэффициентов автокорреляции. Если величина p – уровня, который связан с Q-статистикой, меньше заданного уровня значимости 0,05, то исследуемая модель считается неадекватной. Необходимо подобрать новую модель или изменить старую и продолжить анализ до того момента, пока не найдется модель, которая удовлетворяет всем требованиям. Необходимо также учитывать экспертную оценку, т.к. в некоторых случаях допустимо не обращать внимание на небольшое количество больших остатков, если их нахождение в модели можно объяснить случайными факторами, для оставшихся наблюдений, модель будет считаться адекватной. §13. Прогнозирование на основе ARIMA моделей Когда найдена адекватная модель, можно строить прогнозы несколько периодов вперед. Можно построить интервалы будущих значений на основе прогнозов. В большинстве случаев, если строится прогноз на большой период, то и интервал предсказания будет большой. Так как на более удаленные периоды времени прогноз получается менее точный, чем прогноз на следующее наблюдение. После того, как станут известны новые данные наблюдений, используемую ранее модель ARIMA можно применить для нового прогноза, с новым началом отсчета времени. Если после появления новых данных, поведение ряда изменилось, то приходится переоценивать параметры модели, в некоторых случаях даже разрабатывать совершенно другую модель. Возможно, потребуется пересмотр модели, если при просмотре ошибки прогнозирования, со временем амплитуда ошибки значительно возрастает. §13. Идентификации сезонных моделей ARIMA Мультипликативные сезонные модели АРПСС, реализованные в программе STATISTICA, считаются обобщением обычных моделей АРПСС. Полная мультипликативная сезонная модель АРПСС может быть сформулированна в виде: АРПСС ( p, d , q )( Ps, ds, Qs ), где к параметрам модели АРПСС: p порядок авторегрессии; d порядок разности; q порядок скользящего среднего, добавлены сезонные параметры: Ps сезонный параметр авторегрессии; ds сезонная разность; 22 Qs сезонный параметр СС. Например, модель АРПСС (0,1, 2)(0,1,1) по определению состоит из: двух обычных параметров СС, одного параметра сезонности СС для ряда, получаемого из исходного сперва высчитыванием разности с лагом 1, а затем высчитывания разности с сезонным лагом s 1. Порядок сезонной разности и порядок в обычной модели АРПСС определяется на этапе идентификации модели. Идентификация со случая s 1 естественным образом распространяется на случай s 1. §14. Преимущества и недостатки ARIMA моделей Подход Бокса – Дженкинса к анализу временных рядов считается сильным инструментом для достаточно точного прогнозирования на небольшие периоды. Модели ARIMA описывают большой спектр характеристик ВР, так как являются достаточно гибкими. На практике, процедура проверки модели на адекватность не сложна для понимания. Кроме того, построенные прогнозы и их интервалы предсказания исходят непосредственно из подобранной модели. Однако при использовании моделей ARIMA существуют и недостатки. 1. Для работы с моделью требуется большой объем исходных данных. Следует понимать, что если сезонный период S=12, то наблюдения за один целый год составляют фактически одно сезонное значение данных, а не двенадцать значений. Если данные несезонные, то для использования ARIMA модели необходимо около 40 наблюдений. Если данные сезонные, то для построения модели потребуются статистические данные примерно за 6 – 10 лет, это зависит от величины периода сезонности. 2. Простого способа корректировки параметров модели ARIMA не существует (такого как в некоторых сглаживающих методах, когда задействуются новые данные). Необходимо периодически перестраивать модель почти полностью, а иногда и выбрать совершенно новую модель. 3. Требуются большие затраты временных ресурсов для того, чтобы построить удовлетворительную модель ARIMA. Зачастую, время необходимое для вычислений, затраты на построение модели и объемы необходимых баз данных могут быть существенно выше, нежели для более традиционных методов прогнозирования, например сглаживание. 23 Глава 3. Построение адекватной модели для исходных данных. Оценка модели. Построение прогноза §1. Визуальный анализ Отобразим объем продаж на графике рис.7. Рисунок 7. График объема продаж исходных данных На графике недельных продаж отчетливо виден почти линейный тренд, то есть имеется устойчивый рост в течение более двух лет. В тоже время характер недельных продаж повторяется, они имеют почти одинаковое распределение по месяцам в каждом годовом цикле. Это говорит об определенном типе модели, в которой амплитуда сезонных изменений не увеличивается вместе с трендом, а именно это модель с аддитивной сезонностью. §2. Применение метода экспоненциальное сглаживание В меню «Анализ» выбираем модуль « Углубленные методы анализа» – «Временные ряды и прогнозирование» рис.8. 24 Рисунок 8. Выбор опции временных рядов и прогнозирования В полученном диалоговом окне выбираем опцию «Экспоненциальное сглаживание и прогноз», выбираем нашу переменную. Открывается новое диалоговое окно рис.9: 25 Рисунок 9. Диалоговое окно. Согласно предварительному анализу мы выявили, что нашу модель можно описать следующим образом: наличие линейного тренда; аддитивная сезонность. Параметры Альфа, Дельта и Гамма оставляем равными 0,1. Переходим во вкладку «Поиск на сетке» и выставляем параметры для Альфа, Дельта и Гамма следующим образом: Начать со значения 0,1; Шаг 0,1; Остановиться на значении 0,9. Программа увеличивает каждый параметр от минимального значения («Начать со значения») на шаг, заданный в поле «Шаг», до значения определенного в поле «Остановиться на значении». Для каждого набора значений параметров программа вычислит «Суммы квадратов остатков» (наблюдаемые значения минус сглаженные). По умолчанию, 10 “лучших” решений будет показано в таблице результатов. Нажимаем на кнопку «Поиск на сетке» и получаем следующую табл.2: Таблица 2. Меры ошибок Программа автоматически будет вычислять Сумму квадратов остатков, начиная с заданных значений Альфа, Дельта и Гамма с установленным шагом, равный одному. Красным выделяется наилучший показатель при подстановке значений. Мы выбираем модель по последнему столбцу, а именно Средней абсолютной относительной ошибки. Этот параметр определяет среднюю абсолютную ошибку, а именно абсолютную разность между наблюдаемым значением и сглаженным значением. Получаем модель с параметрами: α=0,7 δ=0,1 γ=0,1 и средняя абсолютная относительная ошибка равна 8,13%, что означает, что в среднем прогнозируемые значения в этой модели отличаются на 8,13% от наблюдаемых значений. 26 После этого мы подставляем полученные параметры и строим прогноз табл.3. Таблица 3. Прогноз МЭС Строим график получившегося прогноза рис.10. Рисунок 10. График прогноза МЭС Синим цветом отображается построенная модель на основе исходных данных об объемах продаж. Красным цветом построена модель по сглаженному ряду. Они строятся по нижней оси и левой оси. Зелёным цветом построен график остатков, то есть разница между объемом продаж и сглаженным рядом. График строится по нижней оси и правой оси. §3. Реализация модели ARIMA для исходных данных Для построения прогноза этим методом, мы также используем программу STATISTICA, а в ней макрос АвтоАРПСС(ARIMA). Решение задачи проводится в три этапа: выбор модели; 27 оценка коэффициентов; проверка модели. Выбор модели проходит в два этапа: 1. приведение ряда к стационарному виду; 2. оценка количества параметров АРПСС модели. Чтобы привести ряд к стационарному виду, необходимо последовательно применить к временному ряду несколько преобразований (взятие логарифма, возведение в степень, взятие разностей и т. д.). Программа автоматически перебирает возможные преобразования и смотреть, к какому результату это приводит. Далее, когда ряд приведён к стационарному, по виду автокорреляционной и частной автокорреляционной функций нужно определить число параметров АРПСС модели. Согласно теории, автокорреляционная и частная автокорреляционная функции – это одно из фундаментальных представлений временного ряда. Если для двух процессов эти функции одинаковы, то эти процессы идентичны. Казалось бы, всё просто, но на самом деле истинный вид этих функций нам неизвестен: дело в том, что нельзя получить всю информацию о ряде, т. к. доступно лишь несколько наблюдений, поэтому оцененные функции будут отличаться от реальных. Обычно аналитик перебирает несколько моделей и выбирает наилучшую модель. Запускаем макрос на основе наших данных и строим прогноз на 12 недель вперед с доверительным интервалом 90%. Программа не только перебирает модели, но и выбирает лучшую стационарную модель табл.4. Таблица 4. Параметры модели p – количество членов авторегрессии; q – количество членов скользящего среднего; Ps – количество сезонных членов авторегрессии; 28 Qs – количество сезонных членов скользящего среднего; SL – величина сезонного лага; bLag – флаговый параметр, указывающий на то, брались разности (1) или нет (0); Lag - флаговый параметр, указывающий на то, брались разности c лагом 1 (1) или нет (0); SLag - флаговый параметр, указывающий на то, брались разности c лагом 12 (1) или нет (0); AbsMeanDev – средняя абсолютная ошибка; RelMeanDev – средняя относительная ошибка; Получаем прогноз, а также его нижнюю и верхнюю границу табл.5. Таблица 5. Границы прогнозирования А также прогноз на графике рис.11: 29 Рисунок 11. График прогноза §4. Оценка построенных моделей После того, как построены две модели различными методами, нужно оценить, какая из этих моделей наиболее точно строит прогноз для конкретно нашего случая. Для этого для последних 12 предоставленных значений и построенных двумя методами рассчитаем средние абсолютные ошибки табл.6. Таблица 6. Тестовое множество Средняя абсолютная ошибка для значений по методу экспоненциального сглаживания равна 0,085721, а по методу АРПСС равна 0,063542. Следовательно, 30 прогноз, построенный по второму методу более точный. Теперь строим прогноз на три месяца вперед, используя наиболее подходящую модель табл.7. Таблица 7. Прогноз График тестового множества рис.12: Рисунок 12. Тестовое множество 31 Заключение В дипломной работе рассматривалась задача прогнозирование объёма продаж, используя МЭС и АРПСС. Для того, чтобы решить данную задачу использовался программный пакет STATISTICA. Проведенные исследования показали, что для исходных данных, предоставленных компанией STATSOFT, лучше подходит модель, построенная методом АРПСС, нежели МЭС. Средняя абсолютная ошибка для значений методом АРПСС равна 0,063542, что на 0,02 меньше, чем во втором методе. На основе полученной модели, строится прогноз. 32 Используемые обозначения АРПСС(ARIMA) - авторегрессия и проинтегрированное скользящее среднее МЭС - метод/модель экспоненциального сглаживания ВР - временной ряд СС – скользящее среднее ДТ - демпфированный тренд АФ - автокорреляционная функция ЧАФ – частная автокорреляционная функция МА - модель авторегрессии МСС - модели скользящего среднего ОСО - остаточная среднеквадратическая ошибка 33 Список литературы 1. Мхитарян С.В., Данченок Л.А «Прогнозирование продаж с помощью адаптивных статистических методов» Фундаментальные Интернет-проект «Корпоративный исследования 2014, выпуск №9 2. Александр Коренев менеджмент», 1998–2015 http://www.cfin.ru/finanalysis/math/statistical_method.shtml 3. А. Н. Романова «Прогнозирование объемов продаж». Справочник экономиста 2009, выпуск №11 4. Кендэл М. «Временные ряды».— М.: «Финансы и статистика», 5. Бокс Дж., Дженкис Г. «Анализ временных рядов. Прогноз и 1981. управление».— М.: Мир, 1976 6. В. П. Боровиков. STATISTICA. Искусство анализа данных на компьютере: для профессионалов (2-е издание), СПб.: Питер, 2003. – 688 с.: ил. 7. Ю.Н. Тюрин, А.А. Макаров. Анализ данных на компьютере (3-е издание) М.: ИНФРА-М, 2003ю – 544 с.: ил. 8. Г. И. Ивченко, Ю. И. Медведев. Математическая статистика. – М.: Высшая школа, 1984. – 248 с. 9. Аналитические технологии для прогнозирования и анализа данных 1999-2005 НейроПроект 10. В.Н. Тутубалин. Теория вероятностей и случайных процессов: учебное пособие.- М.: Изд-во МГУ, 1992.- 400с 11. Т. Андерсон. Статистический анализ временных рядов.— М.: «Мир» 1976 34