Тестирование сезонной корректировки с помощью Demetra+ Петренко Ирина Станиславовна Государственная служба статистики Украина Последняя версия программы Demetra+ была загружена в мае 2011 года по ссылке: http://forge.osor.eu/frs/download.php/1549/demetra_ plus_1.0.2.msi. В качестве исходных данных для сезонной корректировки с помощью программы Demetra+ использован динамический ряд данных индекса промышленного производства Украины к 2005 году (NACE rev.1.1) (далее ИПП). 2 Проверка первоначального динамического ряда • Длительность динамического ряда: – [1-2000 : 9-2011] или 141 наблюдение. • Точность: полученная от предприятий информация программными средствами поддается логическому и арифметическому контролю и в случае выявления ошибок корректируется; последующая обработка данных осуществляется с учетом внесенных поправок; индексы за отчетный год публикуются с учетом уточнений на последнюю дату; анализ и пересмотр данных по итогам прошлого года осуществляется в феврале. • Качество исходных данных: – выпадающие показатели были проверены; пропущенных значений нет. • Качество методов составления данных: – помесячный ряд за 2006-2011 года получен по новой методике (справка). • Последовательность динамического ряда: – исходя из индексов к предыдущему месяцу, цепным методом рассчитаны индексы к декабрю 1999 года (соединены две части ряда: 2000-2005 и 2006-2011), получено среднемесячное значение 2005 года и сформирован ряд помесячных данных к 2005 году. Справочно: за 2000-2008 года расчет ИПП осуществлялся цепным методом на основании ежемесячных индексов, которые рассчитаны по данным предприятий о стоимости произведенной продукции за месяц в сопоставимых ценах, с 2009 года расчет базируется на данных о динамике производства за постоянным набором товаровпредставителей (более тысячи позиций) и структуре валовой добавленной стоимости за базисный год (2007 год), что соответствует международным стандартам в этой сфере. Индексы за 2007 и 2008 года были пересчитаны по новой методологии. 3 Визуальный анализ динамического ряда на наличие сезонности 4 Сезонная диаграмма промышленного производства Украины Индекс за март чаще всего выше чем индекс января или февраля. Самое высокое среднее значение производства в октябре. Анализ спектров Представленная диаграмма авторегрессивного спектра на нулевой частоте показывает высшую точку на всех сезонных частотах (сиреневые линии), что указывает на наличие сезонности (регу-лярной составляющей) в исходных данных. 5 Подготовка календаря. Выбор подхода и предикторов. Подготовлен в Demetra+ государственный календарь Украины Календарные эффекты (разное количество дней в месяце и рабочих дней, различные праздники (Новый год, Рождество, национальные праздники), в т.ч. переходящие (Пасха, Троица)) имеют влияние на динами-ческий ряд ИПП Украины. Обычно много выходных в мае. Справочно: Промышленность Украины представлена различными видами деятельности (в общем более 150-ти – на уровне 3-4 знака NACE). Определяющее влияние на динамику имеют (более 50% добавленной стоимости): металлургия (непрерывный цикл производства; очень зависит от внешней конъюнктуры), пищевая промышленность (в целом хорошо развита; наиболее сезонные: сахарная промышленность (октябрь), кондитерская и ликеро-водочная (декабрь); производство пива (летние месяцы)), машиностроение (в т.ч. отрасли с длительным циклом: авиа- и судостроение, производство отопительных котлов, двигателей и турбин), химическая и нефтехимическая промышленность. Влиятельны: добывающая промышленность, электроэнергетика, нефтеперерабатывающая (непрерывный цикл производства). TRAMO/SEATS (исходя из рекомендаций) Использована спецификация, которая создана на основе спецификации RSA5 и национального календаря 6 Количество рабочих дней jan feb mar apr may jun jul aug sep oct nov Среднее dec 2000 19 21 22 20 19 20 21 22 21 22 22 21 20,8 2001 21 20 21 20 20 19 22 22 20 23 22 21 20,9 2002 21 20 20 22 19 18 23 21 21 23 21 22 20,9 2003 21 20 20 21 19 19 23 20 22 23 20 23 20,9 2004 20 20 22 21 17 21 22 21 22 21 22 23 21,0 2005 19 20 22 21 19 20 21 22 22 21 22 22 20,9 2006 20 20 22 19 20 20 21 22 21 22 22 21 20,8 2007 21 20 21 20 19 20 22 22 20 23 22 21 20,9 2008 21 21 20 21 19 19 23 20 22 23 20 23 21,0 2009 20 20 21 21 18 20 23 20 22 22 21 23 20,9 2010 19 20 22 21 17 21 22 21 22 21 22 23 20,9 2011 19 20 22 20 19 20 21 22 22 21 22 22 20,8 2012 20 21 21 20 20 19 22 22 20 23 22 21 20,9 Среднее 20,1 20,2 21,2 20,5 18,8 19,7 22 21,3 21,3 22,2 21,5 22,0 7 Применяемые модели Информация о предварительной обработке: • интервал оценки: [1-2000 : 9-2011] • выбрано логарифмическое преобразование • число эффективных наблюдений = 128 • количество оцениваемых параметров = 14 • выполнена проверка на эффекты рабочего дня и Пасхи • проведено тестирование на влияние високосного года • Demetra+ определила как самую подходящую модель авиалинии ARIMA model [(0,1,1)(0,1,1)] • процедура определения отклоняющихся значений выявила 3 отклоняющихся значений в Параметр Величина Стандартная TP-величина ряду: ошибка статистика LS[10-2008] -0,1750 0,0227 -7,70 0,0000 LS[11-2008] -0,1225 0,0227 -5,39 0,0000 AO[12-2004] -0,0616 0,0170 -3,63 0,0004 – смещение уровня в октябре и ноябре 2008г. – аддитивно отклоняющее значение в декабре 2004г. 8 Применяемые модели Number of values above the central value: 64 Number of values below the central value: 64 Runs: 69 Test Number Length Up and down runs: 86 Value 0,7099 3,3750 P-Value 0,4778 1,0000 Distribution Normal(0,00;1,00) Chi2(128) Test Number Length Value 0,2111 3,7060 P-Value 0,8328 1,0000 Distribution Normal(0,00;1,00) Chi2(127) 9 Применяемые модели Информация о разложении (Decomposition): Трендовая/trend. Innovation variance = 0,1360 Сезонная/seasonal. Innovation variance = 0,0466 Нерегулярная/irregular. Innovation variance = 0,1980 Первоначальный динамический ряд ИПП является произведением его составляющих: сезонной*трендовой*нерегулярной Проверка точности разложения Результаты взаимной корреляции: Estimator Estimate PValue trend/seasonal -0,1130 -0,1538 0,6695 trend/irregular -0,0347 -0,0717 0,7404 seasonal/irregular 0,0403 0,0463 0,8898 Дисперсия сезонных и трендовых составляющих ниже, чем колебания нерегулярной составляющей. Это означает, что получены устойчивые трендовые и сезонные составляющие. 10 График результатов Нижний график изображает сезонный фактор (синим цветом) и нерегулярную составляющую (красным цветом) и их развитие с течением времени. Сезонные колебания ряда значительные, поскольку сезонная составляющая не потеряна в шуме нестандартной составляющей (амплитуда сезонных колебаний намного выше колебаний нерегулярной составляющей). При этом имеет место понижение амплитуды сезонных колебаний (с 2005 года). 11 График результатов Составляющие индекса промышленного производства Украины (2005 = 100) Січ.08 Січ.09 Січ.10 Січ.11 Січ.08 Січ.09 Січ.10 Січ.11 Січ.07 Січ.06 Січ.04 Січ.03 Січ.02 Січ.05 Січ.07 Січ.06 Січ.05 Січ.11 Січ.10 Січ.09 Січ.08 Січ.07 Січ.06 Січ.05 Січ.04 Січ.03 Січ.02 Січ.01 Січ.00 Тренд-цикл Січ.04 % 120 115 110 105 100 95 90 85 80 75 70 65 60 55 50 Січ.03 % 120 115 110 105 100 95 90 85 80 75 70 65 60 55 50 Нерегулярная состав ляющая Сезонная состав ляющая Січ.00 Січ.11 Січ.10 Січ.09 Січ.08 Січ.07 Січ.06 Січ.05 Січ.04 Січ.03 Січ.02 Січ.01 Січ.00 Перв ичная состав ляющая Січ.02 120 115 110 105 100 95 90 85 80 75 70 65 60 55 50 Січ.01 120 115 110 105 100 95 90 85 80 75 70 65 60 55 50 Січ.01 % Січ.00 % 12 Проверка на скользящий сезонный фактор График Соотношения Сезонность– Нерегулярность Позволяет наглядно проанализировать развития кривой сезонных колебаний. В октябре изменчивые сезонные колебания явно выражены. Еще в декабре. 13 Проверка качества Итоговая диагностика, которая в целом оценивает качество корректировки (Основная диагностика качества/Main results) В ходе анализа были выполнены все виды диагностики, при этом результат визуальной оценки спектральных сезонных пиков оценен программой как двусмысленный. Основная проверка: – значение, полученное как результат сравнения годового итогового значения первоначального ряда и ряда, скорректированного на сезонные колебания равен, как и требуется близко к нулю. Визуально спектральный анализ: по итоговой диагностике сезонные колебания и эффекты операционных дней в ряду, скорректированном на сезонные колебания отсутствуют. Regarima остатков (не должны (по определению) включать данных): остатки следуют нормальному распределению, независимые и случайные (слайд 9 и 14). Остаточная сезонность: не выявлено оставшихся сезонных колебаний в ряду, скорректированном на сезонные колебания и нерегулярной составляющей. 14 Проверка качества Остаточные сезонные факторы: График спектра ряда, скорректированного на сезонные колебания Можно предположить, что не имеется никаких показателей остаточных сезонных колебаний в ряду, скорректированном на сезонные колебания: на сезонной частоте (серые вертикальные линии) и на частоте операционных дней (пурпурные) не найдено никаких спектральных вершин, что указывает на отсутствие сезонных колебаний и эффектов операционных дней. 15 Проверка качества Остаточные сезонные факторы: График спектра ряда остаточных величин 16 Проверка качества Результаты тестирования на сезонные колебания: Non parametric tests for stable seasonality Friedman test Friedman statistic = 151,4086 Distribution: F-stat with 11 degrees of freedom in the numerator and 110 degrees of freedom in the denominator P-Value: 0,0000 Stable seasonality present at the 1 per cent level Kruskall-Wallis test Kruskall-Wallis statistic = 129,8260 Distribution: Chi2(11) P-Value: 0,0000 Stable seasonality present at the 1 per cent level Test for the presence of seasonality assuming stability Sum of squares Between months Residual Total 0,3141 0,0208 0,3349 degrees of freedom 11 129 140 Mean square 0,0286 0,0002 0,0024 Value: 177,0271 Distribution: F-stat with 11 degrees of freedom in the numerator and 129 degrees of freedom in the denominator P-Value: 0,0000 Seasonality present at the 1 per cent level Evolutive seasonality test Sum of squares Between years Error 0,0012 0,0181 Degrees of freedom 10 110 Mean square 0,0001 0,0002 Value: 0,7401 Distribution: F-stat with 10 degrees of freedom in the numerator and 110 degrees of freedom in the denominator P-Value: 0,6854 No evidence of moving seasonality at the 20 per cent level Combined seasonality test Identifiable seasonality present Residual seasonality test No evidence of residual seasonality in the entire series at the 10 per cent level: F=0,5676 No evidence of residual seasonality in the last 3 years at the 10 per cent level: F=0,6547 Тест Фридмана Статистика Фридмана = 151,4086 Распределение: F-статистика со степенью свободы 11 в числителе и со степенью свободы 110 в знаменателе P-величина: 0,0000 Стабильные сезонные колебания присутствуют на 1% уровне Тест Крускаля-Уоллиса Статистика Крускаля-Уоллиса = 129,8260 Распределение: Chi2 (11) P-величина: 0,0000 Стабильные сезонные колебания присутствует на 1% уровне Тест на присутствие стабильных сезонных колебаний Сумма квадратов Степень свободы Средний квадрат Между месяцами 0,3141 11 0,0286 Остаткиl 0,0208 129 0,0002 Всего 0,3349 140 0,0024 Величина: 177,0271 Распределение: F-статистика со степенью свободы 11 в числителе и со степенью свободы 129 в знаменателе P-величина: 0,0000 Сезонные колебания присутствуют на 1% уровне Тест на развивающие сезонные колебания Сумма квадратов Степень свободы Средний квадрат Между годами 0,0012 10 0,0001 Ошибка 0,0181 110 0,0002 Величина: 0,7401 Распределение: F-статистика со степенью свободы 10 в числителе и со степенью свободы 110 в знаменателе P-значение: 0,6854 Отсутствуют скользящие сезонные колебания на 20% уровне Комбинированный сезонный тест Присутствуют идентифицируемые сезонные колебания Тест на остаточный сезонные колебания Отсутствуют показания остаточных сезонных колебаний во всем ряду 10% уровне: F = 0,5676 Отсутствуют показания остаточных сезонных колебаний за последние 3 года на 10% уровне: F = 0,6547 17 Проверка качества Стабильность модели/анализ обновлений: Рисунок 1, 2: Хронология обновлений, как показатель стабильности ряда, скорректированного на сезонные колебания и трендового ряда (или показатель стабильности корректировки) Вспомогательное окно графика ряда, скорректированного на сезонные колебания показывает последовательные оценки для периода 2008-1. Из вспомогательного графика видно, что после 2 года обновления не существенны. Внезапное изменение в оценках цифр, скорректированных на сезонные колебания, на октябрь или на ноябрь 2008 года, связано со смещением уровня, которое появляется в ряду в этот период. 18 Проверка качества Стабильность модели/анализ обновлений: 19 Проверка качества Стабильность модели/скользящие интервалы: Программа установила 4 восьмилетних временных интервала (исходя из длины для ряда ИПП) и сравнивает изменение уровней составляющих сезонности и операционных дней. Sliding spans summary Time spans Span Span Span Span 1: 2: 3: 4: from from from from 1-2000 1-2001 1-2002 1-2003 to to to to 9-2008 9-2009 9-2010 9-2011 Tests for seasonality Stable seas. Kruskal-Wallis Moving seas. Identifiable seas. Span 1 102,7 92,2 1,5 YES Span 2 112,9 94,4 1,0 YES Span 3 168,3 97,0 1,1 YES Span 4 207,8 97,9 0,9 YES Span 2 0,9058 0,9186 1,0149 0,9870 0,9787 0,9907 1,0166 1,0055 1,0136 1,0916 1,0403 1,0387 Span 3 0,9124 0,9203 1,0179 0,9909 0,9788 0,9885 1,0164 1,0058 1,0102 1,0785 1,0381 1,0435 Span 4 0,9160 0,9198 1,0187 0,9872 0,9826 0,9836 1,0169 1,0090 1,0078 1,0741 1,0366 1,0481 Means of seasonal factors January February March April May June July August September October November December Span 1 0,9092 0,9188 1,0153 0,9894 0,9779 0,9872 1,0146 1,0048 1,0112 1,1011 1,0418 1,0358 Согласно анализу скользящих интервалов сезонной составляющей, можно предположить, что сезонные факторы ряда промышленного производства Украины являются стабильными, так как ни одна из относительных разностей не выше чем 3% среднеквадратического значения исходного ряда (установленный программой порог для обнаружения аномальных величин). 20 Проверка качества Диагностика/стабильность модели: График показывает нестабильный параметр (от отрицательного до положительного) регулярного скользящего среднего, но параметр сезонного скользящего среднего получает развитие в пределах небольших значений, что свидетельствует о его стабильности. 21 Проверка качества Диагностика/стабильность модели: 22 Проверка качества Тестовая статистика и кривая распределения остатков: Диагностические испытания на остатки не показали наличие статистических проблем. Остатки распределяются как случайные, нормальные и независимые. По результатам испытаний на линейность, остатки не показывают нелинейность в виде трендов. Ряд не показывает существенную или положительную автокорреляцию, т.е. не обнаруживается присутствие сезонных колебаний. 23 Оценка возможности публикации результатов Исходя из существующей в Украине практики публикации и пересмотра данных ИПП, а также полученных рекомендаций предполагаем: публикацию на сайте: (1) графика из ряда данных индексов к базисному году (например: за 5 последних лет): • исходных данных; • данных, скорректированных на сезонные колебания; • данных тренд-цикла. (2) длительных рядов данных индексов к базисному году (за весь период): • исходных данных; • данных, скорректированных на сезонные колебания. (3) дополнительно: рядов данных за последний отчетный месяц к предыдущему месяцу и соответствующему месяцу (периоду прошлого года?): • исходных данных; • данных, скорректированных на сезонные колебания. Примечание: кроме того стоит вопрос публикации данных, которые скорректированы только на календарный эффект (исходя из практики публикации данных в пресс-релизах другими странами), при подтверждении значимости этого эффекта. Не считаем возможным публикацию в экспресс-выпусках (срок выхода на 16 день после отчетного периода). Публикация (вопросы, проблемы). Необходимость: • согласования данных СНС (сейчас публикуют сезонно сглаженные ряды) и промышленности; • в связи с сменой классификации (NACE rev.2, CPA 2002) и использованием нового базисного года перерасчета ИПП. Возможные сроки: с 2013г. 24 Моменты обучения Работой по освоению сезонной корректировки в Demetra+ с мая месяца занималось два человека, в том числе специалист из подразделения, которое осуществляет расчет индексов (более углубленно). Длительное время работу программы изучали, применяя календарь по умолчанию. Использовали спецификации от RSA5 до RSA2. Также, изменяя предикторы, пробовали создавать свои спецификации. Позже остановились на RSA4 (программа выбрала ARIMA model [(0,1,0)(0,1,1)]) и на собственной спецификации, созданной на основе RSA4 (ARIMA model [(0,1,1)(0,1,1)]), характеристики которых давали лучшие результаты по сравнению с другими. Еще использовали более короткие ряды ИПП (2000-2007, 2006-2011). Параллельную обработку осваивали на рядах данных других стран, поскольку в Украине корректно сопоставлять ряды по видам деятельности в промышленности только с 2006 года (по новой методике, см. слайд 3). После внедрения в программу государственного календаря для Украины результаты получились другие (см. слайды). Изучали все, что было предложено в рабочих материалах касательно документирования, но в этой части с возможностями программы ознакомились бегло. По мере возможности, планируем ежемесячно выполнять сезонную корректировку с добавлением новых данных, с целью освоения всей процедуры (также выработать политику пересмотра, подготовиться к публикации и т.п.) и расширения знаний математической статистики. 25 Вопросы к тренерам на семинаре II: Предпосылки корректировки на сезонные колебания в части оценки прочности структуры: как правильно оценить •умеренная ли волатильность? •отсутствуют ли существенные сезонные изменения? Как верно интерпретировать (использовать) результаты непараметрических тестов на сезонные колебания, особенно в части проявления сезонности в исходном ряду (прокомментируйте, если возможно, на примере динамического ряда ИПП Украины (или другого ряда)). Интересует все, что связано с календарем: от создания (правильно ли он был внедрен в программу и использован) до определения календарных эффектов и интерпретации полученных результатов. Объяснить значение, определение и функции каждой опции, которые используются при выборе спецификаций. Как еще можно использовать данные в таблицах (кроме как для публикации и графиков), как их анализировать (например: pre-processing/regressors и др.)? На семинаре важно убедиться в том, что все сделано правильно, верно ли при этом интерпретирован результат и наоборот, если мы действовали ошибочно, почему так случилось и как избежать неверных результатов. 26