данных, скорректированных на сезонные колебания

advertisement
Тестирование сезонной
корректировки с помощью
Demetra+
Петренко Ирина Станиславовна
Государственная служба статистики
Украина
Последняя версия программы Demetra+ была
загружена в мае 2011 года по ссылке:
http://forge.osor.eu/frs/download.php/1549/demetra_
plus_1.0.2.msi.
В качестве исходных данных для сезонной
корректировки с помощью программы Demetra+
использован динамический ряд данных индекса
промышленного производства Украины к 2005
году (NACE rev.1.1) (далее ИПП).
2
Проверка первоначального динамического ряда
• Длительность динамического ряда: – [1-2000 : 9-2011] или 141 наблюдение.
• Точность: полученная от предприятий информация программными средствами поддается
логическому и арифметическому контролю и в случае выявления ошибок корректируется;
последующая обработка данных осуществляется с учетом внесенных поправок; индексы за отчетный
год публикуются с учетом уточнений на последнюю дату; анализ и пересмотр данных по итогам
прошлого года осуществляется в феврале.
• Качество исходных данных:
– выпадающие показатели были проверены; пропущенных значений нет.
• Качество методов составления данных:
– помесячный ряд за 2006-2011 года получен по новой методике (справка).
• Последовательность динамического ряда:
– исходя из индексов к предыдущему месяцу, цепным методом рассчитаны индексы к декабрю 1999 года
(соединены две части ряда: 2000-2005 и 2006-2011), получено среднемесячное значение 2005 года и
сформирован ряд помесячных данных к 2005 году.
Справочно: за 2000-2008 года расчет ИПП
осуществлялся цепным методом на основании
ежемесячных индексов, которые рассчитаны по
данным предприятий о стоимости произведенной
продукции за месяц в сопоставимых ценах, с 2009
года расчет базируется на данных о динамике
производства за постоянным набором товаровпредставителей (более тысячи позиций) и
структуре валовой добавленной стоимости за
базисный год (2007 год), что соответствует
международным стандартам в этой сфере.
Индексы за 2007 и 2008 года были
пересчитаны по новой методологии.
3
Визуальный анализ динамического ряда
на наличие сезонности
4
Сезонная диаграмма промышленного производства Украины
Индекс за март чаще всего выше чем индекс января или февраля.
Самое высокое среднее значение производства в октябре.
Анализ спектров
Представленная диаграмма
авторегрессивного спектра
на
нулевой
частоте
показывает высшую точку
на всех сезонных частотах
(сиреневые линии), что
указывает на наличие
сезонности (регу-лярной
составляющей)
в
исходных данных.
5
Подготовка календаря. Выбор подхода и предикторов.
Подготовлен в Demetra+
государственный календарь
Украины
Календарные эффекты
(разное количество дней в месяце и
рабочих дней, различные праздники
(Новый год, Рождество,
национальные праздники), в т.ч.
переходящие (Пасха, Троица))
имеют влияние на динами-ческий
ряд ИПП Украины. Обычно много
выходных в мае.
Справочно:
Промышленность
Украины
представлена
различными видами деятельности (в общем более 150-ти – на
уровне 3-4 знака NACE). Определяющее влияние на динамику
имеют (более 50% добавленной стоимости): металлургия
(непрерывный цикл производства; очень зависит от внешней
конъюнктуры), пищевая промышленность (в целом хорошо
развита; наиболее сезонные: сахарная промышленность (октябрь),
кондитерская и ликеро-водочная (декабрь); производство пива
(летние месяцы)), машиностроение (в т.ч. отрасли с длительным
циклом: авиа- и судостроение, производство отопительных котлов,
двигателей и турбин), химическая и нефтехимическая
промышленность. Влиятельны: добывающая промышленность,
электроэнергетика, нефтеперерабатывающая (непрерывный цикл
производства).
TRAMO/SEATS (исходя из рекомендаций)
Использована спецификация, которая создана на основе спецификации
RSA5 и национального календаря
6
Количество рабочих дней
jan
feb
mar
apr
may
jun
jul
aug
sep
oct
nov
Среднее
dec
2000
19
21
22
20
19
20
21
22
21
22
22
21
20,8
2001
21
20
21
20
20
19
22
22
20
23
22
21
20,9
2002
21
20
20
22
19
18
23
21
21
23
21
22
20,9
2003
21
20
20
21
19
19
23
20
22
23
20
23
20,9
2004
20
20
22
21
17
21
22
21
22
21
22
23
21,0
2005
19
20
22
21
19
20
21
22
22
21
22
22
20,9
2006
20
20
22
19
20
20
21
22
21
22
22
21
20,8
2007
21
20
21
20
19
20
22
22
20
23
22
21
20,9
2008
21
21
20
21
19
19
23
20
22
23
20
23
21,0
2009
20
20
21
21
18
20
23
20
22
22
21
23
20,9
2010
19
20
22
21
17
21
22
21
22
21
22
23
20,9
2011
19
20
22
20
19
20
21
22
22
21
22
22
20,8
2012
20
21
21
20
20
19
22
22
20
23
22
21
20,9
Среднее
20,1
20,2
21,2
20,5
18,8
19,7
22
21,3
21,3
22,2
21,5
22,0
7
Применяемые модели
Информация о предварительной
обработке:
• интервал оценки: [1-2000 : 9-2011]
• выбрано логарифмическое преобразование
• число эффективных наблюдений = 128
• количество оцениваемых параметров = 14
• выполнена проверка на эффекты рабочего дня и
Пасхи
• проведено тестирование на влияние високосного
года
• Demetra+ определила как самую подходящую
модель авиалинии
ARIMA model [(0,1,1)(0,1,1)]
• процедура определения отклоняющихся
значений выявила 3 отклоняющихся значений в
Параметр
Величина
Стандартная
TP-величина
ряду:
ошибка
статистика
LS[10-2008]
-0,1750
0,0227
-7,70
0,0000
LS[11-2008]
-0,1225
0,0227
-5,39
0,0000
AO[12-2004]
-0,0616
0,0170
-3,63
0,0004
– смещение уровня в октябре и ноябре 2008г.
– аддитивно отклоняющее значение в декабре 2004г.
8
Применяемые модели
Number of values above the central value: 64
Number of values below the central value: 64
Runs: 69
Test
Number
Length
Up and down runs: 86
Value
0,7099
3,3750
P-Value
0,4778
1,0000
Distribution
Normal(0,00;1,00)
Chi2(128)
Test
Number
Length
Value
0,2111
3,7060
P-Value
0,8328
1,0000
Distribution
Normal(0,00;1,00)
Chi2(127)
9
Применяемые модели
Информация о разложении (Decomposition):
Трендовая/trend. Innovation variance = 0,1360
Сезонная/seasonal. Innovation variance = 0,0466
Нерегулярная/irregular. Innovation variance = 0,1980
Первоначальный динамический ряд ИПП является
произведением его составляющих:
сезонной*трендовой*нерегулярной
Проверка точности разложения
Результаты взаимной корреляции:
Estimator
Estimate
PValue
trend/seasonal
-0,1130
-0,1538
0,6695
trend/irregular
-0,0347
-0,0717
0,7404
seasonal/irregular
0,0403
0,0463
0,8898
Дисперсия сезонных и трендовых составляющих
ниже, чем колебания нерегулярной составляющей.
Это означает, что получены устойчивые трендовые
и сезонные составляющие.
10
График результатов
Нижний график изображает сезонный фактор (синим цветом) и нерегулярную составляющую
(красным цветом) и их развитие с течением времени. Сезонные колебания ряда значительные,
поскольку сезонная составляющая не потеряна в шуме нестандартной составляющей (амплитуда
сезонных колебаний намного выше колебаний нерегулярной составляющей). При этом имеет место
понижение амплитуды сезонных колебаний (с 2005 года).
11
График результатов
Составляющие индекса промышленного производства Украины (2005 = 100)
Січ.08
Січ.09
Січ.10
Січ.11
Січ.08
Січ.09
Січ.10
Січ.11
Січ.07
Січ.06
Січ.04
Січ.03
Січ.02
Січ.05
Січ.07
Січ.06
Січ.05
Січ.11
Січ.10
Січ.09
Січ.08
Січ.07
Січ.06
Січ.05
Січ.04
Січ.03
Січ.02
Січ.01
Січ.00
Тренд-цикл
Січ.04
%
120
115
110
105
100
95
90
85
80
75
70
65
60
55
50
Січ.03
%
120
115
110
105
100
95
90
85
80
75
70
65
60
55
50
Нерегулярная состав ляющая
Сезонная состав ляющая
Січ.00
Січ.11
Січ.10
Січ.09
Січ.08
Січ.07
Січ.06
Січ.05
Січ.04
Січ.03
Січ.02
Січ.01
Січ.00
Перв ичная состав ляющая
Січ.02
120
115
110
105
100
95
90
85
80
75
70
65
60
55
50
Січ.01
120
115
110
105
100
95
90
85
80
75
70
65
60
55
50
Січ.01
%
Січ.00
%
12
Проверка на скользящий сезонный фактор
График Соотношения Сезонность– Нерегулярность
Позволяет наглядно проанализировать развития кривой сезонных колебаний.
В октябре изменчивые сезонные колебания явно выражены. Еще в декабре.
13
Проверка качества
Итоговая диагностика, которая в целом оценивает качество корректировки
(Основная диагностика качества/Main results)
В ходе анализа были выполнены все виды
диагностики, при этом результат визуальной оценки
спектральных сезонных пиков оценен программой как
двусмысленный.
Основная проверка:
– значение, полученное как результат сравнения
годового итогового значения первоначального ряда и
ряда, скорректированного на сезонные колебания
равен, как и требуется близко к нулю.
Визуально спектральный анализ: по итоговой
диагностике сезонные колебания и эффекты
операционных дней в ряду, скорректированном на
сезонные колебания отсутствуют.
Regarima остатков (не должны (по определению)
включать данных): остатки следуют нормальному
распределению, независимые и случайные (слайд 9 и
14).
Остаточная сезонность: не выявлено оставшихся
сезонных колебаний в ряду, скорректированном на
сезонные колебания и нерегулярной составляющей.
14
Проверка качества
Остаточные сезонные факторы:
График спектра ряда, скорректированного на сезонные колебания
Можно предположить, что не имеется никаких показателей остаточных сезонных колебаний в ряду,
скорректированном на сезонные колебания: на сезонной частоте (серые вертикальные линии) и на
частоте операционных дней (пурпурные) не найдено никаких спектральных вершин, что указывает
на отсутствие сезонных колебаний и эффектов операционных дней.
15
Проверка качества
Остаточные сезонные факторы:
График спектра ряда остаточных величин
16
Проверка качества
Результаты тестирования на сезонные колебания:
Non parametric tests for stable seasonality
Friedman test
Friedman statistic = 151,4086
Distribution: F-stat with 11 degrees of freedom in the numerator and 110 degrees
of freedom in the denominator
P-Value: 0,0000
Stable seasonality present at the 1 per cent level
Kruskall-Wallis test
Kruskall-Wallis statistic = 129,8260
Distribution: Chi2(11)
P-Value: 0,0000
Stable seasonality present at the 1 per cent level
Test for the presence of seasonality assuming stability
Sum of squares
Between months
Residual
Total
0,3141
0,0208
0,3349
degrees of
freedom
11
129
140
Mean square
0,0286
0,0002
0,0024
Value: 177,0271
Distribution: F-stat with 11 degrees of freedom in the numerator and 129 degrees
of freedom in the denominator
P-Value: 0,0000
Seasonality present at the 1 per cent level
Evolutive seasonality test
Sum of squares
Between years
Error
0,0012
0,0181
Degrees of
freedom
10
110
Mean square
0,0001
0,0002
Value: 0,7401
Distribution: F-stat with 10 degrees of freedom in the numerator and 110 degrees of
freedom in the denominator
P-Value: 0,6854
No evidence of moving seasonality at the 20 per cent level
Combined seasonality test
Identifiable seasonality present
Residual seasonality test
No evidence of residual seasonality in the entire series at the 10 per cent level: F=0,5676
No evidence of residual seasonality in the last 3 years at the 10 per cent level: F=0,6547
Тест Фридмана
Статистика Фридмана = 151,4086
Распределение: F-статистика со степенью свободы 11 в числителе и со
степенью свободы 110 в знаменателе
P-величина: 0,0000
Стабильные сезонные колебания присутствуют на 1% уровне
Тест Крускаля-Уоллиса
Статистика Крускаля-Уоллиса = 129,8260
Распределение: Chi2 (11)
P-величина: 0,0000
Стабильные сезонные колебания присутствует на 1% уровне
Тест на присутствие стабильных сезонных колебаний
Сумма квадратов Степень свободы Средний квадрат
Между месяцами 0,3141
11
0,0286
Остаткиl
0,0208
129
0,0002
Всего
0,3349
140
0,0024
Величина: 177,0271
Распределение: F-статистика со степенью свободы 11 в числителе и со
степенью свободы 129 в знаменателе
P-величина: 0,0000
Сезонные колебания присутствуют на 1% уровне
Тест на развивающие сезонные колебания
Сумма квадратов Степень свободы Средний квадрат
Между годами
0,0012
10
0,0001
Ошибка
0,0181
110
0,0002
Величина: 0,7401
Распределение: F-статистика со степенью свободы 10 в числителе и со
степенью свободы 110 в знаменателе
P-значение: 0,6854
Отсутствуют скользящие сезонные колебания на 20% уровне
Комбинированный сезонный тест
Присутствуют идентифицируемые сезонные колебания
Тест на остаточный сезонные колебания
Отсутствуют показания остаточных сезонных колебаний во всем ряду 10%
уровне: F = 0,5676
Отсутствуют показания остаточных сезонных колебаний за последние 3
года на 10% уровне: F = 0,6547
17
Проверка качества
Стабильность модели/анализ обновлений:
Рисунок 1, 2: Хронология обновлений, как показатель стабильности ряда, скорректированного
на сезонные колебания и трендового ряда (или показатель стабильности корректировки)
Вспомогательное окно графика ряда, скорректированного на сезонные колебания показывает
последовательные оценки для периода 2008-1. Из вспомогательного графика видно, что после 2 года
обновления не существенны. Внезапное изменение в оценках цифр, скорректированных на сезонные
колебания, на октябрь или на ноябрь 2008 года, связано со смещением уровня, которое появляется в ряду в
этот период.
18
Проверка качества
Стабильность модели/анализ обновлений:
19
Проверка качества
Стабильность модели/скользящие интервалы:
Программа установила 4 восьмилетних временных интервала (исходя из длины для ряда ИПП) и сравнивает
изменение уровней составляющих сезонности и операционных дней.
Sliding spans summary
Time spans
Span
Span
Span
Span
1:
2:
3:
4:
from
from
from
from
1-2000
1-2001
1-2002
1-2003
to
to
to
to
9-2008
9-2009
9-2010
9-2011
Tests for seasonality
Stable seas.
Kruskal-Wallis
Moving seas.
Identifiable seas.
Span 1
102,7
92,2
1,5
YES
Span 2
112,9
94,4
1,0
YES
Span 3
168,3
97,0
1,1
YES
Span 4
207,8
97,9
0,9
YES
Span 2
0,9058
0,9186
1,0149
0,9870
0,9787
0,9907
1,0166
1,0055
1,0136
1,0916
1,0403
1,0387
Span 3
0,9124
0,9203
1,0179
0,9909
0,9788
0,9885
1,0164
1,0058
1,0102
1,0785
1,0381
1,0435
Span 4
0,9160
0,9198
1,0187
0,9872
0,9826
0,9836
1,0169
1,0090
1,0078
1,0741
1,0366
1,0481
Means of seasonal factors
January
February
March
April
May
June
July
August
September
October
November
December
Span 1
0,9092
0,9188
1,0153
0,9894
0,9779
0,9872
1,0146
1,0048
1,0112
1,1011
1,0418
1,0358
Согласно анализу скользящих интервалов сезонной составляющей, можно предположить, что сезонные факторы
ряда промышленного производства Украины являются стабильными, так как ни одна из относительных
разностей не выше чем 3% среднеквадратического значения исходного ряда (установленный программой порог
для обнаружения аномальных величин).
20
Проверка качества
Диагностика/стабильность модели:
График показывает нестабильный параметр (от отрицательного до положительного) регулярного скользящего
среднего, но параметр сезонного скользящего среднего получает развитие в пределах небольших значений,
что свидетельствует о его стабильности.
21
Проверка качества
Диагностика/стабильность модели:
22
Проверка качества
Тестовая статистика и кривая распределения остатков:
Диагностические испытания на остатки не показали наличие статистических проблем. Остатки распределяются
как случайные, нормальные и независимые. По результатам испытаний на линейность, остатки не показывают
нелинейность в виде трендов. Ряд не показывает существенную или положительную автокорреляцию, т.е. не
обнаруживается присутствие сезонных колебаний.
23
Оценка возможности публикации результатов
Исходя из существующей в Украине практики публикации и пересмотра данных ИПП, а также полученных
рекомендаций предполагаем:
публикацию на сайте:
(1) графика из ряда данных индексов к базисному году (например: за 5 последних лет):
• исходных данных;
• данных, скорректированных на сезонные колебания;
• данных тренд-цикла.
(2) длительных рядов данных индексов к базисному году (за весь период):
• исходных данных;
• данных, скорректированных на сезонные колебания.
(3) дополнительно: рядов данных за последний отчетный месяц к предыдущему месяцу и соответствующему
месяцу (периоду прошлого года?):
• исходных данных;
• данных, скорректированных на сезонные колебания.
Примечание: кроме того стоит вопрос публикации данных, которые скорректированы только на календарный
эффект (исходя из практики публикации данных в пресс-релизах другими странами), при подтверждении
значимости этого эффекта.
Не считаем возможным публикацию в экспресс-выпусках (срок выхода на 16 день после отчетного
периода).
Публикация (вопросы, проблемы).
Необходимость:
• согласования данных СНС (сейчас публикуют сезонно сглаженные ряды) и промышленности;
• в связи с сменой классификации (NACE rev.2, CPA 2002) и использованием нового базисного года перерасчета
ИПП.
Возможные сроки: с 2013г.
24
Моменты обучения
Работой по освоению сезонной корректировки в Demetra+ с мая месяца занималось два
человека, в том числе специалист из подразделения, которое осуществляет расчет индексов
(более углубленно).
Длительное время работу программы изучали, применяя календарь по умолчанию.
Использовали спецификации от RSA5 до RSA2. Также, изменяя предикторы, пробовали
создавать свои спецификации. Позже остановились на RSA4 (программа выбрала ARIMA
model [(0,1,0)(0,1,1)]) и на собственной спецификации, созданной на основе RSA4 (ARIMA
model [(0,1,1)(0,1,1)]), характеристики которых давали лучшие результаты по сравнению с
другими.
Еще использовали более короткие ряды ИПП (2000-2007, 2006-2011).
Параллельную обработку осваивали на рядах данных других стран, поскольку в Украине
корректно сопоставлять ряды по видам деятельности в промышленности только с 2006 года
(по новой методике, см. слайд 3).
После внедрения в программу государственного календаря для Украины результаты
получились другие (см. слайды).
Изучали все, что было предложено в рабочих материалах касательно документирования, но
в этой части с возможностями программы ознакомились бегло.
По мере возможности, планируем ежемесячно выполнять сезонную корректировку с
добавлением новых данных, с целью освоения всей процедуры (также выработать политику
пересмотра, подготовиться к публикации и т.п.) и расширения знаний математической
статистики.
25
Вопросы к тренерам на семинаре II:
Предпосылки корректировки на сезонные колебания в части оценки прочности структуры: как
правильно оценить
•умеренная ли волатильность?
•отсутствуют ли существенные сезонные изменения?
Как верно интерпретировать (использовать) результаты непараметрических тестов на
сезонные колебания, особенно в части проявления сезонности в исходном ряду
(прокомментируйте, если возможно, на примере динамического ряда ИПП Украины (или
другого ряда)).
Интересует все, что связано с календарем: от создания (правильно ли он был внедрен в
программу и использован) до определения календарных эффектов и интерпретации
полученных результатов.
Объяснить значение, определение и функции каждой опции, которые используются при
выборе спецификаций.
Как еще можно использовать данные в таблицах (кроме как для публикации и графиков), как
их анализировать (например: pre-processing/regressors и др.)?
На семинаре важно убедиться в том, что все сделано правильно, верно ли при этом
интерпретирован результат и наоборот, если мы действовали ошибочно, почему так
случилось и как избежать неверных результатов.
26
Download