УДК 519.673 2010 Семёнычев В.К., Семёнычев В.В., Коробецкая А.А. 

advertisement
УДК 519.673
 2010 Семёнычев В.К., Семёнычев В.В., Коробецкая А.А.
Исследование точности метода моделирования
и прогнозирования экспоненциальной тенденции
на основе обобщенных параметрических ARMA-моделей
На тестовых выборках показана высокая точность предложенного метода
идентификации экспоненциальной тенденции с аддитивной стохастической
компонентой на основе параметрических ARMA-моделей как с использованием
метода прореживания выборки, так и метода сглаживания исходных данных.
Ключевые слова: моделирование, прогнозирование, метод идентификации,
модель, авторегрессия, точность, малые выборки, приемы прореживания, приемы
сглаживания.
Экспоненциальный тренд относится к числу широко употребляемых в
практике эконометрического моделирования социально-экономических
процессов и явлений. Он относится к процессам с пределом роста, которые
характерны для многих относительных показателей (душевое потребление
продуктов питания, внесение удобрений на единицу площади, затраты на
один рубль произведенной продукции и т.п.).
При мультипликативной стохастической компоненте осуществляют
«искусственное» предположение о логнормальности его закона
распределения и достигаемая точность мала, а для предложенного в [1, 2]
метода моделирования экспоненциальной тенденции, содержащей сумму
константы
, экспоненты с показателем
, множителем
и
стохастической компонентой
, отвечающей условиям Гаусса-Маркова
(центрированность, некоррелированность, гомоскедастичность, нормальный
закон распределения)
Yk  A0  A1e 1k   k
(1)
не проведены исследования точности в диапазоне отношения
мощностей помеха (стохастическая компонента)/полезный сигнал, при
различных значениях параметров и при различных объемах выборки
Модели (1) соответствует обобщенная параметрическая модель
авторегрессии-скользящего среднего (ARMA-модель)
Yk    1Yk 1  Yk 2   k ,
(2)
где  k   k    1 k 1   k 2 - новая стохастическая компонента (остатки).
Оценку параметра  в (2) позволяет найти метод наименьших квадратов
(МНК):
  arg min

Тогда
1  
n
 Y    1Y
k 5
k 1
k
оценку
 Yk  2  .
2
(3)
1
параметра
определит
соотношение
1
ln  . Параметры A0 и A1 входят в модель (1) линейно и могут быть, в

силу указанных свойств , легко идентифицированы с помощью МНК,
обеспечивающего несмещенность, эффективность и состоятельность оценок
A0 , A1  arg min
A0 , A1
 Y
n
k 1
k

 A0  A1e 1 k

2
.
Основным источником погрешностей рассматриваемого метода
идентификации параметров модели (1) может быть неточное оценивание (в
силу смещенности и неэффективности) параметра 1 из-за автокорреляции
остатков. Исследования этих погрешностей до настоящего времени
отсутствуют и впервые дано в данной статье.
Нетрудно показать, что стохастическая компонента  k имеет так же, как
и  k , нулевое математическое ожидание:
M [ k ]  M [ k ]  (  1) M [ k 1 ]  M [ k 2 ]  0  (  1)0   0  0.
Ковариационная матрица для  k имеет вид:
 1

2

cov( k )   3
 0
 ...

 0

2
3
0
...
1
2
3
...
2
1
2
...
3
2
1
...
...
...
...
...
0
0
0
...
0

0
0

0
0

1 
где 1  2 2 (1    2 ) ,  2   2  2 2  2 2 ,  3   2 .
При i  j  2, M [ i j ]  0 , то есть существует автоковариация
 k . Гомоскедастичность ошибки

 k обеспечивает гомоскедастичность  k :
M [ i2 ]  M [( i  (  1) i 1   i 2 ) 2 ] 

 M ei2  2 i21  2 i21   i21  2 i22  2 2 (1    2 ).
Введем следующие обозначения:
ak  Yk  Yk 1 , bk  Yk 1  Yk 2 , ck   k   k 1 , d k   k 1   k 2 .
Из (3) получим для рассматриваемой выборки
*   
ak bk
,
 bk2
(4)
Подставим в (4) ak в явном виде из исходной ARMA-модели и найдем
математическое ожидание оценки * :
ck bk    d k bk    bk2

M [ ]  M [ 
]
2
b
 k
 ck bk    d k bk   ]    M [  ck bk    d k bk ].
 M [
 bk2
 bk2
*
(5)
Тогда получим, что смещение оценки * равно:
M [ 
ck bk    d k bk
].
2
b
 k
Величина bk мала при относительно малом отличии друг от друга
соседних четырех уровней ряда динамики и, соответственно, велика при
значительном их отличии.
В отношении стохастической компоненты то же самое можно сказать о
величинах ck и d k при соседних уровнях ряда. Величину смещения в (5)
можно уменьшать путем увеличения bk , уменьшения ck и d k , то есть
необходимо достичь значительного отличия уровней ряда динамики и малого
отличия стохастической компоненты.
Можно предположить, уменьшение смещения оценки обеспечит и
прием прорежения выборки [1]: удаления из рассмотрения (расчета) каждого
i-того наблюдения, в результате чего получатся i прореженных выборок.
Этим приемом из выборки исключаются наблюдения, обладающие тесной
взаимосвязью. Кроме того, снижается дисперсия случайной компоненты.
Ограничивает возможный шаг прореживания (количество шагов)
уменьшение объема используемой выборки.
Нетрудно показать, что прорежение выборки уменьшает и дисперсию
оценки * , которая равна
N

 (ck  d k  bk )bk 

D[* ]  D  k 5

N
2


bk



k 5
2
 N
N
 
  (ck  d k  bk )bk
  (ck  d k  bk )bk   
k

5

M
 M  k 5
  
N
N


 
bk2
 bk2



  
k 5
k 5


N

N

(
c


d
)
b
(
c


d
)
b


k
k
k
k
k
k




 M  k 5 N
   M  k 5 N
   




bk2
bk2






k 5
k 5
N

(
c


d
)
b

k
k
k


 D  k 5 N
,
2


 bk


k 5
где D[] – оператор дисперсии.
Улучшить качество идентификации можно и другим приемом: с
помощью сглаживания исходной выборки, при котором исходные данные
заменяются выборками, содержащими средние значения из 2-х, 3-х и т.д.
наблюдений, присваиваемые средним значениям аргумента интервала
сглаживания, что позволяет также уменьшить дисперсию помехи и
уменьшить автокорреляцию остатков. Объем используемой выборки при
этом также уменьшится.
Будем оценивать качество идентификации предложенными приемами с
помощью коэффициента детерминации R2, а качество прогноза – с помощью
MAPE-оценки [3].
Обоими
приемами
будем
осуществлять
идентификацию
с
использованием различных шагов прореживания и сглаживания, а затем
выбирать значение параметра модели и метод, наилучшим образом
описывающие исходные данные. Исследование качества идентификации и
прогнозирования на тестовых выборках, которые формируются как сумма
детерминированной части модели с заданными параметрами и
сгенерированной помехи.
Для помехи с нормальным законом распределения осуществлялось
центрирование и нормирование. Затем ее среднеквадратическое отклонение
    D Kn/ s
задавалось с помощью коэффициента шум/сигнал,
характеризующего отношение дисперсии помехи к дисперсии полезного
сигнала K n / s
 2
 2 .
D
Для характеристики возможного динамического диапазона значений
параметров модели варьировались значения параметров (45 сочетаний) в
заданных границах с определенным шагом (таблица 1).
Таблица 1 – Истинные значения параметров модели в исследовании
Параметр
A0
A1
1
Минимальное Максимальное
Шаг
значение
значение
варьирования
10
50
10
10
20
5
-0,1
0,2
0,15
В начале использовались выборки объемом 24, 36 и 48 наблюдений.
Для каждого сочетания параметров модели генерировались 20 выборок.
Коэффициент шум/сигнал изменялся в диапазоне от 0 до 35%.
В общей сложности для исследования генерировалось 43 200 выборок.
Результаты по сгенерированным выборкам усреднялись, что позволило
исследовать зависимость качества идентификации и прогнозирования при
различной мощности помехи.
Результаты исследования качества моделирования при прореживании и
при сглаживании представлены на рисунке 1 и в таблице 2.
а)
1
0,95
0,9
0,85
0,8
0,75
0,7
0
0,05
0,1
0,15
n = 24
б)
0,2
n = 36
0,25
0,3
0,35
0,3
0,35
n = 48
1
0,95
0,9
0,85
0,8
0,75
0,7
0
0,05
0,1
0,15
n = 24
0,2
n = 36
0,25
n = 48
Рисунок 1. Зависимость R2 от Kn/s при использовании прореживания (а) и
сглаживания (б) выборки
Видим, что качество идентификации достаточно высокое даже при
коэффициенте шум/сигнал 35%. И прореживание, и сглаживание выборки
дают приблизительно одинаковый результат. Результаты исследования
качества прогнозирования показаны на рис. 2.
Средняя ошибка прогнозирования не превышает 15% даже при
значительной зашумленности выборки, а при величине шуме до 20%
составляет менее 10%. Напомним, что ошибка прогнозирования до 20%
считается хорошей.
Таблица 2
Значение
Kn/s
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
а)
R2 при
различных величинах шума и объема исходной выборки
Истинный
R2
1,00000
0,95238
0,90909
0,86957
0,83333
0,80000
0,76923
0,74074
R2 при прореживании
n = 24
n = 36
n = 48
1,00000 1,00000 1,00000
0,95614 0,95484 0,95402
0,91539 0,91311 0,91229
0,87779 0,87524 0,87338
0,84314 0,84047 0,83905
0,81157 0,80869 0,80591
0,78280 0,77652 0,77713
0,75586 0,74934 0,74680
R2 при сглаживании
n = 24
n = 36
n = 48
1,00000 1,00000 1,00000
0,95556 0,95474 0,95396
0,91510 0,91273 0,91178
0,87721 0,87529 0,87315
0,84247 0,83954 0,83708
0,81033 0,80703 0,80573
0,78013 0,77600 0,77481
0,75200 0,74850 0,74448
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
0
0,05
0,1
0,15
n = 24
б)
0,2
n = 36
0,25
0,3
0,35
0,3
0,35
n = 48
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
0
0,05
0,1
0,15
n = 24
0,2
n = 36
0,25
n = 48
Рисунок 2. Зависимость MAPE-оценки от Kn/s при использовании
прореживания (а) и сглаживания (б) выборки
Кроме средних значений показателей качества идентификации и
прогнозирования, интерес представляют и сравнение средних значений
оценок параметров модели по отношению к их истинным значениям, а также
дисперсия этих оценок и показателей качества идентификации.
Для исследования сгенерированы 10 000 выборок объемом 36
наблюдений, глубиной прогноза 12 наблюдений и мощностью шума 10%.
Результаты приведены в таблицах 3 и 4.
Видим, что средние значения оценок параметров близки к их истинным
значениям. Наибольшим разбросом обладают оценки параметра 1 ,
коэффициент вариации которого составляет около 15%.
Вариация R2 составляет менее 1%. При этом ни на одной из 10 000
выборок коэффициент детерминации не составил менее 0,89, а ошибка
прогноза не превысила 20%.
Таблица 3
Оценки параметров модели и показателей качества идентификации при
использовании прореживания выборки объемом 36 наблюдений, глубиной
прогноза 12 наблюдений и мощностью шума 10%
Параметр
Истинное значение
Математическое
ожидание
Среднеквадратическое
отклонение
Коэффициент вариации
Минимальное значение
Максимальное значение
1
0,1
R2
0,90836
MAPE
0,064201
90,67
0,1004
0,91353
0,067659
3,7621
4,8125
0,015204
0,0091789
0,0181
0,037814
74,419
109,1
0,053077
75,101
108,5
0,15143
0,049061
0,17087
0,010048
0,89932
0,96199
0,26752
0,017557
0,18716
A0
100
A1
90
99,489
Таблица 4
Оценки параметров модели и показателей качества идентификации при
использовании сглаживании выборки объемом 36 наблюдений, глубиной прогноза 12
наблюдений и мощностью шума 10%
Параметр
Истинное значение
Математическое
ожидание
Среднеквадратическое
отклонение
Коэффициент вариации
Минимальное значение
Максимальное значение
1
0,1
R2
0,9082
MAPE
0,064098
90,626
0,10036
0,91322
0,067708
3,8796
4,9008
0,015782
0,0093105
0,018491
0,039005
75,786
109,49
0,054077
73,398
108,32
0,15725
0,047603
0,16709
0,010195
0,89473
0,95968
0,2731
0,020214
0,16822
A0
100
A1
90
99,464
Близость графиков точностных характеристик при выборках в 24, 36 и
48 наблюдения заставила провести исследования и на меньших выборках в
12 и 6 наблюдений. При этом оказалось, что качество моделирования на
выборах объемом 12 и 6 наблюдений практически такое же, что и на рисунке
1.
Однако, ошибка прогнозирования при выборке в 6 наблюдений (с
горизонтом прогноза, как это обычно рекомендуется в
от длины
выборки, т.е. в 2 наблюдения) практически в два раза больше, чем при 12
наблюдениях, что не позволяет рекомендовать использование таких выборок
при соотношении шум/сигнал больше 20%.
Значительный интерес представляет и количественная оценка влияния
шага прореживания на точность моделирования и прогнозирования, которая
был выполнена на тестовых выборках объемом 36 наблюдений в широком
диапазоне значений параметров модели. Шаг прореживания изменялся от 1
(без прореживания) до 12 (максимально допустимый шаг при заданном
объеме выборки).
Зависимость коэффициента детерминации от коэффициента шум/сигнал
для выборки приведена на рисунке 3. При шаге прореживания, равном 4-5,
качество идентификации становится приемлемым, а при 6-12 шагах
прореживания результаты практически не отличаются.
1
нет
0,9
шаг = 2
0,8
шаг = 3
0,7
шаг = 4
0,6
шаг = 5
0,5
шаг = 6
0,4
шаг = 7
0,3
шаг = 8
0,2
шаг = 9
0,1
шаг = 10
0
шаг = 11
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
шаг = 12
Рисунок 3. Зависимость R2 от Kn/s при различных шагах прореживания
Зависимость коэффициента детерминации от шага прореживания при
различных шумах показана на рисунке 4. Из рисунка видно, что качество
идентификации не уменьшается при увеличении шага прореживания до
предельно допустимого.
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
1
2
3
4
5
6
шум 10%
7
8
шум 20%
9
10
11
12
шум 30%
Рисунок 4. Зависимость R2 от шага прореживания при Kn/s = 0,1; 0,2; 0,3
Итак, приемы прореживания и сглаживания обеспечивают высокую
точность моделирования и прогнозирования рядов динамики в широком
диапазоне отношения мощностей помехи и полезного сигнала, а также - в
широком динамическом диапазоне параметров модели, причем на
относительно коротких выборках. Можно рассчитывать на широкое
внедрение предложенного метода идентификации тренда с моделью в виде
обобщенной экспоненты с аддитивной помехой.
Литература
1. Семёнычев В.К. Идентификация экономической динамики на
основе моделей авторегрессии. - Самара: АНО «Изд-во СНЦ РАН», 2004. 243 с.
2. Семёнычев В.В. Параметризация обобщенной экспоненциальной
функции с аддитивной и мультипликативной стохастической компонентой.
Вестник Самарского муниципального института управления. Самара. Изд-во
«Самарский муниципальный институт управления». 2008. № 7. – С. 127 -133.
3. Эконометрика /Под ред. И.И. Елисеевой. - М.: Финансы и
статистика, 2005. - 575 с.
Поступила в редакцию 15.03.2010
Download