prognoz48

реклама
1. Аналитические основы
Проблема оценивания
Пусть x  X  R1 имеет плотность распределения
f :  f ( x,  ), зависящую от неизвестного параметра
 . Нам надо найти оценку ˆ параметра 
по выборке независимых наблюдений x1 ,
, xn .
Основы прикладной статистики
• Метод наименьших квадратов (K.Gauss, 17941795)
• Оценки максимума правдоподобия (ОМП)
(R.Fisher, 1912)  0 : n 
log f ( xi , ) | 0  0

Их недостатки: ►
i 1 
• A.Н.Koлмогоров (1950): «ОМП не
универсальны»
• J.W.Tukey (1960): ► ОМП «катастрофически
• неустойчивы» к малым изменениям п.р.!
►Оценки минимума контраста (ОМК)
(V.P. Godambe 1960, J.Pfanzagle 1969)
ˆ :  n  ( x ,ˆ)  min

(
x
,

)
,

i 1
i
• Функция контраста:
• Оценочная функция:  ( x,  )  c   ( x,  ), c  0,
• ОМК

ˆ :  ( xi , ˆ)  0.
• Условие состоятельности:
 ( x, )  0. (1)
• Асимптотическая дисперсия:
V ( f , )  lim n(ˆ   ) 2   2 /(  ) 2 . (2)
n 
где
 :  ( x, )
и

 :  ( x, ).

►
►Много устойчивых ОМК было найдено
теоретически и эмпирически в Принстонском
эксперименте. Их недостатки:
• Все оценки зависят от неоцениваемых
параметров (дисперсии, степени загрязнения),
так что каждая из них является семейством
оценок. Хьюбер и Хампель подбирали
константы для распределения N (0,1).
• Не только центр нормального распределения,
но и другие параметры различных распределений следует устойчиво оценивать.
• Авторы ищут устойчивые оценки, не имея
определения устойчивости.
• Надо искать устойчивость к неизбежному
отклонению реальной п.р. от модельной. ►
Функциональная оптимизация
Для функции y(x) величина |dy/dx| - хорошая мера
неустойчивости y по отношению к варациям x.
По аналогии используем производную Лагранжа

W ( f , )  V ( f , ) 
f

 dx
2
X

  
2
(3)
как меру неустойчивости дисперсии оценки при
вариациях п.р. f .
Функция  определена до умножения на
ненулевую константу c, и если
1
с    
(4),
2
W ( f , )   dx .
тогда

X
Tеoрeма. При выполнении условий (1) и (4) для
квадратичной по  функции Q(, f) функционал
G     Q( , f )  0  f  1* f  dx
X
►достигает минимума на функции

 ( x,  ) 
Q ( , f )  0 f  1 f .

Приложив теорему к функционалу (3), получим, что
неустойчивость W достигает минимума W* на
оценочной функции
 * ( x, ) 


f ( x,  )   f ( x,  ),  :  *  0.
Соответствующую оценку  назовём оценкой
*
максимальной устойчивости (ОМУ).
►Эффективность
V(f,) – положительная мера
неэффективности, достигающая
минимума V0 на ОМП.
Эффективность eff ˆ  V0 V ( f , )
Устойчивость
W(f,) – положительная мера
неустойчивости, достигающая
W
минимума W на ОМУ.
Устойчивостьstb ˆ  W W ( f , )
На квадрате  eff ˆ, stbˆ  интересны такие оценки.


Условно оптимальные  с оценочной функцией
   c   ln f    1   f  ,  :    0
где  зависит от соотношений между eff  и stb 
Компромиссные  c со свойствами:
1
1
ˆ
ˆ
  V0 W* : eff  stb  min
• Радикальные  r у которых eff  r  stb  r ,и

 

 r  c   ln f    f
►
► Рaдикальность оценок
2
2
Функционал R( f , )    ( x, ) f ( x, ) dx   ( x, ) 
X
достигает минимума R* на радикальной оценке.
Радикальность оценки rad ˆ  R* R( f , ) - удобная
мера полезности в приложениях: ►


ˆ
r c k * h  p m 0
rad ˆ
1 .99 .97 .91 .88 .85 .83 .65
Можно видеть, что ОМП распределения Коши  k
мажорирует робастные оценки  h и  p ; а медиана
m лучше, чем ОМП.
Мультипликативные помехи
встречаются гораздо чаще, чем аддитивные.
Все положительные величины их имеют.
Пусть x1 ,..., x2 n , yi  x2i | x2i 1 | / c, c : Ey 2  1.
Оцениваем моделированием Ey (  0) и асимптотическую дисперсию V (  ) для разных оценок  :

r
m
 : 0
V (  ) : 1,01
0,29
0,37
0,45.
Видно явное преимущество медианы и отставание ОМП.
2. Многомерное нормальное
распределение N p  m, C
Для x  ( x ,..., x
)  N p ( m, C), C  CT , | C | 0,
вектор математических ожиданий m  Ex,
матрица ковариаций C  {ci j }  E[(x  m)( x  m) T ],
(i )
( j)
корреляция x и x ri j  ci j / ci i c j j , 1  r  1.
При 1  r  0 увеличение
(1)
( p) T
одного признака ведёт к уменьшению другого,
при 0  r  1 оба признака изменяются вместе.
Поверхности равных плотностей – эллипсоиды,
их оси называются главными компонентами
Устойчивые оценки
многомерного распределения
• Все одномерные определения переносятся на
многомерный случай автоматически.
• Оценки Мешалкина m и C единственные устойчивые из предложенных. Они могут быть получены
из следующей системы уравнений:
   x i  m  e   qi 2  0,


T
  qi 2 2
1


 0,
   x i  m  x i  m   (1   ) C  e
2
1
q

x

m
C
где
(5)
 i     xi  m  .
i
Первое уравнение – вектор, второе – матрица.
2
T
• При   1/ 2 получаем радикальные оценки mr , C r .
• Если выборка содержит несколько кластеров, то
в процессе итераций оценка mr сходится к центру
большего из них, а матрица Cr оценивает его ковариацию.
Для проверки однородности выборки предлагается
следующий кластер-тест:
T
1
K  np   x i  m  C1  x i  m  .
►
• Если элементы выборки имеют нормальное распределение (то есть выборка однородна), то
  2 4   p  2 2 1  p2

d

np ln K  
 N  0, 
 2 .
p 2 2


1 2 



Кластер-алгоритм
Количество кластеров? Уровень значимости  :
{ (x   )T C1 (x   )  a p }  1   . Для y  N p (0, I )
1    (2 )
p/2

bp
0
S p ( r )e
 r2 / 2
Известно: S p (1)  2
1 
1
2

dr (2 )
 p/2
/ ( p / 2)
bp
p 1  r 2 / 2
r e
S p (1)  r e
dr / ( p / 2).
P { y y  bp }  1    a p  b p .
T
p 1  r 2 / 2
0
p/2
p / 2 1 0
bp
dr.
Многомерная выборочная медиана
• В одномерном случае выборочная медиана
имеет оценочную функцию
m
 ( x  m )  sgn( x  m )  ( x  m ) / | x  m |
и является решением уравнения
m  (xi / | xi  m |) /(1/ | xi  m |).
Решение не изменится, если модули заменить
нормированными расстояниями от центра qi (5).
Получим уравнение для многомерного случая:
x i / qi
mm 
.
1/ qi
Условное многомерное распределение
Центрируем случайный нормальный вектор x,
введя y  x  Ex,разобьём его на два вектора и
соответственно разобьём матрицу ковариаций C :
 y1 
y   ,
 y2 
 C11 C12 
C
.

 C21 C22 
Если компоненты вектора y 2 фиксированы
(известны), то известно и условное распределение компонент вектора y1 (Андерсoн):
1
22
1
22
y1 | y 2  N (C12 C y 2 , C11  C12C C21 ).
(6)
3. Регрессионный прогноз
• Отклик yi  r(xi , )   i  R 1r , i =1, …, n,
(1)
( p 1) T
p 1
x

x
,
,
x

R
,

предикторы i  i
i
остатки  i  N (0,  2 ), функция регрессии r (),
её параметры   (1 ,..., q )T , ˆ  ?
• Классика: наименьшие квадраты  i2  min.
ˆ   min
• Робастность: оценки центра:  x i , 
• Все эти регрессии неустойчивы.
• Радикальная по оценочной вектор-функции
 ln f z,  ] f z,  ,
 r  z,    C[ 
   
где
f () - п.р. вектора
z  x , y  .
T
T
►
►Квадратичная ошибка оценки параметров:
2
ˆ  r  x ,   
R  lim nE  r x 0 , 
0




 tr  Err T  H  E T  HT 
H1  ,
• Выбор модели r ().Квадратичная ошибка предсказания для нового наблюдения x 0 является суммой
«модельной» дисперсии  2и квадратичной ошибки
за счёт оценки параметров. Минимизируя их сумму
(7)
s 2   2  R / n  min ,
мы найдём подходящую функцию регрессии. r  x,  .
Как и в многомерной статистике, эффективность и
устойчивость оценок снижается при росте размерности. Так что полезно уменьшать размерность.
Простейшие регрессии
Полиномиальная степени p на отрезке.
p
j
Функция регрессии r ( x, )   j 0 j x , j  0,..., p.
j
2
2
Оценочная функция  j  x  exp(  / 2 ),
  0  ОМП,   1/ 2  радик.,  1 макс.устойч.
Линейная на куб с равном. распред. x  ( x (1) ,..., x ( p ) )T
2
2
  0   exp(  / 2 ),
p
( j)
r (x, )  0   j 1 j x , 
( j)
2
2
 j 0  x  exp(  / 2 ),
Линейная на нормальное распределение N p ( m, C)
2
2
2
r ( x, ) 
  0   exp(  [ /   q ]/ 2),
p
( j) 
( j)
2
2
2
 0   j 1 j x ,  j 0  x  exp(  [ /   q ]/ 2).
При больших размерностях всё ухудшается!
Редуцированная линейная регрессия
Решения ухудшаются, когда растёт размерность p.
Потому что в многомерной статистике надо
оценитьO( p 2 ) параметров, хотя для решения нам
нужно только O ( p ) параметров. Исключение
признаков уменьшает информацию. Сведём
задачу к последовательности двумерных задач.
 Регрессия. Пусть признаки x  ( x (1) ,..., x ( p 1) )T
упорядочены по «информативности». Рассмотрим
2
s
последовательность двумерных задач, используя
(7) для исключения неинформативных признаков:
y  c0  c1 x (1)   (1) ,  (1)  c2 x (2)   (2) ,
..., 
( p  2)
 c p 1 x
( p 1)

( p 1)
 cp .
Редуцированная дискриминация
В R2 с признаками а и b есть два класса точек, разделяемых линейной дискриминантной функцией
(ЛДФ), и n(a, b) обозначение множества проекций
точек на нормаль к ЛДФ. Упорядочим признаки
x  ( x (1) ,..., x ( p ) )T по информативности и составим
последовательность двумерных задач:
z2  n  x (1) , x (2)  , z3  n  z2 , x (3)  ,..., z p  n  z p 1 , x ( p )  .
Признак считается неинформативным, если он не
уменьшает ошибку классификации. В результате
получаем хорошую ЛДФ. В этой последовательности
нормаль к ЛДФ качается по очереди к осям координат. Решение можно улучшить, повторив последовательность в цикле (Колмогоров).
4. Прогноз случайных функций
Случайные функции
Будем различать следующие их разновидности.
1
t

R
.
Случайный процесс xt ,
p
t

R
, p  1.
Случайное поле xt ,
Аргументы функций (время, пространство) и
ниже будут помещаться не в скобках, а в нижних индексах для компактности записей.
Рассмотрим два наиболее часто используемых типа таких процессов.
Стационарный случайный процесс
(ССП)
определяется двумя равенствами:
Ext    const,


 E(xs   )( xt   )  Cov(xs , xt )  c|s t | .
Первое показывает, что траектории ССП имеют
средний уровень  , около него происходят
колебания. Второе равенство указывает на стационарность этих колебаний: ковариация значений процесса зависит от расстояния между
абсциссами и не зависит от сдвига по оси t.
Ковариационная функция с чётная, достигает
максимума, равного дисперсии процесса, при   0.
Из чётности следует вещественность преобразования Фурье, дающее спектральную плотность (с.п.)
f ( )   1 c e
R
 i
d   1 c cos( )d ,
R
здесь использовалась формула Эйлера:
e
 iz
 cos z  i sin z.
С.п. – неотрицательная функция, определённая на
R  . Её интеграл ограничен дисперсией процесса:

R
f ( )d   c0 .
Иногда с.п.называют «энергетической плотностью».
Случайный процесс со
стационарными приращениями (СПСП)
 E( xs  xt )  0,
Колмогоров (1940):
Cov(xs , xt )  (v|s|  v|t|  v|s t| ) / 2.  E( xs  xt ) 2  v|s t| .

За начальную точку может быть взята любая точка
траектории. Структурную функцию v удобно
2 
аппроксимировать степенной: v    , 0    2
( Яглом). Мandelbrot модель СПСП с такой аппроксимацией назвал фрактальным броуновским движением, величину H   / 2 назвал показателем Харста
и привёл эффектные примеры.
Локальные свойства СПСП (и ССП)
v  2(c0  c ),
c  c0  v /2.
Корреляция соседних приращений
Непрерывен в среднеквадратичном:
  2 1  1.
lim st E(xt  xs )  lim st v|s t |  0.
2
Дифференцируем в среднеквадратичном:  s t  1.
m
Спрямляем в среднем:  lim m 1 Eli ,
где li - длины звеньев аппроксимирующей ломаной.
 =0,  =-1/2 «белый шум» с дисперс. 2 / 2, всюду разрывный,
 =1,  =0 винеровский: непрерыв., не диф., не спрямляема,
 =2,  =1 случайная прямая: непрер., диф., спрямляема
(при
(d / d )v( ) | 0  0,  (d / d )c( ) | 0  0.
Прогноз гауссовского ССП
yt  xt   , шаг h, знаем: y : ( ynh ,..., yh , y0 ),
ковариационную функцию c : ( ch ,..., cnh , c( n 1) h )
следующего значения с известными предшествующими, матрицу ковариаций C  {cij }in, j 0
известных значений.
Надо найти следующее значение y( n 1) h  ? .
1 T
По Андерсону (6): E ( y
| y)  y C c ,
( n 1) h
1 T
D( y( n 1) h | y )  с0  c C c .
Прогноз гауссовского СПСП
Приращения  k  x( k 1) h  xkh , в результате
( xnh , x( n 1) h ,..., xh , x0 )    n ,..., 1  :  .
Ковариации приращений:
c0  vh ,..., ck  v( k 1) h / 2  vkh  v( k 1) h / 2,...;
для фрактального броуновского движения
c0   2 h ,..., ck   2 h [(k  1) / 2  k   (k  1) / 2],...,
n 1
ij i , j  0
матрица C  {c }
,
ковариации с предыдущими c : (c1 ,..., cn ).
Прогноз по Андерсону (6):
1
E (  n 1 |  )   C cT ,
1 T
D(  n 1 |  )  с0  c C c .
Авторегрессия (АР)
Последовательность x1 ,..., xn , АР к-го порядка:
2
n
xn 1  n k hn i xi   n 1 , hi коэффициенты,  i  N(0,  )
независимы. Обратная задача: известен прогноз xˆ ,
0
его дисперсия  2 , есть ли соответствующий СП?
СПСП не может быть, т.к. его приращения зависимы.
СПС не может быть по той же причине. Нужна АР с
зависимыми приращениями!
Система уравнений:
xn 1  i (an i xi  bn i yi )   n 1 , Нобелевская премия
2004 года по экономике.

yn 1  i (cn i xi  d n i yi )   n 1 ,
Изотропное случайное поле
Пусть в области Q  R имеется случайная функция
xt , вектор t  Q. В сечениях поля будут СП xt .Если
их вероятностные характеристики совпадают, поле
изотропно. Для рассмотренных ССП и СПСП будут:
2
Ex t   ,


Cov(xs , xt )  c||s-t|| ;
 E(xs  xt )  0,

2
E(
x

x
)
 v||s-t|| .
s
t

Поле, имеющее сечениями винеровские процессы,
называется полем Леви. Мандельброт…
Условный случайный процесс (УСП) и
подсчёт запасов (ПЗ) рудных
месторождений
• На отрезке T концентрация xt , линейные запасы
w   xt2dt надо оценить по пробам с ошибками ui ,
Dui T  i известны.
Традиционный способ: линейная интерполяция,
Погрешность по статистике: Dx  Dx / n.
Численное интегрирование гладких функций…
УСП: в точках опробования СП имеет известные
(фиксированные) значения (см. «Условное многомерное нормальное распределение»).
Проблема ураганных проб. Концентрации xt
многих руд распределены резко асимметрично, и ПЗ
по среднему даёт завышенные значения, хотя среднее является несмещённой оценкой мат. ожидания.
Пусть xt  exp yt , а yt - ССП и Eyt  . Тогда траектории УСП между фиксированными точками будут

e
, и вверх, если они
выгнуты вниз, если они выше
ниже. В месторождении концентрации аномальны по
по сравнение с фоновыми, поэтому интеграл по УСП
будет меньше, чем даст линейная интерполяция.
Условное случайное поле и ПЗ
нефте-газовых месторождений
Скважины располагаются не по профилям, надо рассматривать плоское поле Q  t, обычно xt - поле
Леви, параметр которого определяется по межскважинным разностям. Разбив Q на треугольники, по
возможности изометричные, получаем мозаику
условных полей, каждое из них определяется скважинами в вершинах треуголтника, одну из которых
можно принять за начальную, и решать задачу при
известных значениях в двух других численно по формулам условного многомерного распределения.
Выбор шага наблюдений
(«дисперсия» Аллана)
Если в наблюдаемом процессе zt на низкочастотный
сигнал с амплитудой  наложен «белый шум» с дис2

/ 2 , то при шаге наблюдений 
персией
E( z )    / 2   .
Разделив эту функцию на  , получим функцию
2
2 2
2
E( z ) /     / 2   /  : a .
2
2
2
Эта функция достигает минимума по  при таком
значении   , при котором дисперсии приращений
сигнала и «белого шума» равны.
Выбор количества слагаемых
при разложении функции
Гладкая функция f ( x ) наблюдается в точках
X  {x0 ,..., xn } с помехами: вместо fi : f ( xi )
фиксируются yi  f i   i , помехи  i одинаково распределены, нормальны и независимы. Ломаная y ( X )
аппроксимируется суммой ортогональных полино
мов g j ( X ) : y ( X )   j 0 a j g j ( X ). Остановиться, если
2
2
s


(
d

d
)
/n
1) оценки дисперсии «остатков» d i 1
i
и s22  in01 ( d i  d i 1 )2 /(2n ) примерно равны,
2) корреляция соседних остатков равна -1/2.
5. Прогноз точечных полей
Поля зависимых точек
В приложениях часто ищут п.р. зависимых точек.


x
f
(
x
)

f
(
x
) и между ними
Пусть x и имеют п.р.
действует сила  ( x  x  ). В условии равновесия
g ( x )  1  ( x  x  ) f ( x  )dx   f  f  0 - свёртка.
R
Преобразование Фурье F превращает свёртку в произведение: F ( g ( x ))  F ( ( x )) F ( f ( x ))  0. Противоречие: либо  ( x )  0, либо f ( x )  0. n зависимых
n
точек могут иметь п.р. в выборочном пространстве R .

Распределение
межточечных расстояний (МТР)
p
Выборка x1 ,..., x n  Q  R , r || x  x  || (0,  ],
2
их m  Cn  n(n  1) / 2. Разделим [0,  ] точками
0  0  1  ...   k   на k интервалов. Пусть mi количество МТР, для которых i 1  r  i , а
 i  P{i 1  r  i } при равномерном распределении
x в Q. Последовательность
gi : mi /( i m ), i  1,..., k
будет гистограммой МТР, нормированной равномерным распределением. Очевидно, Emi   i m. Dmi  ?
Теорема. Пусть x1 ,..., x n  Q  R ,
p  1, имеют в Q распределение,
абсолютно непрерывное относительно
меры Лебега. Тогда МТР между ними
асимптотически ( n   ) попарно
независимы (и при зависимых точках).
n =10 
Следствие. Если для всех i
 i  cn 1  0, 0    1, то при равномерном распределении x в Q вектор из
величин bi : ( mi   i m) /  i (1   i )m
имеет предельным распределением
p
N k (0, I).
Распределение
со стационарными расстояниями (РСРс)
Выборка {x1 ,..., x n } : X n при равномерном распределении x в Q имеет п.р. u( X n ), а МТР п.р. ( r ).
n
В РСРс п.р. X n в Q равна

w( X n )  u( X n )    ( r ),  ( r )  0, 0  ( r ) ( r )dr  1.
Теорема. Если параметрическая функция  ( r )
кусочно-постоянная:  ( r )   i при i 1  r  i , и
 i i  1, то нормированная гистограмма g1 ,..., gk
является ОМП для величин  1 ,...,  k .
Прогноз изотропных полей
со стационарными расстояниями
• Выборка {x1 ,..., x n }  X n с п.р. w( X n ).
П.р. новой точки x n1 при известных точках X n :
w( X n 1 )
n
h( x n 1 | X n ) 
 cn  1 ( r ,n 1 ).
w( X n )
Она достигает максимума там же, где её логарифм
log h(x n 1 | X n )  log cn   log  ( r ,n 1 ).
Константа log cn не зависит от x n1 , её опустим. Чтобы
не зависить от n, осредним логарифмы и получим
прогнозную функцию
f (x n 1 | X n )  n 1[ ( r ,n 1 )]1/ n .
Анизотропное поле точек
со стационарными разностями
• При р  2 разности h  x  x    .
Модель анизотропного поля точек со стационарными
разностями строится аналогично. П.р, точек равна
w( X n )  u( X n )     ( h ),  ( h)  0,   (h) (h)dh  1,

где  ( h) есть п.р. вектора h в  .
Теорема об ОМП справедлива, как и условная п.р.
h(x n 1 | X n )  w( X n 1 ) / w( X n )  cn n 1 (h ,n 1 ).
Из неё получаем прогнозную функцию
f (x n 1 | X n )   1[ (h ,n 1 )] .
n
1/ n
Оценка плотности распределения
Симметричная п.р. Составляет f ( x )  f (  x ),
её МТР h
 x  x имеют п.р.
v ( h )   1 f ( x ) f ( x  h )dx 
R
  1 f ( x ) f ( h  x )dx  f  f .
R
F (v )  F ( f  f )  [ F ( f )]2 .
Пусть F (v )  0 :
F (v )  F ( f ),
1
F [ F (v )]  f .
МТР в распознавании образов
Теорема. Точки первого класса x11 ,..., x1n1  Q1  R p и
точки второго класса x12 ,..., x 2n2  Q2  R p имеют п.р.,
абсолютно непрерывные относительно меры Лебега.

1
2
r

||
x

x
Тогда МТР 

 ||,   1,..., n1 ,   1,..., n2 ,
асимптотически ( n1 , n2   ) попарно независимы.
Заметим, что теорема верна и для зависимых
точек. Используем теорему для проверки гипотезы
о разделимости двух классов.
Проверка разделимости классов
D1 ( r ) - функция распределения (ф.р.) МТР в I классе,
D2 ( r ) - ф.р. МТР во II классе,
D ( r ) - ф.р. МТР между классами.
Соответствующие количества МТР обозначим через
m1 , m2 , m , m : m1  m2 , а через D ( r ) ф.р. m внутри
D
классовых МТР. Через
 будем обозначать эмпирические ф.р. Если распределения классов совпадают, то совпадают все ф.р. Если не совпадают, то
наибольшая разница будет между Dи D .
Многомерная задача свелась к одномерной, можно
пользоваться критериями согласия, их много.
Критерий Колмогорова-Смирнова
При совпадении распределений величина
m m


Am ,m 
max | D  D |
m  m r
имеет асимптотически ( n  ) табулированное
распределение Колмогорова.
Выбор оптимального радиуса
?
Классифицируемую точку x сделаем центром шара
радиуса r и отнесём её к классу, преобладающему в
шаре (прямая классификация) или к другому классу
(обратная классификация для чередующихся точек).
Пусть x  x . Тогда вероятность того, что следующая точка тоже x1 , равна D1 ( r ), а вероятность того,
2
что она x , равна D ( r ). Осреднив эти разности по
классам, получим функцию
?
1
G( r )  [ D1 ( r )  D2 ( r )]/ 2  D ( r ).
Радиус r   arg max r G ( r ) наилучший для деления

d

G
(
r
) можно
«компактных» классов, а величину


назвать компактностью классов. Если | G ( r ) | G ( r ),

r
 arg min r G ( r ), то обратная классификация
где
будет более эффективной, чем прямая, она может
быть полезной в задачах микробиологии. Величину


d | G ( r ) | можно назвать смешанностью классов.
Для определённости будем говорить о прямой
классификации .
Отбор информативных признаков
Если гипотеза о совпадении распределений отвергается, то полезно избавиться от «шумовых» признаков. Изложенное даёт для этого два способа.
1) Максимизировать разобщённость d .
2) Максимизировать статистику Колмогорова-Смирнова или другой критерий согласия.
Оценка качества решения

Оценка погрешности D ( r ) имеет преимущества
перед традиционными методами.
Литература
Шурыгин А.М. Статистика при подсчёте запасов
месторождений. Изд. МГУ, 1978
Шурыгин А.М. Прикладная стохастика: робастность, оценивание, прогноз. «Финансы и статистика», 2000
Стригунова М.С., Шурыгин А.М. Скалярное
умножение матриц со скользящим окном и
прогноз землетрясений. //Автоматика и телемеханика, №7, 2004, с.27-34
http://www.ccas.ru/cito/eq
Скачать