1. Аналитические основы Проблема оценивания Пусть x X R1 имеет плотность распределения f : f ( x, ), зависящую от неизвестного параметра . Нам надо найти оценку ˆ параметра по выборке независимых наблюдений x1 , , xn . Основы прикладной статистики • Метод наименьших квадратов (K.Gauss, 17941795) • Оценки максимума правдоподобия (ОМП) (R.Fisher, 1912) 0 : n log f ( xi , ) | 0 0 Их недостатки: ► i 1 • A.Н.Koлмогоров (1950): «ОМП не универсальны» • J.W.Tukey (1960): ► ОМП «катастрофически • неустойчивы» к малым изменениям п.р.! ►Оценки минимума контраста (ОМК) (V.P. Godambe 1960, J.Pfanzagle 1969) ˆ : n ( x ,ˆ) min ( x , ) , i 1 i • Функция контраста: • Оценочная функция: ( x, ) c ( x, ), c 0, • ОМК ˆ : ( xi , ˆ) 0. • Условие состоятельности: ( x, ) 0. (1) • Асимптотическая дисперсия: V ( f , ) lim n(ˆ ) 2 2 /( ) 2 . (2) n где : ( x, ) и : ( x, ). ► ►Много устойчивых ОМК было найдено теоретически и эмпирически в Принстонском эксперименте. Их недостатки: • Все оценки зависят от неоцениваемых параметров (дисперсии, степени загрязнения), так что каждая из них является семейством оценок. Хьюбер и Хампель подбирали константы для распределения N (0,1). • Не только центр нормального распределения, но и другие параметры различных распределений следует устойчиво оценивать. • Авторы ищут устойчивые оценки, не имея определения устойчивости. • Надо искать устойчивость к неизбежному отклонению реальной п.р. от модельной. ► Функциональная оптимизация Для функции y(x) величина |dy/dx| - хорошая мера неустойчивости y по отношению к варациям x. По аналогии используем производную Лагранжа W ( f , ) V ( f , ) f dx 2 X 2 (3) как меру неустойчивости дисперсии оценки при вариациях п.р. f . Функция определена до умножения на ненулевую константу c, и если 1 с (4), 2 W ( f , ) dx . тогда X Tеoрeма. При выполнении условий (1) и (4) для квадратичной по функции Q(, f) функционал G Q( , f ) 0 f 1* f dx X ►достигает минимума на функции ( x, ) Q ( , f ) 0 f 1 f . Приложив теорему к функционалу (3), получим, что неустойчивость W достигает минимума W* на оценочной функции * ( x, ) f ( x, ) f ( x, ), : * 0. Соответствующую оценку назовём оценкой * максимальной устойчивости (ОМУ). ►Эффективность V(f,) – положительная мера неэффективности, достигающая минимума V0 на ОМП. Эффективность eff ˆ V0 V ( f , ) Устойчивость W(f,) – положительная мера неустойчивости, достигающая W минимума W на ОМУ. Устойчивостьstb ˆ W W ( f , ) На квадрате eff ˆ, stbˆ интересны такие оценки. Условно оптимальные с оценочной функцией c ln f 1 f , : 0 где зависит от соотношений между eff и stb Компромиссные c со свойствами: 1 1 ˆ ˆ V0 W* : eff stb min • Радикальные r у которых eff r stb r ,и r c ln f f ► ► Рaдикальность оценок 2 2 Функционал R( f , ) ( x, ) f ( x, ) dx ( x, ) X достигает минимума R* на радикальной оценке. Радикальность оценки rad ˆ R* R( f , ) - удобная мера полезности в приложениях: ► ˆ r c k * h p m 0 rad ˆ 1 .99 .97 .91 .88 .85 .83 .65 Можно видеть, что ОМП распределения Коши k мажорирует робастные оценки h и p ; а медиана m лучше, чем ОМП. Мультипликативные помехи встречаются гораздо чаще, чем аддитивные. Все положительные величины их имеют. Пусть x1 ,..., x2 n , yi x2i | x2i 1 | / c, c : Ey 2 1. Оцениваем моделированием Ey ( 0) и асимптотическую дисперсию V ( ) для разных оценок : r m : 0 V ( ) : 1,01 0,29 0,37 0,45. Видно явное преимущество медианы и отставание ОМП. 2. Многомерное нормальное распределение N p m, C Для x ( x ,..., x ) N p ( m, C), C CT , | C | 0, вектор математических ожиданий m Ex, матрица ковариаций C {ci j } E[(x m)( x m) T ], (i ) ( j) корреляция x и x ri j ci j / ci i c j j , 1 r 1. При 1 r 0 увеличение (1) ( p) T одного признака ведёт к уменьшению другого, при 0 r 1 оба признака изменяются вместе. Поверхности равных плотностей – эллипсоиды, их оси называются главными компонентами Устойчивые оценки многомерного распределения • Все одномерные определения переносятся на многомерный случай автоматически. • Оценки Мешалкина m и C единственные устойчивые из предложенных. Они могут быть получены из следующей системы уравнений: x i m e qi 2 0, T qi 2 2 1 0, x i m x i m (1 ) C e 2 1 q x m C где (5) i xi m . i Первое уравнение – вектор, второе – матрица. 2 T • При 1/ 2 получаем радикальные оценки mr , C r . • Если выборка содержит несколько кластеров, то в процессе итераций оценка mr сходится к центру большего из них, а матрица Cr оценивает его ковариацию. Для проверки однородности выборки предлагается следующий кластер-тест: T 1 K np x i m C1 x i m . ► • Если элементы выборки имеют нормальное распределение (то есть выборка однородна), то 2 4 p 2 2 1 p2 d np ln K N 0, 2 . p 2 2 1 2 Кластер-алгоритм Количество кластеров? Уровень значимости : { (x )T C1 (x ) a p } 1 . Для y N p (0, I ) 1 (2 ) p/2 bp 0 S p ( r )e r2 / 2 Известно: S p (1) 2 1 1 2 dr (2 ) p/2 / ( p / 2) bp p 1 r 2 / 2 r e S p (1) r e dr / ( p / 2). P { y y bp } 1 a p b p . T p 1 r 2 / 2 0 p/2 p / 2 1 0 bp dr. Многомерная выборочная медиана • В одномерном случае выборочная медиана имеет оценочную функцию m ( x m ) sgn( x m ) ( x m ) / | x m | и является решением уравнения m (xi / | xi m |) /(1/ | xi m |). Решение не изменится, если модули заменить нормированными расстояниями от центра qi (5). Получим уравнение для многомерного случая: x i / qi mm . 1/ qi Условное многомерное распределение Центрируем случайный нормальный вектор x, введя y x Ex,разобьём его на два вектора и соответственно разобьём матрицу ковариаций C : y1 y , y2 C11 C12 C . C21 C22 Если компоненты вектора y 2 фиксированы (известны), то известно и условное распределение компонент вектора y1 (Андерсoн): 1 22 1 22 y1 | y 2 N (C12 C y 2 , C11 C12C C21 ). (6) 3. Регрессионный прогноз • Отклик yi r(xi , ) i R 1r , i =1, …, n, (1) ( p 1) T p 1 x x , , x R , предикторы i i i остатки i N (0, 2 ), функция регрессии r (), её параметры (1 ,..., q )T , ˆ ? • Классика: наименьшие квадраты i2 min. ˆ min • Робастность: оценки центра: x i , • Все эти регрессии неустойчивы. • Радикальная по оценочной вектор-функции ln f z, ] f z, , r z, C[ где f () - п.р. вектора z x , y . T T ► ►Квадратичная ошибка оценки параметров: 2 ˆ r x , R lim nE r x 0 , 0 tr Err T H E T HT H1 , • Выбор модели r ().Квадратичная ошибка предсказания для нового наблюдения x 0 является суммой «модельной» дисперсии 2и квадратичной ошибки за счёт оценки параметров. Минимизируя их сумму (7) s 2 2 R / n min , мы найдём подходящую функцию регрессии. r x, . Как и в многомерной статистике, эффективность и устойчивость оценок снижается при росте размерности. Так что полезно уменьшать размерность. Простейшие регрессии Полиномиальная степени p на отрезке. p j Функция регрессии r ( x, ) j 0 j x , j 0,..., p. j 2 2 Оценочная функция j x exp( / 2 ), 0 ОМП, 1/ 2 радик., 1 макс.устойч. Линейная на куб с равном. распред. x ( x (1) ,..., x ( p ) )T 2 2 0 exp( / 2 ), p ( j) r (x, ) 0 j 1 j x , ( j) 2 2 j 0 x exp( / 2 ), Линейная на нормальное распределение N p ( m, C) 2 2 2 r ( x, ) 0 exp( [ / q ]/ 2), p ( j) ( j) 2 2 2 0 j 1 j x , j 0 x exp( [ / q ]/ 2). При больших размерностях всё ухудшается! Редуцированная линейная регрессия Решения ухудшаются, когда растёт размерность p. Потому что в многомерной статистике надо оценитьO( p 2 ) параметров, хотя для решения нам нужно только O ( p ) параметров. Исключение признаков уменьшает информацию. Сведём задачу к последовательности двумерных задач. Регрессия. Пусть признаки x ( x (1) ,..., x ( p 1) )T упорядочены по «информативности». Рассмотрим 2 s последовательность двумерных задач, используя (7) для исключения неинформативных признаков: y c0 c1 x (1) (1) , (1) c2 x (2) (2) , ..., ( p 2) c p 1 x ( p 1) ( p 1) cp . Редуцированная дискриминация В R2 с признаками а и b есть два класса точек, разделяемых линейной дискриминантной функцией (ЛДФ), и n(a, b) обозначение множества проекций точек на нормаль к ЛДФ. Упорядочим признаки x ( x (1) ,..., x ( p ) )T по информативности и составим последовательность двумерных задач: z2 n x (1) , x (2) , z3 n z2 , x (3) ,..., z p n z p 1 , x ( p ) . Признак считается неинформативным, если он не уменьшает ошибку классификации. В результате получаем хорошую ЛДФ. В этой последовательности нормаль к ЛДФ качается по очереди к осям координат. Решение можно улучшить, повторив последовательность в цикле (Колмогоров). 4. Прогноз случайных функций Случайные функции Будем различать следующие их разновидности. 1 t R . Случайный процесс xt , p t R , p 1. Случайное поле xt , Аргументы функций (время, пространство) и ниже будут помещаться не в скобках, а в нижних индексах для компактности записей. Рассмотрим два наиболее часто используемых типа таких процессов. Стационарный случайный процесс (ССП) определяется двумя равенствами: Ext const, E(xs )( xt ) Cov(xs , xt ) c|s t | . Первое показывает, что траектории ССП имеют средний уровень , около него происходят колебания. Второе равенство указывает на стационарность этих колебаний: ковариация значений процесса зависит от расстояния между абсциссами и не зависит от сдвига по оси t. Ковариационная функция с чётная, достигает максимума, равного дисперсии процесса, при 0. Из чётности следует вещественность преобразования Фурье, дающее спектральную плотность (с.п.) f ( ) 1 c e R i d 1 c cos( )d , R здесь использовалась формула Эйлера: e iz cos z i sin z. С.п. – неотрицательная функция, определённая на R . Её интеграл ограничен дисперсией процесса: R f ( )d c0 . Иногда с.п.называют «энергетической плотностью». Случайный процесс со стационарными приращениями (СПСП) E( xs xt ) 0, Колмогоров (1940): Cov(xs , xt ) (v|s| v|t| v|s t| ) / 2. E( xs xt ) 2 v|s t| . За начальную точку может быть взята любая точка траектории. Структурную функцию v удобно 2 аппроксимировать степенной: v , 0 2 ( Яглом). Мandelbrot модель СПСП с такой аппроксимацией назвал фрактальным броуновским движением, величину H / 2 назвал показателем Харста и привёл эффектные примеры. Локальные свойства СПСП (и ССП) v 2(c0 c ), c c0 v /2. Корреляция соседних приращений Непрерывен в среднеквадратичном: 2 1 1. lim st E(xt xs ) lim st v|s t | 0. 2 Дифференцируем в среднеквадратичном: s t 1. m Спрямляем в среднем: lim m 1 Eli , где li - длины звеньев аппроксимирующей ломаной. =0, =-1/2 «белый шум» с дисперс. 2 / 2, всюду разрывный, =1, =0 винеровский: непрерыв., не диф., не спрямляема, =2, =1 случайная прямая: непрер., диф., спрямляема (при (d / d )v( ) | 0 0, (d / d )c( ) | 0 0. Прогноз гауссовского ССП yt xt , шаг h, знаем: y : ( ynh ,..., yh , y0 ), ковариационную функцию c : ( ch ,..., cnh , c( n 1) h ) следующего значения с известными предшествующими, матрицу ковариаций C {cij }in, j 0 известных значений. Надо найти следующее значение y( n 1) h ? . 1 T По Андерсону (6): E ( y | y) y C c , ( n 1) h 1 T D( y( n 1) h | y ) с0 c C c . Прогноз гауссовского СПСП Приращения k x( k 1) h xkh , в результате ( xnh , x( n 1) h ,..., xh , x0 ) n ,..., 1 : . Ковариации приращений: c0 vh ,..., ck v( k 1) h / 2 vkh v( k 1) h / 2,...; для фрактального броуновского движения c0 2 h ,..., ck 2 h [(k 1) / 2 k (k 1) / 2],..., n 1 ij i , j 0 матрица C {c } , ковариации с предыдущими c : (c1 ,..., cn ). Прогноз по Андерсону (6): 1 E ( n 1 | ) C cT , 1 T D( n 1 | ) с0 c C c . Авторегрессия (АР) Последовательность x1 ,..., xn , АР к-го порядка: 2 n xn 1 n k hn i xi n 1 , hi коэффициенты, i N(0, ) независимы. Обратная задача: известен прогноз xˆ , 0 его дисперсия 2 , есть ли соответствующий СП? СПСП не может быть, т.к. его приращения зависимы. СПС не может быть по той же причине. Нужна АР с зависимыми приращениями! Система уравнений: xn 1 i (an i xi bn i yi ) n 1 , Нобелевская премия 2004 года по экономике. yn 1 i (cn i xi d n i yi ) n 1 , Изотропное случайное поле Пусть в области Q R имеется случайная функция xt , вектор t Q. В сечениях поля будут СП xt .Если их вероятностные характеристики совпадают, поле изотропно. Для рассмотренных ССП и СПСП будут: 2 Ex t , Cov(xs , xt ) c||s-t|| ; E(xs xt ) 0, 2 E( x x ) v||s-t|| . s t Поле, имеющее сечениями винеровские процессы, называется полем Леви. Мандельброт… Условный случайный процесс (УСП) и подсчёт запасов (ПЗ) рудных месторождений • На отрезке T концентрация xt , линейные запасы w xt2dt надо оценить по пробам с ошибками ui , Dui T i известны. Традиционный способ: линейная интерполяция, Погрешность по статистике: Dx Dx / n. Численное интегрирование гладких функций… УСП: в точках опробования СП имеет известные (фиксированные) значения (см. «Условное многомерное нормальное распределение»). Проблема ураганных проб. Концентрации xt многих руд распределены резко асимметрично, и ПЗ по среднему даёт завышенные значения, хотя среднее является несмещённой оценкой мат. ожидания. Пусть xt exp yt , а yt - ССП и Eyt . Тогда траектории УСП между фиксированными точками будут e , и вверх, если они выгнуты вниз, если они выше ниже. В месторождении концентрации аномальны по по сравнение с фоновыми, поэтому интеграл по УСП будет меньше, чем даст линейная интерполяция. Условное случайное поле и ПЗ нефте-газовых месторождений Скважины располагаются не по профилям, надо рассматривать плоское поле Q t, обычно xt - поле Леви, параметр которого определяется по межскважинным разностям. Разбив Q на треугольники, по возможности изометричные, получаем мозаику условных полей, каждое из них определяется скважинами в вершинах треуголтника, одну из которых можно принять за начальную, и решать задачу при известных значениях в двух других численно по формулам условного многомерного распределения. Выбор шага наблюдений («дисперсия» Аллана) Если в наблюдаемом процессе zt на низкочастотный сигнал с амплитудой наложен «белый шум» с дис2 / 2 , то при шаге наблюдений персией E( z ) / 2 . Разделив эту функцию на , получим функцию 2 2 2 2 E( z ) / / 2 / : a . 2 2 2 Эта функция достигает минимума по при таком значении , при котором дисперсии приращений сигнала и «белого шума» равны. Выбор количества слагаемых при разложении функции Гладкая функция f ( x ) наблюдается в точках X {x0 ,..., xn } с помехами: вместо fi : f ( xi ) фиксируются yi f i i , помехи i одинаково распределены, нормальны и независимы. Ломаная y ( X ) аппроксимируется суммой ортогональных полино мов g j ( X ) : y ( X ) j 0 a j g j ( X ). Остановиться, если 2 2 s ( d d ) /n 1) оценки дисперсии «остатков» d i 1 i и s22 in01 ( d i d i 1 )2 /(2n ) примерно равны, 2) корреляция соседних остатков равна -1/2. 5. Прогноз точечных полей Поля зависимых точек В приложениях часто ищут п.р. зависимых точек. x f ( x ) f ( x ) и между ними Пусть x и имеют п.р. действует сила ( x x ). В условии равновесия g ( x ) 1 ( x x ) f ( x )dx f f 0 - свёртка. R Преобразование Фурье F превращает свёртку в произведение: F ( g ( x )) F ( ( x )) F ( f ( x )) 0. Противоречие: либо ( x ) 0, либо f ( x ) 0. n зависимых n точек могут иметь п.р. в выборочном пространстве R . Распределение межточечных расстояний (МТР) p Выборка x1 ,..., x n Q R , r || x x || (0, ], 2 их m Cn n(n 1) / 2. Разделим [0, ] точками 0 0 1 ... k на k интервалов. Пусть mi количество МТР, для которых i 1 r i , а i P{i 1 r i } при равномерном распределении x в Q. Последовательность gi : mi /( i m ), i 1,..., k будет гистограммой МТР, нормированной равномерным распределением. Очевидно, Emi i m. Dmi ? Теорема. Пусть x1 ,..., x n Q R , p 1, имеют в Q распределение, абсолютно непрерывное относительно меры Лебега. Тогда МТР между ними асимптотически ( n ) попарно независимы (и при зависимых точках). n =10 Следствие. Если для всех i i cn 1 0, 0 1, то при равномерном распределении x в Q вектор из величин bi : ( mi i m) / i (1 i )m имеет предельным распределением p N k (0, I). Распределение со стационарными расстояниями (РСРс) Выборка {x1 ,..., x n } : X n при равномерном распределении x в Q имеет п.р. u( X n ), а МТР п.р. ( r ). n В РСРс п.р. X n в Q равна w( X n ) u( X n ) ( r ), ( r ) 0, 0 ( r ) ( r )dr 1. Теорема. Если параметрическая функция ( r ) кусочно-постоянная: ( r ) i при i 1 r i , и i i 1, то нормированная гистограмма g1 ,..., gk является ОМП для величин 1 ,..., k . Прогноз изотропных полей со стационарными расстояниями • Выборка {x1 ,..., x n } X n с п.р. w( X n ). П.р. новой точки x n1 при известных точках X n : w( X n 1 ) n h( x n 1 | X n ) cn 1 ( r ,n 1 ). w( X n ) Она достигает максимума там же, где её логарифм log h(x n 1 | X n ) log cn log ( r ,n 1 ). Константа log cn не зависит от x n1 , её опустим. Чтобы не зависить от n, осредним логарифмы и получим прогнозную функцию f (x n 1 | X n ) n 1[ ( r ,n 1 )]1/ n . Анизотропное поле точек со стационарными разностями • При р 2 разности h x x . Модель анизотропного поля точек со стационарными разностями строится аналогично. П.р, точек равна w( X n ) u( X n ) ( h ), ( h) 0, (h) (h)dh 1, где ( h) есть п.р. вектора h в . Теорема об ОМП справедлива, как и условная п.р. h(x n 1 | X n ) w( X n 1 ) / w( X n ) cn n 1 (h ,n 1 ). Из неё получаем прогнозную функцию f (x n 1 | X n ) 1[ (h ,n 1 )] . n 1/ n Оценка плотности распределения Симметричная п.р. Составляет f ( x ) f ( x ), её МТР h x x имеют п.р. v ( h ) 1 f ( x ) f ( x h )dx R 1 f ( x ) f ( h x )dx f f . R F (v ) F ( f f ) [ F ( f )]2 . Пусть F (v ) 0 : F (v ) F ( f ), 1 F [ F (v )] f . МТР в распознавании образов Теорема. Точки первого класса x11 ,..., x1n1 Q1 R p и точки второго класса x12 ,..., x 2n2 Q2 R p имеют п.р., абсолютно непрерывные относительно меры Лебега. 1 2 r || x x Тогда МТР ||, 1,..., n1 , 1,..., n2 , асимптотически ( n1 , n2 ) попарно независимы. Заметим, что теорема верна и для зависимых точек. Используем теорему для проверки гипотезы о разделимости двух классов. Проверка разделимости классов D1 ( r ) - функция распределения (ф.р.) МТР в I классе, D2 ( r ) - ф.р. МТР во II классе, D ( r ) - ф.р. МТР между классами. Соответствующие количества МТР обозначим через m1 , m2 , m , m : m1 m2 , а через D ( r ) ф.р. m внутри D классовых МТР. Через будем обозначать эмпирические ф.р. Если распределения классов совпадают, то совпадают все ф.р. Если не совпадают, то наибольшая разница будет между Dи D . Многомерная задача свелась к одномерной, можно пользоваться критериями согласия, их много. Критерий Колмогорова-Смирнова При совпадении распределений величина m m Am ,m max | D D | m m r имеет асимптотически ( n ) табулированное распределение Колмогорова. Выбор оптимального радиуса ? Классифицируемую точку x сделаем центром шара радиуса r и отнесём её к классу, преобладающему в шаре (прямая классификация) или к другому классу (обратная классификация для чередующихся точек). Пусть x x . Тогда вероятность того, что следующая точка тоже x1 , равна D1 ( r ), а вероятность того, 2 что она x , равна D ( r ). Осреднив эти разности по классам, получим функцию ? 1 G( r ) [ D1 ( r ) D2 ( r )]/ 2 D ( r ). Радиус r arg max r G ( r ) наилучший для деления d G ( r ) можно «компактных» классов, а величину назвать компактностью классов. Если | G ( r ) | G ( r ), r arg min r G ( r ), то обратная классификация где будет более эффективной, чем прямая, она может быть полезной в задачах микробиологии. Величину d | G ( r ) | можно назвать смешанностью классов. Для определённости будем говорить о прямой классификации . Отбор информативных признаков Если гипотеза о совпадении распределений отвергается, то полезно избавиться от «шумовых» признаков. Изложенное даёт для этого два способа. 1) Максимизировать разобщённость d . 2) Максимизировать статистику Колмогорова-Смирнова или другой критерий согласия. Оценка качества решения Оценка погрешности D ( r ) имеет преимущества перед традиционными методами. Литература Шурыгин А.М. Статистика при подсчёте запасов месторождений. Изд. МГУ, 1978 Шурыгин А.М. Прикладная стохастика: робастность, оценивание, прогноз. «Финансы и статистика», 2000 Стригунова М.С., Шурыгин А.М. Скалярное умножение матриц со скользящим окном и прогноз землетрясений. //Автоматика и телемеханика, №7, 2004, с.27-34 http://www.ccas.ru/cito/eq