1. Анализ моделей, линейных по параметрам

advertisement
1. Анализ моделей, линейных по параметрам
Вычислительная процедура построения линейной по параметрам


1
ЭС - модели сводится к использованию соотношения B  X T X X T Y .
Важно, что это соотношение позволяет лишь найти коэффициенты модели,
но не решает вопроса соответствия построенной модели и объекта
исследования.
Как уже было отмечено, в основе метода наименьших квадратов лежат
три предположения:
1. Предположение о нормальном распределении ошибок.
2. Предположение о независимости измерений.
3. Предположение о равной точности измерений.
Если хотя бы одно из указанных предположений нарушено, то
применение метода наименьших квадратов недопустимо: исходя из
принципа максимального правдоподобия, полученная ЭС-модель не будет
наилучшим описанием объекта.
Поэтому проверка предположений должна выполняться до построения
модели; она становится возможной только тогда, когда в каждом u-м из
u  1, N экспериментов измерение значения отклика повторяется mu  1
раз. Эти mu измерений, соответствующие одной экспериментальной точке,
называют параллельными.
Проверка первых двух предположений требует существенного
увеличения числа параллельных испытаний, поэтому на практике
ограничиваются только проверкой гипотезы о равной точности измерений;
с целью снижения возможной взаимной зависимости обычно выполняют
рандомизацию измерений (проводят измерения в случайном порядке).
Пусть в u-й точке выполнено mu параллельных измерений. Тогда в
каждом эксперименте оценки средних и дисперсий находятся по
известным правилам:
1 mu
yu 
 yui , u  1, N ,
mu i 1
1 mu
1 mu
2
 yui  yu     yui  yu 2 , u  1, N ,


mu  1 i 1
f u i 1
где f u  mu  1 – число степеней свободы выборочной дисперсии (число
параллельных испытаний, уменьшенное на число найденных по выборке
оценок: при вычислении выборочной дисперсии уже найдено выборочное
среднее). Первый индекс u в обозначении отклика yui является номером
эксперимента, второй индекс i – номером параллельного испытания в этом
эксперименте.
В предположении о равной точности найденные оценки выборочных
дисперсий позволяют вычислить дисперсию воспроизводимости
(дисперсию эксперимента):
su2
2
se2
f1s12  f 2 s22 ... f N sN2
1 N
1 N mu
2
2

  f u su     yui  yu  ,
f1  f 2 ... f N
f e u1
f e u1 i 1
(1.1)
где
N
N
N
u 1
u 1
u 1
f e   f u   mu  1   mu  N
– число степеней свободы дисперсии воспроизводимости (полное число
измерений, включая параллельные, за вычетом числа экспериментов в
различных точках).
Если в каждом эксперименте число параллельных измерений
одинаково
m1  m2  ...  mN  M ,
то соотношение (1.1) упрощается:
N
1
1 N 2
2


se2 
M

1
s

(1.2)

 su ;
u
MN  N u 1
N u 1
дисперсия воспроизводимости вычисляется как среднее арифметическое
всех выборочных дисперсий.
Проверить гипотезу о равенстве генеральных дисперсий для всех
u  1, N экспериментов при mu  3 можно по критерию Бартлета.
Вычисляются величины
N


2
B  2,303 f e lg se   mu  1lg su2  ;
u 1


1  N 1  1 
 ,
C 1
 
3N  1  u 1 mu  1  f e 
после чего вычисляется статистика B C . Можно приближенно считать,
что данная статистика подчинена 2-распределению с N 1 степенями
свободы.
Пусть, например, требуется проверить гипотезу о равной точности
измерений в серии из N  5 экспериментов при числе параллельных
испытаний m1  m2 ...  m5  M  4 (табл. 1.1).
Таблица 1.1
Номер
Номер параллельного измерения
эксперимента
1
2
3
4
1
0,955452
1,018464
1,011975
0,984515
2
1,969206
2,004065
2,000176
2,005457
3
2,991986
2,973529
3,003962
2,988799
4
4,035914
3,97457
4,0353
3,955538
5
4,953677
5,017916
5,030431
5,043914
3
Для каждого из пяти экспериментов найдем оценки математического
ожидания и дисперсии по формулам
1 4
1 4
2
2
yu   yui , su    yui  yu  .
4 i 1
3 i 1
Найденные оценки сведены в табл. 1.2.
Таблица 1.2
Номер эксперимента
Выборочное среднее
Выборочная дисперсия
Далее:
1
0,993
2
1,995
3
2,990
4
4,000
5
5,011
8,30·10-
2,94·10-
1,57·10-
1,72·10-
1,60·10-
04
04
04
03
03
f e  N  M  1  5  3  15 ,
C 1
1  5 1  17
   ,
35  1  3 15 15
1 N 2
  su  9,2 10  4 ,
5 u1
N


2
B  2,30315 lg se  3 lg su2   5,50 ,


u 1
B
 4,85 .
C
Вероятность критического события, состоящего в том, что истинное
(неизвестное) значение статистики B C окажется не меньшим
наблюдаемого на опыте1:
B
P  4,85  0,3 .
C

Поэтому на уровне значимости   0,05  0,3 нет оснований отвергать
гипотезу о равной точности измерений.
При совпадающем числе параллельных испытаний наиболее удобным
способом проверки предположения о равной точности измерений
оказывается C-критерий (критерий Кохрена). Важно, что при
использовании этого критерия проверяются не N N  1 / 2 гипотез о
равенстве дисперсий во всех парах серий параллельных испытаний; Cкритерий является средством, позволяющим сделать вероятностное
суждение о наличии серии измерений, точность в которой существенно
se2
1
Для нахождения вероятности можно использовать: для рабочего листа табличного процессора MS Excel
– функцию ХИ2РАСП(4,85;4); для рабочего листа Open/LibreOffice Calc: верное с точки зрения
определения выражение 1-CHISQDIST(4,85;4;1).
4
ниже средней точности всего эксперимента. При такой постановке задачи
часто говорят о проверке однородности дисперсий.
Использование C-критерия начинается с вычисления статистики
C  max
  s
N
su2
u 1
2
u
,
(1.3)
равной отношению максимальной из оценок дисперсий к сумме всех
оценок. Эмпирическое значение статистики сравнивается с критическим
значением1:
1
где F a, b 


N 1
 ,
(1.4)
C  1 
 F N M  1, N  1M  1 


– -квантиль распределения Фишера для чисел степеней
свободы  и . При выполнении неравенства
C  C
гипотеза о равной точности измерений не отвергается.
После проверки однородности дисперсий параллельных опытов и
отыскания параметров ЭС-модели для каждого из найденных параметров
необходимо проверить гипотезу о равенстве истинного значения
параметра нулю. Если в условиях эксперимента отвергать данную гипотезу
нет оснований, то говорят, что параметр статистически незначим.
Для проверки значимости параметров  j , j  1, L находят значения
статистик
j
,
tj 
(1.5)
2
se c jj
где se2 – дисперсия воспроизводимости, cjj – диагональный элемент
ковариационной матрицы. Статистика (1.5) подчинена распределению
f  f e  N M  1 степенями свободы (в случае
Стьюдента с
неортогональных планов это выполнено лишь приближенно).
Гипотеза о равенстве нулю неизвестного истинного значения j-го
параметра должна быть отвергнута в пользу двусторонней альтернативы
(т.е., параметр должен быть признан статистически значимым), если
вероятность
pj 
tj

tj

tj
0
 f x dx   f x dx  1  2  f x dx
критического события, состоящего в том, что при указанной гипотезе
будет получено значение  j , не меньшее найденного в эксперименте,
оказывается меньше заданного уровня значимости  (в соотношении (1.6)
1
http://en.wikipedia.org/wiki/Cochran's_C_test
(1.6)
5
распределения
подынтегральная
функция
является
плотностью
Стьюдента).
Все незначимые параметры ЭС-модели обнуляются; это соответствует
отбрасыванию некоторых слагаемых ЭС-модели (изменению ее вида).
Если ковариационная матрица для исходной модели не являлась
диагональной (план был не ортогональным), то параметры модели
необходимо пересчитать заново.
Изложенное определяет итерационный процесс регрессионного
анализа: наличие статистически незначимых оценок параметров ЭСмодели требует изменения ее вида, повторного отыскания параметров и
последующей проверки статистической значимости каждого из них.
Заключительным шагом анализа является проверка адекватности
полученной ЭС-модели результатам эксперимента. Для ее выполнения
вычисляется остаточная дисперсия, или дисперсия адекватности –
величина, пропорциональная сумме квадратов разностей между
предсказанными моделью и эмпирическими значениями отклика. Если в
каждой точке факторного пространства выполняется M параллельных
измерений, то дисперсия адекватности вычисляется по правилу:
M N
2
 yu  f xu 2 ,
sad 
(1.7)

N  L u 1
где N – число экспериментов (число различных точек плана
эксперимента), L – число искомых параметров модели (число слагаемых).
Затем вычисляется значение статистики
2
sad
F 2 ,
(1.8)
se
где se2 – дисперсия воспроизводимости. Статистика (1.8) подчинена
распределению Фишера с f ad  N  L и f e  N M  1 степенями свободы.
Гипотеза адекватности модели эксперименту отвергается, если
вероятность

F
F
0
p   f  x dx  1   f  x dx
критического события, состоящего в том, что при адекватной модели
значение F будет столь же большим, как и в эксперименте, окажется
меньше выбранного уровня значимости (в последнем соотношении
подынтегральная функция f  x  является плотностью распределения
Фишера).
Download