y Дисперсионный анализ, анализ адекватности математической модели. Имеем регрессионное уравнение

реклама
Дисперсионный анализ, анализ адекватности математической модели.
Имеем регрессионное уравнение yi b0 b1 xi ;
Введем величины:
( yi y ) 2 – сумма квадратов относительно средy
него значения (полная сумма квадратов отклонений)
y i y€
yi y
SSп:
y
y€ y
( y y )2 – сумма квадратов, обусловленная регрессией SSр:
x
( yi y)2 – остаточная сумма квадратов отклонеx
ний SSост.
Запишем выражение ошибки модели
yi
y
yi
y
y
y;
Согласно графику на рисунке запишем
yi
y
y
y
yi
y ;
Возведем в квадрат ( yi
yi
y
2
y
y
2
y ) и возьмем сумму
2
y
y
yi
y
2
yi
y ;
Рассмотрим 2 й член
так как y
и
yi
2b1
y
( xi
2b1 ( S xy
y
yi
x )( yi
b1 S xx )
Таким образом
b1 xi
y
x , то
b1 xi
y
y
b1 xi
x ;
2b1
( xi
x ; Тогда
y ) b1 ( xi
x )( xi
x)
x )( yi
y ) b1
( xi
x )( xi
x)
0;
yi
y
2
y
y
2
yi
2
y .
Полученное выражение SS п SS р SSост является основным уравнением дисперсионного анализа регрессионного уравнения.
Показатели адекватности математической модели. Коэффициент множественной корреляции
Соответствие уравнения регрессии объекту - адекватность модели определяются отношением сумм квадратов отклонений обусловленных регрессией к полной
сумме квадратов отклонений. Данное отношение называется коэффициентом детерминации R 2 . Он показывает, какая часть дисперсии выходной переменной описывается регрессионным уравнением. Этот показатель мы использовали ранее для оценки уровня определенности объекта.
R2
SS р
SSп
SSп
SSост
SSп
Рассмотрим возможные варианты:
1. Если полученная модель имеет абсолютную точность, т.е. SSост. = 0,
то и SSр = SSп и R 2 1
2. Если связь между входной и выходной величинами полностью отсутствует,
2
то SSр = 0, SSост = SSп, тогда R 0 / SS 0.
3. В практике R2 изменяется от 0 до 1 и чем ближе к 1 , тем более точна
математическая модель.
R называется коэффициентом множественной корреляции.
Если объем выборки мал, то оценка R2 смещается относительно истинного
значения.
При малых объемах выборки N, оценка R уточняется по выражению:
Rск
1
1 R2
N 1
.
N m
Оценка значимости R2 производится по вышерассмотренной методике. Дисперсия оценки R2 равна
2
R
Можно принять, что при R / sr
R
(1 R 2 ) 2
1 N
4 коэффициент корреляции значим:
R N -1
4;
1- R2
.
R N -1
0, если
4
1- R2
R,
если
Более точная оценка значимости производится по t-критерию.
Если
R N 1
1 R2
t табл. (0.05, N
2) , то коэффициент корреляции значим, т.е. име-
ется связь между входными и выходной переменной. В противном случае связь отсутствует и полученная оценка R2 больше нуля по причине влияния ошибок эксперимента.
F-критерий адекватности модели.
Введем понятие остаточной ошибки, которая характеризует абсолютную
ошибку прогназа выходной переменной по регрессионному уравнению. Остаточная
сумма квадратов отклонений характеризует разброс экспериментальных данных вокруг линии регрессии.
2
Остаточная дисперсия: sост
.
SSост.
. Остаточная 95% ошибка
N m 1
ост
2 sост
где N – количество экспериментов;
m – количество коэффициентов.
Ввиду наличия большого количества причин данной ошибки, остаточная
ошибка имеет нормальное распределение.
Будем различать две ошибки (дисперсии) выходной переменной. Первая – это
ошибка измерения e (см структурную схему на рисунке). Она определяется при
проведении параллельных измерениях выходной переменной при ее постоянном
значении, например точность измерения выходного тока датчика. Вторая - ошибка
воспроизводимости, которая характеризует диапазон изменения выходной величины
при постоянных значениях входных контролируемых переменных. Дисперсия воспроизводимости больше дисперсии ошибки измерения, т.к. она учитывает влияние
неконтролируемых входных переменных f. Для оценки точности модели в конкретной постановке задачи производят сравнение остаточной ошибки с ошибкой
воспроизводимости. Т.е. анализ адекватности производится на фоне влияния неконтролируемых возмущений, которые в принципе не могут быть учтены в прогнозируемой переменной.
f
x1
x2
x3
e
y
ОУ
k
Оценка дисперсии воспроизводимости равна
sв2
( yi
yk ) 2
1
k 1
k - количество параллелных измерений выходной переменной при постоянных
значениях контролируемых переменных.
Как указано выше, для сравнения дисперсий достаточной и воспроизводимости используется F-критерий.
Fрасч.
2
sост
.
2
sвоспр
.
Fтабл.
1
N
m 1
2
k 1
Если Fрасч. Fтабл. , то значение остаточной дисперсии значимо не отличается от
дисперсии воспроизводимости и математическая модель адекватно описывает контролируемые переменные. Если при этом остаточная дисперсия значимо отличается
от дисперсии ошибки измерения выходной переменной, то, возможно, необходимо
изменить структуру математической модели.
Скачать