лекция_12_регр

advertisement
Кафедра медицинской и биологической физики
Тема: Основы
регрессионного анализа.
лекция № 12 для студентов 1 курса,
обучающихся по специальности 030401–
Клиническая психология
к.п.н., доцент Шилина Н.Г.
Красноярск, 2015
План лекции:
Этапы регрессионного анализа
Уравнение регрессии
Метод наименьших квадратов
Оценка качества уравнения
регрессии
Актуальность темы
Регрессионный анализ - один из основных
методов
современной
математической
статистики.
При
изучении
статистических
зависимостей в технике, экономике, медицине,
биологии и т.д. одним из важных моментов
является установление вида зависимости между
переменными, т.е. вида уравнения регрессии.
Это связано в первую очередь с необходимостью
прогнозирования исследуемых процессов.
РЕГРЕССИОННЫЙ АНАЛИЗ
Коэффициент корреляции является мерой качественной линейной
связи между двумя случайными величинами. Однако хотелось бы
иметь количественный показатель связи между случайными
величинами.
уравнение
Y  а  bX
можно рассматривать и как
функциональное, и как
регрессионное.
В чем различие между функциональным и регрессионным
уравнением? В функциональном уравнении X и Y –
неслучайные числа, переменная Х, а также параметры A и B –
известны, а переменную Y нужно вычислить.
В регрессионном уравнении предполагается, что Х - случайное
число, определенное точно, а Y – математическое ожидание
случайного значения Y при заданном значении X.
В регрессионном уравнении известны значения n пар {X(i),Y(i)}
и нужно найти коэффициенты A и B.
Этапы регрессионного анализа
 Метод регрессии позволяет установить,
как
количественно
меняется
один
признак при изменении другого на
единицу.
Этапы регрессионного анализа:
 выбор
формы
зависимости
(типа
уравнения);
 вычисление коэффициентов выбранного
уравнения;
 оценка
достоверности
полученного
уравнения.
Уравнение регрессии
 Уравнением регрессии у по х называется
уравнение вида y = f(х), устанавливающее
зависимость между значениями независимой
переменной х и условными средними зависимой
переменной y .
 Для линейной регрессии зависимость между х
и у выражается уравнением: у = а + bx,
где b характеризует скорость изменения
зависимой переменной у при изменении
переменной х (b=tg  );
a – начальная ордината, определяет значение у
при х = 0.
График линейной зависимости
у
y=а+bх
b=tgφ
φ
а
х
Коэффициент b называется
коэффициентом линейной регрессии
МЕТОД НАИМЕНЬШИХ КВАДРАТОВ
U
 yi  y( xi )  min
n
2
i 1
где уi – экспериментальные точки;
у(хi) – зависимость у(хi)=а+bхi
n
U
  yi  (a  bxi )  0
a i1
n
U
  yi  (a  bxi) xi   0
b i1
Для определения коэффициентов а и b
необходимо решить систему линейных
уравнений:
n
n
i 1
i 1
na  b  xi   yi
n
n
n
a  xi  b  x i   xiyi
2
i 1
i 1
i 1
Решение этой системы:
xi  yi  n  xiyi

b
2
2
( xi )  n  x i
1
a  ( yi  b  xi )
n
Регрессионная прямая
140
y = 101,09x - 94,579
120
2
R = 0,9595
Вес, кг
100
80
60
40
20
0
0
0,5
1
1,5
Рост, м
2
2,5
ПРИМЕР:
провести
регрессионный
анализ
зависимости веса щитовидной железы (у) от
площади скеннографического изображения (х).
Вес щитовидной 12
железы (y)
59
62
95
102 23 203
270
122
41
Площадь
11
скеннографическог
о изображения (x)
32
33
44
46
89
52
25
17 73
Перепишем ряды в порядке возрастания х:
у
х
12 23 41 59 62 95 102 122 203 270
11 17 25 32 33 44 46 52 73 89
300
250
Y
200
150
100
50
0
0
20
60
40
80
100
X
Рис.2. Эмпирическая кривая регрессии
Таблица 1.
Расчет коэффициентов уравнения регрессии
yi
xi
yi xi
x i2
12
11
132
121
59
32
1888
1024
62
33
2046
1089
95
44
4180
1936
102
46
4692
2116
23
17
391
289
203
73
14819
5329
270
89
24030
7921
122
52
6344
2704
41
25
1025
625
422  989  10  59547
b
 3,3319
17084  10  23154
989  3,332  422
a
 41,71
10
Уравнение регрессии
у = -41,71 +3,332 х
Уравнение
регрессии
позволяет
вычислять теоретические (вероятные)
значения зависимой переменной по
заданным
значениям
независимых
переменных в области их изменения. Как
правило, оно применяется только внутри
этой
области.
Рассчитаем
вес
щитовидной железы при площади
скеннограммы 40:
у = -41,71 +3,33240=91,57
Y
Теоретическая линия регрессии
300
250
200
150
100
50
0
-50 0
-100
20
40
60
80
100
X
Рис.3. Теоретическая линия регрессии
d
2

Оценка качества уравнения
регрессии
xi
yi
yiт
d=yi –yiт
d2
11
12
-5,058
17,058
290,9754
17
23
14,934
8,066
65,06036
25
41
41,59
-0,59
0,3481
32
59
64,914
-5,914
34,9754
33
62
68,246
-6,246
39,01252
44
95
104,898
-9,898
97,9704
46
102
111,562
-9,562
91,43184
52
122
131,554
-9,554
91,27892
73
203
201,526
1,474
2,172676
89
270
254,838
15,162
229,8862
dср =
-0,0004
943,11
943,11
D
 104,79
9
Sd 
10,24
10
 3,24
S  D  10,24
t эксп 
 0,0004
3,24
 0,00012
tтабл=2,26, tэксп<< tтабл
Различие сравниваемых рядов
НЕСУЩЕСТВЕННО
(нулевая гипотеза подтверждается).
Заключение
Нами рассмотрены:
 Регрессионный анализ
несгруппированных данных из
нормально распределенных
выборок.
 Методы проверки адекватности
регрессионного анализа
экспериментальным данным.
РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА:
Основная литература:
 Попов А.М. Теория вероятней и
математическая статистика /А.М. Попов, В.Н.
Сотников. – М.: ЮРАЙТ, 2011. – 440 с.
 Герасимов А. Н. Медицинская статистика:
учебное пособие / А. Н. Герасимов. – М. : Мед.
информ. агентство, 2007. – с.
 Балдин К. В. Основы теории вероятностей и
математической статистики : учебник / К. В.
Балдин. – М. : Флинта, 2010. – 488с.
Учебно–методические пособия:
 Шапиро Л.А., Шилина Н.Г. Руководство к
практическим занятиям по медицинской и
биологической статистике Красноярск: ООО
«Поликом». – 2003.
БЛАГОДАРЮ ЗА ВНИМАНИЕ
Download