ðÉÝÕÌÉÎÁ ÍÁÔÓÔÁÔ 5 - Томский политехнический университет

advertisement
Министерство образования и науки РФ
«Национальный исследовательский Томский политехнический университет»
Институт кибернетики
Кафедра прикладной математики
Отчет по лабораторной работе 4
«Построение регрессионных моделей в пакете STATGRAPHICS Plus»
По дисциплине «Прикладная математическая статистика»
Выполнила
студентка гр. 8БМ10
Пищулина Н.В.
Проверил
профессор кафедры ПМ
Берестнева О.Г.
Томск — 2013
Цель работы:
Теоретические положения
Регрессионный анализ
Для определения степени сопряженности между качественными
признаками с числами вариант, Регрессионный анализ позволяет
приближенно определить форму связи между результативными и
факторными признаками, а также решить вопрос о том, значима ли эта связь.
Вид функции, с помощью которой приближенно выражается форма связи,
выбирают заранее, исходя из содержательных соображений или визуального
анализа данных. Взаимосвязь между переменными величинами может быть
описана с помощью различных коэффициентов корреляции (линейных,
частных, корреляционного отношения и т.п.). В то же время эту связь можно
выразить по-другому: как зависимость между аргументом (величиной) X и
функцией Y. В этом случае задача будет состоять в нахождении вида
Y  F (X ) или, напротив, в нахождении зависимости вида X  F (Y ) . При этом
изменение функции в зависимости от изменений одного или нескольких
аргументов называется регрессией.
Графическое выражение регрессионного уравнения называют линией
регрессии. Линия регрессии выражает наилучшее предсказание зависимой
переменной (Y) по независимым переменным (X). Эти независимые
переменные, а их может быть много, носят название предикторов.
Простая регрессия
Пусть X и Y одномерные величины; обозначим их x и y, а функция f(x, ) имеет вид:
f (x, ) = A + bx, где = (A, b). Относительно имеющихся наблюдений (xi , yi), i = 1, ..., n,
полагаем, что:
yi = A + bxi +  i ,
(1)
где e 1 , ..., e n - независимые (ненаблюдаемые) одинаково распределенные случайные
величины. Можно различными методами подбирать “лучшую” прямую линию. Широко
используется метод наименьших квадратов. Построим оценку параметра = (A, b) так,
чтобы величины
ei = yi - f (xi, ) = yi - A - bxi ,
называемые остатками, были как можно меньше, а именно, чтобы сумма их квадратов
была минимальной:
= min по (A, b)
Чтобы упростить формулы, положим в (1) xi = xi yi = a + b (xi -
; получим:
) +  i , i = 1, ..., n,
(2)
где =
, a = A + b . Сумму
минимизируем по (a,b),
приравнивая нулю производные по a и b; получим систему линейных уравнений
относительно a и b. Ее решение (
) легко находится:
, где
,
(3)
(4).
Ход работы
Таблица 1. Исходные данные
Порядковый
номер
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
Замкнутость - открытость в
общении
Сдержанность – активность в контактах
с людьми
11
11
10
8
10
6
9
8
8
6
6
7
6
3
5
9
6
7
6
5
6
8
4
7
10
11
7
8
6
11
11
8
9
10
7
11
6
6
10
7
6
6
8
6
4
6
4
8
6
6
9
6
4
4
8
11
9
6
7
6
8
8
32
33
34
35
36
37
38
39
40
41
42
6
8
6
8
5
6
8
10
9
10
5
6
7
6
10
5
8
7
10
6
10
7
Примечание:
A - Замкнутость - открытость в общении
H - Сдержанность – активность в контактах с людьми
Простая регрессионная модель
1. Раскрываем электронную таблицу STATGRAPHICS и заносим в нее
представленные выше измерения.
2. Вызываем процедуру построения моделей простой регрессии: Relate | Simple
Regression. В появившемся окне диалога выделяем сначала переменную A и
вводим ее в поле анализа Y нажатием кнопки стрелкой, а затем переменную H в
поле анализа X. Нажимаем OK.
3. На экран выдается рабочее поле процедуры простой регрессии со статистической
сводкой применительно к линейной модели (рис. 1). Как следует из полученной
сводки переменные коррелируют с уровнем значимости 0.011 (коэффициент
корреляции 0.59). Исходя из модели, угол наклона (slope) составляет 0.657.
Рисунок 1. Сводка результатов построения линейной модели
4. Для графического отображения результатов нажимаем кнопку графических опций
(третья слева в нижнем ряду кнопок). На экране появляется окно диалога с
доступными в данной процедуре графическими вариантами (рис. 4).
Устанавливаем флажки Plot of Fitted Model (график подобранной модели) и
Residual versus X (график остатков). Нажимаем OK. Получаем следующие
картинки (рис. 2).
Рисунок 2. Графические отображения результатов регрессионного моделирования
5. Нажмем кнопку табличных опций (вторая слева в нижнем ряду кнопок) и
установим флажок Comparison of Alternative Models (сравнение альтернативных
моделей). Нажмем OK. Получаем таблицу, в которой представлены результаты
анализа для всех типов зависимостей Y от X, упорядоченные по коэффициенту
корреляции с экспериментальными наблюдениями.
Таблица 2. Сравнение моделей
Comparison of Alternative Models
Model
Correlation
R-Squared
Square root-Y
0,5905
34,87%
Linear
0,5900
34,80%
Exponential
0,5871
34,47%
Multiplicative
0,5862
34,37%
Square root-X
0,5853
34,26%
Double reciprocal
0,5819
33,86%
Logarithmic-X
0,5758
33,15%
S-curve
-0,5671
32,16%
Reciprocal-Y
-0,5635
31,75%
Reciprocal-X
-0,5416
29,34%
Logistic
<no fit>
<no fit>
Log probit
The StatAdvisor
--------------This table shows the results of fitting several curvilinear models to the data. Of the models
fitted, the square root-Y model yields the highest R-Squared value with 34,8676%. This is
0,0627064% higher than the currently selected linear model. To change models, select the
Analysis Options dialog box.
6. Линейная модель занимает второе место по качеству аппроксимации
экспериментальных наблюдений. На первое место вышла модель Square root-Y. У
модели Square root-Y стандартная ошибка оценки составляет 0.32, а у линейной
модели эта величина значительно больше – 1.73 (рис. 3).
Рисунок 3. Сводка регрессионного анализа для модели Square root-Y
Полиномиальная регрессия
Процедура полиномиальной регрессии позволяет находить аналитические
выражения связи двух переменных Y и X в виде степенного полинома
Y  a0  a1 X 1  a2 X 2  ...  an X n . STATGRAPHICS Plus for Windows предоставляет
возможность строить такие полиномы вплоть до восьмой степени.
1. Войдем в меню Relate и выберем пункт Polynomial Regression. В предоставленном
окне введем в соответствующие поля имена анализируемых переменных. Нажмем
OK. На экран выдается сводка построенной модели регрессии второго порядка
(рис. 4).
2. Как следует из сводки, получена довольно неплохая регрессионная модель. Об
этом свидетельствует достаточно высокий коэффициент детерминации R – квадрат
(34.8%), низкое p – значение (0.0002) по результатам дисперсионного анализа
модели (Analysis of Variance) и другие показатели, например средняя абсолютная
ошибка (Mean absolute error).
Рисунок 4. Результаты построения модели второго порядка
3. Графическое отображение результатов, которое мы задаем, нажав третью кнопку
слева в нижнем ряду кнопок (Graphics options) и установив флажок Plot Of Fitted
Model, показано на рис. 5.
Рисунок 5. Графическое отображение модели второго порядка
4. Попробуем построить полиномиальную регрессионную модель более высокого
пятого порядка. Нажмем правую кнопку и в появившемся меню выберем Analysis
Options. Затем на возникшей панели зададим порядок модели 5 и нажмем OK. На
экран выводится сводка построенной модели регрессии пятого порядка (рис. 6).
Рисунок 6. Результаты построения модели пятого порядка
5. Видно, что модель пятого порядка обладает лучшими статистическими свойствами,
чем модель второго порядка. Об этом говорят значения коэффициента
детерминации (37.1% против 34.8%) и средней абсолютной ошибки (1.31 против
1.39).
6. Автоматически, после того как было задано построение модели второго порядка,
вместе с содержанием табличной сводки будет изменено графическое отображение
результатов полиномиальной регрессии (рис. 7).
Рисунок 7. График зависимости для модели пятого порядка
Выводы
В результате проведенных исследованиях в пакете StatGraphics были построены
простая и полиномиальная регрессионыые модели для параметров «Замкнутость –
открытость в общении» и «Сдержанность – активность в контактах с людьми».
Результаты регрессионного анализа позволяют предположить наличие линейной
зависимости между признаками «Замкнутость – открытость в общении» и
«Сдержанность – активность в контактах с людьми» со стандартной ошибкой 1,73 и
коэффициентом корреляции 59%.
Download