ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ Государственное образовательное учреждение высшего профессионального образования ТОМСКИЙ ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ Институт Кибернетики Направление Кафедра Прикладная математика и информатика Прикладной математики Отчет по лабораторной работе №5 по дисциплине Прикладная математическая статистика «Построение регрессионных моделей в пакете STATGRAPHICS Plus» Выполнила: студентка гр. 8БМ21 Дядова А.В. Проверил: проф., д.т.н. Берестнева О. Г. Томск 2013 Постановка задачи Построить регрессионные модели в пакете STATGRAPHICS Plus. Теоретические положения Регрессионный анализ позволяет приближенно определить форму связи между результативными и факторными признаками, а также решить вопрос о том, значима ли эта связь. Вид функции, с помощью которой приближенно выражается форма связи, выбирают заранее, исходя из содержательных соображений или визуального анализа данных. Взаимосвязь между переменными величинами может быть описана с помощью различных коэффициентов корреляции (линейных, частных, корреляционного отношения и т.п.). В то же время эту связь можно выразить по-другому: как зависимость между аргументом (величиной) X и функцией Y. В этом случае задача будет состоять в нахождении вида Y F (X ) или, напротив, в нахождении зависимости вида X F (Y ) . При этом изменение функции в зависимости от изменений одного или нескольких аргументов называется регрессией. Графическое выражение регрессионного уравнения называют линией регрессии. Линия регрессии выражает наилучшее предсказание зависимой переменной (Y) по независимым переменным (X). Эти независимые переменные, а их может быть много, носят название предикторов. Простая регрессия Пусть X и Y одномерные величины; обозначим их x и y, а функция f(x, ) имеет вид: f (x, ) = A + bx, где = (A, b). Относительно имеющихся наблюдений (xi , yi), i = 1, ..., n, полагаем, что: yi = A + bxi + i , (1) где e 1 , ..., e n - независимые (ненаблюдаемые) одинаково распределенные случайные величины. Можно различными методами подбирать “лучшую” прямую линию. Широко используется метод наименьших квадратов. Построим оценку параметра = (A, b) так, чтобы величины ei = yi - f (xi, ) = yi - A - bxi , называемые остатками, были как можно меньше, а именно, чтобы сумма их квадратов была минимальной: = min по (A, b) Чтобы упростить формулы, положим в (1) xi = xi yi = a + b (xi - ; получим: ) + i , i = 1, ..., n, (2) где = , a = A + b . Сумму минимизируем по (a,b), приравнивая нулю производные по a и b; получим систему линейных уравнений относительно a и b. Ее решение ( ) легко находится: , где , (3) (4). Процедура простой регрессии заключается в нахождении аналитического выражения для связи двух переменных X и Y. Модели простой регрессии, предусмотренные в STATGRAPHICS Plus for Windows, представлены в табл. 1. Таблица 1. Модели простой регрессии Тип модели Связь Линейная Y= a + b*X Экспоненциальная Y= exp( a + b*X) Обратная по Y Y= 1/(a + b*X) Обратная по X Y= a + b/X Дважды обратная Y= 1/(a + b/X) Логарифм по X Y= a + ln (X) Мультипликативная Y= a * X^b Квадратный корень по X Y= a + b*sqrt(X) Квадратный корень по Y Y= (a + b*X)^2 S-кривая Y= exp(a + b/X) Полиномиальная регрессия Процедура полиномиальной регрессии позволяет находить аналитические выражения 1 2 n связи двух переменных Y и X в виде степенного полинома Y a0 a1 X a2 X ... an X . STATGRAPHICS Plus for Windows предоставляет возможность строить такие полиномы вплоть до восьмой степени. Ход работы Таблица 1. Исходные данные Порядковый номер 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 L - Доверчивость – подозрительность по отношению к другим людям в общении 8 8 8 6 4 2 6 6 2 9 6 8 4 10 8 7 10 3 10 6 5 6 8 8 6 11 7 11 9 10 2 6 6 10 7 3 10 6 6 8 8 8 M - Практичный – мечтательный стиль мышления 6 10 7 6 6 4 6 3 4 6 6 12 3 10 10 5 10 4 8 4 8 6 6 4 6 5 5 5 6 8 4 4 6 10 8 4 8 6 4 6 10 7 Простая регрессионная модель 1. Раскрываем электронную таблицу STATGRAPHICS и заносим в нее представленные выше измерения. Последовательно выделяем колонки и после нажатия правой кнопки мыши выбираем из контекстного меню Modify Column. В предлагаемом окне диалога задаем имена переменных: ОК и P. Вносим также в После проделанных операций сохраняем файл данных: File | Save Data File As. 2. Вызываем процедуру построения моделей простой регрессии: Relate | Simple Regression. В появившемся окне диалога выделяем сначала переменную OK и вводим ее в поле анализа Y нажатием кнопки стрелкой, а затем переменную P в поле анализа X. Нажимаем OK. 3. На экран выдается рабочее поле процедуры простой регрессии со статистической сводкой применительно к линейной модели. Как следует из полученной сводки, построена очень неплохая модель, сильно коррелирующая с экспериментальными наблюдениями (коэффициент корреляции Correlation Coefficient = 0,557976). Исходя из модели, угол наклона (slope) составляет 0.62. Простая регрессия Для построения простой регрессии выберем два признака с высоким коэффициентом корреляции: «L» и «M». Результаты регрессионного анализа представлены в табл. 1. и на рис. 1. Результаты построения простой линейной регрессии Рис. 1. Простая линейная регрессия по признакам «L»-«M» Конечная формула полученной зависимости: L = 2.99123 + 0.622007*M Полиномиальная регрессия 1. Выделим последовательно колонки в таблице данных и, вызвав с помощью правой кнопки мыши окно диалога Modify Column, зададим имена переменных Y и X. 2. Войдем в меню Relate и выберем пункт Polynomial Regression. В предоставленном окне введем в соответствующие поля имена анализируемых переменных. Нажмем OK. На экран выдается сводка построенной модели регрессии первого порядка. 3. Графическое отображение результатов, которое мы задаем, нажав третью кнопку слева в нижнем ряду кнопок (Graphics options) и установив флажок Plot Of Fitted Model. 4. Нажмем правую кнопку и в появившемся меню выберем Analysis Options. Затем на возникшей панели зададим порядок модели 2 и нажмем OK. На экран выводится сводка построенной модели регрессии второго порядка. 5. Автоматически, после того как было задано построение модели второго порядка, вместе с содержанием табличной сводки будет изменено графическое отображение результатов полиномиальной регрессии. Для построения полиномиальной регрессии были выбраны признаки «L» и «M». Результаты регрессионного анализа представлены в табл. 2. и на рис. 2. Таблица 2 Результаты построения полиномиальной регрессии второго порядка Рис. 2. Результаты построения модели второго порядка Как следует из сводки, получена довольно неплохая регрессионная модель. Об этом свидетельствует достаточно высокий коэффициент детерминации R – квадрат (35.68%), низкое p – значение (0.0004) по результатам дисперсионного анализа модели (Analysis of Variance) и другие показатели, например средняя абсолютная ошибка (Mean absolute error). Рис.3. Графическое отображение модели второго порядка по признакам «L»«M» Рис. 4. Результаты модели третьего порядка Видно, что модель третьего порядка обладает лучшими статистическими свойствами, чем модель второго порядка. Об этом говорят значения коэффициента детерминации (35,83%), средней абсолютной ошибки (2.05), p – значение дисперсионного анализа (0.0013) и другие статистические показатели. Рис. 5. График зависимости для модели третьего порядка Конечная формула полученной зависимости: L = 0,751398 + 0,988796*M + 0,0540902*M^2-0,00703317*M^3 Вывод В ходе данной работы были изучены возможности статистического пакета StatGraphics в области построения регрессионных моделей, с помощью пакета проведено построение простой и полиномиальной регрессионных моделей для выбранных показателей студентов. Результаты регрессионного анализа позволяют предположить наличие линейной, а также квадратичной зависимости между признаками «L» и «M».