Uploaded by Лиза Егельская

ЛР1 Экспериментальные исследования

advertisement
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ
ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ОБРАЗОВАНИЯ
«Белгородский Государственный Технологический Университет им. В.Г. Шухова»
(БГТУ им. В.Г. Шухова)
ИЭИТУС
Кафедра Технической Кибернетики
Лабораторная работа №1
по дисциплине «Экспериментальные исследования и методы их обработки»
*
Белгород 2019
Цель работы: необходимо провести регрессионный анализ данных с
помощью встроенных функций программного пакета
Mathlab и редактора электронных таблиц MS Exel.
Постановка задачи:
1. Вычислить коэффициенты регрессии с помощью встроенных функций
Mathlab.
2. Получить регрессионную модель.
3. Применить функции анализа данных для регрессионного анализа в
Exel.
4. Сравнить полученные результаты.
Краткие теоретические сведения
Если
имеется
корреляционная
зависимость F(y)=F(x,y) между
переменными y и x,
возникает необходимость определить функциональную связь между двумя величинами.
Зависимость среднего значения μ1y=f(x) называется регрессией y по x.
Основу регрессионного анализа составляет метод наименьших квадратов (МНК), в
соответствии с которым в качестве уравнения регресии берется функция y=f(x) такая, что
сумма квадратов разностей s=∑i=1n[yi−f(x)i]2 минимальна.
Карл Гаусс открыл, или точнее воссоздал, МНК в возрасте 18 лет, однако впервые
результаты были опубликованы Лежандром в 1805 г. По непроверенным данным метод был
известен еще в древнем Китае, откуда он перекочевал в Японию и только затем попал в
Европу. Европейцы не стали делать из этого секрета и успешно запустили в производство,
обнаружив с его помощью траекторию карликовой планеты Церес в 1801 г.
Вид функции y=f(x), как правило, определен заранее, а с помощью МНК подбираются
оптимальные значения неизвестных параметров. Метрикой рассеяния значений yi вокруг
регрессии f(x) является дисперсия.
D=1n−k∑i=1n[yi−f(x)i]2

k — число коэффициентов в системе уравнений регрессии.
Чаще
всего
используется
модель
линейной
регрессии,
а
все
нелинейные
зависимости y=f(x)приводят к линейному виду с помощью алгебраических ухищрений,
различных преобразования переменных y и x.
Линейная регрессия
Уравнения линейной регрессии можно записать в виде
y=x1+β1+...xkβk+ϵ.
В матричном виде это выгладит
y=Xβ+ϵ

y — зависимая переменная;

x — независимая переменная;

β — коэффициенты, которые необходимо найти с помощью МНК;

ε — погрешность, необъяснимая ошибка и отклонение от линейной зависимости;
Случайная величина yi может быть интерпретирована как сумма из двух слагаемых:

yi — полная дисперсия (TSS).

yi^ — объясненная часть дисперсии (ESS).

ϵi=yi−yi^ — остаточная часть дисперсии (RSS).
Еще одно ключевое понятие — коэффициент корреляции R2.
R2=1−ESS/TSS
Ограничения линейной регрессии
Для того, чтобы использовать модель линейной регрессии необходимы некоторые
допущения относительно распределения и свойств переменных.
1. Линейность, собственно. Увеличение, или уменьшение вектора независимых
переменных в k раз, приводит к изменению зависимой переменной также в k раз.
2. Матрица коэффициентов обладает полным рангом, то есть векторы независимых
переменных линейно независимы.
3. Экзогенность независимых переменных — E[ϵi|xj1,xj2,...xjk]=0. Это требование
означает, что математическое ожидание погрешности никоим образом нельзя
объяснить с помощью независимых переменных.
4. Однородность дисперсии и отсутствие автокорреляции. Каждая εi обладает
одинаковой и конечной дисперсией σ2 и не коррелирует с другой εi. Это ощутимо
ограничивает применимость модели линейной регрессии, необходимо удостовериться
в том, что условия соблюдены, иначе обнаруженная взаимосвязь переменных будет
неверно интерпретирована.
Как обнаружить, что перечисленные выше условия не соблюдены? Ну, во первых довольно
часто это видно невооруженным глазом на графике.
Неоднородность
дисперсии
При возрастании дисперсии с ростом независимой переменной имеем график в форме
воронки.
Нелинейную регрессии в некоторых случая также модно увидеть на графике довольно
наглядно.
Тем не менее есть и вполне строгие формальные способы определить соблюдены ли
условия линейной регрессии, или нарушены.

Автокорреляция проверяется статистикой Дарбина-Уотсона (0 ≤ d ≤ 4). Если
автокорреляции нет, то значения критерия d≈2, при позитивной автокорреляции d≈0,
при отрицательной — d≈4.

Неоднородность дисперсии — Тест Уайта, χ2obs=nR2, при χ2obs>χ2α;m−1 нулевая
гипотеза отвергается и констатируется наличие неоднородной дисперсии. Используя
ту же χ2obs можно еще применить тест Бройша-Пагана.

Мультиколлинеарность — нарушения условия об отсутствии взаимной линейной
зависимости между независимыми переменными. Для проверки часто используют VIFы (Variance Inflation Factor).
VIFj=11−R2j
В этой формуле R2j — коэффициент взаимной детерминации между Xj и остальными
факторами. Если хотя бы один из VIF-ов > 10, вполне резонно предположить наличие
мультиколлинеарности.
Почему нам так важно соблюдение всех выше перечисленных условий? Все дело в Теореме
Гаусса-Маркова, согласно которой оценка МНК является точной и эффективной лишь при
соблюдении этих ограничений.
Как преодолеть эти ограничения
Нарушения одной или нескольких ограничений еще не приговор.
1. Нелинейность регрессии может быть преодолена преобразованием переменных,
например через функцию натурального логарифма ln.
2. Таким же способом возможно решить проблему неоднородной дисперсии, с
помощью ln, или sqrtпреобразований зависимой переменной, либо же используя
взвешенный МНК.
3. Для устранения проблемы мультиколлинеарности применяется метод исключения
переменных. Суть его в том, что высоко коррелированные объясняющие переменные
устраняются из регрессии, и она заново оценивается. Критерием отбора переменных,
подлежащих исключению, является коэффициент корреляции. Есть еще один способ
решения данной проблемы, который заключается в замене переменных, которым
присуща мультиколлинеарность, их линейной комбинацией. Этим весь список не
исчерпывается, есть еще пошаговая регрессия и другие методы.
К сожалению, не все нарушения условий и дефекты линейной регрессии можно устранить
с помощью натурального логарифма. Если имеет место автокорреляция возмущений к
примеру, то лучше отступить на шаг назад и построить новую и лучшую модель.
Выполнение
Программный пакет Mathlab
Описание функций
b = regress(y,X) функция предназначена для расчета точечных оценок коэффициентов
линейного уравнения регрессии b. Расчет точечных оценок коэффициентов выполняется
методом наименьших квадратов из следующего уравнения линейной модели:
,
где
- вектор значений зависимой переменной;
модели;
- вектор коэффициентов линейной
- матрица значений независимых переменных;
возмущающих
факторов,
распределенных
математическим ожиданием и дисперсией
по
нормальному
,
Размерности векторов значений зависимой переменной
факторов
- вектор случайных
закону
с
нулевым
.
и случайных возмущающих
- n×1, где n - количество наблюдений. Размерность матрицы Х равна n×p,
где p - количество независимых переменных. Столбцы матрицы Х соответствуют
независимым переменных, строки - наблюдениям. Размерность вектора коэффициентов
линейной регрессионной модели равна p×1. Коэффициенты множественной линейной
регрессионной модели в векторе b располагаются по возрастанию степени независимых
переменных.
rstool(x,y) функция предназначена для расчета параметров и построения графика
множественной линейной регрессионной модели для матрицы независимых переменных х
и вектора значений зависимой переменной y. На графике регрессионной модели
отображаются границы 95% доверительного интервала регрессионной модели. Результаты
проведенных расчетов отображаются в графическом окне (рис. 1). Зеленая линия
соответствует рассчитанной по регрессионной модели зависимой переменной, красные
пунктирные линии - границам доверительного интервала. По столбцам матрицы х задаются
значения наблюдений независимых переменных. Строки х соответствуют наблюдениям.
Количество строк х и элементов вектора y должно быть равно.
Рис. 1. Графическое окно интерактивного расчета и представления результатов
множественной регрессии
Изменяя мышью положение синей пунктирной линии в окнах графиков переменных Х1,
Х2, Х3 (рис. 1) или вводя значения независимых переменных в строки ввода под графиками
можно рассчитать новые точечные и интервальные оценки зависимой переменной в
интерактивном режиме. Результаты расчет будут отображаться в левой части графического
окна "Predicted Y1" и автоматически пересчитываться после изменения значения хотя бы
одной переменной.
Меню Export (рис. 2) предназначено для экспорта в среду MATLAB: вектора параметров
регрессионной модели - Parameters, корня квадратного из средней квадратической ошибки
- RMSE, вектора остатков - Residuals, всех перечисленных выше параметров - All.
Рис. 2. Меню Export.
После выбора пункта меню Export будет предложено изменить идентификатор
соответствующей переменной в среде MATLAB. При выборе пункта "All" диалог
изменения идентификаторов и экспорта переменных в рабочую область MATLAB примет
вид (рис. 3)
Рис. 3. Диалог изменения идентификаторов и экспорта переменных при выборе пункта "All"
меню Export.
Нажатие кнопки "OK" приведет к экспорту переменных. Аналогичные диалоговые окна
будет соответствовать пунктам "RMSE", "Residuals", "Parameters".
В следующем за Export меню можно выбрать вид регрессионной модели (рис. 4). После
изменения вида модели будут пересчитаны коэффициенты регрессионной модели и
параметры RMSE, Residuals. Автоматически будет перестроены графики регрессионной
модели и границ ее доверительных интервалов.
Рис. 4. Меню выбора вида регрессионной модели.
Предусмотрены следующие виды регрессионных моделей:
Таблица 1.
Значение
'model'
'linear'
'interaction'
'quadratic'
'purequadratic'
'User Specified'
Состав эффектов множественной регрессионной модели
Линейная модель, включающая линейные эффекты факторов и
постоянный член. Принимается по умолчанию.
Линейная модель, включающая линейные эффекты и эффекты
взаимодействия факторов, постоянный член.
Квадратическая модель, включающая квадратические эффекты и
эффекты взаимодействия факторов.
Квадратическая модель, включающая квадратические и линейные
эффекты факторов, постоянный член.
Модель первоначально определенная пользователем при помощи
входного параметра 'model'.
Кнопка Close позволяет закрыть графическое окно интерактивной множественной
регрессии (рис. 1).
rstool(x,y,'model') входной параметр 'model' позволяет пользователю задать вид начальной
регрессионной модели отображаемой в графическом окне множественной регрессии (рис.
1). Параметр 'model' может принимать следующие значения: 'interaction', 'quadratic',
'purequadratic'. По умолчанию 'model'='linear'. Описание регрессионных моделей приведено
в табл. 1.
rstool(x,y,'model',alpha) входной параметр alpha позволяет задать уровень значимости.
Доверительная вероятность для границ доверительного интервала определяется как 100(1alpha)%. Например, при alpha=0.01 доверительная вероятность будет равна 99%.
stepwise(X,y) функция позволяет получить в интерактивном режиме регрессионную модель
для зависимой переменной y от независимых переменных – столбцов матрицы X.
Зависимая перемнная y задается как вектор. Число элементов вектора y должно быть равно
количеству строк в матрице Х. Функция отображает три графических окна для управления
процессом пошаговой регрессии (рис. 1, 3, 4). Элементы управления в графических окнах
предназначены для удаления и добавления факторов, а также отображения статитстик,
характеризующих текущую регрессионную модель.
Рис. 1.
График значений коэффициентов регрессии и их 95% доверительных интервалов (рис. 1)
позволяет включать или удалять факторы из регрессионной модели в интреактивном
режиме. Значения коэффициентов регрессии и границ их доверительных интервалов,
включенные в модель, отображаются зеленым цветом. Коэффициенты регрессии,
исключенные из регрессисоной модели, выделяются красным цветом. Включение или
исключение фактора из регрессионной модели выполняется щелчком левой кнопки мыши
на соотвествующей линии графика. Границы доверительных интервалов коэффициентов
регрессии, значимо отличающихся от нуля, отображаются сплошными линиями. Границы
доверительных интервалов коэффициентов, статистически не значимо отличающихся от
нуля, отображаются штриховыми линиями, пересекающими вертикальную нулевую
линию. Значение коэффициента, не включенного в модель, рассчитывается из
предположения о его включении в состав текущей регрессионной зависимости.
Кпопка Scale Inputs служит для нормализации центрированных значений элементов
столбцов матрицы независимых переменных Х на величину их среднего квадратического
отклонения.
Кнопка Close позволяет закрыть графические окна (рис. 1, 3, 4).
Меню Export (рис. 2) используется для экспорта результатов пошаговой регрессии на
текущем шаге в рабочую область MATLAB.
.
Рис. 2.
Назначение пунктов меню Export:

Parameters - экспорт вектора коэффициентов регрессии;

Confidence Intervals - экспорт матрицы значений границ доверительных интервалов
коэффициентов регрессии;

Terms In - экспорт вектора номеров независимых переменных, включенных в
регрессионную модель;

Terms Out - экспорт вектора номеров независимых переменных, исключенных из
регрессионной модели;

All - экспорт всех указанных выше параметров.
После выбора какого либо пункта меню Export будет отображено диалоговое окно,
предназначенное для изменения инетификаторов экспортируемых переменных заданных
по умолчанию. При выборе пукнта All будут приведены следующие идентификаторы
экспортируемых переменных:
После нажатия кнопки "OK" переменные с заданными идентификаторами будут
экспортированы в среду MATLAB.
Таблица с параметрами пошаговой регрессии (рис. 3) содержит в числовой форме
информацию, приведенную на графике значений коэффициентов (рис. 1). Таблица
содержит следующие столбцы: Colomn# - номер столбца матрицы независимых
переменных, Parameter - значение коэффициента регрессии, Lower Confedence Intervals,
Upper Confedence Intervals - нижняя и верхняя границы доверительного интервала
коэффициента регрессионной модели. Кроме таблицы с параметрами регрессионной
модели в графическом окне (рис. 2) приведены: RMSE - корень квадратный из средней
квадратической ошибки, R-square - коэффициент детерминации, показывающий какая часть
общей дисперсии может быть объяснена регрессионной моделью, F - статистика Фишера
соотвествующая регрессионной модели, Р - уровень значимости статистики F.
Рис. 3.
Строки таблицы параметров регрессии (рис. 3), выделенные зеленым цветом, соотвествуют
факторам включенным в модель. Факторы выделенные красным цветом исключены из
регрессионной модели. Для включения или исключения факторов из регрессионной модели
используется таже техника, что и в графическом окне приведенном на рис. 1.
Кнопка Close позволяет закрыть графические окна (рис. 1, 3, 4).
В графическом окне решений (рис. 4) отображается зависимость значений кореней
квадратных из средней квадратической ошибки регрессионных моделей и границ
доверительных интервалов RMSE от номера шага. Каждое включение или удаление
фактора в регрессионную модель в графических окнах рис. 1, 3, приведет к добавлению
соотвествующего графика в окне рис. 4. Возврат к предыдущей модели выполняется
щелчком левой кнопки мыши по соотвествующему значению RMSE в графическом окне
решений (рис. 4). Соотвествующие выделенной RMSE параметры регрессионной модели
отображаются в новых графических окнах, аналогичных приведенным на рис. 1, 3.
Рис. 4.
stepwise(X,y,inmodel) входной аргумент inmodel позволяет управлять начальным
множеством факторов, включенным в регрессионную модель. Элементы вектора inmodel
являются номерами факторов, т.е. номерами столбцов матрицы Х.
stepwise(X,y,inmodel,alpha) входной аргумент alpha задает уровень значимости для
расчетаграниц доверительного интервала коэффициентов регрессионной модели. alpha
служит для проверки гипотезы о статистической значимости каждого фактора в
регрессионной модели. По умолчанию,
, где p - количество
столбцов матрицы Х. Это значение alpha соответствует 95% доверительной вероятности.
Доверительный интервал рассчитывается для регрессионной модели по всему диапазону
изменения значений независимых переменных (используется метод Бонферони).
Входные данные: матрица X 46729х7 ячеек (Рис. 1), матрица Y 46729х1 ячеек
(Рис. 1)
Рис. 1. Входные данные
Рис. 2. Множественная линейная регрессия. Текст программы
Рис. 3 . Множественная линейная регрессия. График
Рис. 4. Множественная регрессионная модель. Текст программы
Рис. 5. Графическое представление множественной регрессионной модели в интерактивном
режиме
Рис 6. Пошаговая регрессия в интерактивном режиме. Текст программы
Рис 7. Пошаговая регрессия в интерактивном режиме
Рис. 8. Пошаговая регрессия в интерактивном режиме. График
Редактор электронных таблиц MS Exel
Для того, чтобы воспользоваться инструментом регрессионного анализа
встроенного в Excel, необходимо активировать надстройку Пакет анализа.
Найти ее можно, перейдя по вкладке Файл –> Параметры (2007+), в
появившемся
диалоговом
окне Параметры Excel переходим
во
вкладку Надстройки. В
поле Управление выбираем Надстройки Excel и
щелкаем Перейти. В появившемся окне ставим галочку напротив Пакет
анализа, жмем ОК.
Во вкладке Данные в группе Анализ появится новая кнопка Анализ данных.
Чтобы продемонстрировать работу надстройки, воспользуемся данными с
предыдущей статьи, где парень и девушка делят столик в ванной. Введите
данные нашего примера с ванной в столбцы А и В чистого листа.
Перейдите во вкладку Данные, в группе Анализ щелкните Анализ данных. В
появившемся окне Анализ данных выберите Регрессия, как показано на
рисунке, и щелкните ОК.
Входные данные: матрица X 46729х7 ячеек и матрица Y 46729х1 ячеек (Рис.
1)
Рис. 1. Входные данные
Рис. 2. Результаты регрессионного анализа
Вывод: В ходе выполнения лабораторной работы были обработаны входные
данные состоящие их 8 переменных. Был проведен регрессионный анализ с
помощью встроенных функций программ Mathlab и Exel, получены
коэффициенты регрессии и регрессионная
модель. Более ёмким и
содержательным является анализ в Mathlab, анализ в Exel отличается большей
простотой и наглядностью представления результатов анализа.
Download