Лекции - ПЛАНИРОВАНИЕ ЭКСПЕРИМЕНТА И ОБРАБОТКА

advertisement
Министерство образования республики Беларусь
Учреждение образования
«Гомельский государственный университет
имени Франциска Скорины»
Н.Б. Осипенко
Планирование эксперимента и
обработка экспериментальных данных
ТЕКСТЫ ЛЕКЦИЙ
для студентов математических специальностей
Гомель 2010
УДК 519.68 (075.8)
ББК 22.18я73
О 519
Рецензент:
кафедра математических проблем управления учреждения образования
«Гомельский государственный университет имени Франциска Скорины»
Рекомендовано к изданию научно-методическим советом
учреждения образования «Гомельский государственный
университет имени Франциска Скорины»
Осипенко, Н. Б.
О 519
Планирование эксперимента и обработка экспериментальных
данных: тексты лекций для студентов математических специальностей :
тексты лекций для студентов специальности 1-31 03 01 - 02 - «Математика
(научно-педагогическая деятельность» / Н. Б. Осипенко; М – во образования
РБ, Гомельский государственный университет им. Ф. Скорины. – Гомель :
ГГУ им. Ф. Скорины, 2010. – 49с.
Тексты лекций ставят своей целью оказание помощи студентам в усвоении
основ технологии применения методов прикладной статистики и навыков
работы с соответствующими прикладными пакетами, в частности
регрессионного анализа и планирования экспериментов.
УДК 519.68 (075.8)
ББК 22.18я73
© Осипенко Н. Б., 2010
© УО «Гомельский государственный
университет им. Ф. Скорины», 2010
2
СОДЕРЖАНИЕ
Введение.......................................................................................... 4
Раздел 1 Введение в регрессионный анализ и планирование
эксперимента ..................................................................................... 5
Тема 1 Основы регрессионного анализа ........................................5
Тема 2 Введение в регрессионный анализ ...................................14
Контрольные вопросы к темам 1,2: ........................................................ 17
Тема 3 Основные понятия и определения планирования
эксперимента ..........................................................................................17
Тема 4 Преобразования при обработке результатов
эксперимента ..........................................................................................24
Контрольные вопросы к темам 3,4: ........................................................ 35
Раздел 2 Статистическое исследование зависимостей ..... 36
Тема 5 Типовые задачи практики статистического
исследования зависимостей .................................................................36
Тема 6 Корреляционный анализ ...................................................41
Тема 7 Регрессионный анализ........................................................48
Тема 8 Линейный регрессионный анализ....................................51
Тема 9 Нелинейная, непараметрическая и пошаговая
регрессия .................................................................................................56
Литература ................................................................................. 62
3
Введение
Современный уровень развития компьютерных и информационных
технологий характеризуется возрастающей сложностью не только отдельных
физических и программных компонентов, но и лежащих в основе этих
технологий концепций и идей. Целью текстов лекций является обучение
базовым навыкам в области анализа и обработки экспериментальных данных, в
частности погружения в новые программные среды статистической обработки.
В тексты лекции включены как общеобразовательные, так и технологические
аспекты изучения анализа и обработки экспериментальных данных. Главная
задача лекций состоит в выработке необходимых навыков логического
мышления для взаимодействия с компьютерным интерфейсом, приобретении
теоретических и практических базовых знаний в области пакетов анализа и
обработки данных. В ходе изучения текстов лекций необходимо
познакомиться с приемами работы в среде специальных компьютерных
математических программных систем (Maple, Mathematica, Statistica, Matlab,
Excel, Mathcad и других пакетов) освоить основы работы с ними в процессе
анализа и обработки данных, осознать их достоинства и недостатки, а также
ориентированность.
Тексты лекций предназначены для студентов специальности 1-31 03 01 - 02
- «Математика (научно-педагогическая деятельность» математического
факультета. Тексты лекций ставят своей целью оказание помощи студентам в
усвоении основ анализа и обработки данных, а также технологии применения
методов прикладной статистики и навыков работы с соответствующими
прикладными пакетами.
4
Раздел 1 Введение в регрессионный анализ и планирование
эксперимента
Тема 1 Основы регрессионного анализа
1.1 Понятие корреляционного и регрессионного анализа
1.2 Определение параметров линейного однофакторного уравнения
регрессии
1.3 Оценка величины погрешности линейного однофакторного уравнения
1.4 Применение критерия Дарбина-Уотсона при решении проблемы
автокорреляции остатков
1.1 Понятие корреляционного и регрессионного анализа
Для решения задач экономического анализа и прогнозирования очень часто
используются статистические, отчетные или наблюдаемые данные. При этом
полагают, эти данные являются значениями случайной величины.
Случайной величиной называется переменная величина, которая в
зависимости от случая принимает различные значения с некоторой
вероятностью. Закон распределения случайной величины показывает частоту
ее тех или иных значений в общей их совокупности.
При исследовании взаимосвязей между экономическими показателями на
основе статистических данных, часто между ними наблюдается стохастическая
зависимость. Она проявляется в том, что изменение закона распределения
одной случайной величины происходит под влиянием изменения другой.
Взаимосвязь между величинами может быть полной (функциональной) и
неполной (искаженной другими факторами).
Пример функциональной зависимости - выпуск продукции и ее
потребление в условиях дефицита.
Неполная зависимость наблюдается, например, между стажем рабочих и их
производительностью труда. Обычно рабочие с большим стажем работы
работают лучше молодых, но под влиянием дополнительных факторов образование, здоровье и т.д. эта зависимость может быть искажена.
Раздел математической статистики, посвященный изучению взаимосвязей
между случайными величинами называется корреляционным анализом.
Основная задача корреляционного анализа - это установление характера и
тесноты связи между результативными (зависимыми) и факторными
(независимыми) показателями (признаками) в данном явлении или процессе.
5
Корреляционную связь можно обнаружить только при массовом
сопоставлении фактов.
Характер
связи
между
показателями
определяется
по
корреляционному полю. Если Y- зависимый признак, а Х- независимый, то
отметив каждый случай X(i) с координатами xi и yi получим корреляционное
поле.
Теснота связи определяется с помощью коэффициента корреляции,
который рассчитывается специальным образом и лежит в интервалах от минус
единицы до плюс единицы. Если значение коэффициента корреляции лежит в
интервале от 1 до 0,9 по модулю, то отмечается очень сильная корреляционная
зависимость. В случае, если значение коэффициента корреляции лежит в
интервале от 0,9 до 0,6, то говорят, что имеет место слабая корреляционная
зависимость. Наконец, если значение коэффициента корреляции находится в
интервале от 0,6 до 0,6, то говорят об очень слабой корреляционной
зависимости или полной ее отсутствии.
Таким образом, корреляционный анализ применяется для нахождения
характера и тесноты связи между случайными величинами.
Регрессионный анализ своей целью имеет вывод, определение
(идентификацию) уравнения регрессии, включая статистическую оценку его
параметров. Уравнение регрессии позволяет найти значение зависимой
переменной, если величина независимой или независимых переменных
известна.
Практически, речь идет о том, чтобы, анализируя множество точек на
графике (т.е. множество статистических данных), найти линию, по
возможности, точно отражающую заключенную в этом множестве
закономерность (тренд, тенденцию) - линию регрессии.
По числу факторов различают одно-, двух- и многофакторные уравнения
регрессии.
По характеру связи однофакторные уравнения регрессии подразделяются
на:
а) линейные:
Y = a + bx ,
где X - экзогенная (независимая) переменная;
Y - эндогенная (зависимая, результативная) переменная;
a, b - параметры.
6
б) степенные:
Y = a  xb
в) показательные: Y = a  b x
г) прочие.
1.2. Определение параметров линейного однофакторного уравнения
регрессии
Пусть у нас имеются данные о доходах (X) и спрос на некоторый товар (Y)
за ряд лет (n)
ГОД
n
1
2
3
...
n
ДОХОД
X
x1
x2
x3
...
xn
СПРОС
Y
y1
y2
y3
...
yn
Предположим, что между X и Y существует линейная взаимосвязь, т.е.
y abx
Для того, чтобы найти уравнение регрессии, прежде всего нужно
исследовать тесноту связи между случайными величинами X и Y, т.е.
корреляционную зависимость.
Пусть: x 1 , х 2 , . . . ,хn- совокупность значений независимого, факторного
признака; y 1 , y 2 . . . ,yn - совокупность соответствующих значений зависимого,
результативного признака; n - количество наблюдений.
Для нахождения уравнения регрессии вычисляются следующие величины:
1. Средние значения
n
_
x=
x 1  x 2 + ... + x n
n

=
xi
i=1
– для экзогенной переменной.
n
n
_
y=
 y – для эндогенной переменной.
i
i 1
n
2. Отклонения от средних величин
7
_
 yi  yi  y .
 xi  xi  x ,
3. Величины дисперсии и среднего квадратичного отклонения
n
 x
2
i
Dx 
i=1
n-1
n
 y
2
i
, x  Dx ,
Dy 
i= 1
n-1
. y  Dy
Величины дисперсии и среднего квадратичного отклонения характеризуют
разброс наблюдаемых значений вокруг среднего значения. Чем больше
дисперсия, тем больше разброс.
4. Вычисление
корреляционного
момента
(коэффициента
ковариации):
n
K x, y 
 x1   y1 +  x 2   y2 + ...+  xn   yn
n-1
 x   y
i

i
i=1
n-1
Корреляционный момент отражает характер взаимосвязи между x и y. Если
K xy > 0 , то взаимосвязь прямая. Если K xy < 0 , то взаимосвязь обратная.
5. Коэффициент корреляции вычисляется по формуле:
R xy 
.
K xy

x
y
Доказано, что коэффициент корреляции находится в интервале от минус
единицы до плюс единицы ( -1  R xy  1 ). Коэффициент корреляции в квадрате
2
( R xy
) называется коэффициентом детерминации.
Если R xy  0.8 , то вычисления продолжаются.
6. Вычисления параметров регрессионного уравнения.
Коэффициент b находится по формуле:
b=
K xy
Dx
;
После чего можно легко найти параметр a:
a = y - bx
Коэффициенты a и b находятся методом наименьших квадратов, основная
идея которого состоит в том, что за меру суммарной погрешности принимается
8
сумма квадратов разности (остатков) между фактическими значениями
результативного
признака
yi
и
его
расчетными
значениями
yi p ,
полученными при помощи уравнения регрессии
yi p = a + bxi .
При этом величины остатков находятся по формуле:
u i = yi - yip , где
yi - фактическое значение y;
y i p  расчетное значение y.
Пример. Пусть у нас имеются статистические данные о доходах (X) и
спросе (Y). Необходимо найти корреляционную зависимость между ними и
определить параметры уравнения регрессии.
Таблица 1.1. Статистические данные о доходах (X) и спросе (Y)
ГОД (n)
ДОХОД (X)
СПРОС (Y)
1
10
6
2
12
8
3
14
8
4
16
10,3
5
18
10,5
6
20
13
Предположим, что между нашими величинами существует линейная
зависимость.
Тогда расчеты лучше всего выполнить в Excel, используя статистические
функции;
СРЗНАЧ - для вычисления средних значений;
ДИСП - для нахождения дисперсии;
СТАНДОТКЛОН - для определения среднего квадратичного отклонения;
КОРЕЛЛ - для вычисления коэффициента корреляции.
Корреляционный момент можно вычислить, найдя отклонения от средних
значений для ряда X и ряда Y, затем при помощи функции СУММПРОИЗВ
определить сумму их произведений, которую необходимо разделить на n-1.
Результаты вычислений можно свести в таблицу 1.2.
9
Таблица 1.2. Параметры линейного однофакторного уравнения регрессии
Показатели
X
Y
Среднее значение
15
9,3
Дисперсия
14
6,08
Среднее квадр. отклонение
3,7417
2,4658
Корреляционный момент
8,96
Коэффициент корреляции
0,9712
Параметры
b=0,64
a = 0,3
В итоге наше уравнение будет иметь вид:
y = 0.3 + 0.64x
Используя это уравнение, можно найти расчетные значения Y и построить
график (рис. 1.1).
Y(спрос)
Y=a+b*x
14
12
10
8
6
10
12
14
16
18
20
X(доходы)
Рис. 1.1. Фактические и расчетные значения
Y
Ломаная линия на графике отражает фактические значения Y, а прямая
линия построена с помощью уравнения регрессии и отражает тенденцию
изменения спроса в зависимости от дохода.
Однако встает вопрос, насколько значимы параметры a и b? Какова
величина погрешности?
1.3. Оценка величины погрешности линейного однофакторного уравнения
10
Обозначим разность между фактическим значением результативного
признака и его расчетным значением как ui :
u i = yi - yip ,
где
yi - фактическое значение y;
yi p  расчетное значение y,
ui - разность между ними.
2. В качестве меры суммарной погрешности выбрана величина:
n
u
S=
2
i
n-2
n-2
.
Для нашего примера S = 0.432.
Поскольку u (среднее значение остатков) равно нулю, то суммарная
погрешность равна остаточной дисперсии:
3. Остаточная дисперсия находится по формуле:
Du =
 (u
i
- u )2
=
n-2
u
2
i
n-2
= S,
Для нашего примера Du = 0.432 . Можно показать, что
Du  (1 - R x2 y )  D y .
Если R x2 y = 1, то Du  0
Rx2 y = 0, то Du = D y
Таким образом,
0  Du  D y
.
Легко заметить, что если R x y = 0.9 , то
Du = (1 - 0.81)  D y = 0.19  D y
11
Это соотношение показывает, что в экономических приложениях
допустимая суммарная погрешность может составить не более 20% от
дисперсии результативного признака D y .
4. Стандартная ошибка уравнения находится по формуле:
 u= Du , где
Du - остаточная дисперсия. В нашем случае  u = 0.6572 .
5. Относительная погрешность уравнения регрессии вычисляется как:
=
u
 100%, , где
y
 u - стандартная ошибка;
y
- среднее значение
результативного признака.
В нашем случае  = 7.07%.
Если величина  мала и отсутствует автокорреляция остатков, то
прогнозные качества оцененного регрессионного уравнения высоки.
6. Стандартная ошибка коэффициента b вычисляется по формуле:
Sb =
u
nD x
В нашем случае она равна S b  0.07171 .
Для вычисления стандартной ошибки коэффициента a используется
формула:
Sa = u
Dx + x
n  Dx
2
В нашем примере S a = 1.108 .
Стандартные ошибки коэффициентов используются для оценивания
параметров уравнения регрессии.
Коэффициенты считаются значимыми, если
Sa
a
В нашем примере
Sa
a
=
Sb
 0.5;
1.108
= 3.69
0.3
b
Sb
b
=
 0.5
0.07171
 0.112
0.64
Коэффициент а не значим, т.к. указанное отношение больше 0.5, а
относительная погрешность уравнения регрессии слишком высока - 26.7%.
12
Стандартные ошибки коэффициентов используются также для оценки
статистической значимости коэффициентов при помощи t - критерия
Стьюдента. Значения t - критерия Стьюдента содержатся в справочниках по
математической статистике. В таблице 1.3 приводятся его некоторые значения.
Далее находятся максимальные и минимальные значения параметров
( b - , b + ) по формулам:
b -  b - t ст  S b
b +  b + t ст  S b
Таблица 1.3 Некоторые значения t - критерия Стьюдента
Степени свободы
Уровень доверия (с)
0,90
0,95
(n-2)
1
6,31
12,71
2
2,92
4,30
3
2,35
3,18
4
2,13
2,78
5
2,02
2,57
Для нашего примера находим:
b-  0.64 - 2.78  0.07171= 0.44
b + = 0.64 + 2.78  0.07171= 0.839
Если интервал ( b - , b + ) достаточно мал и не содержит ноль, то коэффициент
b является статистически значимым на с - процентном доверительном уровне.
Аналогично находятся максимальные и минимальные значения параметра
а. Для нашего примера:
a -  - 0.3 - 2.78  1.108 = - 3.38
a + = - 0.3 + 2.78  1.108 = 2.78
Коэффициент а не является статистически значимым, т.к. интервал ( a - , a + )
велик и содержит ноль.
Вывод: полученные результаты не являются значимыми и не могут быть
использованы для прогнозных расчетов. Ситуацию можно поправить
следующими способами:
а) увеличить число n;
б) увеличить количество факторов;
в) изменить форму уравнения.
13
1.4. Проблема автокорреляции остатков. Критерий Дарбина-Уотсона
Часто для нахождения уравнений регрессии используются динамические
ряды, т.е. последовательность экономических показателей за ряд лет
(кварталов, месяцев), следующих друг за другом.
В этом случае имеется некоторая зависимость последующего значения
показателя,
от
его
предыдущего
значения,
которое
называется
автокорреляцией. В некоторых случаях зависимость такого рода является
весьма сильной и влияет на точность коэффициента регрессии.
Пусть уравнение регрессии построено и имеет вид:
yt  a + bxt  ut
t = 1, 2, ..., n
u t - погрешность уравнения регрессии в год t.
Явление автокорреляции остатков состоит в том, что в любой год t остаток
ut не является случайной величиной, а зависит от величины остатка
предыдущего года ut -1 . В результате при использовании уравнения регрессии
могут быть большие ошибки.
Для определения наличия или отсутствия автокорреляции применяется
критерий Дарбина-Уотсона:
t
(u - u
t
DW =
2
t -1 )
t= 2
.
t
u
2
t
t =1
Возможные значения критерия DW находятся в интервале от 0 до 4. Если
автокорреляция остатков отсутствует, то DW2.
Тема 2 Введение в регрессионный анализ
2.1 Построение уравнения степенной регрессии
2.2. Двухфакторные и многофакторные уравнения регрессии
2.3. Применения уравнения регрессии. Эконометрика
2.1 Построение уравнения степенной регрессии
Уравнение степенной агрессии имеет вид:
y = a  xb ,
где
a, b - параметры, которые определяются по данным таблицы наблюдений.
14
Таблица наблюдений составлена и имеет вид:
Таблица 2.1. Таблица наблюдений
x
x1
x2
...
y
y1
y2
...
xn
yn
Прологарифмируем исходное уравнение и в результате получим:
ln y = ln a + bln x .
Обозначим ln y через y  , ln a как a , а ln x как x  .
В результате подстановки получим:
y  a  b  x
Данное уравнение есть ничто иное, как уравнение линейной регрессии,
параметры которого мы умеем находить.
Для этого прологарифмируем исходные данные:
Таблица 2.1. Таблица значений наблюдений после преобразования
ln x
ln x1
ln x2
...
ln xn
ln y
ln y1
ln y2
...
ln yn
Далее необходимо выполнить известные нам вычислительные процедуры
по нахождению коэффициентов a и b, используя прологарифмированные
исходные данные. В результате получим значение коэффициента b и
Параметр a можно найти по формуле:
a .
a  e a .
В этих же целях можно воспользоваться функцией EXP в Excel.
2.2. Двухфакторные и многофакторные уравнения регрессии
Линейное двухфакторное уравнение регрессии имеет вид:
y = a + b1 x1 + b2 x2 ,
где a,b1 ,b2 - параметры;
x1 , x2 - экзогенные переменные;
y - эндогенная переменная.
Идентификацию этого уравнения
использованием функции Excel ЛИНЕЙН.
15
лучше
всего
производить
с
Степенное двухфакторное уравнение регрессии имеет вид:
Y = AX 1  X 2
где A, ,  - параметры;
X1 , X 2 - экзогенные переменные;
Y - эндогенная переменная.
Для нахождения параметров этого
прологарифмировать. В результате получим:
ln Y = ln A + ln X 1 +  ln X
2
уравнения
его
необходимо
.
Идентификацию этого уравнения также лучше всего производить с
использованием функции Excel ЛИНЕЙН. Следует помнить, что мы получим
не параметр a, а его логарифм, которое следует преобразовать в натуральное
число.
Линейное многофакторное уравнения регрессии имеет вид:
y = a + b1 x1 + ...+ bn xn
где a,b1 ,b n- параметры;
x1 , x n - экзогенные переменные;
y - эндогенная переменная.
Идентификацию этого уравнения также лучше всего производить с
использованием функции Excel ЛИНЕЙН.
2.3. Применения уравнения регрессии. Эконометрика
Объектом изучения эконометрики, как самостоятельного раздела
математической экономики, являются экономико-математические модели,
которые строятся с учетом случайных факторов. Такие модели называются
эконометрическими моделями. Исследование эконометрических моделей
проводится на основе статистических данных об изучаемом объекте и с
помощью методов математической статистики.
Основными задачами эконометрики являются: получение наилучших
оценок параметров экономико-математических моделей, конструируемых в
прикладных целях; проверка теоретико-экономических положений и выводов
на фактическом (эмпирическом) материале; создание универсальных и
16
специальных методов для обнаружения статистических закономерностей в
экономике.
Для установления статистической зависимости (уравнения регрессии)
между изучаемым экономическим показателем (объясняемой переменной) и
влияющими на нее факторами (объясняющими переменными) проводится
регрессионный анализ. Такой анализ предполагает идентификацию
объясняющих переменных, спецификацию формы искомой связи между
переменными, определение и оценку конкретных числовых значений
параметров уравнения регрессии.
Для выявления тесноты связи между экономическими величинами в
уравнении регрессии проводится корреляционный анализ. В ходе
корреляционного анализа изучается сила влияния различных причин
(последствия линейной регрессии и влияние неучтенных в модели факторов)
вариации объясняемой переменной.
Ко н тр о ль ные во пр о сы к тем а м 1 ,2 :
1.
Определение корреляционной зависимости.
2.
Корреляционный и регрессионный анализ.
3.
Уравнения регрессии их основные типы и свойства.
4.
Определение
параметров
линейного
однофакторного
уравнения регрессии.
5.
Понятие коэффициента корреляции и его основные свойства.
6.
Как определяются погрешности коэффициентов уравнения
регрессии.
7.
В чем состоит проблема автокорреляции остатков.
8.
Сформулируйте критерий Дарбина-Уотсона.
9.
Многофакторные уравнения регрессии.
Тема 3 Основные понятия и определения планирования эксперимента
3.1. Основные понятия и определения планирования эксперимента
Под экспериментом будем понимать совокупность операций,
совершаемых над объектом исследования с целью получения информации о
его свойствах. Эксперимент, в котором исследователь по своему усмотрению
может изменять условия его проведения, называется активным экспериментом.
17
Если исследователь не может самостоятельно изменять условия его
проведения, а лишь регистрирует их, то это пассивный эксперимент.
Важнейшей задачей методов обработки полученной в ходе эксперимента
информации является задача построения математической модели изучаемого
явления, процесса, объекта. Ее можно использовать и при анализе процессов и
при проектировании объектов. Можно получить хорошо аппроксимирующую
математическую модель, если целенаправленно применяется активный
эксперимент. Другой задачей обработки полученной в ходе эксперимента
информации является задача оптимизации, т.е. нахождения такой комбинации
влияющих независимых переменных, при которой выбранный показатель
оптимальности принимает экстремальное значение.
Опыт – это отдельная экспериментальная часть.
План эксперимента – совокупность данных определяющих число, условия
и порядок проведения опытов.
Планирование
эксперимента
–
выбор
плана
эксперимента,
удовлетворяющего
заданным
требованиям,
совокупность
действий
направленных на разработку стратегии экспериментирования (от получения
априорной информации до получения работоспособной математической
модели или определения оптимальных условий). Это целенаправленное
управление экспериментом, реализуемое в условиях неполного знания
механизма изучаемого явления.
В процессе измерений, последующей обработки данных, а также
формализации результатов в виде математической модели, возникают
погрешности и теряется часть информации, содержащейся в исходных данных.
Применение методов планирования эксперимента позволяет определить
погрешность математической модели и судить о ее адекватности. Если
точность модели оказывается недостаточной, то применение методов
планирования эксперимента позволяет модернизировать математическую
модель с проведением дополнительных опытов без потери предыдущей
информации и с минимальными затратами.
Цель планирования эксперимента – нахождение таких условий и правил
проведения опытов при которых удается получить надежную и достоверную
информацию об объекте с наименьшей затратой труда, а также представить эту
информацию в компактной и удобной форме с количественной оценкой
точности.
Пусть интересующее нас свойство (Y) объекта зависит от нескольких (n)
независимых переменных (Х1, Х2, …, Хn) и мы хотим выяснить характер этой
зависимости - Y=F(Х1, Х2, …, Хn), о которой мы имеем лишь общее
представление. Величина Y – называется “отклик”, а сама зависимость
Y=F(Х1,Х2, …, Хn) – “функция отклика”.
Отклик должен быть определен количественно. Однако могут встречаться и
качественные признаки Y. В этом случае возможно применение рангового
18
подхода. Пример рангового подхода - оценка на экзамене, когда одним числом
оценивается сложный комплекс полученных сведений о знаниях студента.
Независимые переменные Х1, Х2, …, Хn – иначе факторы, также должны
иметь количественную оценку. Если используются качественные факторы, то
каждому их уровню должно быть присвоено какое-либо число. Важно
выбирать в качестве факторов лишь независимые переменные, т.е. только те
которые можно изменять, не затрагивая другие факторы. Факторы должны
быть однозначными. Для построения эффективной математической модели
целесообразно провести предварительный анализ значимости факторов
(степени влияния на функцию), их ранжирование и исключить малозначащие
факторы.
Диапазоны изменения факторов задают область определения Y. Если
принять, что каждому фактору соответствует координатная ось, то полученное
пространство называется факторным пространством. При n=2 область
определения Y представляется собой прямоугольник, при n=3 – куб, при n >3 гиперкуб.
При выборе диапазонов изменения факторов нужно учитывать их
совместимость, т.е. контролировать, чтобы в этих диапазонах любые сочетания
факторов были бы реализуемы в опытах и не приводили бы к абсурду. Для
каждого из факторов указывают граничные значения
, i=1,... n.
Регрессионный анализ функции отклика предназначен для получения её
математической модели в виде уравнения регрессии:
Y=F(Х1,Х2, …, Хn; В0, В1, …, Вn) + е,
где В1, …, Вn – некоторые коэффициенты; е – погрешность.
Среди основных методов планирования, применяемых на разных этапах
исследования, используют:
планирование отсеивающего эксперимента, основное значение
которого выделение из всей совокупности факторов группы
существенных факторов, подлежащих дальнейшему детальному
изучению;
планирование эксперимента для дисперсионного анализа, т.е.
составление планов для объектов с качественными факторами;
планирование регрессионного эксперимента, позволяющего
получать регрессионные модели (полиномиальные и иные);
планирование экстремального эксперимента, в котором главная
задача – экспериментальная оптимизация объекта исследования;
планирование при изучении динамических процессов и т.д.
Инициатором применения планирования эксперимента является Рональд А.
Фишер, другой автор известных первых работ – Френк Йетс. Далее идеи
19
планирования эксперимента формировались в трудах Дж. Бокса, Дж. Кифера.
В России - в трудах Г.К. Круга, Е.В. Маркова и др.
В настоящее время методы планирования эксперимента заложены в
специализированных пакетах, широко представленных на рынке программных
продуктов, например: StatGrapfics, Statistica, SPSS, SYSTAT и др.
Представление результатов экспериментов
При использовании методов планирования эксперимента необходимо найти
ответы на 4 вопроса:
Какие сочетания факторов и сколько таких сочетаний необходимо взять для
определения функции отклика?
Как найти коэффициенты В0, В1, …, Bn?
Как оценить точность представления функции отклика?
Как использовать полученное представление для поиска оптимальных
значений Y?
Геометрическое представление функции отклика в факторном
пространстве Х1, Х2, …, Хn называется поверхностью отклика (рис. 3.1).
Рис. 3.1. Поверхность отклика
Если исследуется влияние на Y лишь одного фактора Х1, то нахождение
функции отклика - достаточно простая задача. Задавшись несколькими
значениями этого фактора, в результате опытов получаем соответствующие
значения Y и график Y =F(X) (рис. 3.2).
20
Рис. 3.2. Построение функции отклика одной переменной по опытным данным
По его виду можно подобрать математическое выражение функции
отклика. Если мы не уверены, что опыты хорошо воспроизводятся, то обычно
опыты повторяют несколько раз и получают зависимость с учетом разброса
опытных данных.
Если факторов два, то необходимо провести опыты при разных
соотношениях этих факторов. Полученную функцию отклика в 3 х-мерном
пространстве (рис. 1) можно анализировать, проводя ряд сечений с
фиксированными значениями одного из факторов (рис.3.3). Вычлененные
графики сечений можно аппроксимировать совокупностью математических
выражений.
Рис. 3.3. Сечения поверхности отклика при фиксированных откликах (а) и
переменных (б,в)
При трех и более факторах задача становится практически неразрешимой.
Если и будут найдены решения, то использовать совокупность выражений
достаточно трудно, а часто и не реально.
Например, пусть необходимо исследовать влияние U, f и Rr на Мп и P2
асинхронного двигателя (АД) (рис.3.4).
21
Рис. 3.4. Исследование влияния U, f и Rr на Мп и P2 АД
Если в диапазоне изменения каждого фактора взять хотя бы по пять точек
то для того чтобы выполнить опыты при всех возможных сочетаниях значений
факторов (их три) необходимо выполнить 53=125 опытов и сформировать по
52=25 кривых для каждой из двух функций отклика. Если мы хотим хотя бы
продублировать опыты чтобы снизить погрешность, то число опытов
пропорционально возрастает, поэтому произвольное выполнение опытов при
числе факторов более двух и использование их результатов - практически
нереально.
Разложение функции отклика в степенной ряд, кодирование факторов
Если заранее не известно аналитическое выражение функции отклика, то
можно рассматривать не саму функцию, а ее разложение, например в
степенной ряд в виде полинома
Y=В0 + B1Х1 + … + BnХn + В12Х1Х2 + … Вnn-1ХnХn-1 + В11Х12 + … + ВnnXn2 +….
Разложение в степенной ряд функции возможно в том случае, если сама
функция является непрерывной и гладкой. На практике обычно
ограничиваются числом членов степенного ряда и аппроксимируют функцию
полиномом некоторой степени.
Факторы могут иметь разные размерности (А, В, Вт, об/мин) и резко
отличаться количественно. В теории планирования эксперимента используют
кодирование факторов.
22
Рис. 5. Пространство кодированных факторов
Эта операция заключается в выборе нового масштаба для кодированных
факторов (рис. 5), причем такого, чтобы минимальное значение кодированных
факторов соответствовало “-1”, а максимальное значение “+1”, а также в
переносе начала координат в точку с координатами Х1ср, Х2ср, …, Хnср
.
Текущее значение кодированного фактора
,
где Хi – именованное (абсолютное) значение фактора; xi – кодированное
значение фактора; Xicp -Ximin =Ximax-Xicp - интервал варьирования фактора.
Граница совместимости факторов указана на рис. 5 в виде кривой линии.
Если фактор изменяется дискретно, например он является качественным,
то каждому уровню этого кодированного фактора присваиваются числа в
диапазоне от +1 до –1. Так при двух уровнях это +1 и –1, при трех уровнях +1,
0, -1 и т.д.
Функция отклика может быть выражена через кодированные факторы
Y=f(x1,…, хn) и записана в полиномиальном виде
Y=b0+b1х1+b2х2+…+bnхn+b12х1х2+…+bnn-1хn-1хn+b11х12+ …+bnnхn2+….
Очевидно, что
, но
Y=F(X1,…, Xi,…, Xn) = f(x1,… xi,…, хn).
Для полинома, записанного в кодированных факторах, степень влияния
факторов или их сочетаний на функцию отклика определяется величиной их
коэффициента bi. Для полинома в именованных факторах величина
коэффициента Вi еще не говорит однозначно о степени влияния этого фактора
или их сочетаний на функцию отклика.
23
Степенной вид полинома может быть записан в более компактной форме
.
При определении общего числа членов степенного ряда количество
парных сочетаний для n факторов в полиноме, тройных сочетаний, i-ных
сочетаний
при n>i находится по соотношению
.
Например, для набора четырех чисел (n=4) - 1, 2, 3, 4 число тройных
сочетаний составляет
Если считать, что существует фактор х0 всегда равный 1, то
.
Если дополнительно все двойные, тройные и т.д. сочетания факторов, а
также квадраты факторов и все соответствующие им коэффициенты
обозначить через хi и bi, для i=n+1, …, m, то степенной ряд можно записать в
виде
.
Здесь m+1 общее число рассматриваемых членов степенного ряда.
Для линейного полинома с учетом всех возможных сочетаний факторов
.
Полный квадратичный полином выглядит следующим образом:
,
где х0=1, х3=х1х2, х4=х12, х5=х22, b3=b12, b4=b11, b5=b22.
Тема 4 Преобразования при обработке результатов эксперимента
4.1 . Матричные преобразования при обработке результатов
эксперимента
24
При
матричной
записи
результатов
различных
полиномиального представления результата
N
опытов
для
будем иметь
; Х - матрица сочетаний факторов.
N строк, m+1 столбец
Здесь 0,1, …,i,…, m – номера членов уравнения; 1,…,U,…,N … – номера
опытов. Матрица Х - прямоугольная, содержащая m + 1 столбец и N строк.
Если учесть, что в матрице Х элементы
, то
матрицу Х можно записать
.
Домножим левую и правую часть этого уравнения на одну и туже матрицу
Xt – транспонированную матрицу Х
.
Транспонированная матрица – это матрица, у которой по отношению к
исходной столбцы и строки поменяны местами.
строка, N столбцов
25
матрица, получившаяся в результате произведения
транспонированной матрицы на исходную. Она является квадратной матрицей,
содержащей m +1 строку и m + 1 столбец.
.
Для того чтобы получить в общем виде матрицу-столбец коэффициентов
В необходимо домножить обе части последнего матричного уравнения слева
на матрицу С-1 – матрицу обратную матрице С.
.
Обратная матрица строится так (используется процедура обращения
матрицы), что при умножении ее на исходную матрицу получается единичная
матрица – Е, у которой на главной диагонали расположены 1, а вне ее - 0.
.
Окончательно в общем виде матрица-столбец коэффициентов полинома
.
Рассмотрим в качестве простого примера полином в виде
формируемого по результатам N опытов.
;
;
.
26
;
Откуда решение системы относительно коэффициентов b0 и b1
,
.
Этот результат полностью совпадает с соотношениями для такого же
полинома при использовании метода наименьших квадрантов, где
используется численный показатель минимальности суммы квадрантов
отклонений во всех N опытах. Следовательно, построенный таким образом
полином будет проходить самым ближайшим образом к результатам
эксперимента.
Ортогональное планирование эксперимента
Структура матрицы С играет важную роль в реализации алгоритма
определения коэффициентов аппроксимирующего полинома. Структура
матрицы С зависит от выбора значений факторов в N опытах. Поэтому
желательно особым образом выбирать значения факторов в опытах.
Элемент Сii на главной диагонали матрицы С (i-тая строка, i-тый столбец)
представляется суммой квадратов значений i-того столбца сочетаний факторов
матрицы Х в N опытах
Элементы матрицы симметрично расположенные относительно главной
диагонали равны между собой, то есть матрица С - симметричная.
где первый индекс указывает номер столбца матрицы Х, второй индекс - номер
строки.
При этом
Чтобы существовала матрица С-1, матрица С размера (1+m; 1+m) должна
быть невырожденной, то есть ее определитель должен быть отличен от нуля.
Это условие выполняется, если все m+1 столбцов матрицы Х линейно
независимы. Кроме того, необходимо, чтобы число различных сочетаний
27
факторов в матрице Х (число опытов N) должно быть не меньше чем m+1. Это
условие исходит из того, что для определения m+1 коэффициента полинома
необходимо не менее m+1 уравнений (опытов).
Полученные коэффициенты B позволяют сформировать уравнение
функции отклика при m+1 членах уравнения. Если точность этого уравнения
оказалась недостаточной, то требуется взять уравнение с большим числом
членов и начать все заново так как все коэффициенты B оказываются
зависимыми друг от друга. Это возникает при использовании пассивного
эксперимента. Однако если целенаправленно использовать активный
эксперимент и особым образом построить матрицу сочетаний факторов в
опытах Х, использовать планирование эксперимента, то коэффициенты
полинома определяются независимо друг от друга.
Стратегия применения планов заключается в принципе постепенного
планирования – постепенного усложнения модели. Начинают с простейшей
модели, находятся для нее коэффициенты, определяется ее точность. Если
точность не удовлетворяет, то планирование и модель постепенно
усложняются.
Задача планирования заключается в том как нужно строить матрицу Х,
чтобы матрица С легко обращалась и коэффициенты B определялись
независимо друг от друга. Эти требования выполняется если матрица С
является диагональной, то есть все элементы расположенные не на главной
диагонали матрицы равны нулю
;
или
.
Тогда обратная матрица определяется как
.
В этом случае система уравнений распадается на m+1 независимых
уравнения и коэффициенты полинома определяются как
28
Если учесть, что Сii определяется как сумма квадратов значений факторов
,
то коэффициенты определяются как
Требование
выполнения
условия
заключается
в
;
;
выполнении условия
,
где i, j - номера столбцов в матрице Х;
при
.
Каждый столбец матрицы Х можно представить в виде вектора
если
,
то это означает что скалярное произведение двух векторов Хi и Хj
равняется нулю, то есть векторы Хi и Хj - ортогональны.
Так как любое скалярное произведение двух различных столбцов в
матрице Х должно быть равно нулю, то это условие называется условием
ортогональности матрицы Х, а соответствующее планирование эксперимента
(определение сочетаний факторов) называется ортогональным планированием.
Для
ортогонального
планирования
при
учете
того
что
.
Таким образом, при ортогональном планировании сумма элементов
любого столбца матрицы Х, кроме первого столбца должно быть равна нулю.
29
Это правило используется при построении плана эксперимента, то есть при
определении каким образом нужно менять значения факторов в опытах. Это
правило показывает, что в ортогональном планировании при четном числе
уровней, на которых фиксируется каждый фактор, то эти уровни должны быть
симметрично расположены относительно центральной точки х=0, при
нечетном числе уровней должна использоваться и центральная точка (рис.6).
Кроме свойства ортогональности план может обладать свойствам
насыщенности, рототабельности и др. План является насыщенным, если общее
число опытов N равняется числу неизвестных коэффициентов полинома m+1.
Рис. 6. Выбор уровней варьирования при ортогональном планировании
План называется рототабельным, если дисперсия отклика одинакова на
одном расстоянии от центра плана при любом направлении в факторном
пространстве. В упрощенном виде это означает, что все точки плана лежат на
окружности (сфере, гиперсфере).
Планы полного факторного эксперимента 2 n (планы ПФЭ 2n)
Планы ПФЭ 2n являются простейшими планами первого порядка.
Основание 2 означает, что принято два уровня варьирования, на которых
фиксируются факторы. n – число факторов.
Для плана ПФЭ 22 число факторов равно двум (n=2) и число уровней
фиксирования факторов также 2. Значения кодированных факторов
выбираются в виде +1 и –1. Полное число возможных сочетаний значений n
факторов (число опытов, а значит и число строк плана) N=22=4. Составляется
план, в котором число столбцов факторов и их сочетаний равняется числу
членов уравнения. Так для уравнения
План ПФЭ 22 для этого уравнения представляется в следующем виде
30
В первый столбец (i=0) во все четыре ячейки заносятся +1. Во второй
столбец (i=1) заносятся единицы с чередующими знаками (начинаем с -1). В
этом случае сумма элемента столбца равняется нулю. Третий столбец
заполняем единицами с чередующимися через 2 элемента знаками. Сумма
элементов также равняется нулю. Геометрическое отображение плана ПФЭ 2 2
с указанием номеров точек плана в факторном пространстве представлено на
рис. 7. Точки плана располагаются в вершинах квадрата.
Рис. 7. Геометрическое отображение плана ПФЭ 22 в факторном
пространстве
Элементы столбцов соответствующих произведениям факторов
получаются путем перемножения элементов предыдущих столбцов. Такое
правило позволяет гарантировать, что мы не пропустили ни одного
возможного сочетания факторов в опытах и в то же время не будет повторений
одинаковых сочетаний. Последние два столбца факторов, соответствующие
квадратам факторов, состоят только из +1. Столбцы, обведенные утолщенной
рамкой, образуют план эксперимента. Столбец х1х2, не обведенный
утолщенной рамкой, при проведении опытов носит вспомогательный характер.
Особенности плана ПФЭ 22:
1. Различных столбцов в таблице получилось лишь четыре. Столбцы,
соответствующие квадратам факторов неотличимы от столбца х0 - это общий
31
результат для плана ПФЭ 2n. Это не позволяет определить отдельно
коэффициенты при квадратах факторов. Поэтому планы ПФЭ 2n называют
планами первого порядка. Для определения коэффициентов при квадратах
факторов используют планы второго порядка. В дальнейшем в планах ПФЭ 2 n
столбцы квадратов факторов изображаться не будут.
2. Число различных столбцов равняется числу различных сочетаний
факторов, то есть числу строк плана - числу опытов N. Это тоже общий
результат для этих планов, то есть с помощью планов ПФЭ 2 n можно
определить все коэффициенты линейного полинома со всеми возможными
сочетаниями факторов, включая коэффициенты b12…n , отражающие
максимальное взаимодействие факторов вида х1х2…хn.
3. В плане ПФЭ 22 сумма квадратов элементов любого столбца
,
Поэтому для планов ПФЭ 2n
.
Таким образом, с помощью планов ПФЭ 2n можно определить свободный
член уравнения b0,
коэффициентов bi,
различных взаимодействиях двух факторов bij ,
взаимодействий факторов bijk , …..,
коэффициентов при
коэффициентов тройных
коэффициент b12…n. максимального
взаимодействия факторов. Общее число определяемых коэффициентов
.
План ПФЭ 2 может являться насыщенным, при выборе числа членов
уравнения m+1=N, ненасыщенным, при выборе числа членов уравнения и
соответственно числа столбцов плана m+1<N . План ПФЭ 2n является также
рототабельным, так как все точки плана лежат на окружности (сфере,
гиперсфере) с радиусом
относительно центра плана.
3
Для плана ПФЭ 2 число факторов n = 3. Выполняется N = 23 = 8 опытов.
Уравнение может содержать до восьми членов
n
.
Таким образом формируется план из восьми строк и восемь столбцов. В
четвертом столбце (i=3) записываются единицы с чередующимися знаками
через четыре элемента. План составляется аналогичным образом плану ПФЭ
22.
32
Столбцы, обведенные утолщенной рамкой, образуют план эксперимента.
Столбцы, не обведенные утолщенной рамкой, при проведении опытов носят
вспомогательный характер. Геометрическое отображение плана ПФЭ 2 3 с
указанием номеров точек плана в факторном пространстве представлено на
рис. 8. Точки плана располагаются в вершинах куба.
Рис. 8. Геометрическое отображение плана ПФЭ 23 в факторном
пространстве
Пример применения плана ПФЭ 22. Пусть в результате проведения
экспериментов по плану ПФЭ 22, то есть при изменении двух факторов, мы
получили опытные значения Y1, Y2, Y3, Y4. Поверхность, уравнение которой нас
интересует, имеет вид рис. 9.
33
Рис. 9. Поверхность функции отклика
Составляем план ПФЭ 22.
Вначале найдем коэффициенты сокращенного линейного полинома вида
и результаты вычислений
по нему.
Рассчитываем коэффициенты полинома.
;
;
34
.
Полином имеет вид
.
Результаты расчета по нему приведены в соответствующем столбце плана.
Наблюдаются расхождения между Y и
. Если точность сокращенного
полинома не удовлетворяет, то по тем же результатам опытов можно
сформировать более полный полином вида
.
При этом ранее определенные коэффициенты остаются без изменений.
Определим коэффициент при дополнительном члене полинома
.
Полином имеет вид
.
По нему рассчитываем предсказанные значения отклика в точках плана
(столбец
). Поверхность, построенная по полученному полиному, проходит
точно через четыре точки плана (
=0), по которым определены
коэффициенты. Однако в других точках области определения функции,
например в центре плана (точка 5 в плане, х1=0, х2=0), предсказанные и
действительные значения, могут не совпадать (
=3).
Ко н тр о ль ные во пр о сы к тем а м 3 ,4 :
1. Понятия эксперимента, опыта, плана эксперимента, планирование
эксперимента.
2. Поверхность отклика, её геометрическая интерпретация
3. Ортогональное планирование эксперимента
35
РАЗДЕЛ 2 СТАТИСТИЧЕСКОЕ ИССЛЕДОВАНИЕ ЗАВИСИМОСТЕЙ
Тема 5 Типовые задачи практики статистического исследования
зависимостей
5.1 Схема взаимодействия переменных при статистическом исследовании
зависимостей
5.2 Конечные прикладные цели статистического исследования
зависимостей
5.3 Типовые задачи практики статистического исследования зависимостей
5.4 Основные типы зависимостей между количественными переменными
5.1 Схема взаимодействия переменных при статистическом
исследовании зависимостей
Основная цель статистического исследования зависимостей (СИЗ) состоит
в том, чтобы на основании частных результатов статистического наблюдения
за показателями двух или трех различных явлений, происходящих с
исследуемым объектом, выявить и описать существующие взаимосвязи. В
случае численного выражения такие показатели называют переменными.
Рамки применения аппарата СИЗ определяются двумя условиями:
- стохастичность интересующей нас взаимосвязи между переменными (т.е.
реализация явления или события А одной переменной может повлечь за собой
событие В другой переменной с вероятностью р);
- взаимосвязь между переменными выявляется на основе статистических
наблюдений по выборкам из соответствующих генеральных совокупностей
событий.
Опишем функционирование изучаемого реального объекта набором
переменных, среди которых выделим:
x(1),..., x(p) – «входные» переменные, описывающие условия или причинные
компоненты функционирования (поддаются контролю или частичному
управлению); для них используются такие термины как факторы-аргументы,
факторы-причины,
экзогенные,
предикторные
(предсказательные),
объясняющие;
y(1),..., y(m) – «выходные», характеризующие поведение объекта или
результат (эффективность) функционирования; обычно их называют отклики,
эндогенные, результирующие, объясняемые, факторы-следствия, целевые
факторы;
(1),..., (m) - латентные (скрытые, не поддающиеся непосредственному
измерению) случайные «остаточные» компоненты, отражающие влияние на
y(1),..., y(m) неучтенных «на входе» факторов, а также случайные ошибки в
измерении анализируемых показателей; остатки.
Используя введенный набор переменных, задача СИЗ может быть
сформулирована следующим образом: по результатам N измерений
36
( x (i 1) ,..., x (i p) , y(i 1) ,..., y(i m ) ) ,i  1,N
(4.1)
исследуемых переменных на N объектах построить такую (векторнозначимую) функцию
 f (1) ( x (1) ,..., x ( p ) ) 


f ( x (1) ,..., x ( p ) )   ......................  ,
 ( m ) (1)

( x ,..., x ( p ) )
f
(4.2)
которая позволила бы наилучшим образом восстановить значения переменных
Y  ( y (1) ,..., y ( m ) ) по заданным значениям объясняющих переменных
X  ( x (1) ,..., x ( p ) ) .
5.2 Конечные
зависимостей
прикладные
цели
статистического
исследования
С выяснения цели должно начинаться всякое СИЗ. От этого зависит план
исследования, выбор общей структуры математической модели, интерпретация
статистических характеристик и выводов. Выделим три основных типа:
Тип 1. Установление самого факта наличия (или отсутствия) статистически
значимой связи между Y и X и, возможно, оценка степени тесноты.
Тип 2. Прогноз (восстановление) неизвестных значений интересующих нас
индивидуальных или средних значений результирующих показателей Y по
заданным значениям объясняющих переменных X.
При
такой постановке статистический вывод включает описание
интервала, или области AP(X) вероятных значений Y(X) или Yср(X)
Y(X)  AP(X) или Yср(X)  AP(X)
с некоторой вероятностью P, гарантирующей справедливость прогноза.
Исследователя интересуют лишь значения f(x), выбор конкретного вида
функции f(x) в (4.2) и состава объясняющих переменных X играет
подчиненную роль и нацелен на тип ошибки получаемого прогноза.
Существенно используются значения функции f(x) для построения прогнозных
интервалов (областей) AP(X). Они обычно определяются из
f ( x )   p( X , N )  Y  f ( x )   p( X , N )
 p( X , N ) - гарантируемая (с вероятностью не менее P) максимальная величина
ошибки прогноза.
Тип 3. Выявление причинных связей между объясняющими переменными
X и результирующими показателями Y, частичное управление Y путем
регулирования величин X. Эта постановка требует вскрытия «черного ящика»
механизма преобразования входных (X), и случайных () переменных в
результирующие (Y).
37
Здесь на первый план выходит задача правильного определения
структуры модели (т.е. выбора общего вида функции f(x)). Во всей технике
СИЗ самым слабым местом является это.
5.3 Типовые
зависимостей
задачи
практики
статистического
исследования
Выделим в проблеме управления сложной системой те направления
прикладных исследований, где существенную роль играет математический
аппарат СИЗ.
Нормирование. Опишем схематично, как используются методы СИЗ при
формировании нормативов. Нормативный показатель в моделях типа у f(Х)
или усрf(Х) играет роль у, а факторы, участвующие в расчете нормативного
показателя - роль Х. Предполагается, что детерминированное определение y по
Х невозможно. Поэтому анализируется связь вида:
Y=f(Х,  )+
(5.1)
 - остаточная случайная компонента, обусловливающая погрешность;
f(Х,  ) - функция из некоторого известного параметрического семейства
F={f(Х,  )}, где  A - неизвестно.
Значение
Y с р( )  f ( X , )
интерпретируется,
как
средний
нормативный показатель при значениях объясняющих переменных, равных X.
В качестве примера типовой задачи нормирования можно привести задачу
расчета численности служащих (по разным функциям) на промышленном
предприятии отрасли по набору ТЭП.
Прогноз, планирование, диагностика. Пусть у - интересующий нас
показатель, а x(1),..., x(p) - факторы, содержащие информацию о у. Между ними
имеет место статистическая связь типа (5.1). В этих задачах в качестве одного
из объясняющих факторов x(к) вводится в явном виде «длина прогноза» t (в
единицах времени). Наличие  в (5.1) говорит о том, что X содержит не всю
информацию о у. Исходные статистические данные вида (4.1) регистрируются
на объектах в прошлом (в базовом периоде), или на других (однородных с
данным) объектах.
Примеры задач: прогноз и планирование объема выпускаемой продукции
по факторам производства, прогноз урожайности сельскохозяйственных
культур по климатическим данным и факторам сельскохозяйственного
производства, медицинская диагностика, оперативный и долгосрочный
прогноз потребления электроэнергии.
Оценка труднодоступных для непосредственного наблюдения
параметров. К таким задачам относится, например, восстановление возраста
археологической находки по ряду косвенных признаков. Для установления
38
связи между труднодоступным показателем у и косвенным измерениям Х
необходимы статистические данные вида (4.1). Когда связь выявлена (оценена
степень ее точности), она используется для определения у по X.
Оценка эффективности функционирования системы. Например: оценка
эффективности деятельности отдельного специалиста, подразделения;
ранжировка страны по интегральному качеству; проставление балльных
оценок спортсмену. По частным показателям X, которые можно измерить и
которые
характеризуют
некоторую
частную
сторону
понятия
«эффективность», мы с помощью их взвешивания выходим на некоторый
скалярный агрегированный показатель эффективности у (латентный-скрытый).
Он принципиально не поддается непосредственному измерению: нет или мы
не знаем объективной шкалы, в которой можно его измерить. Но он с
некоторой точностью восстанавливается с помощью X. Т.е. между у и X
(частные критерии эффективности) существует статическая связь типа (5.1).
При сборе данных (4.1) у можно получить только с помощью специально
организованного экспертного опроса. Форма экспертной информации о у
различна: балльные оценки, упорядочивания, парные сравнения. Построив
оценку
~
~
y с р ( X )  f ( X ,  ) для агрегированного критерия эффективности
функционирования системы, можно оценивать у(X) без привлечения экспертов.
Такая форма использования аппарата СИЗ носит название экспертностатистического метода построения неизвестной целевой функции.
Примером такой типовой задачи является квалиметрия, т.е. измерение
«качества» сложного изделия у с помощью отдельных частных характеристик
качества x(1),..., x(p) таких как надежность, удобство пользования, эстетический
вид и т д.
Оптимальное регулирование параметров системы. Рассмотрим эту
типовую задачу на примере. Например, изучается производительность
мартеновских печей (y), измеряемая в тонно/часах, в зависимости от
процентного содержания углерода в металле (х). Если сквозь кажущуюся
хаотичность взаимосвязи результирующего у от х видна нелинейная
закономерность с наличием максимума, то можно выдать рекомендации
технологу: поддерживать процентное содержание углерода в окрестности
диапазоне максимума.
5.4 Основные типы зависимостей между количественными переменными
Под типом зависимости мы понимаем не аналитический вид функции
Yср(X) = f(X,), а природу анализируемых переменных (X,y) и, соответственно,
интерпретацию функции f(X,).
Зависимость между неслучайными переменными. В этом случае y
детерминировано восстанавливается по значению неслучайной переменной X.
39
Это чисто функциональная зависимость y=f(Х)= f(x(1),...,x(p)), т.е. в формуле
(4.3)  = 0.
Такие примеры адекватного описания реальных зависимостей встречаются
редко (например, определение возраста дерева по количеству колец на срезе).
Для них не надо использовать вероятностно-статистическую теорию.
Регрессионная зависимость случайного результирующего показателя 
от неслучайных предсказывающих переменных X. Природа связи носит
двойственный характер.
а) замеры  с ошибкой, а - X без ошибки.
б)  зависит не только от X, поэтому для всех X * значения ( X *)
подвержены разбросу. Здесь X играют роль параметра, от которого зависит
распределение . Удобной математической моделью является
( X) = f(X) + ( X)
(5.2)
Yср(X) = M( X) = f(X), M( X) = 0.
Природа ( X) и ее характеристики распределения не связаны со
структурой функции f(X).
Корреляционно-регрессионная зависимость
между случайными
векторами
 (результирующим показателем) и 
(объясняющими
переменными). Компоненты векторов  и  зависят от множества факторов,
которые исследователь по разным причинам не может проконтролировать т.е.
для него эти переменные являются случайными. Удобно представление 
= f() + 
(5.3)
 - остаточное влияние неучтенных факторов, причем
M(k) = 0, D(k) =  k < 
cov (f(k)(), (k) )= 0.
Для частного случая: m=1; а f() - линейная функция имеем:
2
p
  0   k   ( k )  
k 1
p
Yс р ( x )   0    k  x ( k )
k 1
Если в (5.3)  = 0, то случайные величины оказываются связанными чисто
функциональной зависимостью =f(), но ее следует отличать от
функциональной зависимости неслучайных переменных.
Например, если описывать процесс обжига стекла в стекольном
производстве с помощью параметров  - вакуум в печи и  - процента брака,
то случайные изменения свойств сырья приводят к случайным колебаниям  и
. Эллипсообразная форма облака говорит о целесообразности модели (5.3).
Связь  и  носит название корреляционно-регрессионной. К вопросам
40
регрессионного анализа (построение конкретного вида зависимостей между
переменными, оценка точности) добавляются вопросы корреляционного
анализа (исследование степени тесноты связи между переменными).
Тема 6 Корреляционный анализ
6.1 Корреляционный анализ.
6.2 Оценка степени тесноты связи переменных.
6.3 Особенности корреляционного анализа количественных переменных.
6.4
Особенности
корреляционного
анализа
неколичественных
характеристик.
6.1 Корреляционный анализ
В начале СИЗ необходимо установить сам факт наличия статистических
связей и измерить степень их тесноты. Для количественных переменных с этой
целью используют: индекс корреляции, корреляционное отношение, парные,
частные и множественные коэффициенты корреляции, коэффициент
детерминации.
Парные и частные коэффициенты корреляции оценивают тесноту
линейной связи. Они могут быть положительными и отрицательными в
зависимости от тенденции взаимосвязанного изменения переменных.
Парные
корреляционные
характеристики
оценивают
тесноту
статистической связи между двумя переменными без учета опосредованного
или совместного влияния других показателей. Для расчета используются
значения только анализируемой пары показателей. Частный коэффициент
корреляции позволяет оценить степень тесноты множественной связи между
двумя переменными, очищенной от опосредованного влияния других
факторов. Для расчета используются значения как по анализируемой паре
переменных, так и тех, опосредованное влияние которых хотим исключить.
Степень тесноты связи любой формы определяют: множественный
коэффициент корреляции, коэффициент детерминации и корреляционное
отношение. Множественный коэффициент корреляции определяет степень
тесноты связи между одним результирующим и совокупностью объясняющих
показателей. Коэффициент детерминации определяется, как квадрат
множественного коэффициента корреляции и показывает, какая доля
дисперсии Y детерминируется совокупным влиянием X (в виде функции
регрессии). Оставшаяся часть дисперсии Y показывает верхнюю границу
точности при восстановлении Y по заданным значениям Х.
Представим особенности корреляционных характеристик в таблице6.1.
Таблица 6.1 - Особенности корреляционных характеристик
Вид
Показатель связи переменных
41
Особенность
зависимости
Линейная
Парный
корреляции
Частный
корреляции
Множественный
корреляции
Произвольная
коэффициент
коэффициент
коэффициент
Коэффициент детерминации
Корреляционное отношение
Индекс корреляции
Неочищенная
от
совместного
влияния других переменных
Очищенная от совместного влияния
других переменных
Один
результирующий
и
совокупность
объясняющих
переменных
Множественный
коэффициент
корреляции в квадрате
Используется при группировании
значений х в интервалах
Наиболее
общая
теоретическая
оценка степени тесноты связи
6.2 Оценка степени тесноты связи переменных
Определение индекса корреляции. Для простоты рассмотрим случай
единственного результирующего показателя, т.е m=1. Пусть  - случайный
объясняющий вектор,  - случайный результирующий вектор. На них влияют
неконтролируемые факторы  , тоже случайные. Удобно представление
  f ( )   .
 2  D полная вариация  ,  2f  Df (  ) регрессии y cp  f ( x ) ,  2 - усредненная по различным
Пусть
дисперсия функции
значениям  величина дисперсии D(  |   x ) , т.е. средняя величина
дисперсии неконтролируемой случайной компоненты . Эти меры разброса
связаны соотношениями
2   f2  2 .
Индексом корреляции
I 2* 
I2* называется
  2f /  2  1   2 /  2
(6.1)
Данный показатель является наиболее общей характеристикой тесноты
связи

и
.
Отметим, что
отсутствие влияния

на
,
а
I2*  [ 0 ,1 ] . Причем I2*  0 означает
I2*  1 - полное отсутствие варьирования
случайной компоненты (  2  0 ), т. е. возможность детерминированного
 по  .
восстановления  по  .
восстановления
Величина ( 1  I* ) - показывает точность
2
42
6.3 Особенности корреляционного анализа для количественных
переменных
Парный коэффициент корреляции. Пусть (  ,  ) - двумерная
нормальная случайная величина. Подставив в (6.1) формулу плотности
двумерного нормального распределения, получим соотношение для индекса
корреляции I
, которое называется парным коэффициентом корреляции r:
* 
I *  r  M   M   M 
D ) D(   cov ,      
Пусть (xi, yi), i  1,N
- выборка из двумерного нормального
~ определяется по формуле:
распределения, тогда выборочное значение r
N
~
r   ( xi  x )( yi  y )
i 1
N
( x
i
i 1
N
 x ) 2  ( yi  y ) 2
2
(6.2)
i 1
Парный коэффициент корреляции r характеризует степень тесноты
линейной статистической связи между анализируемыми признаками. Однако
лишь если совместное распределение (  ,  ) нормальное, то r имеет четкий
смысл. Значение r  1 - говорит о чисто функциональной линейной
зависимости, а r=0 - о независимости. Если же совместное распределение
(  ,  ) не нормальное, или одна из величин не случайна, то r является лишь
одной из возможных характеристик степени тесноты связи. Но для общего
случая не предложено характеристики, обладающей преимуществами в
сравнении с парным коэффициентом корреляции, хотя его интерпретация
часто ненадежна. Возможно, что линейной зависимости нет (r=0), а
переменные

и

связаны функционально I
 1. Поэтому, если r=0, то в
* 
общем случае говорят, что

и

не коррелированы. Из высокой степени
коррелированности ( r  1 ) при отклонении (  ,  ) от нормального закона не
следует их тесная зависимость.
Геометрический смысл коэффициента корреляции состоит в том, что, если
для большинства пар ( x , y ) в (6.2) произведения ( x - x )( y - y ) будут
i
i i
i
иметь один и тот же знак, то их суммирование дает значение, существенно
отличающееся от нуля. Причем, чем выше будет угол наклона предполагаемой
линии взаимосвязи, тем выше должен быть коэффициент корреляции. В
случае, если большинство значений x и y отклоняются от средних x и y
несогласованно (т.е.
i
i
x - x и y - y имеют разные знаки), то сумма
i
i
разнознаковых слагаемых будет близка к нулю. Подобная ситуация на
диаграмме рассеяния соответствует облаку точек с центром
( x, y ) .
43
Большинство пакетов статистических программ для анализа корреляций
вычисляют корреляцию между
x и y и строят диаграмму рассеяния
одновременно. При одном прогоне такой программы исследователь может
получить корреляции и диаграммы рассеяния для любой комбинации
преобразований x и y, например ( x, ln y), (ln x, y), (ln x,ln y) и т.д.
Преобразование, для которого получается наибольшее по абсолютной
величине значение коэффициента корреляции, будет тем преобразованием,
которому соответствует наиболее сильная линейная взаимосвязь.
Некоторые особенности интерпретации степени тесноты связи с
помощью коэффициента корреляции. Отметим, что при анализе тесноты
связи случайных величин по выборочным данным нельзя забывать об
однородности выборки. Например, исследуется взаимосвязь числа
телевизионных точек  от численности населения  . Так, для n=9 городов
США получено, что оценка коэффициента корреляции равна 0.403 (см.рисунок
6.1), т.е. это говорит о малой степени коррелированности случайных величин
r =0.995 (см.рисунок 6.2).
 и  . Если же добавить Нью-Йорк, то n=10, а ~
И, наконец, если между двумя переменными установлена зависимость, то
это не означает их причинную взаимообусловленность. Например, на заводе
установлена положительная корреляция между временем плавки и процентом
брака. Позже выяснили, что длительная плавка связана с использованием
сырья специального состава. Оно и приводило одновременно к длительному
времени плавки и большому проценту брака, хотя между собой они не
зависимы, т.е. r  1 обусловлено влиянием третьего неучтенного фактора.
Рисунок 6.1 – Оценка r=0.403 для n=9
Рисунок 6.2 – Оценка r=0.995 для n=10
6.4 Особенности корреляционного анализа для неколичественных
характеристик
СИЗ между порядковыми переменными сводится к статистическому
анализу различных упорядочений (ранжировок) множества объектов. Он
44
осуществляется с помощью методов ранговой корреляции. Процесс
упорядочения осуществляется либо экспертами, либо формализовано
(переходом от количественных значений к вариационному ряду). Исходные
данные представлены таблицей рангов статистически обследованных объектов
размера N ( p  1) . При формировании матрицы возможны случаи
неразличимости двух и более объектов, т.е. «объединенные» ранги.
К основным задачам теории и практики в этом случае относятся:
– анализ структуры исследуемой совокупности упорядочения (например,
точки равномерно разбросаны по области значений, т.е. нет статистической
связи; наличие сгустка-ядра при произвольном разбросе других точек говорит
о наличии согласованности в переменных; существование нескольких ядер
говорит о статистической зависимости переменных внутри них);
– анализ интегральной согласованности переменных и условная ранжировка
по критерию степени тесноты связи каждой со всеми остальными (разные
эксперты упорядочили объекты, их необходимо упорядочить по
компетентности);
– построение единого упорядочения объектов по имеющейся совокупности
упорядочений.
В качестве основных характеристик парной статистической связи между
упорядочениями используются ранговые коэффициенты корреляции Спирмэна
 (S)
 ( k ) . Значения этих коэффициентов меняются в диапазоне от
(S )
(k )
-1 до +1. Причем  , =-1, если ряды прямо противоположно
(S )
(k )
упорядочены,  , =+1, если по упорядочению ряды совпадают,
 ( S ) , ( k ) =0, если в упорядочении рядов отсутствует связь.
(k)
Пусть xi - порядковое место (ранг) объекта Oi по степени проявления
и Кендалла
k -го свойства (переменной). Тогда степень тесноты между ранжировками
(при
отсутствии
объединенных
рангов)
X ( k )  ( x1( k ) ,..., x (Nk ) ) и
X ( j )  ( x 1( j ) ,..., x (N j ) ) с помощью коэффициента Спирмэна определяется по
формуле 6.3. При наличии объединенных рангов формула усложняется.
 (kjs)  1 
N
6
( x (i k )  x (i j ) ) 2
N  N i 1
3
Коэффициент Кендалла
вычисляется по формуле:
(при
отсутствии
~kj( K )  1  4( X ( k ) , X ( j ) ) / ( N ( N  1) )
45
(6.3)
объединенных
(6.4)
рангов)
( X ( k ) ,X ( j ) ) -
где
последовательности
минимальное число обменов соседних элементов
X ( j ) , необходимое для приведения ее к упорядочению
X( k) .
Величина ( X ( k ) ,X ( j ) ) симметрична относительно аргументов.
( k)
При подсчете ( X
,X ( j ) ) полезным оказывается факт тождественного
совпадения величин ( X ( k ) ,X ( j ) ) и I( X ( k ) , X ( j ) ) , где число инверсий
( k)
( j)
- это число расположенных в неодинаковом порядке пар
I( X
,X
)
( j)
( k)
элементов последовательностей X
и X
, являющееся мерой
нарушения порядка объектов в одной последовательности относительно
другой.
N 1 N
I( X ( k ) ,X ( j ) )     glkj
g 1l  g 1
где  kj  1, если
gl
kj
~
 0.
x gj  ~
xl j , а иначе  gl
Анализируемые
ранжировки
видоизменяются
~
~
X k ( ~
x1( k ) ,...,~
x N( k ) ) , X j   ( ~
x1( j ) ,...,~
x N( j ) )
к
представлению:
Ранговые коэффициенты корреляции Спирмэна 
и Кендалла 
связаны так как они являются линейными функциями от числа инверсий,
(S)
( k)
(k )
( j)
имеющихся в сравнении последовательностей X
и X
. При подсчете
коэффициента корреляции Спирмэна инверсиям отдаленных (по величине)
друг от друга элементов приписываются большие веса. Между масштабами
шкал, в которых измеряют корреляцию коэффициенты  и 
нет
простого соотношения. Однако при N>10 и при условии, что абсолютные
значения этих коэффициентов не слишком близки к 1, их связывает
приближенное соотношение
(S)
 (S) 
(k )
1.5 
Отметим некоторые преимущества коэффициента корреляции Кендалла
(k )
 (k )
по сравнению с коэффициентом корреляции Спирмэна  : лучше
изучены его статистические свойства (выборочное распределение),
возможность его использования при определении частной (очищенной)
корреляции рангов, отсутствие потребности полного пересчета при добавлении
новых объектов.
(S)
46
С целью измерения статистической связи между несколькими
переменными (при отсутствии объединенных рангов) Кендаллом был
предложен коэффициент конкордации (или согласованности)
N
m
(k )
W ( m)  12 / ( m 2( N 3  N ) )  (  x i j  m( N  1) / 2)
2
i 1 j 1
где m - число анализируемых порядковых переменных (сравниваемых
упорядочений); N - число объектов (объем выборки); k1,..., km - номера
отобранных для анализа порядковых переменных (из исходной совокупности)
m<p.
 ( m ) [ 0 ,1 ] . В отличии от парных связей
Заметим, что W
противоположные понятия согласованности и несогласованности утрачивают
прежнюю симметричность относительно нуля.
Используя коэффициент конкордации, можно решить, например, задачу
анализа структуры имеющейся совокупности упорядочений путем разбиения
имеющегося набора порядковых переменных x(0),..., x(p) на группы высоко
коррелированных переменных. При статистическом анализе совокупности
экспертных мнений (ранжировок) существенным оказывается вопрос
упорядочения самих переменных (интерпретируемых в качестве экспертов) по
степени их коррелированности со всеми остальными переменными. Для ответа
на этот вопрос можно предложить следующий алгоритм.
Пусть
коэффициент
конкордации,
W ( p  1  k x( j ) x( j ) ... x( j ) )
1
подсчитанный
исключением
исключенных
по
всем
2
k
рассматриваемым
переменных
переменных,
x
( j1 ) ( j2 )
мы
x
... x
( jk )
получим
переменным
x(0),...,
x(p)
за
. Варьируя состав группы
различных значений
C pk1
W ( p  1  k ) . Последовательно вычислим значения всех этих коэффициентов
для k=0,1,2,...,k0
и упорядочим их (при каждом фиксированном k) в
соответствии с убыванием их значений. Получим:
( p  1  k );
W
(j
W ( p x ( j ) )  W ( p x ( j ) ) ... W ( p x
1
W ( p  1 x
2
( q1 )
,x
( i1 )
)  W ( p  1 x
( q2 )
,x
( i2 )
p 1
)
);
) ... W ( p  1 x ( q ) , x ( i ) ), L  C p21 ;
L
L
...
Эти упорядочения (на каждом этаже) и дают нам одновременно
ранжировки самих переменных (по одной, по паре и т.д.) по степени их
согласованности с остальными переменными: очевидно, ту переменную,
выбрасывание которой приводит к максимальному значению меры
согласованности по остальным переменным, естественно объявить наименее
связанной (согласующейся) с остальными переменными.
47
Тема 7 Регрессионный анализ
7.1 Примеры использования регрессионного анализа.
7.2 Классическое определение регрессии.
7.3 Оптимизационный подход в регрессионном анализе.
7.4 Рекомендации по выбору вида регрессии.
7.1 Примеры использования регрессионного анализа
Регрессионный анализ представляет собой статистический аппарат,
позволяющий выявлять и описывать зависимость некоторого количественного
результирующего показателя от набора объясняющих переменных.
Рассмотрим совокупность студентов, изучавших сначала математику, а
затем статистику (одинаковые учебники и преподаватели). Оценки по
математике - X, по статистике - Y. Если будет установлена хорошая
корреляция между переменными, то усвоение студентами курса статистики
может быть спрогнозировано с помощью оценки по математике. Если будет
установлено отсутствие корреляции, то курс статистики может быть прочитан
вне зависимости от того, прочитан ли курс математики.
Администрация постоянно берет на работу начинающих чертежников.
Обучение чертежников дорого, поэтому администрация решает использовать
тест (квалификационный). Вновь принятых на работу тестируют,
регистрируют баллы. Через некоторое время людей оценивают. Если низким
результатам тестирования соответствует в среднем низкая оценка работы, то
тест хороший и может быть использован при найме на работу.
7.2 Классическое определение регрессии
Понятие регрессии результирующего показателя
переменным 
f(X),
(1)
,...,
( p)
описывающая

по объясняющим
является базовым в регрессионном анализе. Функция
изменение
условного
ycp ( X )  M (    X ) результирующего показателя
среднего
значения
 в зависимости от
изменения заданного значения Х предикторной переменной

называется
функцией регрессии.
7.3 Оптимизационный подход в регрессионном анализе
Точного описания функции регрессии f(X) в статистической практике
никогда не имеется, поэтому ограничиваются поиском подходящих
аппроксимаций ~f ( x ) для f a( X ) , основанных на статистических данных вида
(4.1). Значит необходимо уметь измерять качество предполагаемой
аппроксимации искомой функции регрессии f(X) с помощью ~f ( x ) . Для этого в
теории и практике статистического исследования зависимостей используют
функции  -регрессии, являющиеся наилучшими прогностическими моделями
48
для
анализируемого
результирующего
( X )
показателя
в
смысле
~
минимизации заданного критерия адекватности ( f ) .
1. Пусть  (u ) - неотрицательная монотонно неубывающая функция
потерь, измеряющая неточность восстановления  ( X )  { \   X } с
помощью ~f ( x ) , u= ( X ) - ~f ( x ) .
2. Введем критерий адекватности модели f a( X ) и ~f ( x ) , используемых для
восстановления
 ( X ) : ( f a )  M {( X )  f a( X ) } - усреднение по
всем возможным значениям ошибки при каждом фиксированном X.
Его выборочный аналог:  N ( ~f )  1
N
~
 {( X i )  f ( X i ) } - усреднение
N
i 1
по имеющимся наблюдениям.
3. Зададимся классом допустимых решений F, в рамках которого будем
вести поиск наилучшей в смысле критерия  (или  N ) аппроксимации
~
fa ( f )
для
 ( X ) . Если при этом F  F  { ~f ( X , ) }
некоторое
параметрическое семейство функций, то задача подбора ~f ( x ) сводится к
определению  , для которого некоторая характеристика точности
восстановления является наилучшей.
4. Будем называть функцию
~
f ( X ) функцией  -регрессии,
если она
дает прогноз для условных значений результирующего показателя
( X ) ,
являющегося наилучшим в смысле критерия адекватности 
~
~
f ( X )  arg min ( f )
(7.1)
1 i  N
В практике статистического исследования зависимостей чаще всего
используют функции потерь  (u ) следующего вида:
1  (u ) = u . Получаемая с помощью (7.1) регрессия называется
среднеквадратической, а метод, реализующий минимизацию функционала
2
~
 N ( f ) - методом наименьших квадратов.
2  (u ) = u . Получаемая с помощью
(7.1)
среднеабсолютной
реализующий
функционала
(медианной),
а
метод,
регрессия
~
 N ( f ) - методом наименьших модулей.
49
называется
минимизацию

 (u ) = u ,  .
Минимизация
~
N ( f )
сводится к
~
min max yi  f ( X i ) , поэтому регрессия называется минимаксной.
3
поиску
f F 1 i  N
Таким образом, наиболее распространенными случаями  -регрессии
являются среднеквадратическая, медианная и минимаксная регрессии.
Соотношение истинной f(X), теоретической аппроксимирующей f a( X ) и
выборочной аппроксимирующей регрессий ~f ( x ) существенно зависит от
выбора критерия адекватности (определяемого природой регрессионных
остатков  ) и класса допустимых решений F. В частности, даже при удачном
выборе критерия адекватности в ситуациях, когда истинная функция регрессии
f(X) не накрывается классом допустимых решений F, выборочная
аппроксимирующая функция регрессии не будет стремиться к истинной при
неограниченном росте объема выборки.
7.4 Рекомендации по выбору вида регрессии
Удачность статистического исследования зависимостей зависит от того,
насколько верно выбран класс F, в котором будет осуществлен поиск ~f ( x ) .
Стандартных рекомендаций и методов для этого нет, но есть некоторые
моменты, которые необходимо учитывать при выборе общего вида регрессии:
максимальное использование априорной информации о содержательной
(физической, экономической, социологической) сущности анализируемой
зависимости; предварительный анализ геометрической структуры данных вида
{(xi, yi)}, по которым конструируется зависимость; различные статистические
приемы обработки данных, улучшающие выбор одного из нескольких
вариантов.
Использование априорной информации. Необходимо продумать: будет
ли f(x) монотонна, или она должна иметь один экстремум; следует ли ожидать,
что f(x) стремится к константе (при x   ) и какова ее содержательная
интерпретация; какова природа воздействия объясняющих переменных на y:
аддитивная или мультипликативная; не диктует ли смысл зависимости
прохождение через определенные точки.
Поясним на примере, как могут использоваться профессиональнотеоретические соображения при выборе вида зависимости.
Например, в процессе изучения зависимости тормозного пути от скорости
автомобиля x в момент получения сигнала об остановке можно заметить, что
для автомобиля и водителя тормозной путь определяется: скоростью x ,
временем реакции водителя 1 , а также тормозами автомобиля. Автомобиль
успеет пройти путь: 1 x до момента включения тормозов и после включения
тормозов (согласно элементарным физическим законам) - расстояние,
50
пропорциональное квадрату скорости, т.е. y= 1 x+  2 x2. Используя
выборочные данные, с помощью метода наименьших квадратов можно
получить, что y=0.76x+0.056x2.
Анализ геометрической структуры. При предварительном анализе
характера исследуемых зависимостей изучают геометрию парных
корреляционных полей. Под корреляционным полем понимают графическое
представление имеющихся измерений (u1,v1),..., (uN,vN) этих переменных в
плоскости (u,v). Для всевозможных пар (xj,xk) из (x(1),..., x(p),у) строятся
корреляционные поля. Визуально анализируется характер вытянутости
(эллипсоидально-линейный, нелинейно-монотонный, с экстремумом). В
результате анализа получают формулировку нескольких рабочих гипотез об
общем виде искомой зависимости.
Отметим одну простую закономерность при выборе общего вида
исследуемой регрессионной зависимости, Если общий параметрический вид
зависимости f(x,  ) угадан правильно, то результаты оценивания  по
различным подвыборкам мало отличаются, а при неудачном выборе - сильно
отличаются.
Тема 8 Линейный регрессионный анализ
8.1 Простая линейная регрессия.
8.2 Множественная линейная регрессия.
8.3 Проверка гипотез.
8.4 Доверительные интервалы.
8.1 Простая линейная регрессия
Если предполагается линейная зависимость
теоретическая модель задается уравнением
yi   0   1x i  ei , i  1, N ,
между
x и y , то
(8.1)
и называется моделью простой линейной регрессии y по x . Величины  0
и 1 являются неизвестными параметрами, а e 0 , e1,..., eN суть
некоррелированные ошибки случайной переменной со средним 0 и
2
неизвестной дисперсией  , т.е.
E (ei )  0 , V (ei )   2 , i  1, N
Наилучшие оценки b 0 и b 1 по выборке объема N для  0 и 1 получаются
минимизацией соответственно по  0 и 1 суммы квадратов отклонений
N
S 2  ( y i  0  1 x i ) 2
i 1
51
Эти оценки называются оценками наименьших квадратов и даются
формулами
b0  y  b1x ,
N
N
 ( xi  x ) yi  ( xi  x )( yi  y )
b1  i N1
 ( xi  x ) 2
i 1
 i 1
N
 ( xi  x ) 2
i 1
(8.2)
.
Заметим, что S есть мера ошибки, возникающей при аппроксимации
зависимости выборочных значений (x,y) с помощью прямой. Оценки b 0 и b 1
минимизируют ошибку.
Оценкой уравнения (8.1) регрессии (или прямой наименьших квадратов)
будет
yˆ  b0  b1 x,
(8.3)
y при x  x i есть yˆ i  b0  b1 xi . Разница между
наблюдаемым и оцененным значением y при x = x называется отклонением
i
так что оценка значения
(или остатком)
d i  yi  yˆ i .
Рисунок 8.1- Соотношение между теоретической регрессионной прямой,
прямой наименьших квадратов и точками выборки.
Прямая наименьших квадратов доставляет минимум сумме квадратов
N
отклонений S  d 2 . Соотношение между теоретической регрессионной

i 1
i
прямой, прямой наименьших квадратов и точками выборки можно увидеть
на рисунке 8.1.
Оценка b 1 обычно называется коэффициентом регрессии, а оценка b 0 свободным членом уравнения регрессии.
52
8.2 Доверительные интервалы и проверка гипотез
 , сначала необходимо
Чтобы сделать статистические выводы о  0 , 1 и y
оценить дисперсию  , а затем описать распределение ошибки случайной
переменной e , i = 1, N . Согласно теории общей линейной модели, обычная
2
i
несмещенная оценка для
2 определяется через дисперсию оценки
N
 ( yi  b0  b1 xi ) 2
i
s  1
.
N 2
(8.4)
2
Положительный квадратный корень из этой величины называют
стандартной ошибкой оценки. Дисперсию оценки можно также найти из
таблицы дисперсионного анализа, которая во многих пакетах статистических
2
программ выводится на печать. Величина  идентична MSR - среднему
квадрату отклонения (остатка) от регрессии.
Таблица 8.1 - Таблица дисперсионного анализа для простой линейной
регрессии
Источник
дисперсии
Регрессия
Отклонение
от регрессии
Полная
Сумма квадратов
SS D 
N
 ( yˆ
i 1
SS R 
SS T 
i
 y) 2
Степеней
свободы
Средний квадрат
D  1
MS D  SS D
R  N  2
MS R  s2 
N
 ( yi  yˆ
i 1
N
 ( yi  y )
i 1
2
i
)2
F-отношение
F0 
SS R
M SD
M SR
R
T  N 1
Остаточная сумма квадратов SSR и остаточное число степеней свободы
R являются соответственно числителем и знаменателем в формуле (8.4).
Обусловленная регрессией сумма квадратов SSD получила такое название
потому, что ее можно записать как функцию оцененного коэффициента
регрессии b 1 , а именно
N
SS D  b1  ( xi  x ) 2 .
i 1
Итак, чем больше коэффициент регрессии, тем больше сумма квадратов,
"обусловленная регрессией". Последняя колонка, F-отношение, может быть
использована для проверки гипотез, если ошибки e 0 , e1,..., eN предполагаются
нормально распределенными.
53
Для проверки гипотезы о том, что простая линейная регрессия y по x
отсутствует (т.е. гипотезы H 0:1  0 против альтернативы H1:1  0 ) мы
используем F-отношение из таблицы дисперсионного анализа
F 0  MS D MS R  MS D s2
Если верна гипотеза H 0 , то F 0 имеет F-распределение с D  1 и
R  N  2 степенями свободы. P-значение есть площадь области под кривой
плотности распределения F (D, R ) справа от F 0 . Мы отвергаем H 0 , если P
меньше, чем уровень значимости  . Если H 0 принимается, то наилучшей
оценкой y при любом x будет среднее значение y .
Если ошибки предполагаются
нормальными, можно проверить
дополнительные гипотезы и построить доверительные интервалы. Для
( 0)
( 0)
проверки H 0: 1  1 , где  1 - константа, используем статистику
t0 
b1   1(0) где
Vˆ (b1) 
Vˆ (b1)
s2
.
N
 ( xi  x )
i 1
2
В выводе программ регрессионного анализа величина
 ( b1) часто
V
называется стандартной ошибкой коэффициента регрессии. Если гипотеза
H 0 верна, то t 0 имеет t-распределение Стьюдента с R  N  2 степенями
свободы. Критическая область определяется в зависимости от вида
альтернативной гипотезы H 1 по таблице t-распределения. Соответственно
100(1-)%-ый доверительный интервал для 1 есть
b1  V̂ ( b1 )t1 / 2 ( N  2 ).
Для проверки гипотезы H 0:  0   0
статистику
N
b   0 ( 0) где
s 2  xi2
t0  0
Vˆ (b0 )
Vˆ (b0 ) 
i 1
N
N  ( xi  x )
i 1
( 0)
, где
 0 ( 0) -константа,
используем
.
2
 ( b 0 ) часто
V
называется стандартной ошибкой свободного члена. Для H 0 статистика
t 0 имеет t-распределение Стьюдента с R  N  2 степенями свободы.
В выводе программ регрессионного анализа величина
Соответствующий 100(1-)%-ый доверительный интервал для
b0  Vˆ (b0 )t1 / 2 ( N  2).
54
0
есть
.
Приведем теперь два доверительных интервала, основанных на оценке y
 в (8.3) интерпретируется как оценка единственного значения
Если y
любом x , то 100(1-)%-ый доверительный интервал для
выражением
1

N
yˆ  s 1 
(x  x) 2
 ( xi  x )
y определяется
(8.5)
t1 / 2 ( N  2).
N
y при
2
i 1
 в (8.3) интерпретируется как оценка среднего
Если, с другой стороны, y
значения
y при заданном x , то 100(1-)%-ый доверительный интервал есть
yˆ  s
1

N
( x  x )2
t1 / 2 ( N  2).
2
(
x

x
)
 i
i 1
Выбор доверительного интервала зависит от того, как используется оценка
y исследователем. Заметим, что, когда x удаляется от x , доверительный
интервал увеличивается, т.е. наша оценка становится менее точной. Кроме
N
N
того, если N и
"быстрым"
 ( xi  x )
2
i 1
доверительным
велики, то выражение (8.5) аппроксимируется
интервалом
yˆ  st1 / 2 ( N  2) .
Поэтому
s
.
действительно можно назвать "стандартной" ошибкой оценки y
8.3 Множественная линейная регрессия
Множественная линейная регрессионная модель имеет вид
y  0  1x ( 1) ... p x ( p)   ,
Задача
(8.6)
множественного линейного регрессионного анализа состоит в
нахождении 0 ,1 ,..., p и дисперсии

случайной ошибки
 2
по данным
выборки (4.1) в предположении, что 1) структура регрессионного уравнения
известна и близка к линейной (8.6); 2) внешний шум (случайная ошибка) 
имеет распределение
N( 0, 2 ) и не коррелирована с независимыми
переменными; 3) ошибки регистрации x 1 ,..., x p малы.
Оценки 0 ,1 ,..., p ищутся с помощью метода наименьших квадратов
путем решения системы линейных уравнений
N
J ( )  ( yi  ( 0  1 x (i 1) ...  p x (i p) ) ) 2 ,
i 1
55
*  arg min J ( )

В уравнении (8.6) некоторые независимые переменные X могут быть
функциями других переменных. Например, y  0  1 sin z1  2 cos z1   есть
x
( 2)
модель
множественной
линейной
регрессии
с
x ( 1)  1 sin z1
и
 2 cos z1 . В частности, если x  x , i  1, p , то получается модель
(i )
i
полиномиальной регрессии
y  0  1x  2 x 2 ... p x p   ,
Линейность здесь подразумевается относительно параметров
но
не
y  0
0 ,1 ,..., p ,
по
отношению
к
независимым
переменным.
Так,
 sin( 1 x 1 )  2 x 2 не является линейной функцией параметров.
Тема 9 Нелинейная, непараметрическая и пошаговая регрессия
9.1 Итерационные методы поиска оценок наименьших квадратов для
параметров регрессии.
9.2 Поиск начального приближения для итерационных процедур.
9.3 Непараметрический подход в регрессионном анализе.
9.4 Пошаговая регрессия.
9.1 Итерационные методы поиска оценок наименьших квадратов для
параметров регрессии
Если на этапе параметризации модели было установлено, что искомая
функция регрессии не задается параметрическим семейством линейных
функций, то линейная модель может рассматриваться в качестве первого
приближения к истинной модели, или иногда искомую модель можно
привести к линейной с помощью преобразования. Однако имеется большое
число ситуаций, для которых линейная модель непригодна (например, когда
зависимость выражается суммой экспоненциальных или тригонометрических
функций), а простое преобразование переменных, приводящее к ней,
отсутствует. В этом случае используется модель нелинейной регрессии.
Любая модель, вид которой не совпадает с уравнением (8.6) называется
моделью нелинейной регрессии
yi  f ( x (i 1) ,..., x (i p) ;1 ,..., m )   i ,i  1,N ,
где
f( )
-
нелинейная функция параметров
некоррелированные ошибки.
Для нелинейной модели (9.1) решение системы
56
(9.1)
  ( 1 ,..., m ) ,
а
i -
8  arg min J( )
(9.2)

уже нельзя представить в явном виде. Поэтому используются итерационные
методы
для
численного
1 ,..., m .
определения
В
математическом
обеспечении практически любой современной ЭВМ имеются многочисленные
стандартные алгоритмы и программы для решения задач нелинейного
программирования (9.2), причем наибольшее распространение получили
итерационные алгоритмы: квазиградиентного типа; градиентного спуска;
метод Ньютона и его модификации.
При вычислительной реализации метода наименьших квадратов в
нелинейном (по оцениваемым параметрам) случае приходится исследовать
вопросы существования и единственности. В лучшем случае описанные
методы оптимизации приводят к локальному минимуму критериальной
функции.
Процесс последовательного приближения останавливается, если различие
в двух соседних приближениях становится пренебрежимым, т.е.
(  is1   is ) /  is   ,i  1, p
для некоторого заранее заданного малого  или при стабилизации остаточной
суммы квадратов.
Для поиска численного приближения оценок наименьших квадратов
параметров нелинейной регрессии с помощью итерационных алгоритмов
необходимо задать начальные значения параметров
1 ,..., m ,
а также
верхние и нижние границы их значений.
Дадим краткую характеристику основных итерационных алгоритмов.
Итерационные алгоритмы позволяют на каждой следующей итерации
((s+1)-й) получать приближенные значения
s1
искомых оценок параметров,
лежащие «ближе» к истинному решению соответствующей оптимизационной
задачи, чем значения предыдущей итерации
где s- номер итерации;
ой итерации;
s ,
т.е.
s1  s  s   s ,
 s - вектор, определяющий направление движения на s-
 s - длина шага.
Если движение осуществляется в направлении под острым углом к
антиградиепнту оптимизируемой функции, то алгоритм относится к классу
алгоритмов квазиградиентного типа.
Если
движение
в
итерационной
процедуре
осуществляется
непосредственно в направлении антиградинта, то процедуру относят к
алгоритмам градиентного спуска. Подобные алгоритмы обеспечивают (при
определенных ограничениях на минимизируемую функцию) сходимость
57
последовательности
s
со скоростью сходимости геометрической прогрессии
(линейная сходимость). Из-за того, что реальная скорость сходимости таких
алгоритмов резко снижается при приближении
s
к предельному значению
* , градиентный спуск целесообразно применять лишь на начальных этапах
минимизации, используя найденные в результате сравнительно небольшого
числа итераций величины
s
в качестве начальных приближений для более
сложных методов обладающих большей скоростью сходимости.
В методе Ньютона значения неизвестных параметров на каждой
следующей итерации
полинома,
s1
находятся из условия минимума квадратичного
аппроксимирующего
исходную
критериальную
функцию
в
окрестности точки  s . При этом соответствующая процедура будет менее
чувствительна к выбору начального приближения (в частности, будет менее
подвержена эффекту «раскачки» при его неудачном выборе), если
использовать ее вариант с регулировкой шага. При определенных условиях
метод Ньютона обеспечивает квадратичную скорость сходимости
последовательности
 s к * .
Используя линейную (по параметрам) аппроксимацию
функции регрессии в окрестности точки
s ,
исследуемой
можно прийти к модификации
метода Ньютона - методу Ньютона-Гаусса. Он существенно проще в
вычислительном плане, однако бывает слишком чувствительным к эффекту
слабой обусловленности используемых в нем матриц.
Первостепенное значение для скорости сходимости используемых
итерационных процедур решения оптимизационной задачи метода
наименьших квадратов имеет удачность выбора начального приближения  0 .
Для реализации этого выбора используется ряд приемов: «поиск на сетке»;
вспомогательное (линеаризующее) преобразование модели; разбиение
имеющейся выборки на подвыборки; разложение регрессионной функции в
ряд Тейлора. Общего правила, пригодного для всех возможных нелинейных
функций { f i } , не существует. Каждый раз приходится искать свое решение.
Рассмотрим некоторые способы нахождения грубых начальных приближений,
которые на практике могут служить отправной точкой поиска
удовлетворительных приближений в конкретной задаче.
9.2 Поиск начального приближения для итерационных процедур
58
Особенно эффективен этот метод при небольшом числе собственно
нелинейных параметров. Часто функции устроены так, что при фиксации
значений одних параметров (которые и называем собственно нелинейными
параметрами) остальная часть параметров становится линейной. Задаваясь
тогда нижней и верхней границей для нелинейных параметров, с некоторым
шагом можно устроить перебор вариантов на полученной сетке значений этих
собственно нелинейных параметров и выявить ту линейную регрессию,
которая приводит к минимальной сумме.
В качестве примера рассмотрим функцию:
( 1)
f ( x i ;)  1  2x i
( 2)
4 x i
 3e
.
Здесь собственно нелинейным параметром будет
что  4  4  4 . Пусть h - шаг для параметра
4 .
 4 . Допустим, известно,
Вычислим K ( 4  4 )/h
линейных регрессий
~
f h ( X i ;)1  2 xi(1)  3 zik ,
где
z ik  exp[(  4  hk ) x i( 2 ) ], k  1, K
и найдем для каждой из них
минимальную сумму квадратов. Наименьшей из них соответствует
оптимальное начальное приближение. В принципе шаг h, от которого зависит
«густота» сетки, может варьироваться, так что за счет уменьшения величины h
значения параметров могут быть найдены с любой точностью.
9.3 Непараметрический подход в регрессионном анализе
На практике не всегда удается найти подходящий аналитический вид
регрессионной зависимости. Использование стандартных классов функций
может привести к заметной систематической ошибке. Для избежания этого
используют методы локального оценивания регрессии (так называемые
непараметрические) или же разбивают область возможных значений на
несколько частей и строят свое аналитическое описание регрессионной
зависимости.
Классический подход в регрессионном анализе опирается на:
предположение о том, что M(y\x) как функция, представима в виде
параметрического семейства f(x,  ) и требование постоянства дисперсии  x
случайной ошибки. Если эти допущения нарушаются, то меньшее смещение
при оценивании f(x) дает непараметрический подход, в котором первое
предположение заменяется на более слабое: f(x) - непрерывная и гладкая
2
функция; а второе - на требование о непрерывности
59
 2x .
~
Простейшая непараметрическая оценка f ( x ) строится в окрестности
точки x0 при предположении, что f(x) в окрестности точки x0 постоянна. При
построении оценки f(x0) используется не вся выборка, а только ее часть:
совокупность пар (xi,yi), для которых xi  O(x0):
~
f (x 0 ) 

yi
x i()( x 0 )
/
1
x i()( x 0 )
или ее обобщенный вариант:
~
f (x 0 ) 
где
 (x, x 0 )y i /  (x, x 0 )
x i()( x 0 )
x i()( x 0 )
( x, x 0 )  ( x  x 0 / b ) ,
b - параметр масштаба, задающий окрестность O(x0);
( u ) - функция, стремящаяся к 0 при бесконечно больших значениях

аргумента. Например,
 ( u ) =exp(-u /2),  ( u ) =1/(1+ u ).
2
2
9.4 Пошаговая регрессия
Во многих случаях применения регрессионного анализа экспериментатор
не имеет достаточной информации о порядке независимых переменных x(1),...,
x(p) по их важности для предсказания независимой переменной Y. Проверка
гипотезы H0: i=0 для переменной x(i), i=1,..., p, также не дает такой
информации.
Поскольку статистикой, измеряющей эффективность набора независимых
переменных как предикторов, служит множественный коэффициент
корреляции, одно из решений упомянутой выше проблемы сводится к
регрессии Y по всем возможным подмножествам независимых переменных и
выбору наилучшего подмножества согласно следующей процедуре.
Среди всех подмножеств переменных размерности k, k = 1,..., p,
выбирается подмножество Sk, которому соответствует наибольшее значение
множественного коэффициента корреляции. Для подмножества S1 проверяется
гипотеза о том, что добавление оставшихся p-1 переменных не улучшает
предсказание Y. Если эта гипотеза отвергается, то проверяется аналогичная
гипотеза о том, что добавление в подмножество S2 оставшихся р-2 переменных
не улучшает предсказание Y. Такая проверка последовательно применяется до
тех пор, пока для некоторого подмножества Sm , 1  m  p, не принимается
гипотеза об отсутствии улучшения предсказания Y при добавлении p-m
оставшихся
переменных.
Подмножество
Sm
является
наилучшим
подмножеством переменных для предсказания Y, поскольку: a) ему
соответствует наибольшее значение коэффициента множественной корреляции
60
среди всех подмножеств размерности m; б) добавление оставшихся p-m
переменных не улучшает значимо предсказание Y.
Если число независимых переменных велико, такой подход для
определения наилучшего подмножества практически бесполезен даже при
применении компьютеров нового поколения. Когда число переменных равно p,
имеется 2p-1 регрессионных уравнений.
Одним из решений является пошаговая регрессия (прямая), когда
независимые переменные одна за другой включаются в подмножество
согласно предварительно заданному критерию. В то же время некоторая
переменная может быть заменена другой переменной, не входящей в набор,
либо удалена из него. Совокупность критериев, определяющих, какие
переменные включать, заменять и удалять, называется пошаговой процедурой.
С помощью пошаговой процедуры получается упорядоченный список
предикторов. Например, если p=5, такой список может иметь вид X2, X5, X1, X4
и X3. Для определения «наилучшего» подмножества из этого списка
выбираются m  p первых переменных так, чтобы они возможно лучше
предсказывали Y и их число m было по возможности меньше.
61
Литература
1 Айвазян, С.А.. Прикладная статистика: Классификация и снижение
размерности / С.А. Айвазян, В.М. Бухштабер, И.С. Енюков. – М.: Финансы и
статистика. 1989. – 605с.
2 Айвазян, С.А. Прикладная статистика: основы моделирования и
первичная обработка данных / С.А. Айвазян, И.С. Енюков, Л.Д. Мешалкин. –
М.: Финансы и статистика. 1983. – 472c.
3 Айвазян, С.А. Прикладная статистика: исследование зависимостей / С.А
Айвазян, И.С. Енюков, Л.Д. Мешалкин. – М.: Финансы и статистика. 1985. –
488с.
4 Афифи, А. Статистический анализ. Подход с использованием ЭВМ /
А.Афифи, С.-Эйзен.-М.: Мир.1982. -405с.
5 Мандель, И.Д. Кластерный анализ / И.Д. Мандель. – М.: Финансы и
статистика, 1988. – 172с.
6 Мелник, М. Основы прикладной статистики / М. Мелник. – М.:
Энергоатомиздат. 1983. – 416 с.
7 Налимов, В.В. Теория эксперимента / В.В. Налимов – М.: Наука, 1971. –
207 с.
8 Налимов,
В.В.
Статистические
методы
планирования
экспериментальных экспериментов / В.В. Налимов, Н.А. Чернова – М.: Наука,
1965. – 340 с.
9 Новые идеи в планировании эксперимента./ Под ред. В.В. Налимова. –
М.: Наука, 1969. – 334 с.
10 Пособие для лабораторных занятий по спецкурсу «Обработка
экспериментальных данных на ЭВМ» (для специальностей Н.01.01 и Н.01.08) /
И.В. Максимей, Н.Б. Осипенко, А.Н. Осипенко. – Гомель: ГГУ им.Ф.Скорины,
1999. – 54с.
11 Применение математических методов и ЭВМ. Планирование и
обработка результатов эксперимента. – Мн.: Вышэйшя школа, 1989. – 218 с.
12 Справочное пособие по первичной статистической обработке и
исследованию зависимостей (для специальностей Н.01.01 и Н.01.08) / Н.Б.
Осипенко, А.Н. Осипенко. – Гомель: ГГУ им.Ф.Скорины, 2000. – 85с.
62
Учебное издание
ОСИПЕНКО Наталья Борисовна
Планирование эксперимента и
обработка экспериментальных данных
ТЕКСТЫ ЛЕКЦИЙ
1-31 03 01 - 02 - «Математика (научно-педагогическая деятельность»
Подписано в печать
(104). Формат 60 х 84 1/16.
Бумага писчая №1. Гарнитура «Таймс». Усл.печ.л. . Уч.-изд.л. .
Тираж 25 экз.
Учреждение образования
«Гомельский государственный университет
имени Франциска Скорины»
246019, г. Гомель, ул. Советская, 104.
63
Download