Тема 5. Математико-статистические методы изучения связей.

реклама
ПЛАН-КОНСПЕКТ. ТЕМА 5.
МАТЕМАТИКО-СТАТИСТИЧЕСКИЕ МЕТОДЫ ИЗУЧЕНИЯ СВЯЗЕЙ
Вопросы:
1. Сущность математико-статистических методов изучения связей
2. Корреляционный анализ
3. Регрессионный анализ
4. Кластерный анализ
5. Дисперсионный анализ
Вопрос 1. Сущность математико-статистических методов изучения связей
 Математико-статистические методы, называемые иначе стохастическим моделированием,
являются в определенной степени дополнением и углублением детерминированного
анализа. В АХД стохастические модели используются, когда необходимо:
 оценить влияние факторов, по которым нельзя построить жестко детерминированную
модель;
 изучить и сравнить влияние факторов, которые невозможно включить в одну и ту же
детерминированную модель;
 выделить и оценить влияние сложных факторов, которые не могут быть выражены
одним определенным количественным показателем.
 В отличие от детерминистского, стохастический подход для своей реализации требует
выполнения ряда предпосылок:
 наличие достаточно большой совокупности объектов;
 необходим достаточный объем наблюдений.
 Поскольку стохастическая модель – это, как правило, уравнение регрессии, при ее
построении должны выполняться следующие условия:
 случайность наблюдений;
 наличие однородности совокупности, как качественной, так и количественной
(показателем количественной однородности совокупности данных является
коэффициент вариации);
 наличие специального математического аппарата (например, инструменты анализа
автокорреляций1 для анализа рядов динамики).
 Основная сфера приложения стохастических моделей – это проблемно-ориентированный и
тематический анализ.
 Стохастическое моделирование предназначено для решения трех основных задач:
 установление самого факта наличия (или отсутствия) статистически значимой связи
между изучаемыми признаками;
 прогнозирование неизвестных значений результативных показателей по заданным
значениям факторных признаков (задачи экстраполяции2 и интерполяции3);
 выявление причинных связей между изучаемыми показателями, измерение их тесноты и
сравнительный анализ степени влияния.
 Проведение стохастического моделирования – сложный процесс, состоящий из нескольких
этапов, на каждом их которых выполняются определенные процедуры.
1
Автокорреляция (последовательная корреляция) – корреляция между наблюдаемыми показателями,
упорядоченными во времени или пространстве. Причины появления автокорреляции: неправильный выбор связи,
инерция экономических процессов, сглаживание данных. Последствия: неэффективность оценок, возможны
неверные выводы по статистике Фишера и Стьюдента.
2
Экстраполяция – определение будущих, ожидаемых значений экономических величин, показателей на основе
имеющихся данных об их изменении в прошлые периоды; перенесение прошлого на будущее, исходя из
выявленных в прошлом тенденций изменения. Математически экстраполяция сводится к продолжению кривой,
характеризующей предыдущее изменение экономического показателя.
3
Интерполяция – приближенное определение неизвестной величины, находящейся между известными величинами
на основе значений этих величин
1
Этап 1 – качественный анализ. Он включает:
 постановку цели анализа;
 определение совокупности включаемых в анализ данных;
 определение результативных признаков;
 определение факторных признаков;
 выбор периода анализа;
 выбор метода анализа.
Этап 2 – предварительный анализ моделируемой совокупности, что подразумевает:
 проверку однородности совокупности;
 исключение аномальных наблюдений;
 уточнение необходимого объема выборки;
 установление законов распределения изучаемых переменных.
Этап 3 – построение регрессионной модели экономического объекта, которое включает:
 перебор конкурирующих вариантов моделей;
 уточнение перечня факторов, включаемых в модель;
 расчет оценок параметров уравнений регрессии.
Этап 4 – оценка адекватности модели, которая заключается в следующем:
 проверка статистической значимости уравнения в целом и его отдельных параметров;
 проверка соответствия формальных свойств полученных оценок задачам исследования.
Этап 5 – экономическая интерпретация и практическое использование модели. Под этим
понимается:
 определение пространственно-временной устойчивости зависимостей;
 оценка прогностических свойств моделей.
 Рассмотрим некоторые аспекты осуществления процедур стохастического анализа.
(1) для анализа следует брать всю имеющуюся совокупность данных. Если она слишком
велика, следует внимательно отнестись к составлению выборки из этой совокупности.
Выборка должна быть типичной для данного круга явлений. В противном случае анализ не
будет иметь смысла, поскольку его результаты не позволят делать значимые выводы для
всей совокупности;
(2) в качестве результативных признаков берут либо показатели эффекта (выручка,
товарооборот, объем реализации), либо показатели эффективности (рентабельность,
оборачиваемость и т.п.). Отметим, что в анализе более предпочтительным является
использование относительных показателей;
(3) в качестве факторных признаков следует брать показатели, комплексно характеризующие
изучаемое явление. При этом также лучше ориентироваться на относительные показатели;
(4) существует два подхода к анализу явлений: статический и динамический. Статический
подход встречается чаще, поскольку проведение его проще и не требует использования
сложных математических методик. Динамический анализ (анализ рядов данных во
времени) нередко предполагает рассмотрение автокорреляционных зависимостей, что
требует от аналитика владения сложным эконометрическим инструментарием;
(5) предварительная обработка рядов данных начинается с установления законов
распределения: распределение данных должно быть близко к нормальному. В условиях
малых данных проверка нормальности распределений признаков проводится путем
сравнения эмпирических коэффициентов асимметрии и эксцесса (их аналитические
выражения приведенные в Теме 5) с их средними квадратическими ошибками (As и Ex,
соответственно). Нормальность распределения подтверждается, если выполнены
неравенства:
и
;
(6) проверка однородности сводится к проверке соотношения Var33 %, где Var –
коэффициент вариации. Если совокупность неоднородна, следует исключить из нее самые
«аномальные» наблюдения, поскольку они, скорее всего, нетипичны для данного
исследования. Для устранения аномальных наблюдений используется правило «трех
сигм»: наблюдение признается аномальным и отбрасывается, если его отклонение от
2
выборочной средней
более чем в 3 раза превышает среднеквадратическое
отклонение выборки . Безусловно, любые операции с исходной совокупностью, в том
числе и связанные с изменением ее объема, должны быть обоснованными и поясняемыми;
(7) уточнение перечня факторов может осуществляться, например, путем расчета матрицы
парных коэффициентов корреляции. Факторы xi и xj включаются в модель вида y = f(x1,
x2,…,xn) одновременно, если:
и
. Перебор конкурирующих
вариантов моделей, как правило, осуществляется с использованием компьютера;
(8) проверка устойчивости модели осуществляется расчетом ее параметров на усеченной или
расширенной совокупности, а также по той же совокупности, но в другом временном
интервале.
Вопрос 2. Корреляционный анализ
 Корреляционный анализ – метод установления связи и измерения ее тесноты между
наблюдениями, которые можно считать случайными и выбранными из совокупности,
распределенной по многомерному нормальному закону.
 Корреляционной связью называется такая статистическая связь, при которой различным
значениям одной переменной соответствуют разные средние значения другой. Основной
особенностью корреляционного анализа следует признать то, что он устанавливает лишь
факт наличия связи и степени ее тесноты, не вскрывая причин.
 В статистике теснота связи может определяться с помощью различных коэффициентов
(Фехнера, Пирсона, коэффициента ассоциации и т.д.), а в АХД чаще используется линейный
коэффициент корреляции между факторами x и y:
Значения коэффициента корреляции изменяются в интервале [-1; +1].
Значение r= –1 свидетельствует о наличии жестко детерминированной обратно
пропорциональной связи между факторами;
r=+1 соответствует жестко детерминированной связи с прямо пропорциональной
зависимостью факторов.
Другие значения коэффициента корреляции свидетельствуют о наличии стохастической
связи, причем, чем ближе
к единице, тем связь теснее. При
, связь можно считать
слабой; при
- связь средней тесноты;
- тесная. Существуют и более
дробные градации (например, таблица Чэддока).
 Практическая реализация корреляционного анализа включает следующие этапы:
1) постановка задачи и выбор признаков;
2) сбор информации и ее первичная обработка (группировки, исключение аномальных
наблюдений, проверка нормальности одномерного распределения);
3) предварительная характеристика взаимосвязей (аналитические группировки, графики);
4) устранение мультиколлинеарности (взаимозависимости факторов) и уточнение набора
показателей путем расчета парных коэффициентов корреляции;
5) исследование факторной зависимости и проверка ее значимости;
6) оценка результатов анализа и подготовка рекомендаций по их практическому
использованию.
Вопрос 2. Регрессионный анализ
 Регрессионный анализ – метод установления аналитического выражения стохастической
зависимости между исследуемыми признаками.
3

Уравнение регрессии показывает, как в среднем изменяется y при изменении любого из xi, и
имеет вид: y=f(x1, x2,…,xn), где y – зависимая переменная (всегда одна); xi – независимые
переменные (факторы) (их может быть несколько). Если независимая переменная одна –
это простой регрессионный анализ; если же их несколько (n2) – многофакторный.
 В ходе регрессионного анализа решаются две основные задачи:
 построение уравнения регрессии, т.е. нахождение вида зависимости между результатным
показателем и независимыми факторами x1, x2,…, xn;
 оценка значимости полученного уравнения, т.е. определение того, насколько выбранные
факторные признаки объясняют вариацию признака y.
 Применяется регрессионный анализ главным образом для планирования, а также для
разработки нормативной базы.
 В отличие от корреляционного анализа, который только отвечает на вопрос, существует ли
связь между анализируемыми признаками, регрессионный анализ дает и ее
формализованное выражение. Кроме того, если корреляционный анализ изучает любую
взаимосвязь факторов, то регрессионный – одностороннюю зависимость, т.е. связь,
показывающую, каким образом изменение факторных признаков влияет на признак
результативный.
Задача на использование методов корреляционного и регрессионного анализа:
Наибольшим спросом в торговых точках города, реализующих молочную продукцию,
пользуется молоко «Лето», выпускаемое в пакетах объемом 1 л. Цены за единицу этого товара в
разных торговых точках варьируют. Известно, что реализация этого продукта вносит
существенный вклад в общую выручку торговых точек. Возможно, она влияет и на величину
прибыли предприятий торговли. Так ли это – установите с помощью анализа.
Табл.1 – Показатели деятельности торговых предприятий, реализующих молоко «Лето», за II кв. 1999 г.
Показатель
Цена за 1 л,
руб.
Реализация,
тыс.л.
Прибыль,
тыс.руб.
Торговые точки
7
8
9
1
2
3
4
5
6
10
11
12
13
14
15
x
12
12,1
12,5
12,6
12,2
12,2
12,5
12,3
12,5
12,1
12,5
12,3
12,2
12,0
12,2
y
12,8
12,11
11,02
10,31
11,52
12,8
12,08
11,48
11,27
13,31
10,78
11,16
12,04
13,21
11,8
z
81
48
56
6
25
121
67
12
8
54
70
18
26
50
98
Табл.2 – Описательная статистика реализации молока «Лето» торговыми точками
Показатель
Среднее
СКО
Вариация
Асимметрия
Цена за 1 л, руб.
Реализация, тыс.л.
Прибыль, тыс.руб.
Эксцесс
x
y
z
4
Вопрос 3. Кластерный анализ
 Кластерный анализ – один из методов многомерного анализа, предназначенный для
группировки (кластеризации) совокупности, элементы которой характеризуются многими
признаками.
Так же как и процедура регрессионного анализа, процедура кластеризации достаточно
трудоемка, ее целесообразно выполнять на компьютере.
Вопрос 4. Дисперсионный анализ
 Дисперсионный анализ – это статистический метод, позволяющий подтвердить или
опровергнуть гипотезу о том, что две выборки данных относятся к одной генеральной
совокупности. Применительно к анализу деятельности предприятия можно сказать, что
дисперсионный анализ позволяет определить, к одной и той же совокупности данных или
нет относятся группы разных наблюдений.
 Дисперсионный анализ часто используется совместно с методами группировки. Задача его
проведения в этих случаях состоит в оценке существенности различий между группами.
Для этого определяют групповые дисперсии 12 и 22, а затем по статистическим критериям
Стьюдента или Фишера проверяют значимость различий между группами.
5
Скачать