Статистические методы в инноватике

реклама
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ
ФГБОУ ВПО «Брянский государственный технический университет»
Кафедра «Компьютерные технологии и системы»
Дисциплина «Статистические методы в инноватике»
РЕФЕРАТ
Студент группы 13ИННмг
Попов И.С. ____________
«__» ______________ 2014 г.
Преподаватель
Тищенко А.А. __________
«__» ______________ 2014 г.
Брянск 2014
Содержание:
1.
1.1.
Методы анализа динамики. ................................................................. 3
Ряды динамики и их виды. ............................................................... 3
1.2. Показатели изменений уровней динамических рядов ....................... 4
1.3. Способы обработки динамического ряда ............................................ 5
1.4. Нормальное и пуассоновское распределение. .................................... 6
2.
Методы многомерного статистического анализа ............................. 8
2.1. Многомерный статистический анализ ................................................. 8
2.2. Кластерный анализ................................................................................. 9
2.3. Дисперсионный анализ........................................................................ 10
Список литературы ..................................................................................... 13
2
1. Методы анализа динамики.
1.1.
Ряды динамики и их виды.
Изменение социально-экономических явлений во времени изучается
статистикой методом построения и анализа динамических рядов. Ряды
динамики - это значения статистических показателей, которые представлены
в определенной хронологической последовательности.
Каждый динамический ряд содержит две составляющие:
1) показатели периодов времени (годы, кварталы, месяцы, дни или
даты);
2) показатели, характеризующие исследуемый объект за временные
периоды или на соответствующие даты, которые называют уровнями ряда.
Уровни ряда выражаются как абсолютными, так и средними или
относительными величинами. В зависимости от характера показателей строят
динамические ряды абсолютных, относительных и средних величин. Ряды
динамики из относительных и средних величин строят на основе производных
рядов абсолютных величин. Различают интервальные и моментные ряды
динамики.
Динамический интервальный ряд содержит значения показателей за
определенные периоды времени. В интервальном ряду уровни можно
суммировать, получая объем явления за более длительный период, или так
называемые накопленные итоги.
Динамический моментный ряд отражает значения показателей на
определенный момент времени (дату времени). В моментных рядах
исследователя может интересовать только разность явлений, отражающая
изменение уровня ряда между определенными датами, поскольку сумма
уровней здесь не имеет реального содержания. Накопленные итоги здесь не
рассчитываются.
3
Важнейшим условием правильного построения динамических рядов
является сопоставимость уровней динамических рядов, относящихся к
различным периодам. Уровни должны быть представлены в однородных
величинах, должна иметь место одинаковая полнота охвата различных частей
явления.
Для
того,
статистическом
чтобы
избежать
исследовании
искажения
проводятся
реальной
динамики,
предварительные
в
расчеты
(смыкание рядов динамики), которые предшествуют статистическому анализу
динамических
рядов.
Под
смыканием
рядов
динамики
понимается
объединение в один ряд двух и более рядов, уровни которых рассчитаны по
разной методологии или не соответствуют территориальным границам и т.д.
Смыкание
рядов
динамики
может
предполагать
также
приведение
абсолютных уровней рядов динамики к общему основанию, что нивелирует
несопоставимость уровней рядов динамики.
1.2. Показатели изменений уровней динамических рядов
Для характеристики интенсивности развития во времени используются
статистические показатели, получаемые сравнением уровней между собой, в
результате чего получаем систему абсолютных и относительных показателей
динамики: абсолютный прирост, коэффициент роста, темп роста, темп
прироста,
абсолютное
значение
1%
прироста.
Для
характеристики
интенсивности развития за длительный период рассчитываются средние
показатели: средний уровень ряда, средний абсолютный прирост, средний
коэффициент роста, средний темп роста, средний темп прироста, среднее
абсолютное значение 1% прироста.
4
Если
в
ходе
исследования
необходимо
сравнить
несколько
последовательных уровней, то можно получить или сравнение с постоянной
базой (базисные показатели), или сравнение с переменной базой (цепные
показатели).
Базисные
показатели
характеризуют
итоговый
результат
всех
изменений в уровнях ряда от периода базисного уровня до данного (i-го)
периода.
Цепные показатели характеризуют интенсивность изменения уровня от
одного периода к другому в пределах того промежутка времени, который
исследуется.
Абсолютный прирост выражает абсолютную скорость изменения ряда
динамики и определяется как разность между данным уровнем и уровнем,
принятым за базу сравнения.
1.3. Способы обработки динамического ряда
В ходе обработки динамического ряда важнейшей задачей является
выявление основной тенденции развития явления (тренда) и сглаживание
случайных колебаний. Для решения этой задачи в статистике существуют
особые способы, которые называют методами выравнивания.
Выделяют три основных способа обработки динамического ряда:
а) укрупнение интервалов динамического ряда и расчет средних для
каждого укрупненного интервала;
б) метод скользящей средней;
в) аналитическое выравнивание (выравнивание по аналитическим
формулам).
5
Укрупнение интервалов - наиболее простой способ. Он заключается в
преобразовании первоначальных рядов динамики в более крупные по
продолжительности временных периодов, что позволяет более четко выявить
действие основной тенденции (основных факторов) изменения уровней.
По
интервальным
суммирования
уровней
рядам
итоги
первоначальных
исчисляются
рядов.
Для
путем
других
простого
случаев
расcчитывают средние величины укрупненных рядов (переменная средняя).
Переменная средняя рассчитывается по формулам простой средней
арифметической.
Скользящая средняя - это такая динамическая средняя, которая
последовательно рассчитывается при передвижении на один интервал при
заданной продолжительности периода.
Анализ рядов динамики предполагает и исследование сезонной
неравномерности (сезонных колебаний), под которыми понимают устойчивые
внутригодовые колебания, причиной которых являются многочисленные
факторы, в том числе и природно-климатические. Сезонные колебания
измеряются с помощью индексов сезонности, которые рассчитываются двумя
способами в зависимости от характера динамического развития.
При относительно неизменном годовом уровне явления индекс
сезонности можно рассчитать как процентное отношение средней величины
из фактических уровней одноименных месяцев к общему среднему уровню за
исследуемый период.
1.4. Нормальное и пуассоновское распределение.
Распределение Пуассона
Играет важную роль в ряде вопросов физики, теории связи, теории
надежности, теории массового обслуживания и т.д. Всюду, где в течение
определенного времени может происходить случайное число каких-то
6
событий
(радиоактивных
распадов,
телефонных
вызовов,
отказов
оборудования, несчастный случаях и т.п.).
Рассмотрим наиболее типичную ситуацию, в которой возникает
распределение Пуассона. Пусть некоторые события (покупки в магазине)
могут происходить в случайные моменты времени. Определим число
появлений таких событий в промежутке времени от 0 до Т.
Случайное число событий, происшедших за время от 0 до Т,
распределено по закону Пуассона с параметром l=аТ, где а>0 – параметр
задачи, отражающий среднюю частоту событий. Вероятность k покупок в
течение большого интервала времени, (например, – дня) составит
Нормальное (гауссовское) распределение занимает центральное место в
теории и практике вероятностно-статистических исследований. В качестве
непрерывной аппроксимации к биномиальному распределению его впервые
рассматривал А.Муавр в 1733 г. Через некоторое время нор­мальное
распределение снова открыли и изучили К.Гаусс (1809 г.) и П.Лаплас, которые
пришли к нормальной функции в связи с ра­ботой по теории ошибок
наблюдений.
Непрерывная случайная величина Х называется распределенной по
нормальному закону, если ее плотность распределения равна
7
Вопросы для самоконтроля:
1.
Какие задачи решаются с помощью анализа рядов динамики?
2.
Назовите виды рядов динамики.
3.
С какой целью рассчитывается средний темп прироста?
4.
Что понимается под колебаниями уровней временного ряда?
5.
Назовите способы измерения сезонных колебаний. Как рассчитываются
индексы сезонности?
2. Методы многомерного статистического анализа
2.1. Многомерный статистический анализ
Многомерный
статистический
анализ
применяют
при
решении
следующих задач:
• исследование зависимости между признаками;
• классификация объектов или признаков, заданных векторами;
• снижение размерности пространства признаков.
При этом результат наблюдений – вектор значений фиксированного
числа количественных и иногда качественных признаков, измеренных у
объекта. Напомним, что количественный признак – признак наблюдаемой
единицы, который можно непосредственно выразить числом и единицей
измерения. Количественный признак противопоставляется качественному признаку наблюдаемой единицы, определяемому отнесением к одной из двух
или более условных категорий (если имеется ровно две категории, то признак
называется альтернативным). Статистический анализ качественных признаков
– часть статистики объектов нечисловой природы. Количественные признаки
делятся на признаки, измеренные в шкалах интервалов, отношений, разностей,
абсолютной. А качественные – на признаки, измеренные в шкале
8
наименований и порядковой шкале. Методы обработки данных должны быть
согласованы со шкалами, в которых измерены рассматриваемые признаки
2.2. Кластерный анализ
Кластерный анализ решает задачу построения классификации, то есть
разделения исходного множества объектов на группы (классы, кластеры). При
этом предполагается, что у исследователя нет исходных допущений ни о
составе классов, ни об их отличии друг от друга. Приступая к кластерному
анализу, исследователь располагает лишь информацией о характеристиках
(признаках) для объектов, позволяющей судить о сходстве (различии)
объектов, либо только данными об их попарном сходстве (различии). 13
литературе часто встречаются синонимы кластерного анализа: автоматическая
классификация, таксономический анализ, анализ образов (без обучения).
Несмотря на то, что кластерный анализ известен относительно давно
(впервые изложен Тгуоп в 1939 году), распространение эта группа методов
получила существенно позже, чем другие многомерные методы, такие, как
факторный анализ. Лишь после публикации книги «Начала численной
таксономии» биологами Р. Сокэл и П. Смит в 1963 году начинают появляться
первые исследования с использованием этого метода. Тем не менее, до сих пор
в психологии известны лишь единичные случаи удачного применения
кластерного анализа, несмотря на его исключительную простоту. Вызывает
удивление настойчивость, с которой психологи используют для решения
простой задачи классификации (объектов, признаков) такой сложный метод,
как факторный анализ. Вместе с тем, как будет показано в этой главе,
кластерный анализ не только гораздо проще и нагляднее решает эту задачу, но
и имеет несомненное преимущество: результат его применения не связан с
потерей даже части исходной информации о различиях объектов или
корреляции признаков.
9
Варианты
кластерного
анализа
–
это
множество
простых
вычислительных процедур, используемых для классификации объектов.
Классификация объектов – это группирование их в классы так, чтобы объекты
в каждом классе были более похожи друг на друга, чем на объекты из других
классов. Более точно, кластерный анализ – это процедура упорядочивания
объектов в сравнительно однородные классы на основе попарного сравнения
этих объектов по предварительно определенным и измеренным критериям.
Существует множество вариантов кластерного анализа, но наиболее
широко
используются
иерархический
методы,
кластерный
анализ
объединенные
(Hierarchical
общим
Cluster
названием
Analysis).
В
дальнейшем под кластерным анализом мы будем подразумевать именно эту
группу методов.
2.3. Дисперсионный анализ
Дисперсионный анализ применяют для изучения влияния качественных
признаков на количественную переменную. Например, пусть имеются k
выборок результатов измерений количественного показателя качества единиц
продукции, выпущенных на k станках, т.е. набор чисел (x1(j), x2(j), … , xn(j)),
где j – номер станка, j = 1, 2, …, k, а n – объем выборки. В распространенной
постановке дисперсионного анализа предполагают, что результаты измерений
независимы и в каждой выборке имеют нормальное распределение N(m(j), σ2)
с одной и той же дисперсией. Хорошо разработаны и непараметрические
постановки.
Проверка однородности качества продукции, т.е. отсутствия влияния
номера станка на качество продукции, сводится к проверке гипотезы
H0: m(1) = m(2) = … = m(k).
10
В дисперсионном анализе разработаны методы проверки подобных
гипотез. Теория дисперсионного анализа и расчетные формулы рассмотрены
в специальной литературе.
Гипотезу Н0 проверяют против альтернативной гипотезы Н1, согласно
которой хотя бы одно из указанных равенств не выполнено. Проверка этой
гипотезы основана на следующем «разложении дисперсий», указанном
Р.А.Фишером:
где s2 – выборочная дисперсия в объединенной выборке, т.е.
Далее, s2(j) – выборочная дисперсия в j-ой группе,
Таким образом, первое слагаемое в правой части формулы (7) отражает
внутригрупповую дисперсию. Наконец,
- межгрупповая дисперсия,
Область прикладной статистики, связанную с разложениями дисперсии типа
формулы , называют дисперсионным анализом. В качестве примера задачи
дисперсионного
анализа
рассмотрим
проверку
приведенной
выше
гипотезы Н0 в предположении, что результаты измерений независимы и в
каждой выборке имеют нормальное распределение N(m(j), σ2) с одной и той же
дисперсией. При справедливости Н0 первое слагаемое в правой части формулы
11
, деленное на σ2, имеет распределение хи-квадрат с k(n-1) степенями свободы,
а второе слагаемое, деленное на σ2, также имеет распределение хи-квадрат, но
с (k-1) степенями свободы, причем первое и второе слагаемые независимы как
случайные величины. Поэтому случайная величина
имеет распределение Фишера с (k-1) степенями свободы числителя и k(n-1)
степенями свободы знаменателя. Гипотеза Н0принимается, если F < F1-α, и
отвергается в противном случае, где F1-α – квантиль порядка 1-α распределения
Фишера с указанными числами степеней свободы. Такой выбор критической
области определяется тем, что при Н1 величина F безгранично увеличивается
при росте объема выборок n. Значения F1-α берут из соответствующих таблиц.
Разработаны непараметрические методы решения классических задач
дисперсионного анализа , в частности, проверки гипотезы Н0.
Вопросы для самоконтроля:
1) Где применяется многомерный статистический анализ?
2) Что такое кластерный анализ?
3) Суть дисперсионного анализа.
4) Качественный и количественный признаки объекта.
12
Список литературы
1. Вероятность и математическая статистика: Энциклопедия / Гл. ред.
акад. РАН Ю.В.Прохоров. – М.: Большая Российская энциклопедия, 1999. –
910с.
2. Орлов А.И. Эконометрика. Учебник. 2-е изд. – М.: Экзамен, 2003. 576 с.
3. Рекомендации. Прикладная статистика. Методы обработки данных.
Основные требования и характеристики / Орлов А.И., Фомин В.Н. и др. - М.:
ВНИИСтандартизации, 1987. - 62 с.
4. Колмогоров А.Н. Основные понятия теории вероятностей. – М.-Л.:
ОНТИ, 1936. - 80 с.
5. Колмогоров А.Н. Теория информации и теория алгоритмов. – М.:
Наука, 1987. - 304 с.
6. Гнеденко Б.В. Курс теории вероятностей: Учебник. 7-е изд., исправл.
- М.: Эдиториал УРСС, 2001. - 320 с.
7. Орлов А.И. Устойчивость в социально-экономических моделях. – М.:
Наука, 1979. - 296 с.
8. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1965 (1-е изд.), 1968 (2-е изд.), 1983 (3-е изд.).
13
Скачать