СТАТИСТИЧЕСКИЕ ДАННЫЕ Очень часто

advertisement
СТАТИСТИЧЕСКИЕ ДАННЫЕ
Очень часто требуется сделать какие-то заключения относительно некоторой совокупности
индивидов или предметов в целом, либо исследовать природные или общественные явления как
случайные процессы. Так, например, нас может интересовать, каков средний рост 17-летних
юношей в Эстонии, как распределяются жители страны по цвету их глаз, в котором из
параллельных классов экзаменационная работа по математике прошла успешнее, какая партия
имеет больше шансов победить на предстоящих выборах, как распределяются цветки сирени по
числу лепестков в одном цветке и т.п.
Ответы на подобные вопросы находят при помощи методов одного из разделов математики —
математической статистики.
Исследуемое множество однородных предметов, индивидов или явлений, относительно которого
требуется сделать какие-либо научные или практические выводы, называется статистической
совокупностью, или генеральной совокупностью. Число элементов этого множества называют
объемом совокупности. В приведенных выше примерах статистической совокупностью являются
множество всех 17-летних юношей Эстонии, множество всех жителей страны, множество всех
экзаменационных работ, выполненных в параллельных классах, результаты предстоящих выборов,
множество цветков сирени. Отметим сразу же, что полное исследование статистической
совокупности большого объема обычно практически невозможно или неэкономично. В таких
случаях из статистической совокупности делают выборку, т.е. выбирают некоторым случайным
образом только некоторые ее объекты. Например, прогноз результатов выборов делают на
основании опроса некоторого числа случайно выбранных избирателей. В рассматриваемых
примерах мы будем иметь дело только со статистическими совокупностями небольшого объема.
Статистическая совокупность изучается с точки зрения некоторого свойства, характеризующего
ее элементы, которое называется признаком. Таким признаком может быть, например, рост, вес,
цвет глаз, оценка по математике, профессия или национальность человека, количество семян в
некотором овоще, число букв в слове. Как следует из приведенного перечня, некоторые признаки
выражаются числом (например, рост или количество семян). Такие признаки называются
количественными, или числовыми, признаками. Другие признаки не имеют непосредственной
числовой характеристики (например, цвет глаз, национальность). Подобные признаки называются
качественными, или нечисловыми, признаками.
Количественные признаки, в свою очередь, разделяются на два вида: на непрерывные и
дискретные. Непрерывный признак характеризуется тем, что его возможными числовыми
значениями являются все действительные числа из некоторого числового промежутка. Такими
признаками являются, например, рост или вес человека, температура и т.д. Дискретным
признаком называется признак, которому присущи только некоторые отдельные значения, не
заполняющие никакого числового промежутка. Этими значениями обычно являются целые числа.
Дискретными признаками являются, например, количество семян в овоще, число букв в слове или
страниц в книге.
Изучение объектов статистической совокупности дает в результате множество наблюдаемых
значений рассматриваемого признака, которые образуют так называемый статистический ряд:
a1, a2, a3, ... , aN
Каждое отдельное число или значение из этого ряда называется членом, или вариантой
статистического ряда. Поскольку такой ряд дает, в общем, плохое представление о распределении
значений признака (данные обычно располагаются в том порядке, в каком они получены), то его
следует привести в систему. Для этого все члены записывают либо в порядке возрастания, либо в
порядке убывания, причем равные значения записывают подряд. В результате получается так
называемый вариационный ряд.
Пример. Результаты контрольной работы в одном классе можно представить в виде следующего
вариационного ряда:
2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5.
В данном случае легко найти наименьшее значение (х min = 2) и наибольшее значение оценки
(хmax=5), однако в случае сколько-нибудь обширной статистической совокупности такое
представление полученных данных является весьма неудобным.
Целесообразнее представить данные в виде частотной таблицы, в которой каждому значению
оценки соответствует число ее появлений:
Оценка (х)
2
3
4
5
Частота (f)
3
7
10
8
Частотную таблицу записывают либо горизонтально, либо вертикально:
x
x1
x2
...
xn
x
f
f
f1
f2
...
fn
x1
f1
x2
f2
...
...
xn
fn
При этом объем совокупности (число N значений признака) N  f1  f 2  f3  ...  f n .
Чтобы сравнивать статистические совокупности разных объемов, целесообразно вместо частот
рассматривать относительные частоты. Относительная частота – это отношение частоты к
общему числу наблюдений.
Относительная частота определяется равенством: w 
f
N
или w 
f
100%
N
Таблица, в которой наблюдаемым значениям признака соответствуют относительные частоты их
проявления, называется таблицей статистического распределения относительных частот или
для краткости таблицей относительных частот.
Такая таблица имеет следующий вид:
x
x1
x2
x3
...
xn
w
w2
w2
w3
...
wn
При этом w1  w2  w3  ...  wn  1, если wi 
fi
,и
N
fi
100% .
N
Если рассматриваемый признак является непрерывным или если дискретный признак имеет очень
w1  w2  w3  ...  wn  100%, если wi 
много значений, то в частотных таблицах представляют не отдельные значения признака, а
некоторые интервалы, или классы, таких значений.
Число классов, или интервалов, на которые разбиваются значения признака (если объем N
совокупности не очень велик) обычно берут близким к
N.
Пример. Вариационный ряд, составленный для роста (см) учеников одного класса, оказался
следующим: 156, 158, 159, 160, 160, 162, 163, 163, 163, 165, 165, 165, 166, 166, 167, 167, 167, 167,
168, 168, 168, 169, 170, 171, 171, 172, 173, 173, 173, 174, 174, 176, 184. Составим частотную таблицу,
в которой значения признака распределены по интервалам.
33  5,7 , то можно образовать 6 или 5 интервалов. Чтобы упростить
вычисления и сделать таблицу нагляднее, образуем такое разбиение, при котором длины
интервалов и их концы (границы классов) являются "круглыми" числами. Нижней границей
первого интервала возьмем число 155, которое меньше минимального роста, а верхней границей
последнего интервала - число 185, которое больше максимального роста. Если образовать 6
интервалов, то длиной одного интервала будет (185 – 155):6 = 30:6 = 5 (см), и мы получим
следующую таблицу:
Интервал (см)
f
w(%)
5
15
155  x  160
Так как N= 33 и
160  x  165
165  x  170
170  x  175
175  x  180
180  x  185
7
11
8
1
1
21
34
24
3
3
ВСЕГО:
33
100
АРИФМЕТИЧЕСКОЕ СРЕДНЕЕ
Арифметическим средним называется отношение суммы всех значений к их количеству.
Если значениями количественного признака являются а1, а2, а3,…, aN, то арифметическое среднее:
a1  a2  a3  ...  aN
.
N
Пример: найти арифметическое среднее температур за неделю, если были получены следующие
x
данные: 23о, 21о, 21о, 20о, 22о, 23о, 20о.
x
23+ 21+ 21+ 20+ 22+ 23+ 20
 21, 4
7
Если статистические данные представлены с помощью частотной таблицы
x
x1
x2
x3
...
xn
f
f1
f2
f3
...
fn
, то
арифметическое среднее вычисляется по формуле
x1 f1  x2 f 2  x3 f3  ...  xn f n
N
Пример: результаты контрольной работы в одном классе представлены в виде частотной таблицы
x
Оценка (х)
2
3
4
5
Частота (f)
3
7
10
8
Найдем арифметическое среднее:
x
2  3+ 3  7+ 4 10+ 5  8
 3,8
28
МЕДИАНА
Медианой называется значение признака, которое делит вариационный ряд на две части, равные
по числу членов (количество чисел меньших либо равных медиане, равно количеству чисел
больших либо равных медиане).
Медиана обозначается Me.
Медианой упорядоченного ряда чисел с нечетным числом членов называется число, записанное
посередине,
медианой упорядоченного ряда чисел с четным числом членов называется число, называется
среднее арифметическое двух чисел, записанных посередине.
Пример: возьмем упорядоченный ряд чисел, например 1, 3, 7, 10, 13 (количество чисел нечетно). Медианой будет являться число 7, т.к. справа и слева от этого числа находится
одинаковое количество чисел (по два числа с каждой стороны)
Возьмем ряд чисел, например 1, 3, 7, 10 (количество чисел - четно). Медианой в данном
случае будет являться число
3 7
5.
2
МОДА
Модой называется наиболее часто встречающееся значение признака (т.е. значение, которое
имеет наибольшую частоту).
Мода обозначается Мо.
Пример1: 3, 5, 4, 3, 3, 4, 5, 3, 5, 4, 3, 5, 4, 4, 5, 3, 3. Мода Мо = 3.
Пример2: пусть дана частотная таблица
Оценка (х)
2
3
4
5
Частота (f)
3
7
10
8
Модой является оценка 4, т.к. встречается больше всего раз (а именно 10 раз).
Download