Статистическая обработка экспериментальных данных Лекция №1 Литература: 1. Боровиков В.П., Боровиков И.П. STATISTICA – Статистический анализ и обработка данных в среде Windows. – М.: Информационно - издательский дом «Филинъ», 1997. 2. В. Боровиков. Statistica. Искусство анализа данных на компьютере: для профессионалов. СПб.: Питер,- 2003. 3. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере / Под ред. В.Э. Фигурнова.– М.: ИНФРА-М, Финансы и статистика, 1995. 4. Тарасенко Ф.П. Непараметрическая статистика. – Томск: Издво ТГУ, 1976. 5. Терпугов А.Ф. Математическая статистика (конспект лекций). – Томск: Изд-во ТГУ, 1974. 6. Худсон Д. Статистика для физиков (лекции по теории вероятностей и элементарной статистике), 2-е изд. – М.: Мир, 1970. 7. Холлендер М., Вулф Д. Непараметрические методы статистики. М.: Финансы и статистика, 1983. Генеральная совокупность и выборка Исходным понятием статистики является понятие совокупность, объединяющее обычно какое-либо множество объектов, испытуемых (учащихся) по одному или нескольким интересующим признакам. Главное требование к выделению изучаемой совокупности - это ее качественная однородность, например, по уровню знаний, росту, весу и другим признакам. Члены совокупности могут сравниваться между собой в отношении только того качества, которое становится предметом исследования. При этом обычно абстрагируются от других неинтересующих качеств. Так, если педагога интересует успеваемость учащихся, то он не принимает во внимание, как правило, их рост, вес и другие параметры, не относящиеся непосредственно к изучаемому вопросу. Применение большинства статистических методов основано на идее использования небольшой случайной совокупности испытуемых из общего числа тех, на которых можно было бы распространить (генерализовать) выводы, полученные в результате изучения совокупности. Эта небольшая совокупность в статистике называется выборочной совокупностью (или короче - выборкой). Главный принцип формирования выборки - это случайный отбор испытуемых из мыслимого множества учащихся, называемого генеральной совокупностью или популяцией объектов или явлений. Как по анализу элементов, содержащихся в капле крови, медики нередко судят о составе всей крови человека, так и по выборочной совокупности учащихся изучаются явления, характерные для всей генеральной совокупности. Одной из основных задач статистического анализа является получение по имеющейся выборке достоверных сведений о интересующих исследователя характеристиках генеральной совокупности. Поэтому важным требованием к выборке является ее репрезентативность, то есть правильная представимость в ней пропорций генеральной совокупности. Достижению репрезентативности может способствовать такая организация эксперимента, при которой элементы выборки извлекаются из генеральной совокупности случайным образом. Основные критерии обоснованности выводов исследования – это репрезентативность выборки и статистическая достоверность (эмпирических) результатов. Статистическая достоверность, или статистическая значимость, результатов эксперимента определяется при помощи методов статистического вывода, которые предъявляют определенные требования к численности, или объему выборки. Сформулируем наиболее общие рекомендации, т.к. строгих рекомендаций нет. Если надо сравнить 2 выборки, их общая численность должна быть не менее 50 человек; численность сравниваемых выборок должна быть ~ одинаковой. Если изучается взаимосвязь между какими-либо свойствами, то объем выборки должен быть не меньше 3035 человек. Чем больше изменчивость изучаемого свойства, тем больше должен быть объем выборки. Зависимые и независимые выборки. Независимые выборки характеризуются тем, что вероятность отбора любого испытуемого одной выборки не зависит от отбора любого испытуемого другой выборки. Зависимые выборки характеризуются тем, что каждому испытуемому одной выборки поставлен в соответствие по определенному критерию испытуемый из другой выборки. (возможны слабые варианты зависимости: мужьяжены, дети 5-7 лет и их братья/сестры-близнецы) Измерения и шкалы Обычно в статистике различают три типа значений переменных: количественные, номинальные и ранговые. 1. Значения количественных переменных являются числовыми, могут быть упорядочены и для них имеют смысл различные вычисления (например, среднее значение). На обработку количественных переменных ориентировано подавляющее большинство статистических методов. 2. Значения номинальных переменных (например: пол, вид, цвет) являются нечисловыми, они означают принадлежность к некоторым классам и не могут быть упорядочены или непосредственно использованы в вычислениях. Для анализа номинальных переменных специально предназначены лишь избранные разделы математической статистики, например, категориальный анализ. Однако в ряде случаев для этой цели могут быть использованы и некоторые ранговые и количественные методы, если номинальные значения предварительно заменить на числа, обозначающие их условные коды. 3. Ранговые или порядковые переменные занимают промежуточное положение: их значения упорядочены (состояние больного, степень предпочтения), но не могут быть с уверенностью измерены и сопоставлены количественно. К анализу ранговых переменных применимы так называемые ранговые методы. Измерение – это приписывание чисел объектам в соответствии с определенными правилами. Числа – это удобные в обработке объекты, в которые мы преобразуем определенные свойства нашего восприятия. Измерительные шкалы. 1. Шкала наименований (качественная шкала) или номинальная шкала. Номинальное измерение сводится к разбиению совокупности объектов на классы в каждом из которых сосредоточены объекты, идентичные по какомунибудь признаку или свойству, например, по национальности, по полу, по типу темперамента. При данных измерениях каждому из классов присваивается число, но оно используется исключительно как название этого класса и никаких операций над этими числами производить не предполагается. 2. Порядковая шкала. Порядковые переменные позволяют ранжировать (упорядочить) объекты, указав какие из них в большей или меньшей степени обладают качеством, выраженным данной переменной. Однако они не позволяют сказать "на сколько больше" или "на сколько меньше". Порядковые переменные иногда также называют ординальными. Типичный пример порядковой переменной - социоэкономический статус семьи. Мы понимаем, что верхний уровень выше среднего уровня, однако сказать, что разница между ними равна, скажем, 18% мы не сможем. 3. Интервальная шкала. Интервальные переменные позволяют не только упорядочивать объекты измерения, но и численно выразить и сравнить различия между ними. Например, температура, измеренная в градусах Фаренгейта или Цельсия, образует интервальную шкалу. Вы можете не только сказать, что температура 40 градусов выше, чем температура 30 градусов, но и что увеличение температуры с 20 до 40 градусов вдвое больше увеличения температуры от 30 до 40 градусов. 4. Шкала отношений. Относительные переменные очень похожи на интервальные переменные. В дополнение ко всем свойствам переменных, измеренных в интервальной шкале, их характерной чертой является наличие определенной точки абсолютного нуля. Типичными примерами шкал отношений являются измерения времени или пространства. Например, температура по Кельвину образует шкалу отношения, и вы можете не только утверждать, что температура 200 градусов выше, чем 100 градусов, но и что она вдвое выше. Интервальные шкалы (например, шкала Цельсия) не обладают данным свойством шкалы отношения. Заметим, что в большинстве статистических процедур не делается различия между свойствами интервальных шкал и шкал отношения. Интервальная шкала принимается тогда, когда можно определить не только количество, свойства или признака в объекте, но также зафиксировать равные различия между объектами, то есть можно ввести единицу измерения для свойства или признака (например, температура, возраст). Числа при интервальных измерениях имеют свойство упорядоченности и однозначности. Равные разности чисел соответствуют равным разностям значений измеряемого свойства или признака объекта. Шкала отношений отличается от интервальной только тем, что точка отсчета не произвольна, а указывает на полное отсутствие измеряемого свойства или признака объекта. Способы представления выборок. Выборкой х1, ..., хn объема n из генеральной совокупности называется n значений признака X. Вариационным рядом х(1) х(2) ... х(n) называется выборка, записанная в порядке возрастания ее элементов. Статистический ряд (дискретный ряд). Если выбрать из выборки несовпадающие элементы и для каждого указать частоту встречаемости, получаем статистический ряд, который записывают в виде таблицы: xi ni x1 n1 x2 n2 x3 n3 … … xk nk Сумма частот должна быть равна объему выборки: n i i N Группированный статистический ряд (интервальный ряд). При большом объеме выборки производят группировку выборки. Для этого разбивают диапазон значений выборки на равные интервалы и подсчитывают для каждого интервала частотуколичество наблюдений, попавших в него. Группированный статистический ряд записывают в виде таблицы: xi [a1 ,a2 ) [a2 ,a3 ) [a3 ,a4 ) … [ak ,ak+1 ] ni n1 n2 n3 … nk Сумма частот должна быть равна объему выборки: . a1 - минимальное значение выборки ak+1 - максимальное значение выборки max min Длина интервала вычисляется по формуле:L= k , где k-количество интервалов. Длину интервала можно округлять. Гистограмма Графическое представление распределения частот по интервалам называют гистограммой. При построении гистограммы на оси ОХ откладывают интервалы разбиения, на каждом интервале строят прямоугольник ni высотой , равной , где n - объем выборки, nl ni - частота для i-того интервала, l - длина интервала. Сумма площадей прямоугольников должна быть равна 1. Пример гистограммы: ni nl a1 a2 a3 a4 a5 a6 a7 Пример построения гистограммы: Задана выборка 1,3,2,7,3,3,6,4,5,1,2,1,3,4,5,1. Выполните группировку с числом интервалов 6 и постройте гистограмму. 1. Находим max и min. Это числа 1 и 7. 2. Вычитаем из max min. 7-1=6 3. Делим полученную разность на число интервалов. 6/6=1. Получили h=1 это длина интервала. 4. Строим статистический ряд и 6 интервалов: x ni i 1 2 3 4 5 6 7 4 2 4 2 2 1 1 [1;2] (2;3] (3;4] (4;5] (5;6] (6;7] 5. Строим гистограмму: ni 6 4 2 2 1 1 2 1 3 4 5 6 7 Полигон распределения – это та же гистограмма, но линии соединяют середины столбцов каждого разрядного интервала. Числовые выборочные характеристики 1 n Выборочное среднее: X = x i n i 1 Выборочная медиана - центральный член вариационного ряда. Если объем выборки n - нечетно, выборочная медиана равна среднему арифметическому двух центральных элементов вариационного ряда. Обозначение: Me выб Выборочная мода - это элемент выборки, имеющий наибольшую частоту встречаемости. Обозначение : Moвыб Сложность в том, что редкая совокупность имеет единственную моду. (Например: 2, 6, 6, 8, 9, 9, 9, 10 – мода = 9). Соглашения по поводу моды 1. Если все значения в группе встречаются одинокого часто, считают, что у данной группы, моды нет. 2. Когда два соседних значения имеют одинаковую частоту и эти частоты больше любых других частот в группе, то модой считают среднее от этих двух значений. 3. Если два несмежных значения имеют равную и наибольшую в данной группе частоту, то у этой группы есть две моды, такая группа называется бимодальной. Бимодальной называется группа и в том случае, если эти две моды не совсем равны. В таких случаях договорились различать большую и малую моду и во всей группе, наряду с одной большой модой может быть несколько меньших мод. Выборочная дисперсия (мера разброса от среднего): Dвыб= 1 n 2 ( x X ) i n 1 i 1 Другая формула для вычислений: Dвыб= 2 n 1 1 2 xi xi n n 1 n i = n X2 X n 1 2 D выб Выборочное средне-квадратическое отклонение σ = (стандартное отклонение) Выборочный коэффициент асимметрии: Асимметрия – это свойство распределения частот (Skewness [skju:nis]). 1 A выб = n 3 n 3 ( x x ) i i 1 A=0 ; A>0 A<0 Выборочный коэффициент эксцесса: Эксцесс – это мера крутости кривой распределения (Kurtosis [kə:tosis]) Кривая распределения может быть островершинной, плосковершинной. E выб = n 1 n 4 (x i 1 x) 3 4 i E>0 E<0 E=0 Нормальное распределение Нормальное распределение лучше всего описывается кривой созданной Де Муавром по следующей формуле: 1 U e 2 x 2 2 2 где U – высота кривой над осью x, и μ – числа, которые определяют положение кривой относительно числовой оси и регулируют ее размах. Для μ=0, =1 график принимает вид: 0.4 z -1 1 Кривая при μ=0, =1 получила статус стандарта, ее называют единичной нормальной кривой, то есть любые собранные данные стремятся преобразовать так, чтобы кривая их распределения была максимально близка к этой стандартной кривой. Созданы статистические таблицы со значениями площади под единичной нормальной кривой влево от любой точки на оси z в (-3; 3). Общая площадь под кривой равна 1. И все остальные площади рассматривают как процент от целого. Получение числовых выборочных характеристик в пакете Statistica. 1. Statistics → Basic Statistics/Tables (Основные статистики ) → Destriptive Statistics (Описательные статистики). Дважды щелкнуть по нему либо выделить и нажать кнопку OK. 2. В появившемся окне щелкнуть по кнопке Variables. Выбрать щелчком мыши столбец (переменную) для анализа нажать кнопку ОК. 3. С помощью вкладки Advanced выбрать числовые характеристики, которые нужно получить Mean (среднее выборочное), Median(медиана), Mode (мода), Variance (дисперсия), Standart Deviation (стандартное отклонение), Skewness (коэф. асимметрии), Kurtosis (коэф. эксцесса). 4. Нажать кнопку Summary: Destriptive Statistics. Получение гистограммы и таблицы частот в пакете Statistica. 1. Statistics → Basic Statistics/Tables (Основные статистики ) → Frecuensy Tables (таблица частот). 2. В появившемся окне щелкнуть по кнопке Variables. Выбрать щелчком мыши столбец(переменную) для анализа нажать кнопку ОК. 3. С помощью вкладки Advanced задать количество интервалов (No. of exact intervals). 4. Для получения таблицы частот нажать кнопку Summary: Frecuensy Tables. 5. Для получения гистограммы нажать кнопку Histograms.