4.4. Математическая обработка полученных данных Математическая обработка данных, полученных в ходе психологического исследования – важное условие при выполнении курсовых и дипломных работ. При применении любой психодиагностической методики обследуется некоторая достаточно большая категория индивидуумов. Это множество потенциальных испытуемых называется генеральной совокупностью. Для того, чтобы сделать достоверное предположение об изучаемом явлении, прибегают к извлечению из генеральной совокупности некоторой его части – выборки, так как всю генеральную совокупность обследовать практически невозможно (тысячи, сотни тысяч, миллионы испытуемых). Выборка должна отражать все свойства генеральной совокупности, т.е. она должна быть репрезентативной. Основные способы достижения этого условия (приближения к идеалу, абсолютной точности здесь достичь нельзя): 1) Случайная выборка; 2) Моделирование выборки по свойствам генеральной совокупности. Существенным при организации выборки является вопрос о необходимом и достаточном числе испытуемых. Малое количество испытуемых не обеспечит точности результатов, большое количество приведет к увеличению трудоемкости (времени и стоимости) исследования. Чаще здесь руководствуются эмпирическими соображениями (на основе опыта проведения подобных исследований). «При проведении ряда исследований (опросов) выясняют, каково то минимальное число испытуемых (респондентов), которое с приемлемой степенью точности позволяет предсказывать наступление некоторых событий и обеспечивает стабильность распределения для исходных по качеству и составу выборок» (С.Г.Тарасов, 1999, c.27). Стандартизация методик отечественными учеными проводится в основном на выборках от 200 до 800 человек (В.К.Гайда, В.П.Захаров, 1982). Путеводной нитью исследования (выражение Е.В. Сидоренко) является гипотеза(ы) – предположение(я), имеющее вероятностный характер и обладающие неопределенностью в отношении своей истинности-ложности (Е.В.Сидоренко, 2000). Формализация описания гипотез с математической точки зрения (статистических гипотез) осуществляется в рамках подхода Неймана-Пирсона, наиболее распространенного в математике. Статистические гипотезы подразделяются на: 1) Н0 – нулевая(ые) (в самом общем виде это гипотезы об отсутствии отличий в выборках, условиях экспериментов; о равенстве нулю мер связи; о сходстве распределений и т.д.) 2) Н1 – альтернативная(ые) (противоположные Н0). Эти гипотезы (Н0 и Н1) не совместимы, т.е. если принимается одна, то отклоняется другая. Кроме того, выделяют: 3) направленные (наличие-отсутствие различий, изменение мер связи в определенном направлении) гипотезы. Пример: Экспериментальная группа превышает (Н1) или не превышает (Н0) контрольную по некоторому показателю. 4) ненаправленные (без указания направления). Пример: Экспериментальная группа отличается (Н1) или не отличается (Н0) от контрольной. Гипотезы проверяются с помощью статистических критериев (обозначается в общем виде R). Статистический критерий – это правило, которое позволяет принимать истинную и отклонять ложную гипотезу с высокой вероятностью или другими словами на определенном уровне значимости - (т.е. с указанием ошибки 1-ого рода, которая возникает в результате отклонения по результатам выборочного исследования истинной нулевой гипотезы; принятие истинной гипотезы Н0 характеризуется доверительной вероятностью 1-; ошибка 2-ого рода возникает в результате принятия по результатам выборочного исследования ложной Н0; отклонение ложной Н0 характеризуется вероятностью 1- и называется мощностью критерия. Два вида ошибок связаны между собой так же, как и нулевая и альтернативная гипотезы. Математическая статистика позволяет точно указывать только вероятность ошибки 1-ого рода. Оценить вероятность ошибки 2-ого рода чаще всего трудно. (И лишь в некоторых случаях, она может быть оценена примерно). Обычно принимает следующие значения: 0,10; 0,05; 0,01; 0,001. Начинают с наименьшего значения. Пример: если мы указываем, что сходства-различия достоверны (статистически значимы) на 5% уровне значимости, то это означает, что вероятность того, что они недостоверны, составляет 0,05 (а доверительная вероятность 0,95=1-0,05). Естественно, вероятности могут указываться как в десятичном, так и процентном измерении. Статистический критерий часто представляет собой формулу, по которой получают некоторое число. Критерии делятся на: 1) Параметрические, включающие в формулу расчета параметры распределения, рассчитанные по выборке; например, средние арифметические (общепринятые обозначения М, х‾ с чертой вверху), дисперсии (соответственно S , )). Применяются при условии нормального распределения и производных из него: распределения Стьюдента, Фишера, 2 2 2 Пирсона (Е.Ю.Артемьева, Е.М.Мартынов, 1975; Дж.Гласс, Дж.Стенли, 1976; С.Г.Тарасов, 1999). Примеры критериев: t-критерий Стьюдента: применяется для сравнения (установления сходства – различий) средних в выборках, установления отличий от 0 некоторых мер связи: коэффициента линейной корреляции Пирсона, ранговой корреляции Пирсона, точечно-бисериального и рангово-бисериального и коэффициента линейной регрессии (см.ниже). F-критерий Фишера: для сравнения дисперсий в выборках, установления отличий от 0 коэффициента детерминации, установления наличия-отсутствия влияния фактора в дисперсионном анализе. 2 (хи-квадрат) Пирсона: для установления сходства-различия (сравнения) между эмпирическими и теоретическими частотными распределениями и проверка отличия от 0 коэффициентов сопряженности (, Кч, С). Похожие задачи решает и критерий (лямда) –Колмогорова-Смирнова. 2) непараметрические, оперирующие с частотами, рангами и т.д., не учитывающие форму распределения выборочных данных и поэтому имеющие более широкую область применения (Е.В.Сидоренко, 2000). Примеры: Q-критерий Розенбаума: выявление различий исследуемого признака на двух выборках испытуемых. в уровне Н-критерий Крускала-Уоллиса и S-критерий Джонхира (аналогично, но в случае 3-х и более выборок испытуемых) G-критерий знаков, Т-критерий Вилкоксона: оценка сдвига значений исследуемого признака в двух независимых выборках) Критерий Х2r Фридмана и L-критерий тенденции Пейджа (для 3-х и более независимых выборок). Критерии Крускала-Уоллиса, Фридмана, Джоннера и Пейджа являются непараметрическими аналогами дисперсионного анализа. 3) односторонние (для направленных гипотез). 4) двухсторонние (для ненаправленных, проверяются различия в обе стороны). 5) многофункциональные – эти критерии могут использоваться по отношению к самым разнообразным данным (независимо от шкалы), выборкам (зависимым и независимым) и задачам. Примеры: * Фишера – угловое преобразование Фишера, биномиальный критерий т и др. Для большинства критериев порядок проверки следующий: 1) выбор критерия в соответствии с пунктами а), b), c). а) Подготовка данных (определение и преобразование измерительной шкалы (номинативная, порядковая, интервальная, отношений и стандартизированные: Z-оценки, процентили, шкалы JQ, стэнов и т.д.); определение частот встречаемости, ранжирование и т.п.; нахождение числовых характеристик распределения (параметров); проверка нормальности распределения и т.д.) б) Определение зависимости или независимости выборок Независимыми называются выборки, в которых одни и те же признаки измерены (несвязанные измерения) на разных испытуемых, а зависимыми – выборки, образованные парными (связанными) результатами (с одним испытуемым в разных условиях, например, «до» и «после» или испытуемыми, связанными в определенном отношениях: близнецы, брат-сестра, муж-жена и т.д.). с) Количество выборок (1,2,3 и т.д.) Один и тот же критерий может иметь различные модифицированные формулы, например: критерий Стьюдента t для зависимых выборок, для независимых, для малых и т.д. 2) Определение числа степеней свободы для используемого критерия (в общем виде: df=n-1, где n – число испытуемых, интервалов квантования(групп) или в случае двух выборок: df=n+m-2, где n, m– число испытуемых соответственно в первой и второй выборках) и фиксирование уровня значимости (для коэффициентов корреляции допустим =0,10. Более точные уровни значимости могут быть рассчитаны на компьютере). 3) В соответствии с п.2 определение критического значения по таблице [которые приводятся обычно в конце разнообразных учебных пособий] и сравнение с ним эмпирического (под словом сравнение обычно понимают следующие операции: Rэмп. >=Rкрит. или Rэмп.<=Rкрит. в зависимости от критерия и вида гипотезы (Н0, Н1)). Формулировка общего вывода проверки гипотезы может быть такой (на примере критерия Стьюдента): «Проверка различных средних арифметических в двух группах показала, что средние различаются статистически значительно (достоверно) на уровне 0,05 (0,01;0,001) или (р<= 0,05)». При использовании критерия необходимо знать ограничения, как по отношению к типу задач, так и к самим данным: количество, форма представления и т.д. При проверке гипотез используется два способа оценивания их числовых характеристик: 1. Точечное оценивание (см. параметрические критерии). В данном случае используются числовые характеристики изучаемой случайной величины, которые являются точкой на числовой оси, например: среднее арифметическое М и стандартное отклонение (корень квадратный из дисперсии). Напомним, что эти числовые характеристики, рассчитанные по выборке, называются статистиками или оценками, а соответствующие характеристики генеральной совокупности – параметрами, точные значения которых остаются для нас неизвестными из-за объемов генеральной совокупности (но их можно оценить приближенно, воспользовавшись вторым способом). 2. Интервальное оценивание. С помощью этого метода можно построить на основе выборочного измерения интервал, содержащий с определенной вероятностью (99%, 95%, 90%) некоторый параметр генеральной совокупности (например, М). Доверительная вероятность Границы доверительного Границы доверительного интервала для единичного интервала (для n >30) (1-) (столбец 2) нормального распределения, или % испытуемых(случаев) z-оценок для z-оценок (столбец 3) 68% --------------- М± 90% М ±1,64 /√n --------- 95% М±1,96 /√n М±2 99% М±2,58 /√n М±3 М, рассчитываются по выборке, n – число испытуемых в выборке. Границы интервалов (см.столбец 2) определяются указанным способом при больших n (в статистике принято, что это n >30) на основании предельных теорем ТВ (теории вероятностей), которые утверждают, что при многократном извлечении выборок распределение статистик тоже будет нормальным со средним, равным генеральному среднему и дисперсией 2/n .(Корень квадратный из этой величины называется стандартной ошибкой). Построенный таким образом итервал, называемый доверительным, будет с разной вероятностью (называемой доверительной) содержать генеральное среднее (см.столбец 1). Для меньшего числа n границы интервалов рассчитываются по следующей формуле: М±t /√n, где t-квантиль Т-распределения Стьюдента для соответствующей доверительной вероятности (или вероятности ошибки ) и числа степеней свободы.(см.таблицу VII прилож.3 С.Г.Тарасов, 1999). При единичном нормальном распределении или стандартном, к которому может быть сведено любое нормальное распределение с помощью процедуры стандартизации (центрирования, т.е. вычитания из исходного данного М и нормирования – последующего деления на ) в результате которой получаются так называемые стандартизированные z-оценки (М=0, =1 для них), все значительно упрощается (см.столбец 3 в табл.). Свойством нормального распределения является наличие определенного количества случайной величины (случаев, испытуемых) приходящихся на интервалы: от - до , от -2 до 2, от -3 до 3 и другие производные от них: соседние (например, от 1 до 2) или накопленные (объединенные). Данные по ним приводятся в многочисленных пособиях по математической статистике. Исследователей часто интересует, как связаны (сопряжены, согласованы) между собой 2 и более переменные (показатели) в данной группе лиц (объектов и т.д.) Для ответа необходимо произвести наблюдение (измерение) по каждой переменной группы объектов (типичных представителей). В математической статистике для количественно описания связей чаще всего применяется коэффициент корреляции. Существует много разновидностей коэффициентов корреляции в зависимости от специфики данных (шкалы измерения). Для явлений, измеренных в интервальной шкале используется коэффициент корреляции Пирсона; для порядковых (ранжированных) – коэффициент ранговой корреляции Спирмена или (тау)- Кендалла; для данных, представленных в номинативных дихотомических шкалах – коэффициент четырехклеточной сопряженности Ки – Чупрова или С – Пирсона (в случае большого числа градаций). Связь может быть линейной (например, коэффициенты корреляции Пирсона, Спирмена и др.), так и иметь более сложный характер. В последнем случае используется общая мера – корреляционное отношение или коэффициент детерминации - 2 (эта квадрат). Формулы можно посмотреть в литературе: С.Г. Тарасов. Основы применения математических методов в психологии. Изд. СПб. Университета, 1999. Дж. Гласс, Дж. Стенли. Статистические методы в педагогике и психологии. М., 1976. Число, которое получается после постановки данных в формулу, изменяется в пределах от –1 до 1 (иначе ошибка расчета) и интерпретируется следующим образом: близость к 0 означает отсутствие связи, положительный знак означает, что с увеличением (уменьшением) одной переменной увеличивается (уменьшается) и другая, отрицательный – с увеличением одной другая уменьшается и наоборот. Проверка значимости отличия от 0 коэффициента корреляции проводится аналогично проверке гипотез (см. схему применения критериев). Корреляционный анализ начинается с подготовки матрицы данных, далее – расчет коэффициента корреляции по выбранной формуле, проверка значимости отличия от 0 и заканчивается построением корреляционных графов или корреляционных плеяд (часть графа) для различных уровней значимости (т.е. включает в себя собственные методы представления данных и графического оформления результатов, впрочем, как и другие виды анализа: регрессионный, дисперсионный, факторный, кластерный и т.д.) Регрессионный анализ является продолжением изучения взаимосвязи между двумя или более переменными, измеренными в шкале интервалов. Задача регрессионного анализа, например, в его простейшем двумерном варианте, описать зависимость (в отличие от корреляционного, который просто указывает на отсутствие или наличие связи) одной переменной от другой или дать прогноз с помощью уравнения прямой линии y=b1x+b0 или x=b1y+b0, где x,y- измеренные переменные, a b1 ,b0 - рассчитываемые по методу наименьших квадратов по формулам. Дисперсионный анализ ДА (в англоязычной ANOVA/MANOVA) развивает идеи регрессивного анализа. литературе Основная задача ДА – выявить воздействия одной или нескольких независимых переменных (контролируемых исследователем, рассматриваемых как причины), т.е. факторов на зависимую переменную - результативный признак (понимаемый как следствие). Проверка гипотезы осуществляется на основе анализа вариативностей (изменчивости, некоего аналога дисперсии), которые обусловлены различными факторами, их сочетаниями и случайными воздействиями. В зависимости от количества факторов, градаций фактора (т.е. ступени, стадии, уровня развития, расположенных по возрастанию, условий воздействия), зависимости-независимости выборок различают разные схемы ДА (однофакторный, двухфакторный и т.д., для связанных выборок, несвязанных и т.д.). Многофакторный ДА, кроме воздействия каждого отдельного фактора позволяет оценить взаимодействие факторов между собой, что в этом случае делает его незаменимым. Логически внутри себя ДА содержит общую логику проверки гипотез с помощью критериев, но как и корреляционный имеет свою форму представления данных (дисперсионные комплексы) и графическое (наглядное) изображение результатов, которое кроме прочего указывает на направление изменений признака под влиянием фактора и его градаций. Пример текста задачи для ДА: Изучался уровень знаний учащихся в зависимости от пола и уровня активности. Оценки ставились по 20-бальной шкале (зависимая переменная). Уровень активности (фактор А) имел 3 градации: 1 – слушание лекций; 2 – лекции и семинары; 3 – лекции, семинары и практические занятия; пол учащихся (фактор В) имел две градации: 1-Н (юноши), 2-Ж (девушки). Пример расчета см. С.Г. Тарасов. Основы применения математических методов в психологии. Изд. СПб. Университета, 1999. Кроме того, ДА широко представлен в источниках: Е.В. Сидоренко. Методы математической обработки в психологии. Речь. СПб. 2000. (есть др. издания); Дж. Гласс, Дж. Стенли. Статистические методы в педагогике и психологии. М., 1976. Для анализа многомерных данных часто используется факторный анализ. Под многомерным количественным представлением объекта понимается присвоение ему одновременно несколько численных значений, характеризующих степень выраженности различных его свойств (Шошин, 1989). Примеры: результаты заполнения опросника САН, MMPI и других многошкальных методик. В основу группы методов математической обработки, графического представления и содержательной интерпретации данных, называемых факторным анализом положена геометрическая интерпретация коэффициентов корреляции. (Две шкалы: Ш1, Ш2 независимые между собой (несвязанные) имеют rШ1,Ш2=0, а если изобразить шкалы в виде векторов с общим началом, то угол между ними составит 900. Аналогично, если rШ1,Ш2=1, то они совпадают, при rШ1,Ш2=-1 диаметрально противоположны и соответственно могут образовывать тупой угол (rШ1, Ш2<0) и острый угол (rШ1, Ш2>0). Факторным анализом называется любая процедура переработки многомерных данных, на «вход» которой «подается» матрица корреляции между исходными переменными (показателями, шкалами и пр.), а с «входа» считывается система переменных, именуемых факторами (не путать с ДА). При этом: 1) факторы определены через исходные переменные (т.е. включают в себя высоко коррелируемые шкалы); 2) в свою очередь, система факторов образует пространство, в котором (через факторные нагрузки) определены исходные переменные; 3) факторы ранжированы в порядке убывания их важности для объяснения эмпирических результатов; 4) количество факторов существенно меньше, чем исходных переменных; 5) факторам придается смысл глубинных, скрытых источников, порождающих получаемые в исследовании эмпирические результаты; 6) все факторы взаимно ортогональны (независимы, перпендикулярны). Подробнее см. Шошин П.Б. Психологические измерения. Ч.1. – М.: Издво МГУ, 1989. Существуют и другие методы группирования, сравнения и графического представления результатов: кластерный, дискриминантный анализы, многомерное шкалирование и др., которые нашли широкое применение в психологии. Лучше всего заранее, еще на стадии планирования, подбирать математическую модель, которая в дальнейшем будет использоваться или принимать оптимальное решение о выборе адекватной модели (что не просто) с учетом условий проведения исследования и разнообразия существующих математических методов.