МИНИСТЕРСТВО ОБРАЗОВ АНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕР АЦИИ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕН ИЕ ВЫСШ ЕГО ПРОФЕССИОНАЛ ЬНОГО ОБРАЗОВАНИЯ «САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРС ТВЕННЫЙ УНИВЕРСИТЕ Т ЭКОНОМИКИ И ФИНАНСОВ » КАФЕДР А М АРКЕТИНГА А.В. ПЛЕХАНОВ МАТЕМАТИКО-СТАТИСТИЧЕСКИЕ МЕТОДЫ ОБРАБОТКИ ИНФОРМАЦИИ С ПРИМЕНЕНИЕМ ПРОГРАММЫ SPSS ПРАКТИКУМ ИЗДАТЕЛЬСТВО САНКТ-ПЕТЕРБУРГСКОГО ГОСУД АРСТВЕННОГО УНИВЕРСИТЕТА ЭКОНОМИКИ И ФИНАНСОВ 2010 2 ББК 65.290-2 П 38 Плеханов А.В. Математико-статистические методы обработки информации с применением программы SPSS: Практикум. – СПб.: Изд-во СПбГУЭФ, 2010. – 96 с. Настоящий практикум рассматривает методы и процедуры обработки количественной информации для принятия решений в маркетинге. Практикум снабжен практическими примерами решения наиболее типичных задач маркетинга, связанных с обработкой количественной информации, а также вопросами для самопроверки и контроля знаний студентов. При решении задач применяется один из самых используемых на сегодняшний день статистических пакетов SPSS. Практикум предназначен для студентов 4 курса специальности «Маркетинг» при изучении дисциплины «Информационные системы маркетинга». Рецензенты: канд. геогр. наук, профессор В.В. Гарабцов д-р экон. наук, профессор В.Н. Татаренко © СПбГУЭФ, 2010 3 ВВЕДЕНИЕ Данный практикум ориентирован на ту часть курса «Информационные системы маркетинга», которая рассматривает количественные процедуры обработки информации при принятии маркетинговых решений и содержит задачи, направленные на применение соответствующих методов в различных маркетинговых ситуациях. Поскольку процессы обработки больших массивов информации, которые являются трудоемкими и занимают много времени, в настоящее время компьютеризированы, то решение задач данного типа связано с применением различных компьютерных программ, содержащих математико-статистические процедуры обработки данных. Эти программы, часто именуемые статистическими пакетами, содержат всевозможные процедуры и методы, направленные на работу с большими массивами данных, так что основная трудность на данный момент состоит не в реализации самой процедуры (в условиях компьютерной обработки информации она занимает доли секунды), а в грамотном ее выборе в соответствии с ситуацией. Например, перед маркетологом может стоять выбор – какой метод применять, если он хочет проанализировать взаимосвязь между двумя показателями, один из которых имеет количественную, а другой – качественную природу, причем результирующим показателем выступает качественный, а количественный признак влияет на величину последнего. Другая проблема состоит в задании параметров процедуры метода. Пользователю, выбравшему тот или иной метод, необходимо перед запуском процедуры задать некоторые опции, определяющие варианты метода, а также показатели и таблицы, выдаваемые в результате обработки информации. Например, при применении в упомянутом случае процедуры дискриминантного анализа пользователю предстоит выбрать, использовать пошаговый метод включения переменных в процедуру анализа или включать все переменные сразу, далее следует определить рассчитываемые статистики и их вид (напр., стандартизованный или нестандартизованный коэффициент Фишера), матрицы (напр., межгрупповой и внутригрупповой корреляции и/или ковариации), затем – определить параметры расчета классификационной матрицы (напр., равные априорные вероятности принадлежности объекта к той или иной группе или рассчитываемые на основе численности групп). Наконец, третий существенный момент связан с трактовкой рассчитываемых показателей и анализом ситуации. Например, в случае с дискриминантным анализом необходимо правильно трактовать то или иное значение критерия Фишера и Лямбда Уилкса, а также критерия Хи-квадрат остаточной корреляции, значения коэффициентов корреляции значений дискриминантной функции и дискриминирующих переменных структурной матрицы, а 4 также значения центроидов дискриминантной функции по группам. Необходимо также понимать, что означают коэффициенты классификационной функции, с тем, чтобы не трактовать их значения «напрямую», а также уметь пользоваться модулем Save (он имеется во всех программах) для получения прогнозируемых значений по объектам. Для того, чтобы пользователь ориентировался в методах и процедурах математико-статистического анализа, а также правильно трактовал результаты, необходима определенная математическая грамотность. Поскольку предмет «Информационные системы маркетинга» рассматривается на четвертом курсе, когда материал по основам соответствующих разделов математики (линейная алгебра, теория вероятностей и математическая статистика) первого и второго курсов студентом «подзабыт», необходима самостоятельная работа последнего по повторению материала с тем, чтобы теоретически осваивать частные методы и процедуры и применять их в дальнейшем для компьютерной обработки информации. При рассмотрении процедур анализа практикум опирается на один из наиболее популярных статистических пакетов SPSS, обладающий достаточно удобным интерфейсом и включающий в себя практически полный перечень инструментов и методов, необходимых для решения задач по обработке количественной информации, с которыми может столкнуться маркетолог. Необходимо учесть, что рассмотрение интерфейса программы и операций по работе с данными не входило в задачи практикума. Для ознакомления с соответствующим материалом автор может отослать читателя к учебному пособию Плеханова А.В. «Системный инструментарий в маркетинговой деятельности: техника применения программы SPSS». Для рассмотрения теоретического материала по теории вероятностей и математической статистике, по определению не вошедшего в практикум, читатель может обратиться к соответствующим учебникам и пособиям по математике и теоретической статистике. Пакет SPSS содержит практически все известные на сегодняшний день виды анализа данных и методы статистической обработки информации. Первым этапом анализа данных, образующих статистическую совокупность, является расчет т. н. о п и с а т е л ь н ы х с т а т и с т и к , позволяющих оценить в целом, как ведет себя рассматриваемая величина или величины при достаточно больших объемах совокупностей объектов-носителей этих величин, иными словами, проанализировать характер распределения этих величин в природе. Далее для анализа собранной информации применяются различные методы а н а л и т и ч е с к о й с т а т и с т и к и , призванные выявить степень, направление и вид взаимосвязи между величинами (признаками). 5 1. РАСЧЕТ ОПИСАТЕЛЬНЫХ СТАТИСТИК Программа позволяет рассчитать практически все применяемые на сегодняшний день описательные статистики, однако, следует помнить о том, что для определенного типа переменных имеют смысл определенные показатели. Речь идет, прежде всего, о различии между качественными и количественными переменными. Разница между ними будет ясна, если вспомнить об уже упоминавшихся шкалах измерения. Для качественных данных (данные – конкретные значения переменных) применяется номинальная или категориальная шкала, для количественных – метрическая (или категориальная, если массив числовых данных разбить по категориям – группам). Показатели, применяемые для указанных типов данных, в корне различны. Статистики количественных переменных неприменимы для качественных, также как и статистики качественных переменных не имеют смысла для количественных (за исключением того случая, если мы проведем категоризацию последних). Для начала мы рассмотрим описательные статистики, применяемые при анализе качественных переменных. 1.1. Расчет переменных описательных статистик для качественных Описательными статистиками качественных переменных служат их частотные характеристики. Они показывают структуру рассматриваемой совокупности, которая разбивается на однородные по определенному значению показателя группы. Для таких групп рассматриваются такие показатели, как абсолютная численность и доля (процент, децимилле, промилле и т. д.) группы в общем массиве данных. Рассчитаем частотные характеристики на основе данных файла sex_age_revenue_education.sav. Допустим, нас интересует структура массы опрошенных респондентов по полу. Для этого необходимо выполнить команду главного меню Analyze/Descriptive Statistics/Frequencies (Анализ/Описательные статистики/Частоты) (рис.1). 6 Рис. 1. Команда главного меню Analyze/DescriptiveStatistics/Frequencies Появится диалоговое окно Frequencies (рис. 2), где в левом поле нужно будет выбрать переменную для анализа (в нашем случае переменную «пол») и переместить ее при помощи стрелки в правое поле. Выберем также опцию Display frequencies tables (Показать таблицы частот). Рис. 2. Диалоговое окно Frequencies 7 Далее внизу следует нажать кнопку Charts (Диаграммы). В появившемся диалоговом окне следует выбрать тип диаграммы рассчитываемых показателей (рис. 3). Рис. 3. Диалоговое окно Frequencies: Charts В типах диаграмм представлены Bar Charts (Столбиковые диаграммы), Pie Charts (Пироговые диаграммы) и Histograms (Гистограммы). Опция None (Ничего), стоящая по умолчанию, означает отсутствие графика. Пироговые и столбиковые диаграммы предназначены для анализа качественных, а гистограмма – количественных переменных. Разница между столбиковой диаграммой и гистограммой в том, что первая представляет собой столбцы, высота которых соответствует значениям частоты каждого и н д и в и д у а л ь н о г о значения переменной. Значения частот отложены по оси ординат, переменной – по оси абсцисс. Например, сколько среди опрошенных респондентов мужчин, а сколько женщин. На гистограмме те же столбцы показывают значения частот и н т е р в а л о в значений рассматриваемой переменной. Например, какое число респондентов получают доход в размере от 10000 до 15000 рублей. Понятно, что диаграмма с индивидуальными значениями частот для каждого конкретного значения дохода с точностью до рубля в указанном диапазоне будет бессмысленна. Выберем для нашего случая Bar charts. В поле Charts values (Значения диаграммы) следует выбрать абсолютные или относительные показатели, которыми будет дополняться диаграмма. Это Frequencies (Частоты) и Percentages (Процентные значения) соответственно. Для сохранения установок следует нажать на кнопку Continue. Теперь, когда все необходимые опции выбраны, следует нажать на кнопку ОК. 8 Появится окно с новым файлом анализа данных Output, имеющее стандартную структуру проводника, где в левом поле будут отражены элементы анализа данных, а в правом – их содержание. Таблица Statistics (табл. 1) в правом окне содержит показатели Valid (число действительных значений переменной) и Missing (число пропущенных значений переменной). Таблица «Пол» (табл. 2) содержит такие показатели как Frequency (Частота), Percent (Процент), Valid Percent (Валидный процент), Cumulative Percent (Процентная кумулята). Наконец, график «Пол» (рис. 4) содержит столбиковую диаграмму с данными, отражающими процентное (в соответствии с выбранной опцией) содержание наблюдений по каждому значению переменной «пол». Таблица 1 Statistics N Valid Missing пол 922 0 Таблица 2 Пол Frequency Valid male female Total 432 490 922 Percent Valid Percent 46,9 53,1 100,0 Пол ïîë 60 50 40 30 Percent 20 10 0 male f emale ïîë Рис. 4. Столбиковая диаграмма «Пол» 46,9 53,1 100,0 Cumulative Percent 46,9 100,0 9 Для сохранения полученных данных необходимо будет сохранить файл, присвоив ему имя. Файл будет иметь расширение файла анализа данных “.spo”. Контрольные вопросы: 1. Какие описательные статистики можно рассчитать для качественных переменных? 2. В чем состоит разница между столбиковой диаграммой и гистограммой? Практическое задание: Провести частотный анализ для переменной «образование». 1.2. Расчет переменных описательных статистик для количественных Описательные статистики, применяемые при анализе количественных данных, можно разделить на три группы: 1. Показатели центра распределения 2. Показатели вариации 3. Показатели формы распределения: 3.1. Показатели асимметрии 3.2. Показатели эксцесса П о к а з а т е л и ц е н т р а р а с п р е д е л е н и я характеризует средние величины совокупности. Сюда относятся непосредственно средняя величина в различных ее вариантах – средняя арифметическая, средняя гармоническая и средняя геометрическая – мода, как показатель, характеризующий наиболее часто встречающееся значение, медиана, которая делит всю совокупность на две равные части и различные варианты квинтелей – квартили, децили и т.д., делящие совокупность соответственно на четыре, десять и т.д. равных частей. П о к а з а т е л и в а р и а ц и и характеризуют разброс величин того или иного параметра совокупности. Показатели вариации могут быть абсолютными и относительными. К абсолютным показателям относятся минимальное и максимальное значения, размах вариации, показывающий диапазон отклонений величины, среднее линейное отклонение, дисперсия и среднее квадратическое отклонение. Последние три величины характеризуют среднее отклонение вариантов величины параметра от ее среднего значения. Разница в том, что среднее линейное отклонение рассчитывается по модулю отклонения, дисперсия – по квадрату и представляет собой, тем самым, центральный момент второго порядка, а среднее квадратическое отклонение представляет собой корень 10 квадратный от дисперсии. Относительные показатели вариации относят абсолютные значения отклонений к средней по совокупности величине. С точки зрения формы распределение характеризуется степенью асимметрии и пологости графика плотности распределения рассматриваемой переменной. При расчете показателей асимметрии и пологости форма графика соотносится с таковой нормального (Гауссова) распределения. График распределения величины, подчиняющейся нормальному закону, симметричен. Симметричность графика означает равенство значений частоты или частости значений рассматриваемой переменной, находящихся по разные стороны от среднего ее значения и равноудаленных от него. Следовательно, коэффициент асимметрии, определяемый через отношение центрального момента третьего порядка к среднеквадратичному отклонению в такой же степени, равен нулю, т. к. равен нулю числитель этой дроби (ведь он представляет собой центральный момент распределения нечетной степени). Значения моды, медианы и средней величины у нормально распределенной величины совпадают. Также нормальный график имеет определенную «степень пологости», которая характеризует степень разброса рассматриваемой величины. Степень пологости распределения определяется через показатель эксцесса, который рассчитывается через разницу отношения центрального момента четвертого порядка к среднеквадратическому отклонению в такой же степени и трех. Поскольку указанное отношение для нормального распределения равно трем, то показатель эксцесса для нормальной величины будет равен нулю. Положительное значение показателя указывает на «островершинность» распределения и говорит о малой степени разброса рассматриваемой величины по сравнению с ее нормальным вариантом. Отрицательность эксцесса говорит о том, что степень разброса переменной вокруг своей средней величины больше по сравнению с нормальным вариантом. Знание характера распределения изучаемой величины имеет большое значение для анализа данных, поскольку тот или иной тип распределения предполагает применение тех или иных статистических инструментов и показателей. В программе существует несколько способов проверки соответствия распределения изучаемой величины тому или иному типу распределения (в т. ч. и нормальному) как графически, так и при помощи определенных статистических тестов. Попробуем рассчитать рассмотренные показатели на основе данных файла sex_age_education_revenue.sav на примере переменной «возраст». Для получения описательных статистик количественных переменных можно выполнить команду Analyze/Descriptive Statistics/Frequencies или Analyze/Descriptive Statistics/Descriptives. При помощи первой команды можно рассчитать описательные статистики как для качественных, так и для количественных данных, при выполнении второй команды в левом поле для выбора будут доступны лишь числовые переменные. Обе 11 команды предлагают для выбора идентичные блоки анализа, однако во втором варианте в блоке показателей Central Tendency (Показатели центра распределения) отсутствуют показатели Mode (Мода) и Median (Медиана), к тому же, при выполнении первой команды предусмотрена возможность построения гистограммы данных. В силу указанных обстоятельств воспользуемся первой командой. В появившемся диалоговом окне выберем переменную «возраст» и перенесем ее при помощи стрелки в правое поле. Снимем флажок с Display frequencies tables, если он там стоит (рис. 5). Рис. 5. Диалоговое окно Frequencies с установками для анализа переменной «возраст» Нажав кнопку Statistics, в открывшемся диалоговом окне выберем все показатели, кроме блока Percentile Values (Процентные значения) и показателя Sum (Сумма) в блоке Central Tendency, поскольку показатель суммарного возраста респондентов не имеет никакого смысла (рис. 6). Нажав кнопку Charts, выберем Histograms и поставим флажок на With normal curve (С нормальной кривой), что даст отображение на графике кривой нормального распределения для имеющихся стандартного отклонения (рис. 7) и среднего значения, и нажмем ОК. Для расчета указанных показателей в диалоговом окне Frequencies нажмем кнопку ОК. 12 Рис. 6. Диалоговое окно Frequencies:Statistics с установками для анализа переменной «возраст» Рис. 7. Диалоговое окно Frequencies:Charts с установками для анализа переменной «возраст» В диалоговом окне файла анализа данных мы увидим блок анализа Frequencies с таблицей Statistics (табл. 3) и гистограммой «Возраст» (рис. 8). 13 Таблица 3 Statistics для переменной «возраст» Mean Std. Error of Mean Median 922 0 40,24 ,319 40,00 Mode Std. Deviation Variance Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis Range Minimum Maximum 37 9,688 93,850 -,034 ,081 -,871 ,161 40 20 60 N Valid Missings Возраст âîçðàñò 120 100 80 60 Frequency 40 Std. Dev = 9,69 20 Mean = 40,2 N = 922,00 0 20 22 25 27 30 32 35 37 40 42 45 47 50 52 55 57 60 ,0 ,5 ,0 ,5 ,0 ,5 ,0 ,5 ,0 ,5 ,0 ,5 ,0 ,5 ,0 ,5 ,0 âîçðàñò Рис. 8. Гистограмма для переменной «возраст» с нормальной кривой 14 Как видно из таблицы, отношение модуля показателя асимметрии к ее стандартной ошибке намного меньше трех, что говорит о симметричности имеющегося распределения. Существенность эксцесса же, как видно из значений самого показателя и его стандартной ошибки, существенно выше трех, что, наряду с отрицательным значением показателя эксцесса, может говорить о существенной «пологости» имеющегося распределения по сравнению с нормальным. Программа предлагает и другие числовые и визуальные инструменты для анализа характера распределения – тест Колмогорова-Смирнова, квантиль-квантильные и вероятностно-вероятностные графики (Q-Q plot и P-P plot соответственно). Тест Колмогорова-Смирнова основан на определении абсолютного значения максимальной разницы между значениями функции теоретического и эмпирического распределения: Dn max Fn ( x) F ( x) , (1) x где Fn(x) – значения функции эмпирического распределения; F(x) – значения функции теоретического распределения. Затем эта разница умножается на значение квадратного корня из числа наблюдений: Dn n (2) Закон распределения этой величины известен [9]: K ( ) P Dn n 2 2 (1) k e 2 k , k (3) где K(λ) – функция распределения Колмогорова и рассчитывается для полученного значения λ. Далее рассчитывается величина P0 P Dn n 1 K ( ) (4) Иначе эта величина называется уровнем значимости1 и представляет собой вероятность ошибки при отвержении т.н. нулевой гипотезы H0, 1 В учебно-методических материалах по статистике эта величина обычно обозначается p-level или просто p, а также α. В программе SPSS она обозначается как Sig. (англ. Significance – значимость). 15 которая постулирует незначимость различия и случайность данного значения показателя. Если значение P0 очень мало, то это значит, что осуществилось очень маловероятное событие, которое свидетельствует о наличии какого-л. системного фактора. Наоборот, если P0 велико, то велика вероятность того, что значение показателя окажется больше полученного. Следовательно, данное значение показателя можно объяснить действием случайных факторов. Квантиль-квантильный и вероятностно-вероятностные графики демонстрируют соответствие между наблюдаемыми и ожидаемыми при соответствующей форме распределения значениями рассматриваемой величины (в первом случае) и их вероятностями (во втором). В первом случае сами значения связываются через вероятность, во втором – вероятности через значения. Рассмотрим работу этих инструментов на нашем примере. Рассчитать критерий Колмогорова-Смирнова можно при помощи команды главного меню Analyze/Nonparametric Tests/1-Sample K-S… (Анализ/Непараметрические тесты/Одновыборочный тест Колмогорова Смирнова) (рис. 9). Рис. 9. Команда главного меню Analyze/Nonparametric Tests/1-Sample K-S… 16 В открывшемся диалоговом окне One-Sample Kolmogorov-Smirnov Test (Одновыборочный тест Колмогорова-Смирнова) переменную «возраст» следует перенести в поле Test Variable List (Список тестируемых переменных) для Test Distribution (Тестовое распределение) следует выбрать Normal (Нормальное) (рис.10) и для выполнения теста нажать на OK1. В появившейся таблице One-Sample Kolmogorov-Smirnov Test (табл. 4) можно увидеть количество наблюдений по переменной, среднее значение и стандартное отклонение, по которым рассчитывалось значение функции нормального распределения, максимальная абсолютная, положительная и отрицательная разница значений вероятности распределения, а также значение самого теста и его значимость. Комментарий под таблицей гласит, что тестовое распределение соответствует нормальному, и что параметры среднего значения и стандартного отклонения рассчитывались, исходя из имеющихся данных. Рис. 10. Диалоговое окно One-Sample Kolmogorov-Smirnov Test 1 В принципе в качестве тестового можно выбрать любой тип распределения, поскольку распределение величины распределения F(x). Dn n не зависит от типа теоретического 17 Таблица 4 One-Sample Kolmogorov-Smirnov Test Возраст N Normal Parameters Most Extreme Differences 922 Mean 40,24 Std. Deviation 9,688 Absolute Positive ,050 ,048 Negative -,050 Kolmogorov-Smirnov Z 1,513 Asymp. Sig. (2-tailed) ,021 a Test distribution is Normal. b Calculated from data. Из таблицы 4 видно, что максимальная абсолютная разница между эмпирическим и тестовым распределением равно 0,050, что дает значение критерия Колмогорова 1,513 (что легко проверить, помножив значение абсолютной разницы на корень квадратный из числа наблюдений 922). P0 для данного значения критерия, что также явствует из таблицы, меньше 0,05. В принципе, это можно сказать по самому значению критерия, поскольку для Pкр=0,05 λкр≈1,36. В нашем случае значение критерия превосходит λкр, поэтому оно является значимым, что подтверждает наши выводы о том, что распределение переменной «возраст» значимо отличается от нормального1. Вероятностные и частотные графики P-P plot и Q-Q plot можно получить, воспользовавшись командами главного меню Graphs/P-P… (Графики/Графики вероятность-вероятность) Graphs/Q-Q… (Графики/Графики частота-частота) соответственно. Рассмотрим процесс построения первых графиков (построение вторых аналогично и производится при помощи соответствующей команды). При выполнении команды Graphs/P-P… (рис.11) открывается диалоговое окно построения вероятностных графиков P-P plot (рис.12). В левом поле размещаются числовые переменные, доступные для построения графика (качественные переменные отображаться не будут). 1 В дальнейшем при расчете параметрических критериев в учебных целях мы будем игнорировать это обстоятельство. 18 Переместим при помощи стрелки в поле Variables переменную «возраст». В поле Test Disribution (Тестовое распределение) выберем Normal (Нормальное), которое стоит по умолчанию. В поле Proportion Estimation Formula (Формула расчета пропорций) также оставим Biom’s (формула Биома, будут использоваться корректировочные значения рангов и частот Биома). В поле Rank Assigned to Ties (Значение, присваиваемое связкам (одинаковым значениям)) оставим стоящее по умолчанию Mean (Среднее). В поле Transform (Преобразовать) можно ничего не выбирать или снять флажок с предлагаемой функции преобразования вероятностных значений. Для Distribution Parameters (Параметры распределения) следует оставить опцию Estimated from Data (в противном случае необходимо самостоятельно указать значение центра и масштаба распределения). Для получения графика следует нажать кнопку ОК. Рис. 11. Команда главного меню Graphs/P-P… 19 Рис. 12. Диалоговое окно P-P Plots В файле анализа данных в новом блоке анализа PPplot появятся графики Normal P-P plot (рис. 13) и Detrended Normal P-P plot для переменной «возраст» (рис. 14). Normal P-P of age Normal P-P PlotPlot of âîçðàñò 1,0 ,8 Expected Cum Prob ,5 ,3 0,0 0,0 ,3 ,5 ,8 1,0 Observed Cum Prob Рис. 13. График Normal P-P plot для переменной «возраст» 20 Detrended Normal P-PP-P PlotPlot of age Detrended Normal of âîçðàñò ,04 ,03 ,02 Deviation from Normal ,01 0,00 -,01 -,02 -,03 -,04 -,2 0,0 ,2 ,4 ,6 ,8 1,0 1,2 Observed Cum Prob Рис. 14. График Detrended Normal P-P plot для переменной «возраст» На последнем из графиков можно увидеть значительное расхождение между тестовым и имеющимся распределением. Читателю рекомендуется самостоятельно построить графики соответствия частот для рассматриваемой переменной. Провести тест Колмогорова-Смирнова и построить графики соответствия частот можно, воспользовавшись командой главного меню Analyze/Descriptive Statistics/Explore (Анализ/Описательные статистики/Исследовать) (рис. 15). 21 Рис. 15. Команда главного меню Analyze/Descriptive Statistics/Explore В появившемся диалоговом окне Explore (рис.16) следует перенести переменную «возраст» в поле Dependent List (Список зависимых переменных), в блоке Display (Показать) выбрать Plots (Графики) и нажать на кнопку с таким же названием. Рис. 16. Диалоговое окно Explore 22 В окне Explore: Plots в блоке Boxplots (Коробчатые графики) следует выбрать None (Никакие), в блоке Descriptives снять флажки сo Stem-andLeaf (график «Стебель и Лист») и Histogram и поставить флажок напротив Normality plots with tests (Графики нормального распределения с тестами) (рис. 17). Рис. 17. Диалоговое окно Explore: Plots После этого следует нажать на Continue и далее, в окне Explore на OK. Появившаяся в блоке анализа данных Explore таблица Test of Normality (Тест на нормальность) содержит результаты теста Колмогорова-Смирнова (Kolmogorov-Smirnov) и теста Шапиро-Уилка (Shapiro-Wilk) (табл. 5). Результаты теста Колмогорова-Смирнова отличаются от рассмотренных выше, ибо сам тест содержит поправку значимости Лиллифора (Lillefors), о чем свидетельствует комментарий внизу таблицы. Результаты теста Шапиро-Уилка интерпретируются аналогично таковым теста Колмогорова-Смирнова, а сам тест проводится для небольших выборок (n<50), поскольку тест Колмогорова-Смирнова для получения корректных результатов требуют достаточно больших объемов выборки (n>100). В любом случае оба теста дают значимые результаты, что подтверждает сделанные ранее выводы о значимом расхождении распределения переменной «возраст» от нормального. 23 Таблица 5 Test of Normality Kolmogorov-Smirnov Возраст Statistic ,050 Shapiro-Wilk df Sig. Statistic df Sig. 922 ,000 ,981 922 ,000 a Lilliefors Significance Correction Графики соответствия частот Q-Q plot и Detrended Q-Q plot соответствуют рассмотренным выше. Контрольные вопросы: 1. Какие группы описательных статистик для количественных переменных вы знаете? 2. Какие бывают виды средних величин? 3. Чем средняя величина отличается от модальной? 4. Что такое медиана и как рассчитать ее значение для интервального ряда распределения? 5. Что такое дисперсия и среднеквадратическое отклонение? 6. Что показывает коэффициент вариации? 7. Какие бывают виды моментов распределения и на что указывает его порядок? 8. Что такое асимметрия и эксцесс? 9. Распределение каких величин подчиняется нормальному закону? 10. Каковы свойства нормального распределения? 11. Как можно оценить соответствие имеющегося распределения теоретическому? 12. Что такое распределение Колмогорова и что оно показывает? 13. В каких случаях применяют тест Колмогорова-Смирнова, а в каких – тест Шапиро-Уилка? 14. Как строятся графики соответствия частот и графики соответствия вероятностей и что они показывают? Практическое задание: Получить и описательные статистики по переменной «доход». проинтерпретировать 24 2. АНАЛИЗ ВЗАИМОСВЯЗИ ДАННЫХ В маркетинге часто приходится решать задачи, направленные на выявление силы и характера связи между некоторыми величинами. Влияющие величины при этом именуются признаками-факторами, а те, на которые влияют – признаками-результатами. Признаки-факторы могут быть независимыми от действий и решений компании (например, стихийные бедствия, политические и экономические решения руководства страны, масштабные социальные процессы и т. д.) или находится в компетенции последней (ценовые, товарные, сбытовые и прочие маркетинговые решения). В первом случае решение подобного рода задач может помочь спрогнозировать поведение признака-результата при соответствующем значении признака-фактора, во втором – выбрать наилучший вариант решения по признаку-фактору, который мог бы дать желаемое значение того или иного экономического показателя (объема продаж, потребительских предпочтений и т. д.). Следует, однако, отметить, что наличие количественной взаимосвязи не говорит о связях причинно-следственных. Такая взаимосвязь может быть обусловлена, в частности влиянием какого-нибудь третьего фактора (чаще всего таким фактором выступает время), или целой цепочки таких факторов. В этом случае говорят о ложной корреляции. Метод решения подобного рода задач определяется характером величин, выступающих как признаки-факторы и признаки-результаты, а именно тем, какую природу они имеют – качественную или количественную. Рассмотрим наиболее часто применяемые методы. 2.1. Анализ взаимосвязи количественных Корреляционно-регрессионный анализ переменных. Если переменные имеют количественную природу, то для анализа их взаимосвязи можно применить корреляционно-регрессионный анализ. Чаще всего в качестве зависимой переменной выступает объем спроса/продаж, а в качестве влияющих факторов – составляющие маркетинга-микс компании (реклама, ценовая политика и т. д.) или время. Корреляционно-регрессионный анализ, как следует из названия и логики анализа, состоит из двух независимых этапов – корреляционного и регрессионного. Цель первого – выявление силы взаимосвязи результирующей и факторной переменной (или переменных), второго – вида и параметров такой зависимости. 25 2.1.1. Корреляционный анализ. Параметрические методы анализа тесноты связи Силу взаимосвязи обычно оценивают при помощи различных показателей тесноты связи, среди которых можно выделить непараметрические или эмпирические (коэффициент корреляции рангов (коэффициент Спирмена), коэффициент Кендала, ранговый коэффициент согласия (коэффициент конкордации) и коэффициент взаимной сопряженности Пирсона) и теоретические, выводимые строго математически (коэффициент корреляции знаков (коэффициент Фихнера), коэффициент ковариации, линейный коэффициент корреляции Пирсона, коэффициент детерминации и эмпирическое корреляционное отношение). Непараметрические методы используются в том случае, если неизвестны параметры исследуемой совокупности (отсюда и название методов), она не подчиняется нормальному распределению, измерена в неметрической шкале или представлена ограниченным числом наблюдений. При этом коэффициент Спирмена, коэффициент Кендала и коэффициент конкордации предполагают ранжирование переменных (будут рассмотрены в разделе 4.2.1.1), а коэффициент взаимной сопряженности Пирсона (т. н. тест χ2) применяется для переменных, представленных в номинальной шкале (он будет рассмотрен в разделе 4.2.2) Рассмотрим сначала параметрические методы. Выборочная ковариация рассчитывается как среднее произведение отклонений индивидуальных значений переменных от их средних значений, рассчитываемое по формуле простой средней арифметической: n (x i cov( x, y ) x)( yi y ) i 1 n , (5) где cov (x, y) – выборочная ковариация параметров x и y; xi – индивидуальные значения параметра x; yi – индивидуальные значения параметра y; x – среднее значение параметра x; y – среднее значение параметра y; n – число наблюдений. Данный показатель, хотя уже и содержит количественную оценку отклонений, однако, в силу абсолютной величины данной оценки, не позволяет судить о степени соответствия отклонений признаков друг другу. Более того, очевидно, что ковариация учитывает лишь линейную зависимость и «не работает» в том случае, если зависимость не линейная. 26 Степень и количественную оценку с т е п е н и связи позволяет оценить линейный коэффициент корреляции Пирсона. Он относит значение коэффициента ковариации к произведению среднеквадратических отклонений признаков. Выборочный коэффициент линейной корреляции Пирсона определяется на основе выборочных данных следующим образом: n cov( x, y ) rxy Sx S y (x x )( yi y ) i i 1 , n n (x i 2 x ) ( yi y ) (6) 2 iq где rxy – выборочный линейный коэффициент корреляции признаков x и y; Sx – оценка стандартного отклонения признака-фактора x; Sy – оценка стандартного отклонения признака-результата y. Для оценки статистической значимости коэффициента корреляции рассчитывается t-критерий Стьюдента как отношение конкретного значения коэффициента к его стандартной ошибке: tr rxy Sr , (7) где tr – t-критерий Стьюдента для коэффициента выборочной корреляции r; Sr – стандартная ошибка коэффициента корреляции. Распределение t-критерия известно и подчинятся закону Стьюдента: Ft ( x ) 1 2 2 Г (( 1) / 2) x ( ) 1 Г ( / 2) 1 2 , (8) где Ft(x) – функция распределения t-критерия Стьюдента; Г – гамма-функция1; υ – число степеней свободы. Стандартная ошибка коэффициента корреляции рассчитывается по формуле: 1 Гамма-функция (Г-функция, Г(х)) – одна из важнейших специальных функций, обобщающая понятие факториала; для целых положительных n Г(n) = (n - 1)! = 1·2... (n - 1). Гамма-функция для действительных x>0 определяется равенством Г ( x) t x 1 x t dt 0 27 1 rxy2 Sr . n2 (9) Значение P0=1 – Ft(x) и будет являться уровнем значимости коэффициента корреляции. Значение коэффициента корреляции удовлетворяет условию 1 rxy 1 , при этом, если rxy 0 , то зависимость обратная, а если rxy 0 – прямая. Значение коэффициента, близкое к нулю, говорит об отсутствии согласованности в величинах рассматриваемых признаков. Для оценки тесноты связи можно использовать шкалу Чеддока (табл. 6): Таблица 6 Шкала Чеддока [4] Показатели 0,10-0,30 0,30-0,50 0,50-0,70 0,70-0,90 0,90-0,99 тесноты связи Характеристика Весьма Слабая Умеренная Заметная Высокая тесноты связи высокая Проведем корреляционный анализ на основе данных файла sex_age_education_revenue.sav. Объектом анализа будут служить три количественные переменные «возраст», «доход» и «IQ». Для выполнения анализа необходимо выполнить команду главного меню Analyze/Correlate/Bivariate (Анализ/Корреляция/Двумерная) (рис.18). Рис. 18. Команда главного меню Analyze/Correlate/Bivariate 28 В открывшемся диалоговом окне (рис. 19) следует поместить три указанных переменных в поле Variables (в левом поле будут присутствовать лишь переменные, измеренные в ранговой или метрической шкале, номинальные данные будут автоматически исключаться из анализа). В поле Correlation Coefficients следует поставить флажок на Pearson (Линейный коэффициент корреляции Пирсона), после чего нажать на кнопку ОК. Рис. 19. Диалоговое окно Bivariate Correlations В появившемся окне Output появится матрица значений линейного коэффициента корреляции Пирсона между переменными Pearson Correlations, значимостью этих значений Sig. и числом наблюдений N (табл. 7). Таблица 7 Возраст Доход IQ Correlations Возраст Pearson Correlation 1 Sig. (2-tailed) , N 922 Pearson Correlation -,154 Sig. (2-tailed) ,000 N 922 Pearson Correlation ,107 Sig. (2-tailed) ,001 N 922 ** Correlation is significant at the 0.01 level (2-tailed). Доход -,154 ,000 922 1 , 922 -,627 ,000 922 IQ ,107 ,001 922 -,627 ,000 922 1 , 922 29 Комментарий под таблицей 7 гласит, что значение коэффициента корреляции является значимым в том случае, если уровень значимости меньше или равен 0,01. Как видно из таблицы 7, уровни значимости всех значений коэффициента корреляции удовлетворяют данному условию. Что касается значений самих коэффициентов, то можно увидеть наличие существенной корреляции между переменными «IQ» и «доход». Причем эта связь носит обратно пропорциональный характер – чем выше доход респондента, тем ниже его интеллектуальный коэффициент. Это может объясняться влиянием какой-нибудь другой переменной, например, «возраст». Попробуем вычислить частный коэффициент корреляции для переменных «IQ» и «доход» с учетом влияния переменной «возраст». Для вычисления частного коэффициента корреляции необходимо выполнить команду главного меню Analyze/Correlate/Partial (рис. 20). В диалоговом окне Partial Correlations (Частные корреляции) (рис. 21) следует поместить переменные «IQ» и «доход» в поле Variables, а переменную «возраст» в поле Controlling for (Контроль для) и для проведения анализа нажать на кнопку OK. Рис. 20. Команда главного меню Analyze/Correlate/Partial 30 Рис. 21. Диалоговое окно Partial Correlations В таблице Partial Correlations Coefficients (табл. 8) коэффициент частной корреляции между переменными «IQ» и «доход» с учетом влияния переменной «возраст» по-прежнему показывает значимо высокое значение (–0,6212 при P0<<0,001). Таблица 8 Partial Correlations Coefficients Controlling for.. AGE REVENUE IQ REVENUE 1,0000 -,6212 ( 0) ( 919) P= , P= ,000 IQ -,6212 1,0000 ( 919) ( 0) P= ,000 P= , (Coefficient / (D.F.) / 2-tailed Significance) " , " is printed if a coefficient cannot be computed 31 Контрольные вопросы: 1. Какие показатели оценки тесноты связи вы знаете? 2. Что такое ковариация и как она рассчитывается? Какие бывают показатели ковариации? 3. Что такое корреляция и как она связана с ковариацией? 4. Почему линейный коэффициент корреляции Пирсона может иметь маленькое значение при наличии нелинейной функциональной связи? 5. Какой критерий оценивает значимость коэффициента корреляции? 6. Как можно оценить множественную корреляцию? 7. Что такое частный коэффициент корреляции? Практическое задание: Имеются данные по расходам на рекламу и объему продаж в годовом исчислении и размеру капитала по ряду предприятий. Необходимо провести корреляционный анализ и проинтерпретировать результаты. Данные для анализа представлены в файле adv_sales_funds.xls. 2.1.2. Использование для анализа тесноты связи показателей, основанных на ранжировании В случае, если распределение какой-л. величины не подчиняется нормальному закону, количество наблюдений ограничено или ее нельзя измерить количественно, но можно проранжировать, применяют непараметрические тесты оценки тесноты связи для ранжированных переменных, суть которых состоит в присвоении сравниваемым величинам рангов и оценке их взаимного расположения. Таковыми являются коэффициент корреляции рангов (коэффициент Спирмена), коэффициент Кендала и ранговый коэффициент согласия (коэффициент конкордации). Коэффициент Спирмена рассчитывается следующим образом: n сп 1 6 Di2 i 1 2 n(n 1) , (10) где ρсп – коэффициент Спирмена, Di – разница между значениями соответствующих i-х рангов признаков; n – число рангов. 32 Коэффициент корреляции рангов Спирмена, также как и линейный коэффициент корреляции Пирсона, может принимать значения от –1 (обратная функциональная связь) до +1 (прямая функциональная связь). Коэффициент Кендала так же, как и коэффициент Спирмена, основан на сравнении рангов переменных, только при расчете коэффициента Кендала рассчитывается не разница рангов, а разница соответствий и несоответствий их последовательностей. Для расчета коэффициента Кендала необходимо проделать следующее: 1) отсортировать по возрастанию значения рангов одного признака (табл. 9); 2) определить для каждого значения ранга отсортированной последовательности соответствующее ему значение ранга другого признака; 3) для каждого ранга несортированной последовательности посчитать число рангов, находящихся после него, значения которых больше его значения, просуммировать полученные числа и обозначить сумму как P; 4) для каждого ранга несортированной последовательности посчитать число рангов, находящихся после него, значения которых меньше его значения, просуммировать полученные числа и обозначить сумму как D; 5) рассчитать значение коэффициента Кендала по следующей формуле: 2S , n(n 1) (11) где τ – значение коэффициента Кендала; S=P – Q. Таблица 9 Пример данных для расчета коэффициента Кендала Ранги x Ранги y 1 5 2 6 3 8 4 10 5 3 6 9 7 7 8 1 9 2 10 4 Значения коэффициента Кендала изменяются соответственно коэффициенту Спирмена. Коэффициент конкордации (ранговый коэффициент согласия) рассчитывается для измерения тесноты связи между несколькими признаками. 33 Предположим, что нам, как и в предыдущем случае, необходимо определить тесноту связи между переменными «доход», «IQ» и «возраст», но объем выборки ограничен первыми ста наблюдениями. В этом случае для рассматриваемых показателей при помощи программы SPSS можно рассчитать значения коэффициентов Спирмена и Кендала. Для включения в анализ лишь первых ста наблюдений воспользуемся уже знакомой командой главного меню Data/Select Cases. В открывшемся диалоговом окне Select Cases (рис. 22) выберем опцию Based on time or case range (Основан на диапазоне времени или наблюдений). После этого нажмем на кнопку Range (Ранг) для определения ранга наблюдений. В диалоговом окне Select Cases: Range в поле First Case (Первое наблюдение) поставим 1, а в поле Last Case (Последнее наблюдение) – 100 (рис. 23). В этом случае для анализа будут отобраны первые сто наблюдений. В диалоговом окне Select Cases в поле Unselected Cases Are (Отсеянные наблюдения) выберем опцию Filtered (Фильтруются). В этом случае отфильтрованные наблюдения не будут удалены из файла, а будут лишь перечеркнуты (рис. 24). Рис. 22. Диалоговое окно Select Cases 34 Рис. 23. Диалоговое окно Select Cases: Range Рис. 24. Фильтрация данных (отфильтрованные наблюдения перечеркнуты) Для расчетов коэффициентов ρсп и τ необходимо снова выполнить команду главного меню Analyze/Correlate/Bivariate. В диалоговом окне Bivariate Correlations следует снять флажок с Pearson и поставить его на Spearmen и Kendall’s tau-b (коэффициенты ρсп и τ соответственно) и для получения результатов анализа нажать на кнопку OK. 35 В появившемся в файле Output блоке Nonparametric Correlations (Непараметрические корреляции) будет находиться таблица Correlations со значениями коэффициентов корреляции Спирмена и Кендала, их уровнями значимости и число наблюдений (которое, как можно убедиться, равно 100) (табл. 10). Комментарий под таблицей гласит, что помеченные символом «*» значения коэффициентов значимы при P0<0,05, а помеченные «**» значимы при P0<0,01. Как видно из данных таблицы, эти условия выполняются для всех значений. Что касается самих значений коэффициентов, то они опять показывают существенную отрицательную корреляцию между переменными «IQ» и «доход». При этом значения τ несколько выше значений коэффициента ρсп. Таблица 10 Correlations со значениями непараметрических коэффициентов корреляции Kendall's tau_b возраст доход IQ Spearman's rho возраст доход IQ Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N * Correlation is significant at the .05 level (2-tailed). ** Correlation is significant at the .01 level (2-tailed). возраст 1,000 доход -,161 IQ ,056 , 100 -,161 ,019 100 1,000 ,424 100 -,490 ,019 100 ,056 , 100 -,490 ,000 100 1,000 ,424 100 1,000 ,000 100 -,244 , 100 ,089 , 100 -,244 ,014 100 1,000 ,379 100 -,674 ,014 100 ,089 , 100 -,674 ,000 100 1,000 ,379 100 ,000 100 , 100 36 Контрольные вопросы: 1. В каких случаях для анализа тесноты связи применяют непараметрические критерии? 2. Какие непараметрические критерии для анализа тесноты связи вы знаете? 3. Что такое связанные ранги? Практическое задание: Выполнить расчет рассмотренных непараметрических статистик для данных файла adv_sales_funds.xls. 2.1.3. Регрессионный анализ Регрессионный анализ состоит в приближении наблюденного ряда распределения результирующего показателя к некоему ряду, приблизительно описывающему соответствие между признакомрезультатом и признаками-факторами притом, что, благодаря приближению по возможности исключается действие случайных (не включенных в анализ) факторов. Последовательность прохождения регрессионного анализа следующая: 1. Построение эмпирической регрессии. Данный этап предполагает построение эмпирической линии регрессии на основе группировки (аналитической или комбинационной) наблюденной совокупности по признаку-фактору с расчетом средневзвешенных значений по каждой группе: 1.1. Определение, исходя из объема статистически устойчивой совокупности, количественного значения понятия статистически устойчивой группы (сколько значений должно быть в каждой группе, чтобы среднее значение было достоверным) 1.2. Группировка по признаку-фактору единиц статистической совокупности, с количеством наблюдений в каждой группе, определенном в п.1 1.3. Расчет средних значений признака-фактора и признакарезультата 1.4. Графическое отображение соответствия среднегрупповых значений признаков (построение эмпирической линии регрессии) Эмпирическая регрессия не предполагает выведение аналитического выражения, описывающего соответствие значений признаков, в силу чего решение прогнозных задач затруднено. Здесь возможны две ситуации: 1) Значение признака-фактора будет находиться в пределах наблюденного диапазона или на «разумном» расстоянии от него, то он будет относиться к той или иной группе значений, которой будет соответствовать среднее значение признака-результата. Но такие средние 37 значения зачастую очень грубо аппроксимируют действительные значения признака-результата, поскольку для получения статистически устойчивых групп требуется достаточно большое число наблюдений, принадлежащих широкому диапазону значений, поэтому групповые средние достаточно далеко отстоят друг от друга. Поэтому для получения прогнозного значения признака-результата потребуется применение методов экстраполяции или интерполяции, например, построение скользящей средней, где средние значения принадлежат перекрывающимся группам с последовательным сдвигом на одно значение вперед или экспоненциально сглаженной, где значения усредняются для всей совокупности с прибавлением каждого следующего наблюдения, вследствие чего имеем индивидуализацию среднего значения признака-результата для каждого индивидуального значения признака-фактора. 2) Значение признака-фактора является «выбросом» или требуется спрогнозировать значение признака-результата на достаточно далеко отстоящий момент времени. Эту задачу с применением только эмпирической регрессии не решить. В силу указанных причин построение эмпирической регрессии позволяет выявить наличие и направленность зависимости и приблизительно определить ее вид. Далее следует расчет параметров зависимости методами аналитической регрессии. 2. Построение аналитической регрессии Построение аналитической регрессии предполагает выведении функциональной зависимости между признаками-факторами и признакомрезультатом: y f ( xi1 , xi 2 ,..., xij , ..., xim ) , (12) где y – признак-результат; x – признак-фактор; m – число переменных; ε – случайный член. Первым этапом построения аналитической регрессии является выбор вида зависимости (спецификации модели). На втором этапе определяют параметры зависимости для выбранной спецификации модели. Надо сказать, что выбор вида функциональной зависимости является столь же важным, сколь и наименее теоретически обоснованным. Выбор вида аналитической зависимости осуществляется с использованием одного из следующих методов: 38 — графический – на основе визуального анализа корреляционного поля (графика рассеяния данных); — аналитический – на основе анализа накопленной информации по изучаемому явлению; — экспериментальный – методом перебора различных моделей и сравнения таких их качественных показателей как остаточная дисперсия 2 и средняя ошибка аппроксимации A . В зависимости от вида спецификации модели различают линейную регрессию и нелинейные регрессионные модели. Линейная регрессионная модель представлена полиномом первой степени (будет рассмотрена ниже). Что касается нелинейности, то она может проявляться как в отношении объясняющих переменных, так и в отношении оцениваемых параметров. Параметры зависимости чаще всего оценивают на основании выборочных данных с применением метода наименьших квадратов, который состоит в минимизации функции суммы квадратов разницы между функциональными и эмпирическими значениями зависимой переменной (т.н. остатков): n n 2 i F e ( yi yˆ i ) 2 min, i 1 i 1 (13) где F – минимизируемая функция суммы квадратов разницы между теоретическими и наблюденными значениями признака-результата; yi – наблюденное (реальное) значение для i-го наблюдения; ŷi – рассчитываемое (теоретическое) значение зависимой переменной на основании выбранной формы аналитической зависимости для i-го наблюдения; ei2 – разница между наблюдаемым и теоретическим (расчетным) значением признака результата для i-го наблюдения. n – количество наблюденных значений в выборке. В зависимости от того, сколько признаков-факторов включают в анализ, различают парную и множественную регрессию (в первом случае рассматривается один признак-фактор, во втором их может быть несколько), а от вида функциональной зависимости, к которой приближают наблюденный ряд – линейную и нелинейные регрессии. Мы ограничимся линейной моделью, в рамках которой рассмотрим парную и множественную регрессии. 39 Контрольные вопросы: 1. Для чего применяют регрессионный анализ? 2. Что такое эмпирическая регрессия и аналитическая регрессия? 3. Из каких этапов состоит аналитическая регрессия? 4. Какие методы можно применить при выборе вида аналитической зависимости? 5. Какие виды регрессионных моделей вы знаете? 2.1.3.1. Парная линейная регрессия В случае парной линейной регрессии зависимость между признакомрезультатом и признаком-фактором (оба из которых представлены в метрической шкале) в генеральной совокупности представляют в виде линейной функции: y 0 1 x , (14) где y – признак-результат; x – признак-фактор; α0 и α1 – параметры уравнения регрессии, где α0 – свободный член регрессии, отражающий пересечение регрессионной прямой с осью ординат, а α1 – угловой коэффициент или тангенс угла наклона прямой к оси абсцисс; ε – ошибка регрессии (случайный член), связанный с неучтенными факторами, возможной нелинейностью зависимости или ошибками измерения. На основе выборочных данных оцениваются параметры выборочного уравнения регрессии: yˆ i a0 a1 xi , (15) где ŷi – теоретическое значение признака-результата для i-го наблюдения; xi – значение признака-фактора для i-го наблюдения; a0 и a1 – оценки параметров уравнения регрессии 0 и 1 соответственно. Рассчитав параметры уравнения регрессии, следует оценить его качество, то есть степень, в которой реальные (наблюденные) значения признака-результата соответствуют теоретическим, рассчитанным по аналитическому выражению. Таким образом, можно оценить прогнозную силу получившейся модели, т.е. насколько по поведению признакафактора на основе нашей модели можно оценить поведение признака- 40 результата. Такая оценка основана на разложении общей вариации зависимой переменной на две составляющие – вариацию, обусловленную поведением (изменением) признака-фактора и случайную вариацию. Эти вариации оцениваются при помощи таких показателей как общая дисперсия Y , факторная дисперсия F и остаточная дисперсия соответственно. В реальной ситуации эти параметры неизвестны, но их можно оценить на основе аналогичных выборочных показателей. Несмещенные оценки генеральных параметров получаются путем деления соответствующей суммы квадратов отклонений на число степеней свободы данного выражения Оценка вариации зависимой переменной производится при помощи таких показателей, как средняя ошибка аппроксимации, или модуль среднего линейного отклонения и коэффициент детерминации, показывающий долю дисперсии, объясняемую действием признакафактора. В случае парной линейной регрессии коэффициент детерминации представляет собой квадрат коэффициента корреляции. При этом следует учитывать, что расчет коэффициента детерминации корректен, если в уравнение регрессии включена константа. Поскольку коэффициент детерминации рассчитывается на основании только выборочных данных, то необходимо оценить его значимость для всей совокупности, т.е. рассчитать уровень его значимости на основании данных об объеме выборки. Значимость коэффициента детерминации оценивается при помощи F-критерия Фишера. Для совокупностей с объемом n<30 помимо анализа вариации зависимой переменной проводят анализ вариации параметров регрессии, т.е. оценивают, насколько их выборочные оценки отклоняются от действительных значений и насколько такие оценки значимы. Действительно, оценки параметров регрессии, так же как и величину признака-результата в модели, можно представить в виде суммы двух составляющих – случайной и неслучайной. Неслучайная будет соответствовать истинному значению параметра, случайная – отклонению от этого истинного значения. На основе оценок стандартных отклонений параметров регрессии и их индивидуальных значений можно проверять гипотезы равенства коэффициентов регрессии заданным величинам. Для проверки равенства коэффициента регрессии заданной величине γ определяется значение t-критерия, рассчитываемого как отношение разницы имеющейся оценки коэффициента и заданной величины к оценке стандартного отклонения коэффициента. Если полученная величина t-критерия больше tкр для заданного уровня значимости Pкр, или, в случае расчета P0, P0<Pкр, то разность является значимой и гипотеза равенства данного параметра регрессии заданной величине γ отвергается. 41 Существуют определенные условия применения МНК при построении линейной модели, выполнение которых необходимо для того, чтобы выведенная регрессионная модель наилучшим образом (т.е. максимально приближенно к действительности) описывала поведение признакарезультата: 1. Математическое ожидание случайного члена в любом наблюдении должно быть равно нулю: M ( i ) 0 (16) 2. Дисперсия случайного члена должна быть постоянной для всех наблюдений: D ( i ) M ( i2 ) 2 3. Случайные члены должны быть (некоррелированы) между собой: M ( i j ) 0 (17) статистически независимы i≠j (18) 4. Объясняющие переменные xj есть величины неслучайные. Перечисленные условия носят название условий Гаусса-Маркова, при выполнении которых модель называется классической нормальной линейной регрессионной моделью. Первое условие означает, что случайный член не должен иметь систематического смещения. Данное условие выполняется автоматически при включении в уравнение постоянного члена. Второе условие означает независимость разброса значений случайного члена от номера наблюдения и называется гомоскедастичностью. Если имеется такая зависимость, то говорят о гетероскедастичности. Проверку условия гомоскедастичности можно оценить при помощи определенных тестов, например, коэффициента ранговой корреляции Спирмена, теста Гольдфельда-Квандта и теста Глейзера. Третье условие означает, что величины остатков должны быть независимы друг от друга. При несоблюдении данного условия говорят об автокорреляции остатков. 42 Автокорреляция – это взаимосвязь последовательных элементов временного или пространственного ряда данных. Т.е. получается, что значение каждого последующего наблюдения в какой-то мере определяется значением предыдущего при том, что сама величина разброса (измеряемая дисперсией) не меняется. В эконометрических исследованиях часто возникают такие ситуации, когда дисперсия остатков постоянная, но наблюдается их ковариация. Автокорреляция остатков чаще всего наблюдается тогда, когда эконометрическая модель строится на основе временных рядов. Если существует корреляция между последовательными значениями некоторой независимой переменной, то будет наблюдаться и корреляция последовательных значений остатков. Автокорреляция может быть также следствием ошибочной спецификации эконометрической модели. Кроме того, наличие автокорреляции остатков может означать, что необходимо ввести в модель новую независимую переменную, которая была упущена. Автокорреляцию можно оценить при помощи коэффициента автокорреляции Андерсона. Другой используемый в этих целях критерий – статистика Дурбина-Ватсона, имеющаяся в SPSS. Значение последней меняется от 0 до 4. При отсутствии автокорреляции тест дает значение, близкое к 2, при положительной автокорреляции – близкое к 0, при отрицательной – близкое к 4. Нарушение четвертого условия о неслучайности объясняющей переменной приводит к тому, что оценки, рассчитанные на основе МНК, оказываются смещенными и неэффективными. Т.о. соблюдение этого условия является крайне важным. Проведем регрессионный анализ данных файла sex_age_education_revenue.sav, рассматривая в качестве фактора переменную «возраст», а в качестве результата – переменную «доход». Для этого необходимо выполнить команду главного меню Analyze/Regression/Linear (Анализ/Регрессия/Линейная) (рис. 25). В открывшемся диалоговом окне Linear Regression (Линейная регрессия) в поле Dependent (зависимая переменная) следует поместить переменную «доход», а в поле Independent(s) (Независимая/ые переменная/ые) – переменную «возраст». В поле Method (Метод включения переменных в уравнение регрессии) можно оставить Enter (одновременное включение всех переменных в уравнение). В данном случае выбор метода непринципиален, поскольку рассматривается лишь один фактор. 43 Рис. 25. Команда главного меню Analyze/Regression/Linear В диалоговом окне Linear Regression: Statistics (Линейная регрессия: статистики) для Regression Coefficients (Коэффициенты регрессии) выберем Estimates (Оценки коэффициентов регрессии) и Confidence intervals (Доверительные интервалы), для Residulas (Остатки) – DurbinWatson (Тест Дурбина-Ватсона), также активируем опции Model Fit (Приближение модели), что позволит рассчитать коэффициент множественной корреляции, коэффициент детерминации, исправленный коэффициент детерминации и стандартную ошибку и Descriptives (Описательные статистики) (рис. 26). В диалоговом окне Linear Regression: Options (Линейная регрессия: опции) (рис. 27) оставим активированной по умолчанию Include constant in equation (Включить константу в уравнение). 44 Рис. 26. Диалоговое окно Linear Regression Рис. 27. Диалоговое окно Linear Regression: Statistics По возвращении в диалоговое окно Linear Regression нажмем на кнопку OK для получения результатов анализа. Таблица 11 – Descriptive Statistics содержит информацию о средних значениях, стандартных отклонениях и числе наблюдений по каждой переменной. 45 Таблица 12 – Correlations содержит значения парных коэффициентов корреляции, их значимость и число наблюдений. Парный коэффициент корреляции между переменными дает значимый результат (Sig.<<0,001), однако само значение коэффициента (–0,154) говорит о слабой связи между переменными. Таблица 11 Descriptive Statistics Mean 31890,45 40,24 Доход Возраст Std. Deviation 11881,929 9,688 N 922 922 Таблица 12 Correlations Pearson Correlation Sig. (1-tailed) N доход возраст доход возраст доход возраст Доход 1,000 -,154 , ,000 922 922 Возраст -,154 1,000 ,000 , 922 922 Значение коэффициентов корреляции и детерминации в таблице Model Summary (Суммарная информация по модели) также говорит о незначительной доле факторной вариации (табл. 13). Значение теста Дурбина-Ватсона, близкое к двум (2,003) свидетельствует о практическом отсутствии автокорреляции остатков. Таблица 13 Model Summary Model R 1 ,154 R Square Adjusted R Square ,024 ,023 Std. Error of the Estimate DurbinWatson 11746,053 2,003 a Predictors: (Constant), возраст b Dependent Variable: доход Значимость F-критерия в таблице 14 – ANOVA (дисперсионный анализ) говорит о качестве модели в целом. 46 Таблица 14 ANOVA Model Sum of Squares df Mean Square F Sig. 1 Regression 3094826019,527 1 3094826019,527 22,431 ,000 Residual 126932171926,369 920 137969752,094 Total 130026997945,896 921 a Predictors: (Constant), возраст b Dependent Variable: доход Наконец, таблица 15 – Coefficients (Коэффициенты) свидетельствует о значимости параметров регрессии. Стандартизованный коэффициент β в данном случае представляет собой парный линейный коэффициент корреляции Пирсона. Таблица 15 Coefficients Model 1 Unstandardized Standardized Coefficients Coefficients B Std. Error Beta (Constant) 39504,667 1653,564 возраст -189,222 39,953 -,154 t Sig. 95% Confidence Interval for B Lower Upper Bound Bound 23,891 ,000 36259,472 42749,861 -4,736 ,000 -267,630 -110,813 a Dependent Variable: доход В целом, на основании результатов анализа можно сделать вывод о том, что, во-первых, линейная модель достаточно хорошо подходит для описания взаимосвязи между переменными, а, во-вторых, о влияние переменной «возраст» на переменную «доход» незначительно. Контрольные вопросы: 1. Как выглядит уравнение регрессии для парной линейной модели? 2. Что показывает угловой коэффициент в модели парной линейной регрессии? 3. Что дает включение свободного члена в регрессионное уравнение? 4. Чем объясняется наличие случайного члена в уравнении регрессии? Чем случайный член отличается от остатка? 5. Какой метод применяется для оценки параметров регрессии? 6. Перечислите свойства коэффициентов регрессии? 7. При помощи какого критерия оценивается значимость коэффициентов регрессии? Как он строится? 8. На какие составляющие раскладывается вариация зависимой переменной? 9. Что такое качество регрессионной модели и как его оценить? 47 10. Что такое доверительный интервал? 11. Какие допущения предполагает регрессионный анализ? 12. Что такое гетероскедастичность и какие последствия регрессионной модели она может иметь? 13. Что такое автокорреляция остатков и как ее оценить? в Практическое задание: Провести по указанной схеме регрессионный анализ для данных файла adv_sales_funds.xls, рассматривая в качестве признака-результата переменную «объем продаж», а в качестве признакафактора – переменную «расходы на рекламу». 2.1.3.2. Множественная линейная регрессия В случае множественной линейной регрессии признак-результат представляется линейной функцией некоторого множества переменных: y 0 1 x1 2 x2 ... j x j ... m xm , (19) где xj – j-я факторная переменная; αj – коэффициент переменной Xj; m – число переменных. На основе выборочных данных составляется выборочное уравнение регрессии: yˆ i a0 a1 xi1 a2 xi 2 ... a j xij ... am xim , (20) где xij – значение i-го наблюдения j-й переменной; aj – коэффициент при j-й переменной; m – число переменных. Анализ вариации зависимой переменной в модели множественной регрессии проводится как в целом по модели, так и для каждой независимой переменной. Коэффициент множественной корреляции позволит оценить степень совместного влияния факторов на результирующую переменную. Значение коэффициента множественной корреляции должно быть больше или равно максимальному парному коэффициенту корреляции. Частные коэффициенты корреляции позволяют оценить тесноту связи отдельных факторов и результирующей переменной. 48 Коэффициент множественной детерминации, оценивающей качество построенной многофакторной модели, рассчитывается как квадрат коэффициента множественной корреляции. Скорректированный коэффициент детерминации содержит поправку на число степеней свободы. F-критерий Фишера оценивает значимость модели в целом. представляет собой отношение факторной дисперсии к случайной с поправкой на число степеней свободы. Частные F-критерии Фишера оценивают значимость присутствия в модели каждой переменной. Значимость коэффициентов регрессии оценивается при помощи tкритерия Стьюдента. Помимо гетероскедастичности и автокоррелированности данных в случае множественной регрессии может возникнуть уже упоминавшаяся проблема линейной зависимости факторных переменных, называемая мультиколлинеарностью факторов. Оценить степень зависимости факторов можно на основе коэффициентов парной корреляции, например, по шкале Чеддока. Оценить степень зависимости факторов в целом можно, рассчитав определитель матрицы межфакторной корреляции. При этом определитель будет принимать значения от 0 до 1. Значение определителя, близкое к нулю, будет говорить о сильной взаимной коррелированности факторных переменных. На практике используют следующие способы избавления от мультиколлинеарности факторов [15]: 1. Исключение из уравнения тех переменных, которые сильно коррелируют между собой. Сильно коррелирующие переменные целесообразно объединять между собой. 2. Использование для объединения какой-л. функции, например, линейной комбинации переменных. 3. Переход к совмещенным уравнениям регрессии. Такие уравнения отражают не только влияние факторов на результирующую переменную, но и их взаимодействие между собой. Также при отборе факторов при построении модели множественной регрессии рекомендуется соблюдать определенное соотношение числа факторных переменных и единиц наблюдения. Так, если n – число единиц наблюдения (совокупности), а m – число переменных, то рекомендуется, чтобы n / m 6,7 . Включение факторов в регрессионную модель может осуществляться на основе процедур, использующих различные методы. Можно включить в уравнение сразу несколько переменных единым блоком и определить значимость уравнения на основе критерия Фишера. Если значение критерия неудовлетворительно, то можно также поблочно их исключать. 49 Можно также использовать один из пошаговых методов. Программа SPSS предлагает на выбор один из следующих методов построения регрессионной модели: Метод включения (Enter) Процедура выбора переменных, при которой все переменные единым блоком включаются в уравнение регрессии. Метод исключения (Remove) Процедура выбора переменных, при которой все переменные единым блоком исключаются из уравнения регрессии. Пошаговый метод (Stepwise) На каждом шаге независимая переменная, не включенная в уравнение, с наименьшим показателем Signum для F-критерия, включается в уравнение. Переменные, уже включенные в уравнение регрессии, исключаются из него, если их Signum для F-критерия становиться больше принятого порогового значения для включения/исключения. Так продолжается до тех пор, пока не останется переменных для включения/исключения по выбранному значению Signum для F-критерия. Метод включения (Forward) Пошаговая процедура выбора переменных, при которой переменные последовательно включаются в уравнение. Критерием для включения служит коэффициент частичной корреляции с зависимой переменной. Сначала включается переменная с наибольшим модульным значением коэффициента, если оно удовлетворяет принятому пороговому значению. Затем в уравнение включается следующая переменная, имеющая наибольшее значение коэффициента частичной корреляции из оставшихся переменных в том случае, если его значение удовлетворяет принятому пороговому значению. Процедура останавливается тогда, когда уже не остается переменных, удовлетворяющих выбранному критерию включения. Метод исключения (Backward) Метод выбора переменных, при котором сначала все переменные включаются в уравнение, а потом последовательно исключаются. Критерием для исключения служит все тот же коэффициент частичной корреляции. Сначала исключатся переменная с наименьшим значением коэффициента в том случае, если это значение меньше принятого порогового. Затем следующая переменная в уравнении, имеющая наименьшее значение коэффициента меньше порогового значения, исключается из модели. Процедура заканчивается тогда, когда в уравнении не остается переменных, удовлетворяющих выбранному критерию исключения. 50 Построим множественную линейную регрессионную модель для данных файла sex_age_education_revenue_IQ.sav. Добавим в построенную ранее модель пареной регрессии в качестве фактора переменную «IQ». Для этого необходимо в диалоговом окне Linear Regression добавить в поле Independent(s) переменную «IQ». В списке Method (Метод включения переменных в модель) выберем рекомендуемый в случае множественной регрессии метод Backward (Обратный). В поле Linear Regression: Statistics (рис. 28) для Regression Coefficients также выберем Estimates и Confidence intervals, для Residulas – Durbin-Watson, опцию Model Fit, Descriptives и, поскольку регрессия множественная, активируем опцию Part and partial correlations (Частные и частичные коэффициенты корреляции). Рис. 28. Диалоговое окно Linear: Regression: Statistics В диалоговом окне Save (Сохранить) путем активации опций Predicted Values: Unstandardized (Прогнозируемые значения: нестандартизованные) и Residuals: Unstandardized (Остатки: Нестандартизованные) можно задать расчет прогнозируемых (теоретических) значений зависимой переменной и остатков (разниц) (рис. 29). 51 Рис. 29. Диалоговое окно Linear: Regression: Save В диалоговом окне Linear Regression: Options (рис.30) оставим стоящие по умолчанию установки для Stepping Method Criteria (Критерии пошаговых методов) на Use probability of F (Использовать вероятность F-критерия) со значениями 0,05 и 0,10, что будет означать что критерием для включения/исключения переменных в модель будет значение функции распределения F-критерия 0,05 и 0,10 соответственно и активированную опцию Include constant in equation. 52 Рис. 30. Диалоговое окно Linear: Regression: Options По возвращении в диалоговое окно Linear Regression нажмем на кнопку OK для получения результатов анализа. Так же как и в модели парной регрессии, таблица 16 – Descriptive Statistics содержит информацию о средних значениях, стандартных отклонениях и числе наблюдений по каждой переменной. В таблице 17 – Correlations мы можем обнаружить значимую (Sig.=0,001) корреляцию между переменными «возраст» и «IQ». Однако само ее значение 0,107 говорит о слабой связи между объясняющими переменными. Т.о., можно заключить, что проблема мультиколлинеарности не возникает. Значение коэффициента детерминации в таблице 18 – Model Summary говорит о средней силе зависимости между факторами и результатом. Значение теста Дурбина-Ватсона, близкое к двум (1,949), как и в случае парной регрессии, говорит о практическом отсутствии автокорреляции остатков. Таблица дисперсионного анализа ANOVA (табл. 19) показывает значимость F-критерия в целом по модели. Таблица 16 Descriptive Statistics доход возраст IQ Mean 31890,45 40,24 102,26 Std. Deviation 11881,929 9,688 13,935 N 922 922 922 53 Таблица 17 Correlations Pearson Correlation доход 1,000 -,154 -,627 , ,000 ,000 922 922 922 доход возраст IQ доход возраст IQ доход возраст IQ Sig. (1-tailed) N возраст -,154 1,000 ,107 ,000 , ,001 922 922 922 IQ -,627 ,107 1,000 ,000 ,001 , 922 922 922 Таблица18 Model Summary Model R 1 ,633 R Square Adjusted R Std. Error of the DurbinSquare Estimate Watson ,401 ,399 9209,590 1,949 a Predictors: (Constant), IQ, возраст b Dependent Variable: доход Таблица 19 ANOVA Model 1 Sum of Squares Regression 52080591685,804 Residual Total df Mean Square F Sig. 2 26040295842,902 307,019 ,000 77946406260,092 919 130026997945,896 921 84816546,529 a Predictors: (Constant), IQ, возраст b Dependent Variable: доход Таблица 20 – Coefficients свидетельствует о значимости коэффициентов регрессии (Sig.<0,05). Также по значениям стандартизованных коэффициентов β можно заключить, что переменная «IQ» в гораздо большей степени влияет на переменную «доход», нежели переменная «возраст» (значения «– 0,617» и «– 0,088» соответственно). Коэффициенты корреляции независимых переменных с переменной «доход» подтверждают этот вывод (Значение Zero-order соответствует простому коэффициенту корреляции Пирсона (содержится в таблице Correlations) Partial – значению частичной корреляции (рассматривался в разделе корреляционного анализа), Part – значению частной корреляции). При этом видно, что переменная «IQ» дает ощутимую отрицательную корреляцию с переменной доход, 54 Таблица 20 Coefficients Model Unstandardized Coefficients B 1 Std. Error (Constan 90072,766 2471,526 t) возраст -108,260 31,506 IQ -526,357 a Dependent Variable: доход 21,902 Standardiz ed Coefficien ts Beta t Sig. 95% Confidence Interval for B Lower Bound Upper Bound Correlations Zero-order Partial Part 36,444 ,000 85222,276 94923,257 -,088 -3,436 ,001 -170,091 -46,428 -,154 -,113 -,088 -,617 -24,032 ,000 -569,341 -483,373 -,627 -,621 -,614 Т.о., на основании данных анализа можно сделать вывод о том, что имеющаяся модель дает значимые оценки параметров регрессии и, как и в первом случае, хорошо подходит для описания взаимосвязи между переменными. Значение коэффициентов множественной корреляции и детерминации говорит о наличии довольно заметной связи расчетных и фактических значений результата. При этом переменная «IQ» оказывает значительно большее влияние на переменную «доход», нежели переменная «возраст». Связь переменных «IQ» и «доход» обратная – чем меньше значение IQ, тем выше доход респондента. Контрольные вопросы: 1. В каких случаях применяется модель множественной регрессии? 2. Что такое уравнение регрессии в стандартизованном масштабе? 3. Что такое стандартизованные коэффициенты регрессии? Как их рассчитать и какую информацию они содержат? 4. Какую поправку содержит скорректированный коэффициент детерминации? 5. О чем говорят частные коэффициенты корреляции? 6. Как рассчитать частный F-критерий? 7. Что такое мультиколлинеарность факторов и как можно от нее избавиться? 8. Какие методы включения переменных в модель множественной регрессии предлагает программа SPSS? Практическое задание: Построить множественную регрессионную модель для данных файла adv_sales_funds.xls, рассматривая в качестве результирующего показателя переменную «объем продаж» и сделать выводы по результатам. 55 2.2. Анализ Хи-квадрат взаимосвязи качественных переменных. Метод Весьма часто маркетолог сталкивается с необходимостью проанализировать зависимость двух величин, имеющих категориальную природу. В этом случае в качестве непараметрического аналога коэффициента линейной корреляции можно использовать критерий χ2 (Хи-квадрат) Пирсона. Сам тест χ2 представляет собой наиболее простой метод тестирования значимости отклонения имеющегося распределения категориальной величины от ожидаемого. Предположим, имеется некий ряд наблюдений значений по некоторой переменной. При этом наблюдаемые значения отличаются от ожидаемых. Нас интересует то, насколько значимо это отличие (точнее, значимо ли оно вообще). Для проверки значимости отличия можно применить тест χ2. В случае применения теста для проверки связи между двумя показателями, тестируемой переменной x будет частота f совпадения соответствующих значений каждого из показателей. В этом случае для этих показателей строят двухвходовые (по двум переменным) таблицы сопряженности, где столбцы и строки представляют собой варианты значений по каждому показателю соответственно, на пересечениях соответствующих столбцов и строк находятся наблюдаемые и фактические частоты совпадений соответствующих вариантов. Критерий рассчитывается по формуле 2 ( f f ) o 2 e , fe (21) где fo – наблюденная частота; fe – ожидаемая частота. На основе закона распределения χ2 и полученного значения o2 рассчитывается вероятность P0 ( 2 o2 ) 1 F ( 02 ), 2 или же по 2 таблице сравнивается полученное значение критерия с критическим кр для заданного Pкр. Проведем анализ взаимосвязи переменных на основе теста χ2 на основе данных файла sex_age_education_revenue.sav, используя в качестве анализируемых показателей переменные «пол» и «образование». Для 56 проведения теста χ2 на анализ взаимосвязи переменных необходимо выполнить команду главного меню Analyze/Descriptive Statistics/Crosstabs (Анализ/Описательные статистики/Таблицы сопряженности) (рис. 31). В открывшемся диалоговом окне Crosstabs (рис. 32) в поля Row(s) (Строки) и Column(s) (Столбцы) следует поместить указанные переменные (в данном случае порядок значения не имеет). В диалоговом окне Crosstabs: Statistics (Таблицы сопряженности: статистики) поставить флажок на Chi-Square (Хи-квадрат) (рис. 33). Рис. 31. Команда главного меню Analyze/Descriptive Statistics/Crosstabs 57 Рис. 32. Диалоговое окно Crosstabs Рис. 33. Диалоговое окно Crosstabs: Statistics 58 В диалоговом окне Crosstabs: Cell Display (Таблицы сопряженности: показатели в ячейках) в поле Counts (Частоты) следует указать Expected (Ожидаемые) и Observed (Наблюденные), в поле Percentages (Процентные значения) следует выбрать Row, Column и Total (процентные значения по строкам, столбцам и ячейкам соответственно) (рис. 34). В поле Residuals (Остатки) выберем Standardized (Стандартизованные остатки). Для сохранения установок и возвращения в диалоговое окно Crosstabs нажмем на Continue. Для проведения теста нажмем на ОК. В файле Output появится таблица сопряженности Crosstabulation (табл. 21) со значениями фактических и ожидаемых частот, процентов, распределенных по столбцам (соответствующим всем значениям столбцовой переменной) внутри строки (соответствующей одному значению строковой переменной), распределенных по строкам (соответствующим всем значениям строковой переменной) внутри столбца (соответствующего одному значению столбцовой переменной), ячеечных процентов (отражающих процент наблюдений с данной комбинацией значений переменных в общей массе наблюдений) и значениями стандартизованных остатков. Рис. 34. Диалоговое окно Crosstabs: Cell Display 59 Таблица 21 Crosstabulation Count Expected Count % within пол male % within образование % of Total Std. Residual Count Пол Expected Count % within пол % within female образование % of Total Std. Residual Count Expected Count % within пол Total % within образование % of Total Образование common special higher_1 115 108 97 112,9 111,0 99,3 Total higher_2 112 108,7 432 432,0 26,6% 25,0% 22,5% 25,9% 100,0% 47,7% 45,6% 45,8% 48,3% 46,9% 12,5% 11,7% ,2 -,3 126 129 128,1 126,0 10,5% -,2 115 112,7 12,1% ,3 120 123,3 46,9% 25,7% 26,3% 52,3% 54,4% 23,5% 54,2% 24,5% 51,7% 100,0% 53,1% 13,7% 14,0% -,2 ,3 241 237 241,0 237,0 12,5% ,2 212 212,0 13,0% -,3 232 232,0 53,1% 26,1% 25,7% 100,0% 100,0% 23,0% 100,0% 25,2% 100,0% 100,0% 100,0% 26,1% 25,7% 23,0% 25,2% 100,0% 490 490,0 922 922,0 Например, для первой ячейки, соответствующей комбинации значений «мужчина» для переменной «пол» и «среднее» для переменной «образование» число наблюдений – 115, что составляет 12,5% от общего числа наблюдений, при ожидаемом числе наблюдений ~113, что дает значение стандартизованного остатка 0,2. Также из информации, содержащейся в ячейке, явствует, что 26,6% мужчин имеет только среднее образование, а среди лиц, имеющих только среднее образование, 47,7% мужчин (остальные, соответственно, женщины). Под таблицей сопряженности мы видим таблицу Chi-Square Tests (табл. 22) со значениями теста Chi-Square и Likelihood Ratio, числом степеней свободы df=(m – 1)(n – 1), где m – число строк, а n – число столбцов и уровнем значимости Sig. 60 Таблица 22 Chi-Square Tests Pearson Chi-Square Likelihood Ratio N of Valid Cases Value ,520 ,521 922 df 3 3 Asymp. Sig. (2-sided) ,914 ,914 a 0 cells (,0%) have expected count less than 5. The minimum expected count is 99,33. Примечание под таблицей 22 гласит, что число ячеек, содержащих значения ожидаемых частот меньше пяти, равно нулю. Дело в том, что корректность проведения теста χ2 определяется двумя условиями: вопервых, ожидаемые частоты <5 должны встречаться не более чем в 20 % полей таблицы; во-вторых, суммы по строкам и столбцам всегда должны быть больше нуля. Оба эти условия в нашем случае соблюдены. Likelihood Ratio представляет собой тест χ2 с поправкой на правдоподобие и вычисляется по формуле: fe . fo 2 2 f o ln (22) При большом объеме выборки формула Пирсона и подправленная формула дают очень близкие результаты. В нашем примере критерий χ2 с поправкой на правдоподобие мало отличается от χ2, вычисленного по формуле 21. Значение P0 для данного числа степеней свободы значительно превышает принятый в статистике уровень 0,05 у обоих показателей. Следовательно, значимого расхождения между ожидаемыми и фактическими значениями частот нет, что свидетельствует о независимости характеристик уровня образования и пола. Такой вывод можно сделать и на основании принятой схемы распределения значений критерия значимости в зависимости от значений стандартизованных остатков (табл. 23). Таблица 23 Значения уровня значимости теста χ2 в зависимости от значений стандартизованного остатка Стандартизованный остаток ≥2 ≥ 2,6 ≥ 3,3 Уровень значимости ≤ 0,05 ≤ 0,01 ≤ 0,001 61 Как видно из таблицы 23, критерий значимости принимает значение <0,05 в случае, если значение стандартизованного остатка ≥2, т. е., расхождение становится значимым. В рассматриваемом примере никакое из значений остатков не превышает 21. В нашем примере данные не сгруппированы. Однако часто бывает так, что приходится иметь дело со сгруппированным данными. В этом случае таблица данных не будет содержать информацию о каждом конкретном наблюдении. Строки будет соответствовать не наблюдениям, а значениям переменных, а третья числовая переменная будет содержать число наблюдений с соответствующей комбинацией значений анализируемых переменных. Для получения сгруппированных данных можно воспользоваться уже знакомой командой главного меню Data/Aggregate. В диалоговом окне Aggregate Data в поле Break Variable(s) поместим переменные «пол» и «образование» а в качестве группирующей переменной возьмем переменную «доход» с функцией среднего значения (рис.35). Для получения переменной с числом наблюдений по комбинациям переменных активируем опцию Save number of cases in break group as variable (Сохранить число наблюдений в каждой группе как переменную), выберем Create new data file (Создать новый файл данных), нажав на кнопку File (Файл), зададим путь и имя файла и нажмем на OK. Рис. 35. Диалоговое окно Aggregate Data 1 Следует помнить, что это правило применимо в том случае, когда значение ожидаемой частоты ≥5. 62 В случае сгруппированных наблюдений перед проведением теста χ2 данные необходимо взвесить. Взвешивание необходимо для расчета значений ожидаемых частот и происходит по некоей числовой переменной. Значение веса рассчитывается как отношение значения числовой переменной, соответствующей данному значению взвешиваемой переменной к сумме всех значений числовой переменной. С данным значением веса переменная будет входить в расчеты. Внешне процедура взвешивания никак не отражается на данных. Значения весов хранятся в памяти программы и извлекаются при проведении расчетов. В нашем случае переменной веса будет выступать переменная N-BREAK с числом наблюдений по каждой комбинации значений анализируемых переменных (рис. 36), т.е. та самая характеристика Count, рассчитываемая в таблице сопряженности в первом случае. Рис. 36. Файл сгруппированных данных с переменной числа наблюдений по каждой группе Взвешивание осуществляется выполнением команды главного меню Data/Weight Cases (Данные/Взвесить наблюдения), либо нажатием кнопки Weight Cases панели инструментов. В открывшемся диалоговом окне Weight Cases (Взвесить наблюдения) следует выбрать Weight Cases 63 by: (Взвесить наблюдения по:), в поле Frequency Variable (Частотная переменная) переместить переменную n_break и нажать ОК (рис. 37). Далее следует повторить все процедуры проведения теста χ2. Результаты теста должны совпасть для обоих случаев. Рис. 37. Диалоговое окно Weight Cases Контрольные вопросы: 1. В каких случаях для анализа взаимосвязи переменных применяют тест χ2? 2. Как построен тест χ2? 3. Что такое таблица сопряженности? 4. Как посчитать ожидаемые частоты совпадений значений переменных в таблице сопряженности, и на каком предположении основан этот расчет? 5. Как провести тест χ2 по сгруппированным данным в программе SPSS? 6. Какие допущения существуют для применения теста χ2? 7. Можно ли применять тест χ2, не выстраивая таблицу сопряженности? 8. Какие разновидности теста χ2 вы знаете? Практическое задание: В результате маркетингового исследования, проведенного на фондовом рынке среди потребителей физических лиц, была собрана информация об отношении инвесторов к риску и уровне их образования с целью проверки гипотезы о наличии связи между двумя признаками. Требуется, используя метод Хи-квадрат, оценить силу связи между переменными. Данные для анализа находятся в файле open_market_research.xls. 64 2.3. Анализ влияния качественной переменной на количественную. Дисперсионный анализ и сравнение средних при помощи t-критерия 2.3.1. Однофакторный дисперсионный анализ Задачей дисперсионного анализа является анализ взаимосвязи качественных и количественных переменных. При этом качественные переменные выступают как признаки-факторы, а количественные – как признаки-результаты. В зависимости от числа признаков-факторов и признаков-результатов различают разные виды дисперсионного анализа (табл. 24). В рамках издания мы рассмотрим однофакторный дисперсионный анализ. Таблица 24 Виды дисперсионного анализа [8] Количество признаков-факторов Количество признаков-результатов 1 1 ≥2 1 ≥1 ≥2 Вид дисперсионного анализа Однофакторный дисперсионный анализ Многофакторный дисперсионный анализ Многомерный дисперсионный анализ Общая логика дисперсионного анализа состоит в сравнении изменения результативного признака, обусловленного влиянием факторов, с изменением, не обусловленным влиянием факторов. В целях разграничения таких изменений проводят аналитическую группировку, где наблюдения группируются по факторным признакам. Изменение, обусловленное влиянием факторов, демонстрирует отклонение средних групповых величин от общей средней, изменение, не обусловленное влиянием факторов – отклонение индивидуальных значений признакарезультата от групповых средних. При этом отклонение средних групповых величин от общей средней измеряется при помощи межгрупповой дисперсии, отклонение индивидуальных значений признака от групповых средних величин – при помощи внутригрупповой дисперсии. Сопоставление дисперсий строится на том основании, что общая сумма квадратов отклонений складывается из суммы квадратов отклонений групповых средних от общей средней и суммы квадратов отклонений индивидуальных значений от групповых средних по каждой группе. При этом квадраты отклонений групповых средних от общей средней взвешиваются по численности групп: 65 Q QF Q0 , (23) n 2 Q ( y y ) i где i 1 – общая сумма квадратов отклонений; J QF n j ( y j y ) 2 – факторная сумма квадратов отклонений; j 1 nj m Q0 ( yij y j ) 2 – остаточная сумма квадратов отклонений; j 1 i 1 n – общее число единиц в совокупности; nj – число единиц в i-й группе; m – число групп. Разделив каждую сумму на число степеней свободы минус один (для получения несмещенных оценок), получим математическое выражение т.н. правила сложения дисперсий, которое гласит, что общая дисперсия признака равна сумме межгрупповой и средней из внутригрупповых: 2 F2 2j , (24) Q – дисперсия общая; n 1 2 где Qf F2 m nj 1 Qf n 1 – дисперсия межгрупповая; j 1 2j Q0 n 1 – средняя из внутригрупповых дисперсий. Дисперсия межгрупповая объясняется влиянием признака-фактора и именуется дисперсией объясненной, дисперсия внутригрупповая – действием случайных (т.е. неучтенных в анализе) факторов и носит название случайной дисперсии. На основе такого разложения общей дисперсии можно получить такой показатель как эмпирическое корреляционное отношение, которое представляет собой корень квадратный из доли объясненной дисперсии в общей: 66 2j F2 1 2 . 2 (25) Значимость эмпирического корреляционного отношения определяют при помощи критерия Фишера: 2 n m F . 1 2 m 1 (26) В программах по статистическому анализу данных эмпирическое корреляционное отношение обычно не рассчитывается. Рассчитываются коэффициент детерминации R2 и критерий Фишера F, по которым можно судить о степени различия между групповыми средними и, следовательно, о взаимосвязи между качественным признаком, положенным в основание группировки (допустим, формой собственности предприятия) и результирующим количественным показателем (предположим, уровнем рентабельности). Существуют определенные условия применения дисперсионного анализа: 1) Нормальность распределения результирующей переменной внутри каждой группы. Нарушение этого условия может повлечь отклонение критерия Фишера от F-распределения. Например, значимо положительное отклонение эксцесса (т.е. островершинность распределения) может дать маленькое значение F-критерия и наоборот [2]. Однако F-критерий обычно устойчив к нарушению данного условия [2]. Если имеются значительные отклонения от нормальности, то можно увеличить число наблюдений, что, согласно с центральной предельной теоремой1, приблизит распределение к нормальному. 2) Однородность дисперсии результирующей переменной по группам. Как было показано в исследованиях некоторых авторов [2], нарушение данного условия также не является критическим. Однако если дисперсия по группам значимо различается, то можно уменьшить пороговое значение значимости F-критерия, скажем, с 0,05 до 0,01. Также можно выбрать в качестве альтернативы F-критерию робастные критерии Брауна-Форсайта (Brown-Forsythe) или Вельха (Welch), устойчивые к 1 Центральная предельная теорема гласит, что, если случайна величина X есть сумма очень большого числа взаимно независимых случайных величин, влияние каждой из которых на всю сумму ничтожно мало, то X имеет распределение, близкое к нормальному, независимо от распределения каждой из величин. 67 отклонению от нормальности распределения тестируемой переменной. Значимость различия внутригрупповых дисперсий можно проверить при помощи критерия Левена (Levene Statistic), который строится подобно критерию Фишера, на основе дисперсионного анализа абсолютных отклонений значений показателя (общей средней в данном случае будет средневыборочная дисперсия, групповыми средними – внутригрупповые дисперсии, а индивидуальными значениями – отклонения индивидуальных значений показателя от общей средней). Это тест не предполагает в качестве условия нормальность распределения абсолютных отклонений. 3) m 2 т.е. число групп (т.е. градаций фактора) должно быть не менее двух. 4) n j 2 , j [2; m] т.е. число наблюдений в каждой группе также должно быть не менее двух. Проведем однофакторный дисперсионный анализ для данных файла sex_age_education_revenue.sav, рассматривая в качестве признака-фактора уровень образования, а признака-результата – уровень доходов. Для проведения анализа необходимо выполнить команду главного меню Analyze/Compare Means/One-Way ANOVA (Анализ/Сравнить средние/Однофакторный дисперсионный анализ) (рис. 38). Рис. 38. Команда главного меню Analyze/Compare Means/One-Way ANOVA 68 В диалоговом окне One-Way ANOVA (рис. 39) следует перенести переменную «доход» в поле Dependent List, а переменную «образование» – в поле Factor. Рис. 39. Диалоговое окно One-Way ANOVA Диалоговое окно Univariate: Post Hoc Multiple Comparisons (Одномерная: апостериорные множественные сравнения) предлагает на выбор восемнадцать тестов сравнения средних по уровням фактора (рис. 40). Апостериорные сравнения не учитывают априорные гипотезы, положенные в основу анализа, и используются тогда, когда обнаруживаются неожиданные различия в средних. Суть апостериорных тестов множественных сравнений состоит в сравнении полученной разницы средних с наибольшей из полученных разниц с применением анализа контрастов (см. следующий раздел). Выберем Scheffe (тест Шеффе). Данный тест разбивает исследуемую совокупность на однородные подгруппы по уровням факторов (Homogeneous Subsets) на основе значимого различия средних значений. 69 Рис. 40. Диалоговое окно One-Way ANOVA: Post Hoc Multiple Comparisons В диалоговом окне One-Way ANOVA: Options (рис. 41) выберем Descriptive (Описательные статистики), Homogeneity of variance test (Тест на однородность дисперсий – Тест Левена) и Brown-Forsythe (робастный тест однородности дисперсий Брауна Форсайта). Таблица с описательными статистиками будет содержать информацию по средним значениям, их стандартным отклонениям и доверительным интервалам по уровням фактора. Рис. 41. Диалоговое окно One-Way ANOVA: Options 70 Сохраним выбранные опции и вернемся в диалоговое окно One-Way ANOVA путем нажатия кнопки Continue и запустим выполнение анализа нажатием на кнопку OK. В появившемся в файле Output в блоке однофакторного дисперсионного анализа будет содержаться следующая информация. Таблица 25 – Descriptives содержит информацию по средним значениям переменной «доход», их стандартным отклонениям и доверительным интервалам по уровням фактора «образование». Таблица 25 Descriptives 1 2 3 4 Total N Mean 241 237 212 232 922 32653,63 30358,51 32276,58 32309,76 31890,45 Std. Std. Error 95% Confidence Minimum Maximum Deviation Interval for Mean Lower Upper Bound Bound 11735,200 755,931 31164,53 34142,74 11029 59905 12058,162 783,262 28815,44 31901,59 10700 59996 12652,970 869,010 30563,52 33989,63 10575 58876 11031,560 724,257 30882,76 33736,75 10352 59532 11881,929 391,310 31122,48 32658,41 10352 59996 Тест Левена (табл. 26) дает незначимое отклонение дисперсий по группам (Sig.>0,05). Таблица 26 Test of Homogeneity of Variances Levene Statistic 1,965 df1 3 df2 918 Sig. ,118 Таблица 27 – ANOVA показывает незначимость межгрупповой дисперсии (Sig.>>0,05). Таблица 27 ANOVA Sum of Squares df Mean Square F Sig. Between Groups 768966242,555 3 256322080,852 1,820 ,142 Within Groups 129258031703,341 918 140803956,104 Total 130026997945,896 921 Множественные сравнения (табл. 28) средних также не дают значимого отклонения ни по одному из сравнений. 71 Таблица 28 Multiple Comparisons: Scheffe (I) (J) Mean Std. Error Sig. образование образование Difference (I-J) 1 2 3 4 1 3 4 1 2 4 1 2 3 2 3 4 2295,12 377,06 343,88 -2295,12 -1918,06 -1951,24 -377,06 1918,06 -33,18 -343,88 1951,24 33,18 1085,522 1117,326 1091,404 1085,522 1121,730 1095,912 1117,326 1121,730 1127,423 1091,404 1095,912 1127,423 ,216 ,990 ,992 ,216 ,404 ,367 ,990 ,404 1,000 ,992 ,367 1,000 95% Confidence Interval Lower Upper Bound Bound -745,08 5335,32 -2752,21 3506,33 -2712,79 3400,55 -5335,32 745,08 -5059,67 1223,55 -5020,54 1118,05 -3506,33 2752,21 -1223,55 5059,67 -3190,73 3124,37 -3400,55 2712,79 -1118,05 5020,54 -3124,37 3190,73 Тот же тест Шеффе (табл. 29), но в другой форме показывает отсутствие выделенных однородных подгрупп на основе значимой разницы средних. Т.о., по итогам анализа можно сказать, что переменная «образование» не вносит существенного вклада в дисперсию переменной «доход» или, иными словами, доход респондента мало зависит от уровня его образования. Таблица 29 Homogeneous Subsets: Scheffe образование N 2 3 4 237 212 232 1 Sig. 241 Subset for alpha = .05 1 30358,51 32276,58 32309,76 32653,63 ,231 Means for groups in homogeneous subsets are displayed. a Uses Harmonic Mean Sample Size = 229,936. b The group sizes are unequal. The harmonic mean of the group sizes is used. Type I error levels are not guaranteed. 72 Контрольные вопросы: 1. Какие бывают виды дисперсионного анализа? 2. Чем многофакторный дисперсионный анализ отличается от многомерного? 3. Какие виды переменных участвуют в дисперсионном анализе? Какие из них рассматриваются в качестве факторных признаков, а какие – в качестве результативных? 4. Что гласит правило сложения дисперсий? 5. Какой критерий используется для сравнения средних величин в дисперсионном анализе? На чем он основан? 6. Какие допущения существуют для применения дисперсионного анализа? Практическое задание: В ходе маркетингового исследования по ряду предприятий разной формы собственности и размеру активов, были собраны данные по их рентабельности. Требуется, рассматривая форму собственности предприятий как признак-фактор, а уровень рентабельности, как признак-результат, провести однофакторный дисперсионный анализ и на основании результатов сделать выводы. Данные для анализа представлены в файле property_funds_prof.xls. 2.3.2. Сравнение средних при помощи t-критерия Если число уровней фактора в однофакторном дисперсионном анализе равно двум, то провести сравнение средних можно проще – при помощи t-критерия Стъюдента (псевдоним английского статистика В.Госсета). t-критерий в общем виде представляет собой отношение случайной величины к ее среднеквадратическому отклонению: t 0 1 2 i n i 1 n , где t – значение t-критерия; ξ – случайная величина; n – число наблюдений. и подчиняется следующему закону распределения: (27) 73 n 1 m 1 Г 2 2 1 2 x Ft ( x) 1 , n n Г n 2 (28) известному как распределение Стьюдента. Значимость t-критерия проверяется по соответствующим таблицам с указанным числом степеней свободы. Используем t-критерий для сравнения средних значений переменной «доход» по уровням фактора «пол». Для проведения теста необходимо выполнить команду главного меню Analyze/Compare Means/Independent Samples t-test (Анализ/Сравнить средние/t-тест для независимых выборок) (рис. 42). Рис. 42 Команда главного меню Analyze/Compare Means/Independent Samples t-test В диалоговом окне Independent Samples t-test (рис. 43) перенесем переменную «доход» в поле Test Variable (Тестируемая переменная), а переменную «пол» в поле Grouping Variable (Группирующая переменная). 74 Рис. 43. Диалоговое окно Independent Samples t-test Для обозначения уровней группирующей переменной нажмем кнопку Define (Определить) и открывшемся диалоговом окне Define Groups (Определить группы) зададим кодовые значения, соответствующие этим уровням (1 и 2) (рис. 44). Рис. 44. Диалоговое окно Define Groups Для сохранения выбранных опций нажмем на кнопку Continue и для проведения теста в диалоговом окне Independent Samples t-test нажмем на кнопку OK. В файле Output можно увидеть следующие результаты. Таблица Group Statistics (Групповые статистики) содержит информацию о числе наблюдений в каждой группе, среднегрупповых величинах зависимой переменной их стандартных отклонения и стандартных ошибках (табл. 30). 75 Таблица 30 Group Statistics Доход Пол male female N 432 490 Mean Std. Deviation Std. Error Mean 38521,77 13537,596 651,328 26044,06 5592,469 252,642 Таблица 31 – Independent Samples Test (t-тест независимых выборок) содержит результаты t-теста на равенство групповых средних, значение разницы групповых средних, ее стандартное отклонение и доверительный интервал, а также тест Левена на равенство внутригрупповых дисперсий. Тест Левена показывает значимость различия внутригрупповых дисперсий (Sig.<<0,001), однако t-критерий и для этого случая остается значимым – Sig.<<0,001 по строке Equal variances not assumed (Дисперсии не равны). Таблица 31 Independent Samples Test Levene's Test for Equality of Variances F Sig. Доход Equal 464,021 variances assumed Equal variances not assumed ,000 t-test for Equality of Means t df 18,676 920 17,861 559,291 Sig. (2- Mean Std. Error tailed) Difference Difference ,000 12477,72 95% Confidence Interval of the Difference Lower Upper 668,106 11166,527 13788,904 ,000 12477,72 698,610 11105,496 13849,936 Т.о., на основе результатов анализа можно констатировать значимое расхождение значений переменной «доход» у респондентов разного пола. Контрольные вопросы: 1. В каких случаях дисперсионный анализ можно заменить проведением t-теста? 2. Что представляет собой t-критерий? 3. Какому распределению подчиняется величина t-критерия? 4. Что показывает тест Левена? Практическое задание: Оценить значимость различия средних по показателю рентабельности для частных и государственных предприятий на основе данных файла property_funds_prof.xls. 76 2.4. Анализ влияния количественной переменной на качественную. Дискриминантный анализ Дискриминантный анализ представляет собой совокупность вычислительных процедур для анализа различий между группами, образованными теми или иными метрическими переменными. Процедуры дискриминантного анализа можно разбить на две группы: Первая группа процедур предназначена для анализа возможности проводить различия между объектами исследования, используя данный набор переменных, а также для оценки вклада каждой переменной в дискриминацию между группами, образованными данным набором переменных. Указанные задачи решаются в два этапа: На первом этапе проводится анализ различий переменных по группам при помощи процедуры многомерного дисперсионного анализа. Такой анализ производится при помощи расчета F-статистик для каждой из дискриминирующих переменных и расчета критерия Лямбда Уилкса (Wilk’s Λ), который является многомерным аналогом критерия Фишера и служит критерием значимости различия значений переменных в группах. Однако значение последнего критерия обратно пропорционально значимости различия переменных по группам, или иначе – их дискриминирующей способности и вычисляется следующим образом: W , T (29) где Λ – критерий лямбда Уилкса; W – матрица внутригрупповой дисперсии/ковариации дискриминирующих переменных; T – матрица общей дисперсии/ковариации дискриминирующих переменных. Для одной переменной критерий Лямбда Уилкса будет соответствовать отношению средней суммы квадратов внутригрупповых разниц к общей сумме. На втором этапе происходит построение т.н. дискриминантной функции. Дискриминантная функция представляет собой линейную комбинацию значений дискриминирующих переменных со значениями коэффициентов, подобранными таким образом, чтобы значения самой функции для объектов наблюдения в наибольшей степени отличались друг от друга (дискриминировали) по группам: 77 n , g ,v Gik a b x j ikj , (30) i 1 k 1 j 1 где Gijk – значение дискриминирующей функции; xijk – значение j-й независимой (влияющей, дискриминирующей) переменной для i-го наблюдения из группы k; n – число наблюдений; g – число групп; v – число дискриминирующий переменных; bj – коэффициенты регрессии; a – константа. Иными словами, значения дискриминантной функции должны давать больший межгрупповой разброс по сравнению с внутригрупповым. Также можно построить дискриминантную функцию в стандартизованном масштабе: n , g ,v tG ik где tG ik tx ikj t i 1 k 1 j 1 xikj j , (31) Gik G – стандартизованное значение результирующая функции; G xikj x j – стандартизованное значение j-й дискриминирующей x j переменной; j bj x j G – стандартизованный коэффициент при j-й дискриминирующей переменной. В этом случае вклад различных переменных в дискриминацию можно будет сравнивать между собой, сравнивая значения стандартизированных коэффициентов β для каждой переменной. 78 Общее число дискриминантных функций не превышает числа дискриминирующих переменных и, по крайней мере, на 1 меньше числа групп. При этом наибольшей разделительной способностью обладает первая дискриминантная функция, соответствующая наименьшему значению Лямбда Уилкса, вторая обеспечивает максимальное различение после первой и т.д. Дискриминирующую способность каждой функции можно оценить при помощи коэффициента канонической корреляции, который показывает связь между значением функции и показателем принадлежности к группе: i ri , 1 i (32) где ri – коэффициент канонической корреляции i-й дискриминантной функции. Качество модели в целом оценивается при помощи того же критерия Лямбда Уилкса, который показывает остаточную дискриминацию, т.е. дискриминацию без учета оцененных факторов: 1 , i k 11 i g (33) где k – число дискриминантных функций. Величина χ2 рассчитывается по формуле: 2 ( n vg 1) ln 2 (34) и имеет хи–квадрат распределение с (v – k)(g – k – 1) степенями свободы. Если критерий значим, то неоцененная дискриминация еще велика и следующая дискриминационная функция также будет значимой. Если критерий незначим, то остаточная дискриминация невелика и расчет следующей дискриминантной функции не внесет ощутимого вклада в дискриминацию. Матрица структурных коэффициентов показывает значения усредненных по группам коэффициентов корреляции между 79 стандартизованными значениями дискриминирующих переменных и дискриминантных функций. Также проводится дисперсионный анализ для значений дискриминантной функции между группами на предмет их значимого различия. Критериями различия служат все те же F-статистика и критерий Лямбда Уилкса. Вторая группа процедур имеет целью построение т.н. классифицирующих функций, используемых для нужд классификации, т.е. позволяющих отнести наблюдаемые объекты к той или иной группе. Количество функций классификации равно количеству групп. Значение функции классификации представляет собой вес классификации, рассчитанный для данного объекта по каждой группе по формуле: vk Sik ck s jk xij , j 1 (35) где Sik – значение веса классификации для i-го объекта по k-й группе; ck – значение константы для k-й группы; sjk – значение веса j-й переменной для k-й группы; xij – значение j-й переменной для i-го наблюдения; vk – число переменных в группе. В общем случае наблюдение считается принадлежащим той совокупности, для которой получен наивысший показатель классификации. Для расчета доли корректных классификаций имеющихся наблюдений выводится классификационная матрица, где по главной диагонали представлены корректно отнесенные значения, а «по бокам» – отнесенные не в свою группу. Процент корректно классифицированных объектов определяет качество классификации. Также можно классифицировать наблюдение на основе определения расстояния Махаланобиса до центроида группы (геометрического центра группы наблюдений). Наблюдение признается принадлежащим той группе, расстояние Махаланобиса до центроида которой для данного наблюдения минимально. Далее определяется вероятность того, что объект, имеющий данное значение дискриминантной функции, действительно принадлежит данной группе. Такая вероятность называется апостериорной вероятностью, поскольку оценивается после замера параметров объекта и определяется на основе значения функции вероятности или плотности распределения для данного вектора в данной группе: 80 P (k / X i ) P( X i / k ) g P( X i / k ) , (36) k 1 где P(k/Xi) – вероятность принадлежности i-го наблюдения с координатами вектора переменных Xi группе k; P(Xi/k) – вероятность получения вектора переменных Xi в группе k. Необходимо отметить, что расчет по приведенным формулам будет корректен в том случае, если априорные вероятности принадлежности объекта к той или иной группе, т.е. вероятности, определяемой до замера параметров на основе плотности распределения объектов по группам, будут равны между собой для разных групп. В противном случае при расчете необходимо учитывать значения априорных вероятностей. Дискриминантный анализ предполагает определенные допущения [13]: 1) число групп: g 2 ; 2) число объектов в каждой группе: nk 2 ; 3) число дискриминирующих переменных: 0 v (n 2) ; 4) дискриминирующие переменные измеряются в интервальной шкале; 5) дискриминирующие переменные линейно независимы; 6) ковариационные матрицы групп примерно равны; 7) дискриминирующие переменные в каждой группе подчиняются многомерному нормальному закону распределения. Наиболее общим применением дискриминантного анализа является включение в исследование многих переменных с целью определения тех из них, которые наилучшим образом разделяют совокупности между собой. В пошаговом анализе дискриминантных функций модель дискриминации строится по шагам. При этом возможны два варианта. В первом случае на каждом шаге просматриваются все переменные и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная должна быть включена в модель на данном шаге, и происходит переход к следующему шагу. Этот вариант называется пошаговым дискриминантным анализом с включением. Можно также двигаться в обратном направлении, в этом случае все переменные будут сначала включены в модель, а затем на каждом шаге будут устраняться переменные, вносящие малый вклад в предсказания. Тогда в качестве результата успешного анализа можно сохранить только "важные" переменные в модели, то есть те переменные, чей вклад в дискриминацию 81 больше остальных. Такой вариант носит название пошагового дискриминантного анализа с исключением. Такие пошаговые процедуры "руководствуются" соответствующим значением F-критерия для включения и соответствующим значением F-критерия для исключения. Значение F-статистики для переменной указывает на ее статистическую значимость при дискриминации между совокупностями, т.е. она является мерой вклада переменной в предсказание членства в совокупности. Проведем дискриминантный анализ данных файла sex_age_education_revenue.sav средствами программы SPSS. В качестве дискриминирующих переменных будут выступать уровень доходов и возраст респондентов, а результирующей переменной – пол. Для проведения дискриминантного анализа необходимо выполнить команду главного меню Analyze/Classify/Discriminant Analysis (рис. 45). Рис. 45. Команда главного меню Analyze/Classify/Discriminant В появившемся диалоговом окне Discriminant Analysis (рис. 46) в поле Grouping Variable (Группирующая переменная) необходимо 82 поместить переменную «пол», а в поле Independents Variables (Независимые (дискриминирующие) переменные) – переменные «возраст» и «доход». Далее необходимо задать свойства группирующей переменной. Для этого следует путем нажатия кнопки Define Range (Определить ранг) вызвать диалоговое окно Discriminant Analysis: Define Range (Дискриминантный анализ: Определить диапазон) и задать значения 1 и 2, которые будут соответствовать мужскому и женскому полу (рис. 47). Рис. 46. Диалоговое окно Discriminant Analysis Рис. 47. Диалоговое окно Discriminant Analysis: Define range Далее следует задать статистики, которые мы хотим получить в окне анализа данных. Для этого нужно нажать кнопку Statistics, после чего 83 откроется диалоговое окно Discriminant Analysis: Statistics (рис. 48), где в поле Descriptives выберем Means и Univariate ANOVA (Одномерные тесты ANOVA), а в поле Function Coefficients (Коэффициенты функции) – Ficher’s и Unstandardized (Нестандартизованные коэффициенты). Рис. 48. Диалоговое окно Discriminant Analysis: Statistics Для получения классификационной матрицы следует путем нажатия кнопки Classify (Классифицировать) вызвать диалоговое окно Discriminant Analysis: Classification (Дискриминантный анализ: классификация) и в поле Display (Показать) выбрать Summary table (Суммарная таблица) (рис. 49). Рис. 49. Диалоговое окно: Discriminant Analysis: Classification 84 Для получения результатов анализа следует нажать кнопки Continue и OK. Результаты анализа данных представлены тремя блоками – блоком общей (описательной) статистики и одномерного дисперсионного анализа, блоком анализа дискриминантный функций – Summary of Canonical Discriminant Functions (Резюме по каноническим дискриминантным функциям) и блоком классификации – Classification Statistics (Статистики классификации). В блоке описательной статистики представлена таблица Groups Statistics (Групповые статистики) с информацией по общему числу наблюдений, учтенных при анализе и среднегрупповым величинам с их стандартными отклонениями (табл. 32), таблица Test of Equality of Group Means (Тест равенства групповых средних), где присутствуют результаты анализа значимости различий групповых средних, проведенного при помощи теста Фишера и Лямбда Уилкса (табл. 33) и таблица Pooled Within-Group Matrices (Объединенные внутригрупповые матрицы) с линейными коэффициентами корреляции между дискриминирующими переменными (табл. 34). По результатам анализа видно, что групповые средние по возрасту практически не отличаются, а различие по доходу значимо. Коэффициенты корреляции показывают несущественную отрицательную связь между дискриминирующими переменными. Таблица 32 Group Statistics пол 1 2 Total Mean возраст доход возраст доход возраст доход Std. Valid N (listwise) Deviation Unweighte Weighted d 40,18 9,753 432 432,000 38521,77 13537,596 432 432,000 40,29 9,640 490 490,000 26044,06 5592,469 490 490,000 40,24 9,688 922 922,000 31890,45 11881,929 922 922,000 Таблица 33 Tests of Equality of Group Means возраст доход Wilks' Lambda F df1 1,000 ,028 1 ,725 348,802 1 df2 920 920 Sig. ,867 ,000 85 Таблица 34 Pooled Within-Groups Matrices Correlation возраст доход возраст 1,000 -,178 доход -,178 1,000 В блоке анализа дискриминантных функций мы видим следующие результаты. В таблице Eigenvalue (Собственное значение) (табл. 35) представляют интерес сам показатель собственного значения, который составляет 0,390 и коэффициент канонической корреляции (Canonical correlation) между значением дискриминантной функции и показателем принадлежности к группе, который составляет 0,532, что говорит о средней степени зависимости между двумя показателями (% of Variance (Процентная доля дисперсии) и Cumulative % (Процентная кумулята) равны в данном случае 100, поскольку каноническая дискриминантная функция представлена в единственном числе). Таблица 35 Eigenvalues Function Eigenvalue % of Variance Cumulative % Canonical Correlation 1 ,390 100,0 100,0 ,530 a First 1 canonical discriminant functions were used in the analysis. Таблица Wilk’s Lambda (Тест Лямбда Уилкса) (табл. 36) содержит сам тест, из значения которого следует, что доля остаточной дискриминации составляет 0,719 и показатель Chi-square (Хи-квадрат) для теста, который свидетельствует о значимости остаточной дискриминации (Sig.<<0,001). Таблица 36 Wilks' Lambda Test of Function(s) Wilks' Lambda Chi-square 1 ,719 302,824 df 2 Sig. ,000 В таблицах Canonical Discriminant Functions Coefficients (Коэффициенты канонических дискриминантных функций) (табл 37) и Standardized Canonical Discriminant Functions Coefficients 86 (Стандартизированные коэффициенты дискриминантных функций) (табл. 38) представлены обычные и стандартизованные значения коэффициентов дискриминантной функции. Если сравнивать стандартизированные значения при переменных, то видно, что влияние на значение дискриминантной функции переменной «доход» много больше влияния переменной «возраст», что подтверждает предыдущие наблюдения. В таблице Structure Matrix (Структурная матрица) представлены коэффициенты корреляции между значениями отдельных дискриминирующих переменных и стандартизированными значениями дискриминантной функции (табл. 39). Из таблицы видно, что с дискриминантной функцией сильно коррелирует переменная «доход» (0,986), а корреляция с переменной «возраст» практически отсутствует (–0,009). Таблица 37 Standardized Canonical Discriminant Function Coefficients Function 1 ,172 1,016 Возраст Доход Таблица 38 Structure Matrix Доход Возраст Function 1 ,986 -,009 Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function. Таблица 39 Canonical Discriminant Function Coefficients Возраст Доход (Constant) Function 1 ,018 ,000 -3,914 Unstandardized coefficients 87 В таблице Functions at Group Centroids (Функции групповых центроидов) (табл. 40) представлены значения центроидов (геометрических средних) дискриминантной функции по группам (они соответствуют средним значениям дискриминантной функции по группам, что можно увидеть, получив переменную dis1_1 (значения дискриминантной функции) и описательные статистики по ней). Таблица 40 Functions at Group Centroids Пол 1 2 Function 1 ,665 -,586 Unstandardized canonical discriminant functions evaluated at group means В блоке классификации в таблице Prior Probabilities for Groups (Априорные вероятности для групп) можно увидеть, априорные вероятности принадлежности объекта к одной из двух групп равны между собой (табл. 41), что вполне допустимо, поскольку размеры групп в данном случае лишь незначительно отличаются друг от друга. Таблица 41 Prior Probabilities for Groups Пол 1 2 Total Prior Cases Used in Analysis Unweighted Weighted ,500 432 432,000 ,500 490 490,000 1,000 922 922,000 В таблице Classification functions coefficients (Коэффициенты классификационных функций) (табл. 42) можно увидеть значения коэффициентов классификационных функций для групп (для двух в рассматриваемом примере). Например, для группы 1 (мужчины) функция классификации будет выглядеть как 4 S i1 19,939 возраст 0,514 доход 4,633 10 . Подставив значения переменных наблюдения в соответствующую функцию, получим значения функции классификации для данного наблюдения по соответствующей группе. Объект будет принадлежать той группе, для которой будет получено большее значение классификационной функции. 88 Таблица 42 Classification Function Coefficients пол Возраст Доход (Constant) 1 2 ,514 ,492 4,633E-04 3,378E-04 -19,939 -14,995 Fisher's linear discriminant functions Для классификации нового наблюдения не обязательно просчитывать значение функции классификации «вручную», в программе заложена возможность автоматического прогноза принадлежности новых наблюдений. Для этого необходимо ввести значения дискриминирующих переменных в таблицу файла данных и воспользоваться кнопкой Save (Сохранить) диалогового окна Discriminant Analysis. Предположим, имеется наблюдение со значениями дискриминирующих переменных 55 и 20000 по возрасту и доходу соответственно. Введем его и воспользуемся указанной кнопкой. В открывшемся диалоговом окне Discriminant Analysis: Save (рис. 50) выберем все три опции: Predicted group membership (Прогнозируемое групповое членство), Discriminant scores (Значения дискриминантной функции) Probabilities of group membership (Вероятность прогнозируемого группового членства). Рис. 50. Диалоговое окно Discriminant Analysis: Save 89 После запуска процедуры дискриминантного анализа в файле данных появится четыре новых столбца: dis_1, dis1_1, dis1_2, dis2_2, соответствующих значениям прогнозируемого членства, дискриминантной функции и вероятности членства в группах 1 и 2 соответственно (рис. 51) , что явствует из всплывающих подсказок, появляющихся при подведении курсора к названиям соответствующих столбцов. Рис. 51. Диалоговое окно файла данных sex_age_revenue_education.sav с новыми переменными по выполнении функции Save Таблица Classification Results (Результаты классификации) представляет собой классификационную матрицу и дает информацию о том, сколько наблюдений было правильно классифицировано на основе процедуры классификации (табл. 43). По главной диагонали отображены правильно классифицированные наблюдения, а то, что находится по бокам от нее, представляет собой ошибку прогноза. Подпись внизу таблицы гласит, что в данном случае была правильно определена принадлежность 73% наблюдений. 90 Таблица 43 Classification Results пол Original Count % 1 2 1 2 Predicted Group Membership 1 2 265 167 82 408 61,3 38,7 16,7 83,3 Total 432 490 100,0 100,0 a 73,0% of original grouped cases correctly classified. В общем, на основе данных анализа можно констатировать, что переменная «доход» хорошо дискриминирует между группами и подходит для целей классификации, переменная же «возраст» слабо коррелирует со значениями дискриминантной функции и средние переменной практически не различаются по группам. В этих условиях полезно провести пошаговый дискриминантный анализ. Для проведения пошагового анализа следует в диалоговом окне Discriminant Analysis вместо Enter independents together (Ввести независимые переменные вместе/одновременно) выбрать Use stepwise method (Использовать пошаговый метод) (рис. 52). Рис. 52. Диалоговое окно Discriminant Analysis с активированной опцией Use stepwise method Далее, нажав на кнопку Method (Метод) откроем диалоговое окно Discriminant Analysis: Stepwise Method (Дискриминантный анализ: Пошаговый метод) и в поле Criteria (Критерии) выберем Use probability of F (Использовать вероятность F-критерия) для того, чтобы в качестве 91 критерия включения/исключения использовался уровень значимости Fкритерия. Оставим стоящие по умолчанию значения Entry (Для ввода переменной) и Removal (Для исключения переменной) 0,05 и 0,10 соответственно (рис. 53). Рис. 53. Диалоговое окно Discriminant analysis: Stepwise Method Из таблицы 44 – Variables Entered/Removed (Введенные/Исключенные переменные), что ввод переменной «возраст» уменьшает значение критерия Лямбда Уилкса и, соответственно, увеличивает дискриминирующую способность функции. Полное исключение переменной «возраст» из анализа несколько увеличивает значение теста Лямбда Уилкса (табл. 45) и расстояние между групповыми центроидами (табл. 46), хотя точность классификации возрастает на 0,8% (табл. 47). Таблица 44 Variables Entered/Removed Entered Wilks' Lambda Statistic df1 df2 Step 1 доход 2 возраст ,725 ,719 1 2 df3 Exact F Statistic 1 920,000 348,802 1 920,000 179,340 At each step, the variable that minimizes the overall Wilks' Lambda is entered. a Maximum number of steps is 4. b Maximum significance of F to enter is .05. c Minimum significance of F to remove is .10. d F level, tolerance, or VIN insufficient for further computation. df1 1 2 df2 920,00 919,00 Sig. ,000 ,000 92 Таблица 45 Wilk´s Lambda для переменной «доход» Test of Function(s) Wilks' Lambda Chi-square 1 ,725 295,578 df 1 Sig. ,000 Таблица 46 Functions at Group Centroids для переменной «доход» Function 1 ,655 -,578 Пол 1 2 Unstandardized canonical discriminant functions evaluated at group means Таблица 47 Classification Results для переменной «доход» пол Original Count % 1 2 1 2 Predicted Group Membership 1 2 266 166 76 414 61,6 38,4 15,5 84,5 Total 432 490 100,0 100,0 a 73,8% of original grouped cases correctly classified. Контрольные вопросы: 1. Для чего используется дискриминантный анализ? 2. Каковы допущения дискриминантного анализа? 3. Какие группы процедур включает в себя дискриминантный анализ? В какой последовательности они выполняются? 4. Что такое дискриминантная функция? 5. Чему равно число дискриминантных функций, рассчитываемых для каждого конкретного случая? 6. Как рассчитываются коэффициенты дискриминантных функций? 7. Что такое «собственное значение»? 8. Что характеризует критерий Лямбда Уилкса и как он рассчитывается? 9. При помощи какого показателя оценивается остаточная дискриминация? 10. Что показывает коэффициент канонической корреляции? 11. Какие значения содержит матрица структурных коэффициентов? 12. Что такое функция классификации и как она выглядит? 93 13. Чему равно число функций классификации? 14. Что такое априорная вероятность и как она учитывается в классификации наблюдений? 15. Как определяется апостериорная вероятность принадлежности наблюдения к группе? 16. Что такое расстояние Махаланобиса и чем оно отличается от расстояния Евклида? 17. Что характеризует матрица классификации? 18. Что предполагает пошаговый метод проведения дискриминантного анализа? Практическое задание: Провести дискриминантный анализ для данных файла property_funds_prof.xls, рассматривая в качестве группирующей переменной форму собственности предприятия (государственная или частная), а в качестве дискриминирующих переменных – размер активов и уровень рентабельности. 94 Библиографический список 1. Божук С.Г., Ковалик Л.Н. Маркетинговые исследования. – СПб.: Питер, 2004. – 298 с. 2. Боровиков В. Statistica: Искусство анализа данных на компьютере. – СПб.: Питер, 2003. – 688 с. 3. Бююль А., Цефель П. SPSS: искусство обработки информации: пер. с нем. – М.: DiaSoft, 2005. – 602 с. 4. Власов М.П., Шимко П.Д. Общая теория статистики: Инструментарий менеджера международной фирмы: учебное пособие. – СПб.: Изд-во СПбГИЭУ, 2003. – 450 с. 5. Ежова Л.Н. Основы эконометрики: учебное пособие. – Иркутск: Изд-во ИГЭА, 2000. – 106 с. 6. Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник. – М.: Финансы и статистика, 1995 – 368 с. 7. Каримов Р.Н. Основы дискриминантного анализа: учебнометодическое пособие. – Саратов: Изд-во СГТУ, 2002. – 108 с. 8. Лезина Т.А., Абакумов В.Л., Крюгер З. Количественные методы маркетинговых исследований: учебное пособие. – СПб.: Изд-во СПбГУЭФ, 2005. – 141 с. 9. Математическая энциклопедия: эл. версия в 2-х дисках. – М.: Издво «Большая российская энциклопедия», 2006 10. Новиков А.И. Эконометрика: учебное пособие. – М.: Издательский дом «Инфра-М», 2003. – 104 с. 11. Общий курс высшей математики для экономистов: учебник / Под ред. В.И. Ермакова. – М.: Издательский дом «Инфра-М», 2003. – 666 с. 12. Практикум по эконометрике / Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2003. – 191 с. 13. Факторный, дискриминантный и кластерный анализ: Пер. с англ. / Под ред. И.С. Енюкова. – М.: Финансы и статистика, 1989. – 215 с. 14. Худсон Д. Статистика для физиков: лекции по теории вероятностей и математической статистике. – М.: Мир, 1967. – 244 с. 15. Шанченко Н.И. Статистические методы прогнозирования в экономике: учебно-методический комплекс. – Ульяновск: Изд-во УГТУ, 2003. – 111 с. 95 ОГЛАВЛЕНИЕ Введение ........................................................................................................ 3 1. Расчет описательных статистик ............................................................... 5 1.1. Расчет описательных статистик для качественных переменных ..... 5 1.2 Расчет описательных статистик для количественных переменных..... 9 2. Анализ взаимосвязи данных .................................................................. 24 2.1 Анализ взаимосвязи количественных переменных. Корреляционно-регрессионный анализ ...................................................... 24 2.1.1. Корреляционный анализ. Параметрические методы анализа тесноты связи ................................................................................. 25 2.1.2. Использование для анализа тесноты связи показателей, основанных на ранжировании..................................................................... 31 2.1.3. Регрессионный анализ ........................................................................ 36 2.1.3.1. Парная линейная регрессия ........................................................... 39 2.1.3.2. Множественная линейная регрессия ............................................ 47 2.2. Анализ взаимосвязи качественных переменных. Метод Хи-квадрат ........................................................................................ 55 2.3 Анализ влияния качественной переменной на количественную. Дисперсионный анализ и сравнение средних при помощи t-критерия .... 64 2.3.1. Однофакторный дисперсионный анализ .......................................... 64 2.3.2 Сравнение средних при помощи t-критерия ..................................... 72 2.4 Анализ влияния количественной переменной на качественную. Дискриминантный анализ ............................................. 76 Библиографический список......................................................................... 94 96 Учебное издание Плеханов Андрей Владимирович МАТЕМАТИКО-СТАТИСТИЧЕСКИЕ МЕТОДЫ ОБРАБОТКИ ИНФОРМАЦИИ С ПРИМЕНЕНИЕМ ПРОГРАММЫ SPSS Практикум Редактор М.В. Манерова Подписано в печать 02.11.10. Формат 60х84 1/16. Усл. печ. л. 6,0. Тираж 150 экз. Заказ 518. РТП изд-ва СПбГУЭФ. Издательство СПбГУЭФ. 191023, Санкт-Петербург, Садовая ул., д. 21.