Использование надстройки «Анализ данных» Надстройка «Анализ данных» В состав Microsoft Excel входит набор средств анализа данных (так называемый пакет анализа), предназначенный для решения сложных статистических и инженерных задач. Для анализа данных с помощью этих инструментов следует указать входные данные и выбрать параметры. Анализ будет выполнен с помощью подходящей статистической или инженерной макрофункции, а результат будет помещен в выходной диапазон. Команда «Данные» - «Анализ данных». Если этой команды нет в меню, необходимо загрузить надстройку Пакет анализа (аналогично надстройке «Поиск решения»). Добавление надстройки «Поиск решения» Если в меню «Данные» отсутствует вкладка «Анализ», необходимо: Выбрать кнопку «Офис» Выбрать «Параметры Excel» Выбрать «Надстройки» Управление: «Надстройки Excel» В основном окне выбрать «Пакет анализа» Выбрать кнопку «Перейти» В окне «Доступные надстройки» выбрать «Пакет анализа», ОК Подтвердить установку нового компонента Вкладка «Анализ» (Analysis) появится в режиме «Данные» на ленте в конце. Корреляционный анализ Одна из наиболее распространенных задач статистического исследования состоит в изучении связи между выборками. Обычно связь между выборками носит не функциональный, а вероятностный (или стохастический) характер. В этом случае нет строгой, однозначной зависимости между величинами. При изучении стохастических зависимостей различают корреляцию и регрессию. Корреляционный анализ Корреляционный анализ состоит в определении степени связи между двумя случайными величинами X и Y. В качестве меры такой связи используется коэффициент корреляции. Коэффициент корреляции — параметр, который характеризует степень линейной взаимосвязи между двумя выборками. Коэффициент корреляции изменяется от -1 до 1. При значении 0 линейной зависимости между двумя выборками нет. Функция корреляции В MS Excel (кроме пакета анализа) для вычисления парных коэффициентов линейной корреляции используется специальная функция КОРРЕЛ (массив1; массив2) где массив1 – ссылка на диапазон ячеек первой выборки (X); массив2 – ссылка на диапазон ячеек второй выборки (Y). Пример 1 № испытуемых X Y 1 19 17 2 32 7 3 33 17 4 44 28 5 28 27 6 35 31 7 39 20 8 39 17 9 44 35 10 44 43 10 школьникам были даны тесты на нагляднообразное и вербальное мышление. Измерялось среднее время решения заданий теста в секундах. Исследователя интересует вопрос: существует ли взаимосвязь между временем решения этих задач? Переменная X — обозначает среднее время решения нагляднообразных, а переменная Y— среднее время решения вербальных заданий тестов Решение: Для выявления степени взаимосвязи, прежде всего, необходимо ввести данные в таблицу MS Excel. Затем вычисляется значение коэффициента корреляции. Для этого курсор установите в Технология работы: В меню нажмите кнопку Формулы. В появившейся вкладке - выберите категорию Статистические и функцию КОРРЕЛ, после чего нажмите кнопку ОК. Указателем мыши введите диапазон данных выборки Х в поле массив1 (А1:А10). В поле массив2 введите диапазон данных выборки У (В1:В10). Нажмите кнопку ОК. В ячейке С1 появится значение коэффициента корреляции — 0,54119. Далее необходимо по статистическим таблицам определить критические значения для полученного коэффициента корреляции ккрит=0,63 > 0,54 , следовательно, связь между временем решения нагляднообразных и вербальных заданий теста не доказана. Пример 2 Имеются ежемесячные данные наблюдений за состоянием погоды и посещаемостью музеев и парков. Необходимо определить, существует ли взаимосвязь между состоянием погоды и посещаемостью музеев и парков. Число ясных дней 8 Количество посетителей музея 495 Количество посетителей парка 132 14 503 348 20 380 643 25 305 865 20 348 743 15 465 541 Пакет анализа Для выполнения корреляционного анализа введите в диапазон A1:G3 исходные данные. Затем в меню Данные выберите пункт Анализ данных (Data analysis) и далее укажите строку Корреляция (Corelation). Получение результатов В появившемся диалоговом окне укажите Входной интервал (А7:С12). Укажите, что данные рассматриваются по столбцам. Укажите выходной диапазон (А14) и нажмите кнопку ОК. Результаты вычислений: На рисунке видно, что корреляция между состоянием погоды и посещаемостью музея равна -0,92, а между состоянием погоды и посещаемостью парка — 0,97, между посещаемостью парка и музея — -0,92. Таким образом, в результате анализа выявлены зависимости: сильная степень обратной линейной взаимосвязи между посещаемостью музея и количеством солнечных дней и практически линейная (очень сильная прямая) связь между посещаемостью парка и состоянием погоды. Между посещаемостью музея и парка имеется сильная обратная взаимосвязь. Практическая часть: 1. Определите, имеется ли взаимосвязь между рождаемостью и смертностью (количество на 1000 человек) в Санкт-Петербурге. (Использовать функцию Корелл). Вывод записать в тетрадь. Годы Рождаемость Смертность 1991 9,3 12,5 1992 7,4 13,5 1993 6,6 17,4 1994 7,1 17,2 1995 7,0 15,9 1996 6,6 14,2 1997 7,1 16 1998 8,2 13,4 Практическая часть: 2. 10 менеджеров оценивались по методике экспертных оценок психологических характеристик личности руководителя. 15 экспертов производили оценку каждой психологической характеристики по пятибальной системе (см. табл.) Психолога интересует вопрос, в какой взаимосвязи находятся эти характеристики руководителя между собой. Использовать пакет анализа. Вывод записать в тетрадь. Испытуемые п/п 1 2 3 4 5 6 7 8 9 10 тактичность требовательность 70 18 60 17 70 22 46 10 58 16 69 18 32 9 62 18 46 15 62 22 критичность 36 29 40 12 31 32 13 35 30 36