УЧРЕЖДЕНИЕ ОБРАЗОВАНИЯ «МОЛОДЕЧНЕНСКИЙ ТОРГОВО-ЭКОНОМИЧЕСКИЙ КОЛЛЕДЖ» БЕЛКООПСОЮЗА УТВЕРЖДАЮ Заместитель директора по учебной работе ________________ Э.С. Багнюк «17» сентября 2015 года Задания домашних контрольных работ, рекомендации по их выполнению для заочной формы получения образования 2 курса КОНТРОЛЬНАЯ РАБОТА №1 ДИСЦИПЛИНА: Основы статистической обработки информации СПЕЦИАЛЬНОСТЬ: 2-25 01 10 -01 «Коммерческая деятельность» (экономическая деятельность и услуги) СПЕЦИАЛИЗАЦИЯ: 2-25 01 10-01 24 «Информационное обеспечение бизнеса» Рассмотрено на заседании цикловой комиссии Программного обеспечения информационных технологий и информатики Протокол №2 от «17» сентября 2015 года Председатель цикловой комиссии ______________________З.В.Зенько МОЛОДЕЧНО 2015 СОСТАВИТЕЛЬ: Мацко Т.А. Разработано в соответствии с учебной программой по дисциплине, утвержденной директором УО «Молодечненский торгово-экономический колледж» Белкоопсоюза от 29. 08. 2014 г. Составитель_______________________________ Т.А. Мацко ПОЯСНИТЕЛЬНАЯ ЗАПИСКА Программа по дисциплине «Основы статистической обработки информации» предназначена для учащихся по направлению специальности «Коммерческая деятельность (экономическая деятельность и услуги)», специализации «Информационное обеспечение бизнеса». Целью изучения дисциплины является формирование у учащихся знаний об основных понятиях, приемах и методах статистической обработки данных экономических наблюдений. В качестве основного инструмента статистического анализа используются возможности популярного пакета Microsoft Excel. Кроме того, предлагается знакомство с пакетом STATISTICA как с одним из специализированных средств для статистических расчетов. В процессе преподавания дисциплины прослеживаются межпредметные связи с такими дисциплинами, как «Информационные технологии», «Экономика организации», «Статистика», «Анализ хозяйственной деятельности» и др. В результате изучения дисциплины учащиеся должны знать: виды и характеристики случайных величин, основные законы распределения случайных величин; методы обработки выборочных данных (построение и визуализация вариационного ряда, точечные и интервальные оценки характеристик случайных величин, оценка соответствия выборочных данных теоретическому закону распределения); методы совместного анализа нескольких выборок (регрессия и корреляция, дисперсионный анализ, проверка гипотезы о равенстве математических ожиданий); методы анализа временных рядов; уметь: испол ьзовать возможности пакета Microsoft Excel для проведения статистического анализа (статистические функции, надстройка «Пакет анализ», диаграммы); испол ьзовать интерфейс и возможности пакета STATISTICA. Согласно учебного плана учащиеся-заочники выполняют одну домашнюю контрольную работу. Варианты заданий имеют равную степень сложности, что позволяет достаточно объективно оценить степень их подготовленности. Контрольная работа предусматривает изложение одного теоретического вопроса и решение двух задач по анализу статистической обработке информации. Контрольная работа выполняется на компьютере, с использованием ППП MS Office (текстовый редактор MS Word – теоретический вопрос, табличный процессор MS Excel (задание 2 и 3), на одной стороне стандартного листа белой однобортной бумаги формата А4. Все страницы работы нумеруются по порядку от титульного листа до последней страницы без пропусков, повторений, литерных добавлений. Первой страницей считается титульный лист, на нем цифра “1” не ставится, на следующей странице проставляется цифра “2” и т.д. Порядковый номер печатается в правом углу верхнего колонтитула страницы. На титульном листе указываются: фамилия, имя, отчество учащегося, шифр, наименование предмета, номер контрольной работы, номер варианта, адрес, место работы и занимаемая должность. Заполнение двух последних реквизитов имеет значение для проверяющего преподавателя, который в этом случае получает возможность индивидуального подхода к оценке качества контрольной работы. При заполнении реквизитов сокращение слов недопустимы (см. приложение №1). Ответ на теоретический вопрос и решение задач выполняются после приведения № задания и точной формулировки условия задания. Каждое задание оформляется с новой страницы. Страницы должны иметь поля: слева – 25 мм, справа – 10 мм, сверху – 20 мм, снизу – 20мм. Основной текст должен быть написан в соответствии с правилами языка. Основной текст делится на абзацы. Абзацы рекомендуется начинать с отступом в 1,25 см (1 базовый символ табуляции, равный четырем пробелам). Пустые строки между абзацами не допускаются. Текст абзаца должен выравниваться по ширине. Расстановка переносов может опускаться. Размер шрифта — 14 пунктов, межстрочный интервал — одинарный. При создании таблиц допускается уменьшение размера шрифта до 11 пунктов. Таблицы, рисунки, чертежи, схемы, графики, фотографии и др. в тексте работы должны быть выполнены на стандартных листах формата А4. При ответе на теоретические вопросы следует использовать как рекомендованную (см. ниже), так и дополнительную литературу, а также, материалы практической деятельности предприятий и организаций, с приведением конкретных примеров по сути вопроса. Оформление решения заданий №№2-3 должно включать: условие задачи, краткое описание алгоритма выполнения задачи, следующие машинограммы: Задание №2: - 4 таблицы с исходными данными и необходимыми расчетами; - 4 таблицы в формульном виде; - диаграммы с подписями. Задание №3: - исходную таблицы и необходимые расчеты; - таблицу в формульном режиме. При необходимости в домашней контрольной работе могут быть использованы приложения (таблицы, расчёты, документы, графики и т.п.). Они оформляются как продолжение домашней контрольной работы на последующих её страницах. В тексте на все приложения должны быть даны ссылки. Каждое приложение начинается с новой страницы с указанием вверху посередине страницы слова «Приложение», пронумерованное заглавными буквами русского алфавита (А, Б и т.д.). Приложения, как правило, оформляют на листах формата А4 и нумеруют вместе с остальной частью домашней контрольной работы. В конце выполненной работы на отдельной странице даётся список использованной литературы. При этом каждый источник нумеруют арабскими цифрами и записывают с новой строки. Выполненная домашняя контрольная работа подписывается учащимся ниже списка литературы (справа) с указанием даты выполнения (слева) и высылается в учреждение образования на рецензирование. Последняя страница контрольной работы предназначена для рецензии преподавателя. Контрольная работа печатается на принтере, листы должны быть скреплены и помещены в файл для бумаги. Общий объём контрольной работы не должен превышать 15 страниц печатного текста. Контрольная работа, признанная преподавателем удовлетворительной, оценивается словом «зачтено». Если же учащимся не раскрыто основное содержание вопросов задания или допущены многочисленные существенные ошибки, а также контрольная работа, выполненная не по своему варианту, работа не засчитывается и возвращается учащемуся с подробной рецензией для дальнейшей работы над учебным материалом с отметкой «не зачтено». Незачтенные контрольные работы дорабатываются в соответствии с указанием рецензента. При повторном представлении работы на рецензирование в колледж представляется также и ранее незачтенная работа и, по требованию рецензента, ее электронный вариант в полном виде, включая электронные таблицы, базы данных. Вариант контрольной работы определяется по нижеприведенной таблице №1, в зависимости от двух последних цифр номера шифра учащегося. В таблице по горизонтали размещены цифры от 0 до 9, каждая из которых – последняя цифра номера шифра учащегося, по вертикали расположены предпоследние цифры номера шифра учащегося от 0 до 9. При пересечении вертикального столбца и горизонтальной строки определяются номера вопросов и номер задачи контрольной работы. Например, шифр И3-035-12 состоит из наборов цифр:12– год зачисления в колледж, 035 – порядковый номер шифра учащегося, где две последние (3 и 5) определяют вариант контрольной работы. В данном случае учащемуся необходимо выполнить задания контрольной работы под №16. ТАБЛИЦА №1 ВАРИАНТЫ ЗАДАНИЙ КОНТРОЛЬНОЙ РАБОТЫ Предпоследняя цифра номера шифра учащегося Последняя цифра номера шифра учащегося 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 10 1 11 12 13 14 15 16 17 18 19 20 2 1 2 3 4 5 6 7 8 9 10 3 11 12 13 14 15 16 17 18 19 20 4 1 2 3 4 5 6 7 8 9 10 5 11 12 13 14 15 16 17 18 19 20 6 1 2 3 4 5 6 7 8 9 10 7 11 12 13 14 15 16 17 18 19 20 8 1 2 3 4 5 6 7 8 9 10 9 11 12 13 14 15 16 17 18 19 20 В соответствии с номером варианта выбираются номера заданий. ТЕМАТИЧЕСКИЙ ПЛАН Количество учебных часов Раздел, тема Всего Введение В том числе на практические занятия 1 Раздел 1. Случайные величины 1.1. Способы описания и характеристики случайных величин 1.2. Основные виды распределений случайных величин Раздел 2. Выборка и ее анализ 2.1. Построение и визуализация вариационного ряда 2.2. Точечные и интервальные оценки характеристик случайной величины 2.3. Оценка соответствия выборочных данных теоретическому закону распределения Раздел 3. Анализ нескольких выборок 3.1. Выявление достоверности различий между двумя выборками 3.2. Дисперсионный анализ 33. Ковариация и корреляция 7 Увеличение или уменьшение часов в связи с расхождением с учебным планом Всего в т.ч. практические занятия Количество часов на изучение дисциплины согласно учебному плану Всего в т.ч. практические занятия -1 2 3 5 -2 -2 2 1 4 2 -3 -2 1 10 6 -6 -4 2 2 4 2 -2 1 1 3 2 -2 -2 1 1 3 2 -2 -2 8 4 -4 4 4 2 2 1 1 -1 -1 1 1 1 1 2 1 -1 1 1 3.4. Регрессионный анализ 2 1 -1 1 1 Раздел 4. Временные ряды 6 4 -5 4.1. Методы сглаживания временных рядов 4.2. Трендовые модели прогнозирования Раздел 5. Основы работы в пакете STATISTICA 5.1. Интерфейс и основные приемы работы в пакете STATISTICA Обязательная контрольная работа Итого -4 1 2 1 5 4 -5 -4 1 7 4 -7 -4 1 7 4 -7 -4 1 1 40 20 1 -18 -14 12 6 Задания к контрольной работе №1 по дисциплине «Основы статистической обработки информации» Вопросы контрольного задания №1 1. Случайные события и вероятность. 2. Способы описания и характеристики случайных величин. 3. Основные виды распределения случайных величин (нормальное распределение, экспоненциальное распределение, распределение Х2 (хи-квадрат), распределение Стьюдента). 4. Основные виды распределения случайных величин (распределение Фишера, биномиальное распределение, равномерное распределение, распределение Пуассона). 5. Выборочный метод исследования. Вариационный ряд дискретной случайной величины. 6. Числовые характеристики выборки. Функции MS Excel для расчета выборочных характеристик. 7. Точечные и интервальные оценки характеристик случайной величины. 8. Статистические гипотезы. Виды критических областей. 9. Критерия Пирсона. 10. Критерий Колмогорова – Смирнова. 11. Проверка гипотезы о равенстве дисперсий нормальных генеральных совокупностей. 12. Проверка гипотезы о равенстве математических ожиданий нормальных генеральных совокупностей. 13. Дисперсионный анализ. 14. Ковариация и корреляция. 15. Регрессионный анализ. 16. Понятие и структура временного ряда. 17. Методы сглаживания временных рядов (метод скользящих средних, метод экспоненциального сглаживания). 18. Трендовые модели прогнозирования. 19. Возможности программы STATISTICA и особенности ее интерфейса. 20. Анализ данных в системе STATISTICA. ЗАДАЧИ КОНТРОЛЬНОГО ЗАДАНИЯ №2 Создайте таблицы средствами MS Excel, выполните в них вычисления и постройте диаграммы. Кроме этого: 1. Создайте верхний колонтитул, содержащий в центре имя рабочего листа, а справа – текущую дату и нижний колонтитул, содержащий в центре Вашу фамилию, а справа – номер группы; 2. Распечатайте все 4 таблицы с результатами расчетов и таблицы в режиме формул, и диаграммы; 3. Дайте краткое пояснение к выполнению каждого пункта задания, используя текстовый процессор MS Word, опираясь на методические рекомендации, приведенные в данной контрольной работе. ЗАДАЧА 1 Постройте вариационный ряд, полигон частот и гистограмму относительных и накопленных частот по данным о росте (в см) группы из 30 мужчин: 181, 169, 178, 178, 171, 179 172, 181, 179, 168, 174, 167, 169, 171, 179, 181, 181, 183, 172, 176, 170, 178, 176,176, 190, 183, 169, 192, 185, 173. Определите выборочные характеристики этого распределения. Постройте 95%-ный доверительный интервал для математического ожидания. Сколько нужно иметь данных наблюдений, чтобы точность определения математического ожидания не превышала 1 см? Оцените степень соответствия эмпирических данных нормальному закону распределения с помощью критериев Пирсона и Колмогорова—Смирнова. ЗАДАЧА 2 Получены данные об успеваемости в группе из 23 студентов: 4,4,5,3,4,5,4,5,3,5,3,3,5,4,5,4,3,5,3,5,4,3. Постройте вариационный ряд, полигон частот, диаграмму относительных и накопленных частот. Определите выборочные характеристики этого распределения. Постройте 95%-ный доверительный интервал для математического ожидания. Сколько нужно иметь наблюдений, чтобы точность определения математического ожидания не превышала 0,2? Оцените степень соответствия эмпирических данных нормальному закону распределения с помощью критерия Колмогорова—Смирнова. Какой закон распределения в данном случае подходит больше, чем нормальный? ЗАДАЧА 3 В рабочей зоне производились замеры концентрации вредного вещества. Получен ряд значений (в мг/м3): 12, 16, 15, 14, 10, 20, 16, 14, 18, 14, 15, 17, 23, 16, 11, 12, 21, 17, 16, 15, 10, 13, 14, 19, 18, 16, 17, 20, 14, 18. Постройте вариационный ряд и гистограммы. Определите выборочные характеристики. Постройте 95%-ный доверительный интервал для математического ожидания. Сколько необходимо иметь наблюдений, чтобы точность определения математического ожидания не превышала 0,5? Оцените степень соответствия эмпирических данных нормальному закону распределения с помощью критериев Пирсона и Колмогорова—Смирнова. ЗАДАЧА 4 В детской поликлинике измерялась масса тела детей одного возраста и получена следующая выборка: 21, 21, 22, 22, 22, 22, 22, 23, 23, 23, 24, 24, 24, 24, 24, 25, 25, 25, 25, 25, 26, 26, 26, 26, 26, 26, 26, 27, 27,27. Постройте полигон частот, диаграмму относительных и накопленных частот. Определите выборочные характеристики. Постройте 99%-ный доверительный интервал для математического ожидания. Сколько необходимо иметь наблюдений, чтобы точность определения математического ожидания не превышала 0,3? Оцените степень соответствия эмпирических данных нормальному закону распределения с помощью критерия Колмогорова-Смирнова. ЗАДАЧА 5 На складе исследовались объемы спроса на сахар-песок. Эмпирические данные по объемам спроса на сахар-песок за два месяца получены следующие: 900, 220, 180, 150, 50, 30, 50 273, 250, 500, 50, 10, 730, 260, 20, 150, 50, 10, 150, 20, 410, 100, 100, 60, 60, 295, 250, 250, 50, 200, 400, 100, 50, 340, 200. Постройте вариационный ряд, диаграмму относительных и накопленных частот. Определите выборочные характеристики. Постройте 95%-ный доверительный интервал для математического ожидания. Оцените степень соответствия эмпирических данных нормальному закону распределения с помощью критерия Пирсона. Аналогично проверьте, соответствуют ли эмпирические данные экспоненциальному закону распределения. ЗАДАЧА 6 Возраст студентов одного потока представляется следующими данными: 17, 20, 18, 19, 18, 17, 20, 21, 24, 22, 20, 21, 20, 19, 18, 20, 21, 22, 25, 20,18,19,19,20,21. Постройте вариационный ряд, полигон частот, диаграмму относительных и накопленных частот. Определите выборочные характеристики. Постройте 95%-ный доверительный интервал для математического ожидания. Сколько необходимо иметь наблюдений, чтобы точность определения математического ожидания не превышала 0,5? Оцените степень соответствия эмпирических данных нормальному закону распределения с помощью критерия Колмогорова—Смирнова. ЗАДАЧА 7 Служба контроля качества предприятия произвела замеры длин случайно отобранных заготовок (в см): 39, 41, 40, 43, 41, 44, 42, 41, 41, 43, 42, 39, 40, 42, 43, 42, 41, 39, 42, 42, 41, 42, 40, 41, 43, 41, 39, 40, 41, 40. Постройте вариационный ряд, полигон частот, диаграмму относительных и накопленных частот. Определите выборочные характеристики. Постройте 99%-ный доверительный интервал для математического ожидания. Сколько необходимо иметь наблюдений, чтобы точность определения математического ожидания не превышала 0,3? Оцените степень соответствия эмпирических данных нормальному закону распределения с помощью критериев Пирсона и Колмогорова—Смирнова. ЗАДАЧА 8 Для исследования системы массового обслуживания измерялись интервалы времени между поступлением заявок в систему: 1, 6, 12, 7, 1, 12, 1, 2, 8, 4, 3, 13, 1, 5, 5, 10, 2, 2, 2, 4, 3, 11, 2, 11, 3, 4, 5, 7, 6, 9, 10, 1, 3, 1, 2. Постройте вариационный ряд, полигон частот, диаграмму относительных и накопленных частот. Определите выборочные характеристики. Постройте 95%-ный доверительный интервал для математического ожидания. Сколько необходимо иметь наблюдений, чтобы точность определения математического ожидания не превышала 0,5? Оцените степень соответствия эмпирических данных экспоненциальному закону распределения с помощью критериев Пирсона и Колмогорова—Смирнова. ЗАДАЧА 9 Постройте вариационный ряд, полигон частот и гистограмму относительных и накопленных частот по данным о росте (в см) группы из 30 женщин: 171, 169, 178, 172, 171, 179 172, 171, 179, 178, 174, 177, 179, 171, 179, 171, 171, 173, 172, 176, 170, 178, 176,176, 170, 173, 179, 172, 175, 173. Определите выборочные характеристики этого распределения. Постройте 95%-ный доверительный интервал для математического ожидания. Сколько нужно иметь данных наблюдений, чтобы точность определения математического ожидания не превышала 1 см? Оцените степень соответствия эмпирических данных нормальному закону распределения с помощью критериев Пирсона и Колмогорова—Смирнова. ЗАДАЧА 10 Служба контроля качества предприятия произвела замеры длин случайно отобранных заготовок (в см): 29, 31, 40, 33, 31, 34, 32, 31, 31, 33, 37, 39, 40, 32,33, 32, 31, 39, 32, 32, 31, 32, 30, 41, 43, 41, 39, 40, 41, 40. Постройте вариационный ряд, полигон частот, диаграмму относительных и накопленных частот. Определите выборочные характеристики. Постройте 99%-ный доверительный интервал для математического ожидания. Сколько необходимо иметь наблюдений, чтобы точность определения математического ожидания не превышала 0,3? Оцените степень соответствия эмпирических данных нормальному закону распределения с помощью критериев Пирсона и Колмогорова—Смирнова. ЗАДАЧА 11 Возраст учащихся одного курса представляется следующими данными: 19, 20, 18, 19, 18, 17, 20, 21, 24, 22, 20, 21, 20, 19, 18, 21, 21, 22, 23, 20,18,19,19,20,21. Постройте вариационный ряд, полигон частот, диаграмму относительных и накопленных частот. Определите выборочные характеристики. Постройте 95%-ный доверительный интервал для математического ожидания. Сколько необходимо иметь наблюдений, чтобы точность определения математического ожидания не превышала 0,5? Оцените степень соответствия эмпирических данных нормальному закону распределения с помощью критерия Колмогорова—Смирнова. ЗАДАЧА 12 На складе исследовались объемы спроса на муку «Минскую». Эмпирические данные по объемам спроса на муку «Минскую» за два месяца получены следующие: 700, 720, 780, 750, 750, 730, 750 770, 750, 700, 750, 710, 730, 760, 720, 750, 750, 710, 750, 720, 710, 700, 700, 760, 760, 790, 750, 750, 740, 700, 700, 700,750, 740, 700. Постройте вариационный ряд, диаграмму относительных и накопленных частот. Определите выборочные характеристики. Постройте 95%-ный доверительный интервал для математического ожидания. Оцените степень соответствия эмпирических данных нормальному закону распределения с помощью критерия Пирсона. Аналогично проверьте, соответствуют ли эмпирические данные экспоненциальному закону распределения. ЗАДАЧА 13 В детской поликлинике измерялась масса тела детей одного возраста и получена следующая выборка: 31, 31,32, 32, 32, 32, 32, 33, 33, 33, 34, 34, 34, 34, 34, 35, 35, 35, 35, 35, 36, 36, 36, 36, 36, 36, 36, 37, 37,37. Постройте полигон частот, диаграмму относительных и накопленных частот. Определите выборочные характеристики. Постройте 99%-ный доверительный интервал для математического ожидания. Сколько необходимо иметь наблюдений, чтобы точность определения математического ожидания не превышала 0,3? Оцените степень соответствия эмпирических данных нормальному закону распределения с помощью критерия Колмогорова-Смирнова. ЗАДАЧА 14 Получены данные об успеваемости в группе из 25 студентов: 4,4,5,6,7,5,8,5,8,5,8,9,5,4,5,4,9,5,9,5,4,8,7,6,9. Постройте вариационный ряд, полигон частот, диаграмму относительных и накопленных частот. Определите выборочные характеристики этого распределения. Постройте 95%-ный доверительный интервал для математического ожидания. Сколько нужно иметь наблюдений, чтобы точность определения математического ожидания не превышала 0,2? Оцените степень соответствия эмпирических данных нормальному закону распределения с помощью критерия Колмогорова—Смирнова. Какой закон распределения в данном случае подходит больше, чем нормальный? ЗАДАЧА 15 Получены данные об успеваемости в группе из 27 студентов: 6,7,8,4,5,9,4,5,7,8,9,6,5,7,8,7,8,4,5,6,7,4,5,6,8,9. Постройте вариационный ряд, полигон частот, диаграмму относительных и накопленных частот. Определите выборочные характеристики этого распределения. Постройте 95%-ный доверительный интервал для математического ожидания. Сколько нужно иметь наблюдений, чтобы точность определения математического ожидания не превышала 0,2? Оцените степень соответствия эмпирических данных нормальному закону распределения с помощью критерия Колмогорова—Смирнова и с помощью критерия Пирсона. ЗАДАЧА 16 Медпункт учебного заведения проводит измерения массы тела учащихся (в кг.). Произвольным образом отобрали результаты 30 человек: 64,60,65,66,61,62,63, 67,60,68,69,60,62,65,66,68,69,60,61,62,63,64,66,60,69,68,61,60,67,63. Постройте вариационный ряд, полигон частот, диаграмму относительных и накопленных частот. Определите выборочные характеристики этого распределения. Постройте 95%-ный доверительный интервал для математического ожидания. Сколько нужно иметь наблюдений, чтобы точность определения математического ожидания не превышала 1 кг.? Оцените степень соответствия эмпирических данных нормальному закону распределения с помощью критерия Колмогорова—Смирнова и с помощью критерия Пирсона. ЗАДАЧА 17 Измерения диаметров 32 валиков, выточенных на станке, дали следующие результаты (в мм): 14,51 14,21 14,52 14,37 14,42 14,31 14,23 14,51 14,56 14,35 14,41 14,25 14,47 14,68 14,46 14,55 14,46 14,56 14,69 14,51 14,35 14,28 14,54 14,36 14,48 14,36 14,36 14,62 14,53 14,21 14,15 14,55 Постройте вариационный ряд, полигон частот, диаграмму относительных и накопленных частот. Определите выборочные характеристики этого распределения. Постройте 95%-ный доверительный интервал для математического ожидания. Оцените степень соответствия эмпирических данных нормальному закону распределения с помощью критерия Колмогорова—Смирнова. ЗАДАЧА 18 Измеряя длину (в мм) 50 взятых произвольно семян тыквы получены данные. 12 13 12 10 14 11 14 11 15 15 10 8 9 12 13 9 15 13 17 18 14 16 14 15 14 16 15 17 14 12 9 10 13 10 16 11 15 16 15 19 14 16 12 13 18 13 17 16 17 11 Постройте вариационный ряд, полигон частот, диаграмму относительных и накопленных частот. Определите выборочные характеристики этого распределения. Постройте 95%-ный доверительный интервал для математического ожидания. Сколько нужно иметь наблюдений, чтобы точность определения математического ожидания не превышала 1мм.? Оцените степень соответствия эмпирических данных нормальному закону распределения с помощью критерия Колмогорова—Смирнова и с помощью критерия Пирсона. ЗАДАЧА 19 Измерения длину листьев комнатных растений в мм, дали следующие результаты (в мм):5,7,10,8,9,11,6,8,7,12,11,10,13,10,7,8,9,5,6,15,11,12,13,15,14,11,5,6,7, 8,9,10,11,12. Постройте вариационный ряд, полигон частот, диаграмму относительных и накопленных частот. Определите выборочные характеристики этого распределения. Постройте 99%-ный доверительный интервал для математического ожидания. Оцените степень соответствия эмпирических данных нормальному закону распределения с помощью критерия Колмогорова—Смирнова и с помощью критерия Пирсона. ЗАДАЧА 20 На складе исследовались объемы спроса на сахар. Эмпирические данные по объемам спроса на сахар за два месяца получены следующие: 1700, 1720, 1780, 1750, 1750, 1730, 1750 1770, 1750, 1700, 1750, 1710, 1730, 1760, 1710, 1750, 1750, 1710, 1750, 1720, 1710, 1700, 1700, 1760, 1750, 1790, 1750, 1750, 1740, 1700, 1700, 1750, 1740, 1700. Постройте вариационный ряд, диаграмму относительных и накопленных частот. Определите выборочные характеристики. Постройте 95%-ный доверительный интервал для математического ожидания. Оцените степень соответствия эмпирических данных нормальному закону распределения с помощью критерия Пирсона. Аналогично проверьте, соответствуют ли эмпирические данные экспоненциальному закону распределения. Задачи контрольного задания №3 Задача 1 Определите, влияет ли фактор образования на уровень зарплаты работников гостиницы на основании данных, показанных в табл. 1. Использовать уровень значимости 10%. Можно ли достоверно считать, что фактор образования имеет влияние при уровне значимости 5%? Таблица 1. Данные наблюдений заработной платы сотрудников гостиницы Образование Зарплата сотрудника Высшее 3200000 3000000 2600000 2000000 1900000 Среднее специальное 2600000 2000000 2000000 1900000 1800000 Среднее 2000000 2000000 1900000 1800000 1700000 1900000 1700000 1700000 Задача 2 На химическом заводе разработаны два новых варианта технологического процесса. Чтобы оценить, как изменится дневная производительность при переходе на работу по новым технологиям, завод в течение 10 дней работает по каждому варианту, включая существующий. Дневная производительность завода (в условных единицах) представлена в таблице 2. При уровне значимости = 0,01 требуется выяснить, как зависит дневная производительность от технологического процесса. Следует оценить степень этой зависимости. 1 2 3 4 5 6 7 8 9 10 Таблица 2. Данные о дневной производительности по различным технологиям День работы Дневная производительность Существующая технология Вариант 1 Вариант 2 119 53 76 26 128 149 96 176 97 174 106 77 71 96 114 101 172 197 135 81 179 171 163 178 148 73 90 20 108 109 Задача 3 В исследовании изучалась эффективность трех рекламных роликов А, Б, В. Для оценки рекламы по девятибалльной шкале выбрали 10 потребителей. Полученные данные приведены в табл. 3. При уровне значимости = 0,05 требуется выяснить, какой ролик можно считать более эффективным. Таблица 3. Данные об оценке рекламных роликов потребителями Рекламный Потребители ролик 1 2 3 4 5 6 7 А 4 5 3 4 3 7 4 Б 7 5 6 5 4 6 5 В 8 7 7 6 8 7 6 Задача 4 8 3 5 8 9 5 4 7 10 5 4 6 В табл. 4 приведены оценки шестью респондентами влияния брендов трех торговых сетей на их товарооборот (в баллах). Определите, бренд какой торговой сети наиболее влияет на товарооборот и можно ли считать это влияние значимым при = 0,05. Таблица 4. Данные об оценке влияния брендов торговых сетей на товарооборот Респонденты Торговые сети 1 2 3 4 5 6 Торговая сеть 1 6 8 10 7 6 7 Торговая сеть 2 8 9 7 10 9 8 Торговая сеть 3 10 9 8 10 10 10 Задача 5 В табл. 5 приведены данные о влиянии технологий организации торговли на увеличение объема продаж в различных торговых организациях, где они были внедрены. Определите, влияет ли фактор технологии на рост объемов продаж при уровне значимости = 0,05. Таблица 5. Увеличение объемов продаж в различных торговых организациях Технологии торговли Увеличение объема продаж, % Технология 1 7,7 7,9 8,2 Технология 2 9,4 9,1 8,9 Технология 3 9,1 8,9 7,9 Технология 4 9,3 9,3 8,9 7,7 8,8 8,6 9,1 Задача 6 Исследовали влияние различных доз минеральных удобрений на урожайность озимой ржи. Результаты для различных участков посевных площадей приведены в табл. 6. Проведите дисперсионный анализ при уровне значимости = 0,01. Можно ли считать влияние размера вносимой дозы удобрения статистически значимым? Таблица 6. Данные наблюдений за урожайностью озимой ржи при различных дозах минеральных удобрений Дозы удобрений, кг/га Урожай, ц/га 15 8,0 8,4 9,0 8,6 20 8,2 9,0 10,0 10,0 25 11,0 13,0 12,0 30 7,5 8,5 Задача 7. В табл. 7 приведены данные о влиянии образования рабочих (неполное среднее, среднее, профессионально-техническое) на их заработную плату. Для каждой группы было опрошено по 4 рабочих. Проведите дисперсионный анализ при уровне значимости а = 0,05. Можно ли считать влияние фактора образования на зарплату рабочих статистически достоверным? Таблица 7. Данные для дисперсионного анализа Образование Неполное среднее Среднее Профессионально-техническое 175 180 190 Заработная плата рабочих, усл. ден. ед. 183 191 210 165 220 210 120 150 290 Задача 8. Данные о влиянии маркетинговых мероприятий на увеличение объемов продаж продукции шести видов приведены в табл. 8. С помощью дисперсионного анализа выяснить, влияет ли вид применяемых маркетинговых мероприятий на показатели продаж продукции. Использовать уровень значимости 10%. Таблица 8. Данные наблюдений об увеличении продаж, % Виды маркетинговых Вид продукции мероприятий 1 2 3 4 I 21 20 19 18 II 20 22 21 19 III 17 16 18 19 IV И 10 11 13 5 20 18 17 11 6 21 19 16 10 Задача 9 Необходимо выяснить, влияет ли расстояние от центра города на степень заполняемости гостиниц. Пусть введены три уровня градации расстояния от центра: 1) до 3 км; 2) от 3 до 5 км; 3) свыше 5 км. Проведите дисперсионный анализ при уровне значимости а = 0,05. Таблица 9. Заполняемость гостиниц при различных расстояниях от центра города Расстояние Заполняемость, % До3 км 92 98 89 97 90 От 3 до 5 км 90 86 84 91 83 Свыше 5 км 87 79 74 85 73 94 82 77 Задача 10 В табл. 10 приведены данные о расходе сырья при производстве шоколадной продукции по трем разным технологиям. Определите, влияет ли технология производства на расход сырья при уровне значимости = 0,01. Таблица 10. Увеличение объемов продаж в различных торговых организациях Технологии торговли Расход сырья, ед.из. Технология 1 245 254 248 267 Технология 2 259 257 264 245 Технология 3 247 252 242 260 255 258 253 Задача 11 Имеются данные о реализации путевок различными филиалами турфирмы (табл. 11). Выявить, достоверны ли различия в продаже путевок, проверив гипотезу о равенстве математических ожиданий (уровень значимости 0,05). Таблица 11. Данные о продаже путевок филиалами турфирмы (шт.) Филиал 1 Филиал 2 125 154 135 145 148 168 135 162 126 156 115 144 140 137 121 125 112 145 130 151 Задача 12 Даны результаты бега на 100 м в секундах в двух группах студентов (табл. 12). Определите, достоверны ли отличия по результатам бега в этих группах (уровень значимости 0,05). Проверить гипотезу о равенстве дисперсии генеральных совокупностей. Таблица 12. Результаты сдачи норматива по бегу Группа А 12,6 12,3 11,9 12,2 13,0 Группа В 12,8 13,2 13,0 12,9 13,5 12,4 13,1 13,7 12,7 12,8 12,9 10,9 11,8 Задача 13 Данные о ежегодной результативности (количество голов) двух футбольных командах приведены в табл. 13. Требуется при заданном уровне значимости (0,01) проверить гипотезу о равенстве дисперсий нормальных генеральных совокупностей. Таблица 13. Количество голов, забитых футбольными командами Месяц 1 2 3 4 5 6 7 8 9 2013 г. 1 5 3 4 7 8 9 1 2 2014г. 8 9 6 9 9 2 14 4 5 10 9 17 11 5 1 12 5 4 Задача 14 Рассматривается заработная плата обслуживающего персонала гостиницы и работников ресторана (табл. 14). Можно ли по этим данным сделать вывод о большей зарплате работников ресторана (использовать уровень значимости 0,05)? Таблица 14. Данные о зарплате работников, тыс.р. Персонал гостиницы 2100 2000 2120 2100 2100 2000 2000 2000 1900 1800 1800 Работники ресторана 3200 3100 3050 3000 2500 3000 2000 1900 1800 1900 2050 Задача 15 В табл. 15 приведены результаты групп учащихся по скоростному чтению. Можно ли по этим данным сделать вывод о лучших результатах во второй группе (принять уровень значимости 0,1)? Таблица 15. Скорость чтения (знаков/мин) Первая группа 70 83 86 70 66 90 Вторая группа 82 89 91 77 68 86 80 81 85 90 77 80 96 94 85 87 76 77 90 88 81 90 97 99 Задача 16 Опыты по сравнению массы одного и того же объема азота, полученного после химической очистки из азотистых соединений (X) и из воздуха (У), проводились при неизменных условиях (15° и 760 мм рт. ст.). Результаты измерений представлены в табл. 16. Проверить гипотезу о равенстве дисперсий этих двух случайных величин при уровне значимости 0,05. Таблица 16. Масса полученного азота при различных способах химической очистки, г X 2301,43 2298,90 2298,16 2301,82 2298,69 2299,40 2298,40 2298,89 2297,38 2301,8 — — Y 2310,17 2309,86 2310,10 2310,01 2310,24 2310,10 2310,28 2310,35 2299,04 2308,7 2310,26 2310,24 Задача 17 Производительность двух моторных заводов, выпускающих дизельные двигатели, характеризуется данными, представленными в табл. 17. Можно ли считать одинаковыми производительности обоих заводов при уровне значимости а = 0,05? Таблица 17. Данные о количестве произведенных моторов по месяцам Месяц 1 2 3 4 5 6 7 8 9 1-й завод 72 84 69 74 82 67 75 86 68 2-й завод 55 65 73 66 58 71 77 68 68 10 61 59 11 85 74 12 74 85 Задача 18 Требуется сравнить точность обработки изделий на двух станках. С этой целью на первом станке было обработано 15, а на втором — 18 изделий. Отклонения контролируемого размера от заданного показаны в таблице 18. Принять уровень значимости 0,01. Таблица 18. Отклонение размера детали от заданного (в десятых долях мм) Первый станок 2 4 6 2 8 9 4 4 6 5 3 5 6 7 2 Второй станок 1 3 2 2 5 7 8 5 5 3 7 8 8 5 9 9 8 6 Задача 19 Товарооборот двух торговых точек, реализующих табачную продукцию, характеризуется данными, представленными в табл. 19. Можно ли считать одинаковыми товарообороты обоих точек при уровне значимости а = 0,05? Таблица 19. Данные о товарооборотах табачной продукции по месяцам, тыс.руб. Месяц 1 2 3 4 5 6 7 8 9 10 11 Торговая точка 1 245 215 235 278 245 210 289 245 241 258 269 Торговая точка 2 247 274 285 295 231 230 210 245 265 279 284 12 247 286 Задача 20 Опыты по сравнению массы одного и того же объема азота, полученного после химической очистки из азотистых соединений (X) и из воздуха (У), проводились при неизменных условиях (35° и 660 мм рт. ст.). Результаты измерений представлены в табл. 20. Можно ли считать, что оба метода химической очистки дают одинаково точные результаты при уровне значимости 0,01? Таблица 16. Масса полученного азота при различных способах химической очистки, г X 2456,1 2456,2 2654,8 2478,9 2458,1 2456,3 2654,1 2255,4 2241,6 2354,6 2145,6 2010,5 Y 2789,4 2499,8 2789,6 2456,1 2145,3 2154,3 2299,9 2989,7 2789,5 2458,7 2452,9 2456,8 Методические указания по изучению тем дисциплины СОДЕРЖАНИЕ ДИСЦИПЛИНЫ Введение Цель и задачи дисциплины «Основы статистической обработки информации», место дисциплины в подготовке специалистов. Основные разделы дисциплины, связь с другими изучаемыми дисциплинами. Роль статистической обработки информации в обществе. Правила техники безопасности при работе с техникой. [1], с. 10-34. Раздел 1. Случайные величины Тема 1.1. Способы описания и характеристики случайных величин Дискретные и непрерывные случайные величины. Закон распределения дискретной случайной величины. Полигон частот. Интегральная функция распределения. Функция плотности распределения непрерывной случайной величины. Характеристики случайной величины (математическое ожидание, дисперсия, среднеквадратическое отклонение, мода, медиана и др.). [1], с. 10-34. Тема 1.2. Основные виды распределений случайных величин Равномерный закон распределения. Нормальный закон распределения. Экспоненциальный закон распределения. Распределения, связанные с нормальным: распределение хи-квадрат, распределение Стьюдента, распределение Фишера. Дискретные распределения: биномиальное, распределение Пуассона. функций Excel НОРМРАСПО, ЭКС- ПРАСЩ), ХИ2РАСП(), ХИ20БР(), СТЬЮД- РЛСП(), СТЫОДРАСПОБРО, FPACH0, FPAC- ПОБР(), БИНОМРАСПО, ПУАССОЩ) Раздел 2. Выборка и ее анализ Тема 2.1. Построение и визуализация вариационного ряда Выборочный метод исследования. Вариационный ряд дискретной случайной величины. Полигон частот и полигон относительных частот. Вариационный ряд непрерывной случайной величины. Гистограмма. Эмпирическая функция распределения и кумулятивная кривая. Функция MS Excel ЧАСТОТА(). Использование надстройки «Пакет анализа» для построения гистограммы. Тема 2.2. Точечные и интервальные оценки характеристик случайной величины Числовые характеристики выборки. Функции MS Excel для расчета выборочных характеристик. Возможности надстройки «Пакет анализа» для определения выборочных характеристик. Доверительный интервал. Надежность и уровень значимости. Определение доверительного интервала для математического ожидания в Excel. Расчет числа наблюдений для достижения заданной точности. Оценка однородности выборки. Тема 2.3. Оценка соответствия выборочных данных теоретическому закону распределения Проверка статистических гипотез. Проверка гипотезы о нормальном законе распределения генеральной совокупности на основе критериев Пирсона и Колмогорова. Функция Excel ХИ2ТЕСТ(). Раздел 3. Анализ нескольких выборок Тема 3.1. Выявление достоверности различий между двумя выборками Проверка гипотезы о равенстве дисперсий двух случайных величин. Проверка гипотезы о равенстве математических ожиданий двух случайных величин. Стандартные функции MS Excel и инструменты Пакета анализа для реализации процедур проверки статистических гипотез. Правила выбора инструмента анализа. Тема 3.2. Дисперсионный анализ Выборочная ковариация и выборочный коэффициент корреляции. Шкала Чеддока. Корреляционная матрица и ее расчет в Excel. Проверка гипотезы о значимости коэффициента корреляции. Тема 3.3. Ковариация и корреляция Задача дисперсионного анализа. Однофакторный дисперсионный анализ и его реализация в MS Excel. Тема 3.4. Регрессионный анализ Понятие регрессионной зависимости. Однофакторная и множественная регрессия. Линейная и нелинейная регрессия. Этапы регрессионного анализа. Метод наименьших квадратов для определения параметров регрессии. Коэффициент детерминации. Оценка значимости коэффициента детерминации. Оценка влияния каждого фактора на зависимую величину. Использование стандартных функций Excel ЛИНЕЙНО, ЛГРФПРИБЛ() и надстройки «Пакет анализа» для построения и оценки уравнения регрессии. Раздел 4. Временные ряды Тема 4.1. Методы сглаживания временных рядов Понятие временного ряда и его структуры. Постановка задачи прогнозирования. Методы сглаживания и их назначение. Метод скользящих средних. Метод экспоненциального сглаживания. Подбор параметров сглаживания Тема 4.2. Трендовые модели прогнозирования Метод экстраполяции и условия его применения. Виды трендовых моделей. Этапы прогнозирования на основе трендовых моделей. Вставка линии тренда на график в приложении MS Excel. Использование функций ЛИНЕЙНО и ЛГРФПРИБЛ() для определения параметров тренда. Раздел 5. Основы работы в пакете STATISTICА Тема 5.1. Интерфейс и основные приемы работы в пакете STATISTICA Интерфейс пакета STATISTICA и его особенности. Загрузка и сохранение данных. Выполнение некоторых видов статистического анализа в пакете STATISTICA. Раздел 6. Выполнение самостоятельного задания профессиональной направленности с использованием изученного программного обеспечения. МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ПО ВЫПОЛНЕНИЮ КОНТРОЛЬНОЙ РАБОТЫ Задание №1. При ответе на теоретический вопрос необходимо выполнить обзор литературных источников по данному вопросу и на основании обзора литературы подготовить содержательный ответ. Объем ответа не должен превышать четырех листов печатного текста. Ответы следует представить в виде подготовленного и распечатанного на ПЭВМ текста в соответствии со следующими требованиями: шрифт – Times New Roman, 14 пт; междустрочный интервал – полуторный; выравнивание – по ширине; отступ первой строки – 1,25 см; верхний колонтитул – Ф.И.О.; нижний колонтитул - № группы; нумерация страниц – внизу по центру страницы должны иметь поля: слева – 30 мм, справа – 15 мм, сверху – 20 мм, снизу – 20 мм. Для выделения заголовков необходимо использовать различные начертания шрифта. Задание №2. Дана выборка значений массы тела учащихся в килограммах. Объем этой выборки п = 35. Построить вариационный ряд, полигон частот, диаграмму относительных и накопленных частот, используя MS Excel. Определите выборочные характеристики этого распределения. Постройте 95%-ный доверительный интервал для математического ожидания. Сколько нужно иметь наблюдений, чтобы точность определения математического ожидания не превышала 0,2? Оцените степень соответствия эмпирических данных нормальному закону распределения с помощью критерия Колмогорова—Смирнова и с помощью критерия Пирсона. Таблица 17. Эмпирические данные о массе тела учащихся Наблюдения 64 57 63 62 58 61 63 60 60 61 65 62 62 60 64 61 59 59 63 61 62 58 58 63 61 59 62 60 60 58 61 60 63 63 62 Рекомендации по выполнению: 1. Загрузить программу MS Excel (Пуск – Все программы – MS Office – MS Excel) 2. В ячейку А1 введем слово «Наблюдения», а в диапазон А2:А36 — эмпирические данные, приведенные в табл. 17. 3. Рассчитаем максимальное и минимальное значения выборочных данных в ячейках D1 и D2, введя соответственно функции МАКС(А2:А36) и МИН(А2:А36). В ячейку Е1 введем заголовок «Варианты», а ниже в столбце — все возможные неповторяющиеся значения массы тела учащихся, которые встречались в выборке (от минимального до максимального). 4. В ячейке F1 запишем заголовок «Абсолютные частоты». Для заполнения столбца абсолютных частот можно использовать стандартную функцию ЧАСТОТА(). Выделим мышью диапазон F2 : F10, в котором разместятся найденные частоты, вызовем Мастер функций и в категории Статистические выберем функцию ЧАСТОТА. После этого заполним ее аргументы: Массив данных — это диапазон эмпирических данных А2: А36; Массив интервалов — это диапазон значений вариант Е2: Е10. Закончить ввод функции нужно одновременным нажатием клавиш Ctrl+Shift+Enter, поскольку ее результатом является диапазон значений. В строке формул эта функция будет показана в фигурных скобках. В ячейке F11 найдем общее число наблюдений, просуммировав значения в столбце абсолютных частот. 5. В ячейке G1 запишем заголовок «Относительные частоты». Для расчета относительных частот внесем в ячейку G2 формулу =F2/$F$ 11 и скопируем ее методом автозаполнения вниз по столбцу. Сумма относительных частот в этом столбце должна быть равна единице. 6. Последний столбец таблицы озаглавим «Накопленные частоты». В ячейку Н2 скопируем значение относительной частоты из ячейки G2, а в ячейку НЗ введем формулу =H2+G3. Методом автозаполнения скопируем введенную формулу вниз по столбцу в диапазон Н4:Н10. Итоговый вид таблицы после форматирования показан на рис. 1. Рис.1. Результат вычислений относительных и накопленных частот 7. Построим полигон частот по данным в столбце «Абсолютные частоты», как показано на рис. 2. (используем диаграмму типа «точечная, с прямыми отрезками и маркерами»). Рис. 2. Полигон частот 8. Построим также диаграмму относительных и накопленных частот. Для этого выделим диапазон G1:H10 и вызовем Мастер диаграмм, выберем тип График с маркерами. Выбрав данные, переименуем ряд 1 в относительные частоты, а ряд 2 в накопленные частоты. На закладке Макет введем заголовки осей: название горизонтальной оси Х - «Масса тела», название вертикальной оси У (повернутое) – «Частоты». После минимального редактирования диаграмма будет иметь такой вид, как показано на рис. 3. Рис. 3. Диаграмма относительных и накопленных частот 9. Чтобы рассчитать выборочные характеристики распределения, 95%-ный доверительный интервал для математического ожидания и определить, сколько нужно иметь наблюдения, чтобы точность определения не превышала 0,2, введем эмпирические данные о весе учащихся на 2 лист Excel и оформим его, как показано на рис. 4 (можно скопировать данные с листа 1). В ячейки D2:D9 введем стандартные функции Excel категории Статистические СРЗНАЧ(), ДИСП(), СТАНДОТКЛОН(), МОДА(), МЕДИАНА(), ЭКСЦЕСС(), СКОС() и СЧЕТ(). Аргументом всех этих функций является диапазон выборочных значений А2:А36. Рис.4. Расчет выборочных характеристик распределения 10. При расчете доверительного интервала для математического ожидания необходимо учесть число наблюдений. а) Если число наблюдений больше 30, то с вероятностью 0,95 значение математического ожидания попадает в доверительный интервал х ± 2т, а с вероятностью 0,99 – в доверительный интервал х ± 3т, где m называется стандартной ошибкой и равно 0,276. б) Если число наблюдений мало (n<=30), то доверительный интервал определяется по формуле, используя функцию СТЬЮДРАСПОБР(). В данном примере число наблюдений =35 (35 > 30), поэтому точность доверительного интервала будет равна 2т = 2 * 0,276 = 0,5527. Это значение рассчитано в ячейке D12. В ячейках D13 и D14 найдены также нижняя и верхняя границы доверительного интервала по формулам = D2 - D12 и = D2 + D12. В случае, когда количество наблюдений недостаточно (n < 30), и это применить к нашему примеру, то, учитывая, что число наблюдений п — 35 (значение в ячейке D9), а требуемая надежность составляет р = 0,95 (уровень значимости а = 1 - р = 0,05), расчет по формуле в ячейке D17 должен был иметь вид: = СТЬЮДРАСПОБР(0,05;D9-l)*D4/KOPEHЬ(D9). Для полученной точности также рассчитываем нижнюю и верхнюю границы доверительного интервала в ячейках D18 и D19. Полученная точность доверительного интервала &=0.5527 превышает заданное значение 0,2. Поэтому определим, сколько необходимо иметь данных наблюдений для достижения этой точности. Для этого введем в ячейку D22 следующую формулу: = СТЬЮДРАСПОБР(0,05;D9-l)*D4^2/0,2^2+1. Полученное значение показывает, что нужно иметь не менее 201 наблюдения. 11. Для проверки гипотезы о нормальном законе распределения исследуемой случайной величины с помощью критерия Пирсона скопируем данные наблюдений за массой тела на 3 лист и построим вариационный ряд аналогично тому, как это делали на 1 листе. Столбец "Фактические частоты" рассчитывается с помощью функции ЧАСТОТА(). Рассчитаем выборочные среднее, стандартное отклонение, асимметрию и эксцесс, используя функции СРЗНАЧ(), СТАНДОТКЛОН(), СКОС() и ЭКСЦЕСС(). В ячейке G11 найдем общее число наблюдений, просуммировав фактические частоты. Чтобы рассчитать теоретические частоты, перейдем к интервальному вариационному ряду. Зададим интервалы группировки так, чтобы наблюдаемые значения вариант стали их серединами. Для этого в ячейке Н2 (столбец Левые границы интервалов) введем формулу =F2-0,5. Скопируем ее вниз по столбцу. В ячейке I2 (столбец Правые границы интервалов) введем формулу =F2+0,5 и скопируем аналогично. В столбце Теоретические частоты рассчитаем теоретические частоты для нормального распределения. Математическое ожидание и среднеквадратическое отклонение будем считать равными соответствующим выборочным характеристикам. Для этого в ячейку J2 введем формулу: =(HOPMPACП(I2;$D$3;$D$4;l)-НОРМРАСП(H2;$D$3;$D$4;1))*$G$11. Данную формулу нужно скопировать методом автозаполнения в ячейки диапазона J3: J10. После расчетов таблица имеет вид: Рис.5 Для сравнения частот по данным в ячейках G2:G10 и J2:J10 построим диаграмму (график с маркерам). Чтобы Рис. 6 выполнить все условия применения гипотезы о нормальном распределении исследуемой случайной величины, объединим два первых и два последних интервала. Объединенные интервалы, а также соответствующие фактические и теоретические частоты показаны на рис. 7. Их значения получаются путем копирования из столбцов G и J (кроме первого и последнего значения, которые рассчитываются путем суммирования). Рис.7 В ячейках I14:I20 рассчитаем элементы суммы, введя в ячейку I14 формулу = (G14-Н14)^2/Н14 и скопировав ее вниз по столбцу. Наблюдаемое значение критерия в ячейке F23 рассчитывается как сумма по столбцу I. Критическое значение критерия в ячейке Н23 рассчитаем по формуле =ХИ20БР(0,05;4). При этом принятый уровень значимости а = 0,05, а число степеней свободы равно 4 = 7 — 2 — 1 (учтем, что имеем семь интервалов группировки). Поскольку полученное наблюдаемое значение меньше, чем критическое, делаем вывод, что нельзя отвергнуть нулевую гипотезу о нормальном законе распределения. Рассчитаем также p-значение в ячейке F25 с помощью функции =XИ2TECT(G14:G20;H14:H20). Рассчитанное значение в ячейке F25 равно 0,8981. Это значительно больше уровня значимости (а = 0,05), следовательно, гипотезу о соответствии исследуемого распределения нормальному нужно принять. Кроме того, это значение близко к единице, что свидетельствует о высокой степени этого соответствия. 12. Для проверки гипотезы о нормальном законе распределения исследуемой случайной величины с помощью критерия Колмогорова - Смирнова скопируем данные наблюдений за массой тела на 4 лист и построим вариационный ряд аналогично тому, как это делали на 1 листе. Столбец "Абсолютные частоты" рассчитывается с помощью функции ЧАСТОТА(). Рассчитаем выборочные среднее и стандартное отклонение, используя функции СРЗНАЧ() и СТАНДОТКЛОН(). В ячейке G11 найдем число всех наблюдений, просуммировав фактические частоты. В столбцах Н и I рассчитаем относительные и накопленные частоты, как это было описано выше. Как отмечалось ранее, накопленные частоты – это левые концы «ступенек» эмпирической функции распределения. В столбце J рассчитаем теоретические значения функции распределения для каждой варианты (F(Xi)) Для этого в ячейку J2 введем формулу =HOPMPAСП(F2;$D$3;$D$4;l), которую затем методом автозаполнения скопируем вниз по столбцу. В столбце К найдем отклонение теоретической функции распределения по формуле =ABS(J2— I2), которую затем скопируем по столбцу вниз. В столбце L рассчитаем отклонение теоретической функции распределения от правого конца «ступеньки». Для этого в ячейку L2 вводим =ABS(J2—0),т.к. значение для самой первой точки значение равно 0, а в ячейку L3: =ABS(J3— I2), которую затем копируем вниз по столбцу. В ячейке Н13 найдем наибольшее из всех отклонений (=MAKC(K2:L10)). Поскольку в этом примере параметры нормальной функции распределения оценивались по выборке, в качестве модифицированной статистики нужно использовать выражение из второй строки табл. 18: 0,85 Таблица.18. Критические значения для модифицированного критерия Колмогорова - Смирнова Соответствующую формулу введем в ячейку Н14. Результаты расчетов показывают, что наблюдаемое значение критерия равно Кнабл = 0,915. По табл. 18 для уровня значимости а = 0,05 найдем критическую точку: Кк = 0,895. Т.к. Кнаб> гипотезы Н0, то следует отвергнуть гипотезу о нормальном законе распределения генеральной совокупности. После расчетов таблица имеет вид: Рис. 8 13. Для вывода формул в таблице необходимо выполнить команду Формулы – Показать формулы Для отключения показа формул необходимо выполнить аналогичные действия. Задание №2. Порядок выполнения задач 1-10 Результаты наблюдений за расходом сырья при производстве одинаковой продукции по одной и той же технологии на пяти различных заводах равных мощностей представлены в табл. 19. Известно, что расход сырья является нормально распределенной случайной величиной и дисперсии наблюдений по каждому заводу равны. При уровне значимости а — 0,05 требуется выяснить, зависит ли расход сырья от того, на каком заводе произведена продукция. Расчет выполняем с помощью функций MS Excel и инструмента из Пакета анализа. Таблица 19. Данные наблюдений за расходом сырья на пяти заводах Месяцы 1 2 3 4 5 6 7 8 9 10 11 12 Расход сырья Завод 1 114 124 110 116 119 119 129 124 110 124 119 124 Завод 2 112 119 124 116 116 124 112 119 119 112 Завод 3 132 124 129 129 129 124 114 119 124 Завод 4 124 114 119 124 116 116 129 124 114 116 129 Завод 5 124 116 119 119 132 129 116 119 Рекомендации по выполнению: 1. Загрузить программу MS Excel (Пуск – Все программы – MS Office – MS Excel) 2. Введем исходные данные на лист МS Ехсеl, как показано на рис.9. Для каждого завода рассчитаем групповую среднюю. Так, в ячейку А15 введем формулу =СРЗНАЧ(А2:А13), которую затем скопируем методом автозаполнения вправо по строке. Общую среднюю рассчитаем с помощью функции СРЗНАЧ(А2:Е13). 3. Аналогично рассчитаем суммы квадратов отклонений от среднего для каждого завода. Введем формулу = КВАДРОТКЛ(А2:А13) в ячейку А19, которую затем скопируем вправо по строке. Общую сумму квадратов отклонений рассчитаем с помощью функции КВАДРОТКЛ(А2:Е13). 4. Общее число наблюдений рассчитаем с помощью функции СЧЕТ(А2:Е13), которая подсчитывает число заполненных числами ячеек в заданном диапазоне, а пустые ячейки игнорирует. Рис. 9. Вид листа МS Eхсеl с исходными данными и расчетами для дисперсионного анализа 5. Общая сумма квадратов отклонений уже рассчитана, поэтому в ячейке С4 просто поставим ссылку на ячейку А21. Внутригрупповую (остаточную) сумму квадратов отклонений рассчитаем в ячейке GЗ, сложив соответствующие значения для всех заводов (=СУММ(А19:Е19)). Межгрупповую (факторную) сумму квадратов отклонений найдем как разность значений в ячейках G4 и G3. 6. Введем в ячейки Н2 и Н3 число степеней свободы: для межгрупповой дисперсии это k - 1 = 5 - 1=4, для внутригрупповой дисперсии п - k = 50 - 5 = 45. 7. Рассчитаем межгрупповую и внутригрупповую дисперсии в ячейках 12 и 13, разделив соответствующие суммы квадратов отклонений на число степеней свободы. 8. Рассчитаем теперь наблюдаемое значение критерия Фишера, разделив межгрупповую (факторную) дисперсию на внутригрупповую (остаточную) дисперсию. Таким образом, Fнабл ≈ 2,42. Для расчета критической точки распределения Фишера в ячейке L2 используем функцию Ехсеl FРАСПОБР(0,05;Н2;Н3). Получим Fкр = 2,58. Поскольку Fна6л < Fкр можно считать несущественным влияние фактора и принять гипотезу о равенстве математических ожиданий генеральных совокупностей, соответствующих каждому заводу. Таким образом, доказано, что расход сырья на производство исследуемого вида продукции не зависит от завода. 9. Рассчитаем также p-значение в ячейке К2 с помощью функции FРАСП(J2;Н2;Н3). Полученный результат означает, что для всех уровней значимости, меньших либо равных 0,063, гипотеза о равенстве математических ожиданий уровней может быть принята. Поскольку = 0,05 < 0,063, влияние фактора признается несущественным. Выборочный коэффициент детерминации рассчитан в ячейке F6. Он означает, что только 18% общей выборочной вариации расхода сырья связано с выбором завода. 10. Аналогичные результаты получим с помощью инструмента из Пакета анализа. Зададим команду Данные/Анализ данных... и выберем Однофакторный дисперсионный анализ. Заполним диалоговое окно, как показано на рис. 10 Рис. 10. Диалоговое окно Однофакторный дисперсионный анализ Флажок Метки в первой строке поставлен потому, что входной интервал А1:Е13 включает заголовки столбцов, и они будут использованы для формирования результата. Уровень значимости задан равным 0,05 (Альфа), Результат работы этого инструмента анализа представлен на рис. 11. В первой таблице результатов анализа показаны выборочные характеристики для каждого уровня фактора: количество наблюдений (счет), сумма значений, среднее и дисперсия. Рис. 11. Результат работы инструмента Однофакторный дисперсионный анализ Во второй таблице результатов показаны расчеты для дисперсионного анализа, аналогичные тем, что были ранее рассчитаны с помощью стандартных функций МS Ехсеl. 11. Полученные результаты распечатаем в общем виде и в формульном. Порядок выполнения задач 11-20 Пусть случайная величина Х характеризует расход сырья при производстве продукции по одной технологии, Y— по другой технологии, причем предполагается, что Х и Y нормально распределены. В результате наблюдений получены выборки значений случайных величин Х и Y(табл. 20 и табл. 21). Таблица 20. Выборка значений X 114 124 ПО 116 119 112 119 124 129 116 132 119 140 119 129 124 114 119 124 116 119 129 124 ПО 119 124 116 129 124 114 119 124 119 112 132 116 129 124 114 119 129 116 124 124 116 119 124 116 112 114 114 122 122 119 119 123 123 126 126 135 135 114 122 119 123 126 137 129 Таблица 21. Выборка значений Y 109 119 114 122 123 133 137 122 119 123 133 114 111 119 114 122 123 133 133 122 114 123 111 133 111 122 119 123 126 111 126 122 119 123 126 135 111 119 114 122 126 133 Требуется при заданном уровне значимости = 0,05 проверить гипотезу о равенстве дисперсий генеральных совокупностей Х и Y (H0: D(X) = D(Y)) и гипотезу о равенстве математических ожиданий. Рекомендации по выполнению: 1. Введем выборочные данные в столбцы А и В листа МS Ехсе1, озаглавив их соответственно «Выборка X» и «Выборка Y» (рис.12). С помощью функции ДИСП() рассчитаем выборочные дисперсии Х и У по этим выборкам. Поскольку У больше, то именно диапазон выборочных значений Y должен выступать в качестве первой переменной при использовании инструмента анализа Двухвыборочный F-тест для дисперсии. а) Рассмотрим альтернативную гипотезу H1: D(X) ≠ D(Y). В этом случае необходимо использовать одностороннюю критическую область. Вызовем надстройку Пакет анализа: Данные/Анализ данных и выберем инструмент Двухвыборочный F-тест для дисперсии. Пример заполнения диалогового окна для этого инструмента показан на рис. 13. Рис. 12. Исходные данные и результат работы инструмента анализа Двухвыборочный Fтест для дисперсии Рис. 13. Диалоговое окно «Двухвыборочный F-тест для дисперсии» для альтернативной гипотезы H1: D(X) > D(Y) Поле Альфа содержит значение уровня значимости. Для односторонней критической области берем заданное значение = 0,05. В поле Выходной интервал указываем адрес левого верхнего угла результирующей таблицы на этом же листе Ехсе1. Результат анализа выборок показан на рис. 12. Первые три строки результирующей таблицы содержат выборочные средние, выборочные дисперсии и число наблюдений по каждой выборке соответственно. В строке df содержатся значения степеней свободы Y1 = 1 n 1 59 и. 2 m 1 49 . Строка 11 содержит наблюдаемое значение статистики Fнабл (отношение большей дисперсии к меньшей). Для проверки рассчитаем это значение самостоятельно, введя в ячейку Н11 формулу: =Е8/Р8. В строке F критическое одностороннее приведено критическое значение Fкр. Для проверки рассчитаем его другим способом в ячейке Н13, введя формулу: =FРАСПОБР(0,05;Е10;F10). Поскольку Fнабл < Fкр, нет оснований отвергнуть нулевую гипотезу о равенстве дисперсий. В строке Р(F<=f) одностороннее рассчитано p-значение, которое мы также продублируем в ячейке Н12, введя формулу =FРАСП(Е11;Е10;F10). Поскольку найденное p-значение больше уровня значимости = 0,05, то это также свидетельствует в пользу гипотезы о равенстве дисперсий. б) Рассмотрим альтернативную гипотезу H1: D(X) ≠ D(Y). В этом случае критическая область должна быть двусторонней. Достаточно найти только правую критическую точку из условия Р(F > Fкрпр) = /2. Поэтому снова будем использовать инструмент Двухвыборочный Fтест для дисперсии, но в поле Альфа зададим значение /2 = 0,05/2 =0,025. Результат работы этого инструмента статистического анализа показан на рис. 14. Рис. 14. Результирующая таблица инструмента Двухвыборочный F-тест для дисперсии для альтернативной гипотезы D(X) ≠ D(Y) Ниже таблицы, которую формирует Пакет анализа, приведены проверочные расчеты правой и левой критических точек по формулам =FРАСПОБР(0,025;Е22;F22) и =FРАСПОБР(10,025;Е22;F22) соответственно. Поскольку наблюдаемое значение попадает в область принятия гипотезы (0,59 < 1,26 < 1,73), нет оснований отвергнуть гипотезу о равенстве дисперсий и в случае альтернативной гипотезы H1: D(X) ≠ D(Y). P-значение для двусторонней критической области рассчитано с помощью формулы = FТЕСТ(А2:А51;В2:В61). Поскольку p-значение больше уровня значимости, принимается гипотеза о равенстве дисперсий случайных величин X и Y, для которых получены две выборки значений. 2. Для проверки гипотезы о равенстве математических ожиданий скопируем на второй лист данные в столбцы А и В листа МS Ехсеl («Выборка X» и «Выборка Y»). С помощью функций СРЗНАЧ() и ДИСП() рассчитаем выборочные средние и дисперсии (рис.15). Рис. 15. Исходные данные и результаты двухвыборочного Z-теста Зададим команду Данные/Анализ данных и выберем в качестве инструмента Двухвыборочный z-тест для средних. Заполним диалоговое окно, как показано на рис. 16. Гипотетическая разность средних установлена равной 0, так как проверяется гипотеза о равенстве математических ожиданий, а не об их отличии на заданную величину. Дисперсии нужно ввести с клавиатуры (нельзя сделать ссылку на ячейки), поэтому используется их округленное значение. Рис. 16. Двухвыборочный z-тест для средних. Поскольку |1,01| < 1,96 и 1,01 < 1,64, то нет оснований отвергнуть гипотезу о равенстве математических ожиданий ни для двусторонней, ни для односторонней критической области. p-значения одностороннее приблизительно равно 0,16. Это означает, что нулевая гипотеза должна была бы быть принята для всех уровней значимости, меньших 0,16 (при односторонней критической области); двустороннее равно 0,31. Это свидетельствует о том, что для двусторонней критической области нулевая гипотеза принимается при всех уровнях значимости, меньших 0,31. Таким образом, имеем еще одно основание принять нулевую гипотезу при уровне значимости 0,05. Для проверки получим все результаты и с помощью функций МS Ехсеl, введя формулы аналогично рис.17. Рис. 17. Расчеты для Z-критерия с помощью функций МS Ехсеl Критерии оценки домашней контрольной работы по дисциплине «Основы статистической обработки информации» 1. 2. 3. 4. Отметка «не зачтено» ставится: вариант не соответствует шифру учащегося; отсутствует изложение теоретических вопросов или они изложены не по существу; изложение теоретических вопросов носит фрагментарный характер, в решении практического задания имеются грубые ошибки; нет решения практических заданий. К существенным ошибкам при выполнении практического задания относятся: неверно построены таблицы в Ms Excel; документ создан на базе шаблона, не соответствующего варианту; отсканированный документ не отправлен в текстовый редактор и не добавлено в документ ФИО учащегося; не создана таблица и не выполнены вычисления в ней; диаграмма не содержит подписей осей, значений, названия; отсутствует краткое описание алгоритма выполнения задачи или выполнено с ошибками; неверно введены формулы и функции; не все машинограммы распечатаны; Во всех остальных случаях ставится отметка «зачтено». ГЛОССАРИЙ Асимметрия характеризует степень симметрии расположения значений данных относительно среднего. Вариационный ряд – перечень вариант в возрастающем порядке и соответствующих им частот или относительных частот. Вероятность – число, характеризующее степень возможности появления события в испытании. Временной ряд – набор значений некоторого экономического показателя, которые наблюдались в моменты времени соответственно в прошлом. Выборочной медианной называется середина вариационного ряда, т.е. половина вариант больше медианы, а половина – меньше ее. Дисперсия характеризует степень рассеяния значений случайной величины вокруг ее математического ожидания. Интервал (размах варьирования) – это разница между максимальным и минимальным значениями элементов выборки. Ковариация является мерой взаимосвязи случайных величин. Корреляционная матрица – это квадратная таблица, в которой на пересечении строки и столбца находится коэффициент корреляции между случайными величинами. Коэффициент вариации называется выраженное в процентах отношение выборочного стандартного отклонения к выборочной средней. Критерии согласия – статистические согласия, которые используются для проверки гипотезы о законе распределения. Математическое ожидание приближенно равно среднему значению случайной величины. Медиана – значение произвольной случайной величины, относительно которого равно – вероятно получение большего или меньшего значения. Метод экстраполяции – метод прогнозирования, который заключается в продлении на будущее закономерности, наблюдавшейся в прошлом. Мода – наиболее вероятное значение дискретной случайной величины. Отчет – это документ системы STATISTICA, в котором сохраняются результаты статистического анализа. Пакет STATISTICA – это универсальная интегрированная система, предназначенная для статистического анализа и обработки данных. Полигон относительных частот – ломаная, соединяющая на координатной плоскости точки. Рабочая книга – это документ системы STATISTICA, который объединяет разного вида информацию, относящуюся к одним т тем же данным. Сезонность – это систематически повторяющиеся колебания показателя, обусловленные временем года. Случайная величина – величина, которая в результате испытания может приминать то или иное значение, причем заранее (до испытания) не известное. Статистическая гипотеза – утверждение о виде неизвестного распределения случайной величины или о параметрах известных распределений, которое может быть проверено по выборочным данным. Таблица данных – это документ системы STATISTICA, в котором содержаться в табличной форме исходные данные. Тренд – устойчивое систематическое изменение показателя. Уровень значимости - вероятность противоположенного события (не попадания истинного значения параметра в доверительный интервал) Цикличность – это регулярные колебания относительно тренда, обусловленные некоторыми постоянно действующими факторами. Эксцесс характеризует крутизну подъема кривой плотности распределения по сравнению с нормальной кривой. ВОПРОСЫ ДЛЯ САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ ДИСЦИПЛИНЫ 1. Классификация программного обеспечения ПК. Системные и прикладные программы. 2. Назначение и возможности операционных систем (ОС). Возможности ОС Windows. 3. Сервисное программное обеспечение: назначение примеры программ. 4. Понятие компьютерного вируса. Методы профилактики и защиты компьютеров от вирусов. Антивирусные программы и процедура их использования. 5. Понятие архивного файла. Программы упаковки и распаковки файлов. 6. Функции и возможности текстового процессора Word. Особенности пользовательского интерфейса: меню редактора, панели инструментов, линейка, линейка прокрутки. Основные приемы и режимы ввода информации. 7. Этапы подготовки документа. Создание текстовых файлов. Открытие существующего документа. Ввод и редактирование текста. Перемещение по тексту. Корректировка текста. Выделение текста. Операции с фрагментами текста. Перемещение и копирование фрагмента текста. Печать текстов. Сохранение и загрузка документов. 8. Работа с таблицами в текстовом редакторе WORD. 9. Форматирование текста Использование различных шрифтов. Форматирование символов. Форматирование абзацев. 10. Междустрочные интервалы. Размещение текста в несколько колонок. Разделение текста на страницы. Форматирование страницы. Вставка и удаление номеров страниц. 11. Табличный процессор Excel. Функции и возможности. 12. Загрузка EXCEL и общий вид экрана. Особенности пользовательского интерфейса. 13. Этапы подготовки документа в Microsoft Excel Загрузка приложения, создание книги, открытие файла. 14. Типы обрабатываемых данных. Ввод и редактирование данных. Копирование данных, автозаполнение в EXCEL. 15. Форматирование ячеек: форматы данных ячейки, выравнивание, шрифт, границы, вид и защита. 16. Работа с формулами. Определение формулы. Правила ввода формул. Способы ввода формул в EXCEL. 17. Относительные и абсолютные адреса ячеек в EXCEL. 18. Встроенные функции. Работа с мастером функций. 19. Графические возможности EXCEL. Работа с мастером диаграмм. 20. Случайные события и вероятность. 21. Способы описания и характеристики случайных величин. 22. Основные виды распределений случайных величин. 23. Построение и визуализация вариационного ряда. 24. Точечные и интервальные оценки характеристик случайной величины. 25. Общие сведения о проверке статистических гипотез. 26. Оценка соответствия выборочных данных теоретическому закону распределения. 27. Выявление достоверности различий между двумя выборками. 28. Дисперсионный анализ. 29. Ковариация и корреляция. 30. Регрессионный анализ. 31. Понятие и структура временного ряда. 32. Методы сглаживания временных рядов. 33. Трендовые модели прогнозирования. 34. Возможности программы STATISTICA и особенности ее интерфейса. 35. Создание и форматирование таблицы данных. 36. Анализ данных в системе STATISTICA. 37. Основные операции при работе с отчетами. 38. СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ 1. Вентцель, Е.С. Теория вероятностей : учеб. пособие / Е.С. Вентцель. - 7-е изд., стер. - М. : Высш. шк., 2001. 2. Еськова, О.И. Основы статистической обработки информации:пособие / О.И. Еськова, Л.П. Авдашкова, М.А. Грибовская. – Минск: Беларусь, 2011. – 175 с. 3. Жевняк, Р.В. Теория вероятностей и математическая статистика : учеб. пособие / Р.В. Жевняк, А.А. Карпук, В.Т. Унукович. - Минск: Харвест, 2000. 4. Ильина, О.П. Статистический анализ и прогнозирование экономической информации в электронной таблице Excel 5.0. Microsoft : учеб. пособие / О.П. Ильина, Н.В. Макарова .- СПб.: ГУЭФ, 1996. 5. Калинина, В.Н. Математическая статистика : учеб. пособие / В.Н. Калинина, В.Ф. Панкин. - М.: Высш. шк., 1998. 6. Колемаев, В.А. Теория вероятностей и математическая статистика : учеб. пособие / В.А. Колемаев, С.B. Староверов, В.Б. Турундаевский; под ред. В.А. Колемаева. - М.: Высш. шк., 1991. 7. Мацкевич, И.П. Высшая математика: теория вероятностей и математическая статистика : учеб. пособие / И.П. Мацкевич, Т.П. Свирид. - Минск : Выш. шк., 1993. 8. Салманов, О.Н. Математическая экономика с применением Mathcad и Excel / О.Н. Салманов. - СПб.: БХВ-Петербург, 2003. 9. Статистический ежегодник Республики Беларусь / под ред. В.И. Зиновского.- Минск: Информстат М-ва статистики Респ. Беларусь, 2002. 10.Тюрин, Ю.Н. Статистический анализ данных на компьютере : учеб. пособие / Ю.Н. Тюрин, А.А. Макаров; под ред. В.Э. Фигурнова. - М.: ИНФРА-М, 1998. ПРИЛОЖЕНИЕ А Образец оформления титульного листа Заочное отделение Молодечненского торгово-экономического колледжа _____________курс ___________________________ отделение, шифр ___________ _________________________________________________________________________ (фамилия, имя, отчество) (занимаемая должность) КОНТРОЛЬНАЯ РАБОТА Наименование дисциплины № контрольной работы Основы статистической обработки информации___ Вариант Почтовый индекс и адрес (указать точный домашний адрес, фамилию)