МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Дальневосточный федеральный университет» (ДВФУ) ИНЖЕНЕРНАЯ ШКОЛА «СОГЛАСОВАНО» «УТВЕРЖДАЮ» Руководитель ОП «Прикладная механика» Заведующая кафедрой Механики и математического моделирования (название кафедры) Озерова Г.П (подпись) Бочарова А.А. (Ф.И.О. рук.ОП) «28»июня (подпись) 2013г. «28» (Ф.И.О. зав. каф.) июня 2013г. РАБОЧАЯ ПРОГРАММА УЧЕБНОЙ ДИСЦИПЛИНЫ (РПУД) МЕТОДЫ ПРЕДСТАВЛЕНИЯ И АНАЛИЗА ДАННЫХ Направление подготовки: 151600.62 Прикладная механика Профиль подготовки: «Математическое и компьютерное моделирование механических систем и процессов» Форма подготовки (очная) Инженерная школа ДВФУ Кафедра механики и математического моделирования курс 2семестр 4 лекции 18 (час.) практические занятия 18 час. лабораторные работы 18 час. самостоятельная работа 90 час. всего часов аудиторной нагрузки 54 час. контрольные работы (0) курсовая работа / курсовой проект - семестр зачет -семестр экзамен 4семестр Рабочая программа составлена в соответствии с требованиями федерального государственного образовательного стандарта высшего образования, утвержденного приказом Министерства образования и науки РФ от 9 ноября 2009 № 541 Рабочая программа обсуждена на заседании моделирования, протокол № 9 от «27» июня 2013 г. Заведующая кафедрой:к.ф.-м.н., проф. Бочарова А.А. Составитель: к.т.н., доцент Озерова Г.П. 1 кафедры Механики и математического Оборотная сторона титульного листа РПУД I. Рабочая программа пересмотрена на заседании кафедры: Протокол от «_____» _________________ 20___ г. № ______ Заведующий кафедрой _______________________ __________________ (подпись) (И.О. Фамилия) II. Рабочая программа пересмотрена на заседании кафедры: Протокол от «_____» _________________ 20___ г. № ______ Заведующий кафедрой _______________________ __________________ (подпись) (И.О. Фамилия) 2 АННОТАЦИЯ Учебная дисциплина «Методы представления и анализа данных» предназначена для студентов 2 курса, обучающихся по направлению 151000.62 «Прикладная компьютерное механика», моделирование профиль механических «Математическое систем и и процессов». Дисциплина входит в вариативную часть математического и естественнонаучного цикла. Дисциплина «Методы представления и анализа данных» логически и содержательно связана с такими курсами как «Информационные технологии», «Теоретическая механика», «Вычислительная механика», «Физика». Общая трудоемкость освоения дисциплины составляет 144 час. Учебным планом лабораторные предусмотрены работы (18 час.), лекционные занятия (18 час.), практические занятия (18 час.), самостоятельная работа студента (90 час). Дисциплина реализуется на 2 курсе в 4семестре. Цель: сформировать у студентов фундаментальные теоретические знания по вопросам методики и практики применения методов статистического анализа данных, а также обучение студентов современным программным средствам в которых реализованы модули, осуществляющие решение задач анализа данных. В ходе изучения дисциплины у студента должно формироваться представление о конкретных практических ситуациях, в которых необходимо использование методов статистического анализа. Задачи: 1. Изучение теоретических основ по спектру наиболее распространенных статистических методов анализа данных и условий их применения. 2. Изучение основ количественных методов оценки адекватности и точности построенных моделей. 3 3. Использование прогнозировании компьютерных технологий социально-экономических при показателей анализе и (построение линейных и нелинейных моделей прогнозирования на основе регрессионного анализа, оценка их параметров, расчет всех необходимых статистик для анализа моделей). 4. Изучение концепции и технологии современного анализа данных на компьютере. 5. Изучение принципов работы программных средств, предназначенных для статистического анализа данных. 6. Получение навыков применения программных систем; предназначенных для статистического анализа данных, а также тестировании программных модулей на модельных данных. В результате изучения дисциплины бакалавр должен знать: - теоретических основы по спектру наиболее распространенных статистических методов анализа данных и условия их применения; -основные методы решения на ЭВМ задач анализа интерпретации данных, получаемых с помощью различного рода информационно- измерительных систем; - принципы работы программных средств, предназначенных для статистического анализа данных; уметь: - применять программных систем, предназначенных для статистического анализа данных, а также тестирования программных модулей на модельных данных; -использовать современные визуальные методов анализа данных и применять их для статистического вывода и формулировки гипотез о структуре данных; - строить адекватные адаптивные модели для прогнозирования реальных данных; 4 - осуществлять проверку адекватности и точности построенных моделей, - разрабатывать алгоритмы анализа и обработки измерительной информации - использовать стандартную терминологию, определения и обозначения. владеть: - навыками сбора первичной организации и хранения данных для конкретного исследования; -навыками самостоятельного проведения статистических исследований с использованием современных профессиональных компьютерных статистических программ; - навыками работы с компьютером как средством управления информацией; а также обладать следующими общекультурными и профессиональными компетенциями: ПК-1; ПК-2; ПК-3; ОК-15 - уметь использовать фундаментальные законы природы, законы естественнонаучных дисциплин и механики в процессе профессиональной деятельности (ОК-15); - быть способным выявлять сущность научно-технических проблем, возникающих в ходе профессиональной деятельности, и привлекать для их решения соответствующий физико-математический аппарат (ПК-1); - применять физико-математический аппарат, теоретические, расчетные и экспериментальные методы исследований, методы математического и компьютерного моделирования в процессе профессиональной деятельности (ПК-2); - быть готовым выполнять расчетно-экспериментальные работы и решать научно-технические задачи в области прикладной механики на основе достижений техники и технологий, классических и технических теорий и методов, физико-механических, математических и компьютерных 5 моделей, обладающих высокой степенью адекватности реальным процессам, машинам и конструкциям (ПК-3). I. СТРУКТУРА И СОДЕРЖАНИЕ ТЕОРЕТИЧЕСКОЙ ЧАСТИ КУРСА Тема 1. Предмет дисциплины и ее задачи. Основные понятия дисциплины (2 час.) Предмет дисциплины и ее задачи. Краткие сведения о развитии теории анализа и интерпретации данных. Структура, содержание дисциплины, ее связи с другими дисциплинами учебного плана специальности. Введение в анализ данных. Проблема обработки данных. Расстояние и близость. Измерение признаков. Отношения и их представление. Основные проблемы измерений. Основные типы шкал. Проблема адекватности. Основные задачи анализа и интерпретации данных . Тема 2. Классификация (2час.) Постановка задачи и представление результатов. Методы построения правил классификации. Алгоритм построения 1-правил. Метод NaiveBayes Тема 3. Методы построения деревьев решений. (2час.) Методика "Разделяй и властвуй". Алгоритм ID3. Алгоритм C4.5. Алгоритм покрытия. Тема 4. Методы построения математических функций (2час.) Корреляционный анализ. Для двух переменных. Для произвольного числа переменных. Регрессионный анализ. Метод наименьших квадратов. Нелинейные методы. Метод опорных векторов Тема 5. Поиск ассоциативных правил. (2 час.) Формальная постановка задачи. Представление результатов. Алгоритм Apriori. Свойство анти-монотонности. Описание алгоритма Тема 6. Кластеризация (2 час.) Постановка задачи. Классификация алгоритмов. Иерархические алгоритмы. Представление результатов иерархического алгоритма. Алгоритм 6 ближайшего соседа. Итеративные алгоритмы. Алгоритм k-means. Алгоритм Fuzzy C-Means Тема 7. Визуальный анализ данных. (2час.) Введение. Характеристики средств визуализации данных. Методы геометрических преобразований. Методы, ориентированные на пикселы. Иерархические образы. Тема 8. Факторный анализ (2час.) Введение. Подготовка к факторному анализу. Нахождение первичной структуры факторов. Метод главных компонент. Алгоритм NIPALS вычисления главных компонент. Другие методы. Метод сингулярных компонент. Метод максимального правдоподобия. Метод альфа-факторного анализа. Вращение. Аналитическое вращение. Ортогональное вращение. Критерий квартимакс. Критерий варимакс. Другие критерии. Тема 9. Информационный поиск в текстах. (2час.) Введение в InformationRetrieval II. СТРУКТУРА И СОДЕРЖАНИЕ ПРАКТИЧЕСКОЙ ЧАСТИ КУРСА Практические занятия (18 час.) Занятие 1. Одномерные выборки и их представление (2 час.) 1. Выборки и их представление. 2. Построение вариационного ряда. 3. Построение графика функции эмпирического распределения 4. Определение выборочных характеристик Занятие 2. Двумерные выборки и их представление (2 час.) 1. Двумерные выборки. Занятие 3. Оценки (2 час.) 1. Сравнение оценок. 2. Постановка конкретной задачи. 3. Теоретическое сравнение оценок. 7 4. Статистическое сравнение оценок Занятие 4. Оценивание выборок объема n(2 час.) 1. Оценка â1 2. Оценка â2 3. Оценка â3 4. Сравнение оценок графически 5. Оценивание по выборкам объема n=40 Занятие 5. Доверительные интервалы (2 час.) 1. Определения и построение интервалов 2. Построение доверительных границ и интервалов 3. Уровень доверия Занятие 6. Построение оценок и доверительных интервалов (2 час.) 1. Получение измерений моделированием с заданным параметром а. Занятие 7. Линейный регрессионный анализ (2 час.) 1. Простая линейная регрессия. 2. Множественная регрессия Занятие 8. Нелинейный регрессионный анализ (4 час.) 1. Нелинейная регрессионная зависимость. 2. Нелинейная зависимость (обобщение) Лабораторные работы (18 час.) Лабораторная работа 1. Работа в пакете MathLab. Интерполяции функций (4 час.) Лабораторная работа 2.Работа в пакете MathLab. Оценивание выборок(4 час.) Лабораторная работа 3. Работа в пакетеSTATISTICA. Двумерные и одномерные выборки(4 час.) Лабораторная работа 4. Работа в пакетеSTATISTICA. Простая линейная и множественная регрессия (4 час.) 8 Лабораторная работа 5. Работа в пакетеSTATISTICA. Нелинейная регрессионная зависимость. (2час.) III. КОНТРОЛЬ ДОСТИЖЕНИЯ ЦЕЛЕЙ КУРСА В качестве текущего контроля успеваемости используется тестирование по теме «Классификация». Вопросы к экзамену 1. В чем состоят цели многомерного анализа данных? 2. Дайте формальное описание данных, используемое в многомерном статистическом анализе и опишите представление данных в электронном виде. 3. Определите основные шкалы измерений в многомерных выборках. 4. Как произвести преобразование данных из одной шкалы в другую? 5. Определите понятие диапазон значений признака и способы определения диапазона значений. 6. Какие и как рассчитываются основные характеристики многомерной выборки в предварительном анализе данных? 7. Определите средства визуализации данных в предварительном анализе даны? 8. Для чего используются модельные данные при решении задач многомерного анализа? 9. В чем состоит идея метода неравномерной рулетки? 10. В чем состоит идея метода отбраковки? 11. Определите способы моделирования случайных чисел выборок. 12. Определите принципы моделирования многомерного нормального распределения? 13. Определите проблему робастности в анализе данных. 14. Что понимается под грубыми ошибками и каковы последствия их проявлений в статистической совокупности? 15. Назовите известные вам критерии робастности. 9 16. Дайте характеристику алгоритмов определения «подозрительных» объектов выборки. 17. Каковы последствия отсутствия значений в многомерной выборке и как с ними бороться. 18. Какие существуют способы обработки грубых ошибок? 19. Что понимается под статистической гипотезой и какие характерные признаки для нее существуют? 20. Что означает: простая и сложная, одномерная и многомерная статистическая гипотезы? 21. Какого рода ошибки могут допускаться и чем определяется достоверность выводов при проверке статистических гипотез? 22. Определите предпосылки применения критерия 2. 23. Определите предпосылки применения критерия Фишера. 24. Определите предпосылки применения критерия Стьюдента. 25. Приведите примеры ситуаций в которых целесообразно применении критерия Стьюдента. 26. Приведите примеры ситуаций в которых целесообразно применении критерия 2 . 27. Приведите примеры ситуаций в которых целесообразно применении критерия Фишера. 28. Определите предпосылки применения критерия U-критерий МаннаУитни (Вилксона)? 29. Как подсчитывается сумма рангов в критерии Вилксона? 30. Какое распределение используется в критерии Вилксона? 31. Определите общую модель дисперсионного анализа. 32. Какие компоненты дисперсии рассматриваются в анализе? IV. ТЕМАТИКА И ПЕРЕЧЕНЬ КУРСОВЫХ РАБОТ И РЕФЕРАТОВ Курсовые работы и рефераты не предусмотрены учебным планом. 10 V. УЧЕБНО-МЕТОДИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ДИСЦИПЛИНЫ Основная литература 1. Анализ статистических данных с использованием MicrosoftExcel для Office XP [учебник] М.Р. Мидлтон; пер. с англ. под ред. Г.М. Кобелькова. М: БИНОМ, 2005. - 296 с.http://lib.dvfu.ru:8080/lib/item?id=chamo:350794&theme=FEFU 2. Речицкая И. В. Бизнес-анализ с использованием Excel. Методические указания. Вл-к: - Изд-во ДВГТУ, 2011. - 64 с.http://lib.dvfu.ru:8080/lib/item?id=chamo:425954&theme=FEFU 3. А. П. Кулаичев. Методы и средства комплексного анализа данных. М: Форум, 2006. - 512 с.http://lib.dvfu.ru:8080/lib/item?id=chamo:356641&theme=FEFU 4. Воскобойников Ю. Е. Регрессионный анализ данных в пакете MathCad. - СПб: Лань. 2011. - 224 с.http://lib.dvfu.ru:8080/lib/item?id=chamo:307437&theme=FEFU 5. Радченко Т.А., Дылевский А.В. Статистический анализ данных в пакете Mathcad: Учебное пособие. - Воронеж: Изд-во ВГУ, 2004. - 23 с. http://window.edu.ru/resource/412/27412 6. Блинков Ю.В. Основы теории информационных процессов и систем: учеб. пособие. - Пенза: ПГУАС, 2011. - 184 с. http://window.edu.ru/resource/055/78055 Дополнительная литература 1. Куликов, Е.И. Прикладной статистический анализ: учебное пособие для студ. вузов / Е.И. Куликов. – 2-е изд.,перераб. и доп. – М.: Горячая линияТелеком, 2008. – 464 с. 2. Петрунин, Ю.Ю. Информационные технологии анализа данных. DataAnalysis: учебное пособие для студ. вузов / Ю.Ю. Петрунин; Моск. гос. ун-т им. М.В. Ломоносова. – М.: КДУ, 2008. – 292 с. 11 3. Кулаичев, А.П. Методы и средства комплексного анализа данных: учебное пособие для вузов / А.П. Кулаичев. – 4-е изд., перераб. и доп. – М.: ФОРУМ: ИНФРА-М, 2006. – 512 с. 4. Дайитбегов, Д.М. Компьютерные технологии анализа данных в эконометрике / Д.М. Дайитбегов. – М.: ИНФРА-М: Вузовский учебник, 2008. – XIV, 578 с. 5. Вуколов, Э.А. Основы статистического анализа. Практикум по статистическим методам и исследованию операций с использованием пакетов STATISTICA и EXSEL: учебное пособие для студ. вузов / Э.А. Вуколов. – 2-е изд.,испр. и доп. – М.: ФОРУМ, 2008. – 464 с. 6. Практикум по анализу данных на компьютере: учебное пособие для студ. вузов / И.А. Кацко, Н.Б. Паклин; под ред. Г.В. Гореловой. – М.: КолосС, 2009. – 278 с. 7. Илышев, А.М. Общая теория статистики: учебник для студ. вузов / А.М. Илышев. – М.: ЮНИТИ-ДАНА, 2008. – 535 с. 8. Большаков, А.А Методы обработки многомерных данных и временных рядов: учебное пособие для студ. вузов / А.А. Большаков, Р.Н. Каримов. – М.: Горячая линия-Телеком, 2007. – 522 с. 9. Основы построения и функционирования интеллектуальных информационных систем: Учебное пособие / В.Д. Былкин, В.Н.Дубинин, Т.А. Глебова, И.И. Коновалова; Под общ. ред. проф. А.Н. Кошева. - Пенза: ПГУАС, 2007. - 207 с.http://window.edu.ru/resource/960/74960 12