ВВЕДЕНИЕ Для современной науки и большинства направлений практической деятельности сейчас характерен статистический подход. Закономерности только в среднем смогут считаться детерминистическими, при более детальном исследовании оказывается, что они носят типично случайный характер. Современная практика, относится ли она к организации производства, проблемам экономики, изучению технологических процессов или к исследованию явлений природы, уже не может ограничиваться концепциями пуассоновского детерминизма. Вот причина, по которой за последнее десятилетие во все области естествознания, технические дисциплины, экономику, экономические вопросы организации производства проникли методы теории вероятностей и математической статистики, а для предсказания процессов в будущем – методы прогнозирования. Образование призвано не только транслировать знания, ценности и культуру от прошлых и нынешних поколений к будущим, но и осуществлять опережающую подготовку человека к решению кризисно-катострофических ситуаций, переходу общества на путь устойчивого развития. Причины введения курса «Анализ данных» заключаются в необходимости подготовки студентов к выявлению скрытых закономерностей в реальных данных с последующим прогнозированием выявленных тенденций развития. Использование математики в исследованиях не всегда проходит гладко: не сразу удаётся найти необходимый математический аппарат исследования, найти (среди существующих) или создать заново модель изучаемого процесса, достаточно точно количественно и качественно передающую существенные особенности. Курс «Анализ данных» тесно связан и опирается на курсы: «Алгебра и геометрия», «Теория вероятности», «Математическая статистика. 1. ОРГАНИЗАЦИОННО-МЕТОДИЧЕСКИЕ УКАЗАНИЯ 1.1. Цели и задачи изучения дисциплины В настоящее время всё шире используются экономико-математические методы для анализа и прогнозирования различных экономических показателей. Возникает необходимость предварительного, разведочного анализа данных с выявлением и обоснованием сложившихся тенденций развития с последующим их прогнозированием. Цель изучения дисциплины – научить студентов предварительному анализу данных для выявления скрытых закономерностей в социальноэкономических данных с последующим прогнозированием выявленных закономерностей. Задачами изучения дисциплины являются: – знакомство с современными методами разведочного анализа данных, методами и моделями прогнозирования стационарных и нестационарных рядов, многофакторными моделями прогнозирования как временных рядов, так и пространственных данных; – дать основы количественных методов оценки адекватности и точности построенных моделей; – научить использованию компьютерных технологий при анализе и прогнозировании социально-экономических показателей (построение линейных и нелинейных моделей прогнозирования на основе регрессионного анализа, оценка их параметров, расчёт всех необходимых статистик для анализа моделей). 1.2. Знания, умения и навыки, которые должен приобрести студент в результате изучения дисциплины В задачи изучения дисциплины входит изложение основных положений OLAP технологии баз данных, их применения при реализации промышленных систем. В результате освоения дисциплины студент должен: знать основные технологии доступа к данным (З.3.1.7.1); разницу между OLTP и OLAP системами и различать область их использования (З.3.1.7.2); архитектуру OLAP многомерных БД (З.3.1.7.3); требования предъявляемые к средствам реализации OLAP (З.3.1.7.4); синтаксис языков запросов к данным (SQL, MDX) (З.3.1.7.5). уметь проектировать многомерные хранилища данных (У.3.1.7.1); определять размерность хранилищ (У.3.1.7.2); формировать запросы для получения наборов данных, находящихся в многомерной структуре (У.3.1.7.3). владеть (методами, приёмами) инструментами пакета Analysis Services для анализа данных (В.3.1.7.1); инструментами пакета Fast report для подготовки макетов документов (В.3.1.7.2). В процессе освоения дисциплины у студентов развиваются следующие компетенции: 1.Универсальные (общекультурные) – способность к самостоятельному обучению новым методам исследования, к изменению научного и научнопроизводственного профиля своей профессиональной деятельности (ОК-2 ФГОС); 2. Профессиональные – способность выбирать методы и разрабатывать алгоритмы решения задач управления и проектирования объектов автоматизации (ПК-5 ФГОС). 1.3. Объём и сроки изучения курса Курс «Анализ данных» общим объёмом 108 часов предназначен для магистров и изучается в течение 3 семестра. 1.4. Основные виды занятий и особенности их проведения при изучении данного курса Специфика сочетания методов и форм организации обучения отражается в матрице (табл 1). Перечень методов обучения и форм организации обучения может быть расширен. Таблица 1 Методы и формы организации обучения (ФОО) ФОО Лекц. Лаб. раб. Тр*., Мк** СРС Методы IT-методы + Работа в команде + * + Case-study + ** Игра Методы проблемного обучения. + + + + Обучение на основе опыта Опережающая самостоятельная работа ** + Проектный метод + + Поисковый метод + + Исследовательский метод + Другие методы * - Тренинг, ** - Мастер-класс 1.5. Взаимосвязь аудиторной и самостоятельной работы студентов при изучении курса В ходе изучения данного курса студент слушает лекции по основным темам, посещает лабораторные занятия, занимается индивидуально. Освоение курса предполагает, помимо посещения лекций и лабораторных работ, выполнение контрольных заданий. Особое место в овладении данным курсом отводится самостоятельной работе по решению текущих и индивидуальных домашних заданий. Учебным планом предусмотрены консультации, которые студент может посещать по желанию. 1.6. Виды контроля знаний студентов и их отчётности Курс завершается экзаменом в третьем семестре. Обязательным условием допуска студента к экзамену является успешное выполнение лабораторных работ и аудиторных контрольных работ, а также общего количества баллов в соответствии с рейтинг листом не менее 33. Экзамен проводится письменно в виде ответов на экзаменационные билеты, выполнение которых требует знания, как теоретического материала, так и практических навыков решения. Для успешной сдачи экзамена студент должен продемонстрировать знания основных теоретических положений изучаемой дисциплины и показать свои навыки применения теории при решении конкретных практических задач. 2. СОДЕРЖАНИЕ КУРСА 2.1. Перечень тем лекционных занятий Раздел 1. Основы OLAP В данной теме рассматриваются понятия и основные составляющие технологии OLAP, описывается архитектура OLAP-систем, рассказывается о преимуществах и недостатках клиентских и серверных OLAP-средств, а также представлены основные способы реализации многомерных моделей. Рассказывается о преимуществах, основных элементах и операциях OLAP, о типах OLAP, их преимуществах и недостатках, о моделировании многомерных кубов на реляционной модели данных. А также, рассматриваются практические задания по теме. Раздел 2. Хранилища данных В теме рассматривается концепция систем складирования данных и хранилищ данных, основные причины ее возникновения и сферы применения, вводятся и обсуждаются основные понятия, приведены примеры. Раздел 3. Общие сведения о многомерном анализе данных Кратко рассказывается о возможностях службы SQL Server Analysis Services в решении задач бизнес-анализа, рассмотрены вопросы интеграции BI-платформы Microsoft с продуктами семейства Microsoft Office System 2007, а также представлены основные инструменты управления службами SSAS. Рассматриваются алгоритмы поиска данных Data Mining. Алгоритмы Data Mining Дерево решений - Microsoft Decision Trees Кластеризация - Microsoft Clustering Наивный алгоритм Байеса - Microsoft Native Bayes Временные ряды - Microsoft Time Series Ассоциативные правила - Microsoft Association Кластеризация последовательностей действий - Microsoft Sequence Clustering Нейронные сети - Microsoft Neural Network Линейная регрессия - Microsoft Linear Regression Логистическая регрессия - Microsoft Logistic Regression Раздел 4. Планирование и архитектура SSAS Рассматриваются основы логической и физической архитектур SQL Server Analysis Services, а также архитектуре программирования SSAS. Данная лекция рассказывает об особенностях проектирования и реализации многомерных баз данных с использованием SQL Server Analysis Services, представлены ключевые понятия многомерных выражений, а также основные понятия о запросах многомерных выражений Раздел 5. Определение и развертывание куба После определения представления источника данных в проекте служб Microsoft Analysis Services можно определить исходный куб служб Analysis Services. Кроме того, можно определить куб и его измерения за один проход с помощью мастера кубов. Также можно определить одно или несколько измерений, а затем с помощью мастера кубов определить куб, в котором они будут использоваться. Разработку сложного решения обычно начинают с определения измерений. Раздел 6. Системы построения макетов документов Рассматриваются имеющиеся на рынке системы разработки печатных макетов документов. Даются практические навыки использования языка запросов и инструментальных средств для решения задачи. 3. МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ПО ИЗУЧЕНИЮ КУРСА 3.1. Перечень и тематика самостоятельных работ студентов по курсу Самостоятельная работа студентов заключается в выполнении аудиторных контрольных работ, текущих и индивидуальных домашних заданий. Индивидуальные домашние задания (ИДЗ) выдаются в начале изучения соответствующих тем. Темы ИДЗ для подготовки семинаров: 1) Технологии OLAP. Microsoft SQL Server Analysis Services - описание технологии - агрегация данных - разреженные данные - обеспечение доступа к данным 2) Математические методы анализа статистических данных 3) Reporting Services vs FastReport и другие службы подготовки печатных документов - разработка отчетов - доставка отчетов - управление службами отчетов 4) Алгоритмы Data Mining Деревья решений - Microsoft Decision Trees Кластеризация - Microsoft Clustering Наивный алгоритм Байеса - Microsoft Naive Bayes 5)Алгоритмы Data Mining Нейронная сеть (Microsoft Neural Network) Линейная регрессия (Microsoft Linear Regression). Логистическая регрессия (Microsoft Logistic Regression). ИДЗ выполняются с использованием компьютеров (либо домашних, либо в дисплейном классе), результаты обсуждаются на коллоквиумах во время конференц-недель, виде самостоятельного доклада с подготовкой всех сопроводительных материалов (презентация, тезисы доклада, видеоролик, методические указания по работе с последующим обсуждением студентами группы.