Технологии анализа данных - Астраханский государственный

advertisement
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ
АСТРАХАНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
ФАКУЛЬТЕТ МАТЕМАТИКИ И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ
Кафедра информационных систем
ТЕХНОЛОГИИ АНАЛИЗА ДАННЫХ
Программа курса
для направления 230200.68
«Информационные системы. Программа Базы знаний»
АСТРАХАНЬ 2009
ПОЯСНИТЕЛЬНАЯ ЗАПИСКА
Данный курс является дисциплиной национально-регионального
компонента направления 230200.68 «Информационные системы.
Программа Базы знаний».
Цель дисциплины «Технологии анализа данных» заключается в
предоставлении слушателям комплекса знаний, умений и навыков,
необходимых для повышения эффективности профессиональной
деятельности средствами современных информационных технологий в
сфере бизнес-аналитики. Курс ориентирован на тех, кто интересуется
вопросами построения хранилищ данных, оперативного анализа данных,
интеллектуального анализа данных, методами автоматического поиска
закономерностей в больших массивах информации.
В рамках курса «Технологии анализа данных» студенты знакомятся с
вопросами разработки систем поддержки принятия решений, организацией
хранилищ данных, а также с задачами анализа данных. Наиболее подробно
в курсе представлен интеллектуальный анализ данных (Data Mining).
Описания сопровождаются примерами применения.
Основную часть курса составляют практические задания для
самостоятельной работы. Они должны быть реализованы с помощью
средств Business Intelligence в Microsoft SQL Server / Oracle (хранилища
данных, OLAP), а также RapidMiner (Data Mining).
В результате изучения дисциплины слушатели должны знать:
- типы задач, решаемых с помощью систем поддержки принятия
решений;
- общее назначение, структуру и операции с хранилищем данных;
- назначение и архитектуру OLAP-систем, операции над OLAPкубами;
- модели, методы и средства интеллектуального анализа данных.
Слушатели должны уметь:
- использовать инструменты для создания хранилищ данных и
создания отчетов на их основе;
- создавать OLAP-кубы и работать с ними;
- использовать инструменты для интеллектуального анализа данных.
Курс рассчитан на слушателей, имеющих навыки работы с
реляционными СУБД. Желательно наличие общего представления о
методах математической статистики. Курс также связан с дисциплиной
«Интеллектуальные информационные системы».
Изучение курса завершается итоговой экзаменационной оценкой в
соответствии с суммой набранных баллов по системе текущего контроля
студентов. В течение семестра студент выполняет лабораторные работы в
среде Microsoft SQL Server / Oracle (хранилища данных, OLAP), а также
RapidMiner (Data Mining), демонстрирует преподавателю результаты.
Преподаватель может задать студенту дополнительные вопросы по
выполненной работе для контроля усвоения темы.
РАСПРЕДЕЛЕНИЕ
ЧАСОВ ПО ТЕМАМ И ВИДАМ УЧЕБНЫХ ЗАНЯТИЙ
Наименование тем
Тема 1. Хранилища
данных
Тема 2. Оперативный
анализ данных (OLAP)
Тема 3. Введение в Data
Mining
Тема 4. Алгоритмы
Data Mining:
классификация и
прогнозирование
Тема 5. Алгоритмы
Data Mining: поиск
ассоциативных правил
и кластеризация
Тема 6. Применение
Data Mining и
современные
тенденции.
Продвинутые техники
Data Mining
Итого аудиторных
часов
Количество часов
самостоятельной
работы студентов
Всего часов
Количество аудиторных часов
в том числе по видам учебных занятий
Практические,
Всего
Лабораторные
Лекции
семинарские
занятия
занятия
4
2
2
4
2
2
2
2
6
2
4
8
3
5
2
2
26
13
54
80
13
СОДЕРЖАНИЕ КУРСА
Тема 1. Хранилища данных
Системы поддержки принятия решений. Определение хранилища
данных, их использование и современные тенденции. Сравнение понятий
хранилища данных и базы данных. Архитектура хранилища данных. ETLпроцессы (извлечение, преобразование и загрузка данных).
Конечные инструменты хранилищ данных. Комплексная агрегация и
множественная гранулярность. Оптимизация и тестирование хранилища
данных.
Тема 2. Оперативный анализ данных (OLAP)
OLAP: витрины данных, кубы данных, многомерная модель данных:
схема звезда, схема снежинка, таблица фактов. Сравнительный анализ
OLAP и OLTP. Способы реализации многомерной модели: MOLAP,
ROLAP, HOLAP.
Развертывание OLAP-кубов. Операции над OLAP-кубами (срез,
вращение, консолидация, детализация).
Тема 3. Введение в Data Mining
Определение Data Mining и область применения. Основы Data
Mining, связанные понятия и техники. Обзор алгоритмов Data Mining.
Цикл получения, предварительной обработки, анализа данных,
интерпретации результатов и их использования.
Тема 4. Алгоритмы Data Mining: классификация и прогнозирование
Определение задач классификации и их применение. Методы
классификации. Деревья решений. Наивный Байесовский метод. Метод
ближайшего соседа. Метод опорных векторов (SVM). Задача
прогнозирования. Прогнозирование временных рядов.
Тема 5. Алгоритмы Data Mining: поиск ассоциативных правил и
кластеризация
Множества данных. Генерация множеств данных и правил.
Корреляционный анализ. Алгоритм Apriori. Основные вопросы
кластеризации. Дивизимные и иерархические методы кластеризации
Тема 6. Применение Data Mining и современные тенденции.
Продвинутые техники.
Применение Data Mining. Приложения Business Intelligence.
Программное обеспечение Data Mining. Основные сложности Data Mining.
Направления Data Mining: Text Mining, Web Mining, Spatial Mining,
Temporal Mining.
РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
1. Барсегян, А.А., Куприянов, М.С., Степаненко, В.В., Холод, И.И., Технологии
анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. – СПб.: БХВПетербург, 2007. – 384 с.
2. Паклин, Н.Б., Орешков, В.И., Бизнес-аналитика: от данных к знаниям. – СПб.:
Питер, 2009. – 624 с.
3. Сегаран, Т., Программируем коллективный разум. – СПб.: Символ-Плюс, 2008.
– 368 с.
4. Han J., Kamber M., Data Mining: Concepts and Techniques (Second Edition),
Morgan Kaufmann Publishers, 2006. – 800 p.
5. Макленнен Д., Танг Ч., Криват Б.,Microsoft SQL Server 2008: Data Mining –
интеллектуальный анализ данных. BHV, 2009
6. Дюк, В. Data Mining : учебный курс / Дюк, В., Самойленко, А. - ; - СПб. :
Питер, 2001. - 368 с. - (Учебный курс).
7. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP :
Рек. УМО вузов по ун-тетскому политех. образованию в качестве учеб. пособ.
по спец. "Информационные системы и технологии" направления
"Информационные системы" / А.А. Барсегян, М.С. Куприянов и др. - 2-е изд. ;
перераб. и доп. - СПб. : БХВ-Петербург, 2008. - 384 с.+ ! CD-ROM
Download