ПЕРВОЕ ВЫСШЕЕ ТЕХНИЧЕСКОЕ УЧЕБНОЕ ЗАВЕДЕНИЕ РОССИИ МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «НАЦИОНАЛЬНЫЙ МИНЕРАЛЬНО-СЫРЬЕВОЙ УНИВЕРСИТЕТ «ГОРНЫЙ» Согласовано Утверждаю Руководитель ООП по направлению 230400.62 доц. Е.Б. Мазаков Зав. кафедрой ИС и ВТ доц. Е.Б. Мазаков РАБОЧАЯ ПРОГРАММА УЧЕБНОЙ ДИСЦИПЛИНЫ ТЕХНОЛОГИИ ОБРАБОТКИ ИНФОРМАЦИИ Направление подготовки 230400 – Информационные системы и технологии Профиль подготовки: – Информационные системы и технологии Квалификация (степень) выпускника: бакалавр Форма обучения: очная Составитель: доцент В.И. Минков САНКТ-ПЕТЕРБУРГ 2013 1. Цель и задачи дисциплины Цели и задачи освоения дисциплины: формирование систематизированного представления о концепциях, моделях и принципах технологий обработки информации; знакомство с принципами организации информационного обмена и консолидации информации, ее поиска и извлечения; получение представления о трансформации данных и системах анализа, используемых для получения практических результатов; знакомство с программным обеспечением для производственно-хозяйственной анализа экспериментальных данных и данных деятельности; знакомство с основными средствами оформления и продвижения информации в глобальной сети 2. Место дисциплины в структуре ООП Дисциплина «Технологии обработки информации входит в базовую часть профессионального цикла подготовки бакалавра и изучается в течение одного семестр. Для освоения курса обучающийся должен обладать устойчивыми знаниями по информатике, информатике в информационных системах, объектно-ориентированному программированию и математике. 3. Требования к результатам освоения дисциплины Процесс изучения дисциплины направлен на формирование следующих компетенций: ПК-1, ПК-4, ПК-6, ПК-7, ПК-10, ПК-12; ПК-13; ПК-18; ПК-22–ПК-27. В результате изучения дисциплины студент должен: знать: основные понятия и методы математической логики, дискретной математики, математической статистики и теории вероятности; основные сведения о дискретных структурах, используемых в персональных компьютерах, основные алгоритмы типовых численных методов решения математических задач, один из языков программирования, структуру локальных и глобальных компьютерных сетей; состав, структуру, принципы реализации и функционирования информационных технологий, используемых при создании информационных систем, базовые и прикладные информационные технологии, инструментальные средства информационных технологий; принципы, базовые концепции технологий программирования, основные этапы и принципы создания программного продукта, абстракция, конфиденциальность масштабирование, различие между информации, проектирование спецификацией повторное с учетом и реализацией, использование, изменений, проблема классификация, рекурсия, сложности, типизация, соглашения, обработка исключений, ошибки и отладка; уметь: применять математические методы при решении профессиональных задач повышенной сложности; работать в качестве пользователя персонального компьютера, использовать внешние носители информации для обмена данными между машинами, создавать резервные копии архивы данных и программ, использовать языки и системы программирования для решения профессиональных задач, работать с программными средствами общего назначения; методами построения математической модели профессиональных задач и содержательной интерпретации полученных результатов; владеть: методами построения математической модели профессиональных задач и содержательной интерпретации полученных результатов; методами поиска и обмена информацией в глобальных и локальных компьютерных сетях, техническими и программными средствами защиты информации при работе с компьютерными системами, включая приемы антивирусной защиты; языками процедурного и объектно-ориентированного программирования; навыками владения одной из технологий программирования. 4. Объём дисциплины и виды учебной работы Общая трудоёмкость дисциплины составляет 5 зачётных единиц. Вид учебной работы Всего часов 68 3 68 Лекции 34 34 Практические занятия (ПЗ) 17 17 Лабораторные работы (ЛР) 17 17 Самостоятельная работа (всего) 76 76 Курсовой проект (работа) 36 36 Расчётно-графические работы 20 20 Реферат – – Работа с литературой 20 20 Вид промежуточной аттестации (зачёт, экзамен) 36 Экзамен Общая трудоёмкость 180 180 5 5 Аудиторные занятия (всего) Семестры В том числе: В том числе: Другие виды самостоятельной работы: час зач. ед. 4 5. Содержание дисциплины 5.1. Содержание разделов дисциплины № п/п 1. Наименование раздела дисциплины Предметная область дисциплины 2. Информационный обмен и консолидация информации 3. Очистка и предобработка данных, информации Содержание раздела Определение информации с точки зрения теории информации, мера информации, данные и информация. Классификация информационных объектов. Методы кодирования. Общая структура ИС для анализа производственно хозяйственной деятельности. Детерминированные и случайные процессы, их основные характеристики. Современные технологии анализа данных. Базовая терминология анализа данных, понятие модели и моделирования. Машинное обучение и классы задач Data Mining. Классификация программных продуктов для создания аналитических решений. Характеристики аналитических платформ. Системы и сети информационного обмена. Обобщенная схема процесса консолидации. Предпосылки появления ХД, Основные требования к ХД, Задачи, решаемые ХД, Детализированные и агрегированные данные, метаданные, Многомерное представление данных и многомерный куб, MOLAP; измерения и факты; операции с многомерным кубом, ROLAP, схемы "звезда" и снежинка", HOLAP, преимущества и недостатки различных архитектур построения ХД. Концепция виртуальных хранилищ данных. Выбор используемых источников данных, Организация процесса извлечения данных, Организация процесса загрузки в ХД. Проблемы обработки больших объемов данных Уровни очистки данных, Классификация проблем в "грязных" данных. Концепция управления качеством информации. Уровни качества данных, оценка пригодности данных к анализу. Оценка качества данных по их происхождению, профайлинг данных. Выявление трудно формализуемых ошибок, Предобработка данных и ее отличие от очистки. Типичный набор инструментов предобработки в аналитическом приложении. Фильтрация данных. Обобщенная модель дубликатов и противоречий. Обработка дубликатов и противоречий, Виды аномалий. Обнаружение аномальных значений специальными методами. Происхождение пропусков в данных, способы восстановления пропущенных значений. Трансформация данных. Цели трансформации и ее роль в процессе ETL. Основные методы трансформации. Трансформация временных рядов: скользящее окно, интервал и горизонт прогноза, глубина погружения. Преобразование даты и времени, группировка и разгруппировка данных. Объединение данных. Внутреннее и внешнее соединение. Цели квантования, выбор числа интервалов квантования, методы квантования, основные методы нормализации. 4. Методы обработки 5. Поиск и извлечение информации (Data Mining) 6. Представление информации в глобальной сети Нормализация с помощью поэлементных преобразований. Кодирование категориальных данных., Преобразование структур данных: агрегирование, перевод значений и пр., Концепция OLAP систем Правила Кодда, тест FASMI. Манипуляции с OLAP-кубами. Общие визуализаторы: графики, диаграммы, гистограммы, статистика, OLAPанализ. Программное обеспечение для представления информации. Матрицы классификации, диаграммы рассеяния, коэффициенты регрессии, визуализация контроля обучения моделей. Древовидные визуализаторы, визуализаторы связей, двумерные карты. Постановка задачи сокращения размерности. Требования к алгоритмам снижения размерности данных. Отбор признаков на основе статистических показателей. Сокращение признаков на основе информационных оценок. Метод главных компонент. Корреляционный анализ, факторный анализ, дисперсионный анализ – их назначение, особенности и требования к данным.Методы обработки: использование средств СУБД, способы обработки данных, технические мощности систем обработки, особенности построения и использования алгоритмов для обработки больших массивов данных. Базовая терминология анализа данных, понятие модели и моделирования. Машинное обучение и классы задач Data Mining Задача ассоциации, кластеризация, классификация и регрессия, статические методы, машинное обучение. Системы обработки входящей текстовой информации, методы поиска текстовой информации. Качество информационно-поисковых систем. Обработка информации с целью получения знаний. Логическая модель представления знаний. Фреймовая модель представления знаний. Нейросетевые системы и семантические сети. Задачи оптимизации при продвижения информации сайтов. Анализ работы поисковых систем. Релевантность запросов. Создание семантического ядра. Программное обеспечение (движки) для создания сайтов. Обзор средств для работы по оптимизации сайтов. 5.2 Разделы дисциплины и междисциплинарные связи с обеспечиваемыми (последующими) дисциплинами № п/п 1. 2. 3. № № разделов данной дисциплины, Наименование обеспечиваемых необходимых для изучения обеспечиваемых (последующих) дисциплин (последующих) дисциплин 1 2 3 4 5 6 Технологии программирования – + + + + + Информационные технологии в системах управления Выпускная квалификационная работа – + + + + + – + + + + + 5.3. Разделы дисциплины и виды занятий № Наименование раздела (модуля) дисциплины п/п 1. Предметная область дисциплины 2. Информационный обмен и консолидация информации Очистка и предобработка данных, информации Методы обработки 3. 4. 5. 6. Поиск и извлечение информации (Data Mining) Представление информации в глобальной сети ИТОГО: Лекц. Практ. Лаб. зан. зан. Семин СРС Всего час. 2 1 1 16 20 4 5 5 18 32 8 5 5 20 38 8 2 2 20 32 6 3 3 20 32 6 1 1 18 26 34 17 17 112 180 0 6. Лабораторный практикум № раздела дисциплины 1 2 3 4 5 6 Тематика лабораторных работ Состав средств в условиях поставки Deductor Studio. Интерфейс системы. Базовые навыки работы Создание и наполнение хранилища данных Извлечение информации из хранилища данных, построение OLAP-кубов Модификация структуры хранилища данных Манипуляция с упорядоченными данными, групповые операции с данными Соединение и разбиение наборов данных Транспонирование наборов данных Аудит данных и сокращение признаков Сложный профайлинг данных Изучение способов визуализации информации Создание OLAP-отчетов Поиск ассоциаций Построение и интерпретация самоорганизующихся карт Кохонена Решение задач классификации и регрессии Средства SEO у Яндекс и Google Трудоемкость (час.) 1 1 2 2 1 1 1 1 1 1 1 1 1 1 1 7. Практические занятия (семинары) № раздела дисциплины 1 2 3 4 5 6 Тематика практических занятий Состав средств в условиях поставки Deductor Studio. Интерфейс системы. Базовые навыки работы Создание и наполнение хранилища данных Извлечение информации из хранилища данных, построение OLAP-кубов Модификация структуры хранилища данных Манипуляция с упорядоченными данными, групповые операции с данными Соединение и разбиение наборов данных Транспонирование наборов данных Аудит данных и сокращение признаков Сложный профайлинг данных Изучение способов визуализации информации Создание OLAP-отчетов Поиск ассоциаций Построение и интерпретация самоорганизующихся карт Кохонена Решение задач классификации и регрессии Средства SEO у Яндекс и Google Трудоемкость (час.) 1 1 2 2 1 1 1 1 1 1 1 1 1 1 1 8. Примерная тематика курсовых проектов (работ) Список примерных тем курсовых работ: 1 Задачи размещения сайта в Интернете (домен, хостинг, копирование файлов) 2 3 4 Порядок работы (технология создания сайта) Конструктор сайтов WIX, Средства SEO в WIX Конструктор сайтов Ucoz. Использование Визуальных редакторов комментариев и шапки сайта, Использование встроенных модулей (Поиск, Новости, Форум, Пользователи) 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Программа для создания сайта WebProject. Подключение и редактирование изображений, новостного канала Конструктор сайтов Jimdo Система создания и продвижения сайтов PageLife.ru Программа для создания сайта Dreamweaver CC Конструктор Nethouse Программа для создания сайта WebsiteX5 EVOLUTION 10 Программа для создания сайта TurboSite MS Office SharePoint Designer "HTML Optimizer" - оптимизатор кода Движок Joomla CSS - использование каскадных таблиц стилей Общие сведения по программе SiteEdit. Модули, сравнение версий, технические требования Инструмент для расширения семантического ядра Google Adwords, Google Keyword Tool, Google Trends Инструмент для расширения семантического ядра Яндекс Оптимизация кода. Sitemaps.com структура кода в формате .xml, Schema.org , SEOmap.pro. 19 20 9. Учебно-методическое и информационное обеспечение дисциплины а) основная литература 1. Оппенгейм А., Шафер Р. Цифровая обработка сигналов // Москва: Техносфера, 2007. – 855 с. 2. Гаврилова Т.А., Муромцев Д.И. Интеллектуальные технологии в менеджменте: инструменты и системы. Учебное пособие. Высшая школа менеджмента, 2007. – 488 с. б) дополнительная литература 3. В.В. Корнеев, А.Ф. Гареев, С.В. Васютин, В.В. Райх. Базы данных. Интеллектуальная обработка информации. – М.: Издатель Молгачев С.В., Издательство Нолидж, 2001. – 496 с. 4. Гонзалес Р., Вудс Р., Эддинс С. Цифровая обработка изображений в среде MATLAB // Москва: Техносфера, 2007.– 616 с. в) программное обеспечение В качестве системных программных средств на рабочих местах используются ОС Windows XP и выше. В качестве прикладных программных средств используются: MS Office 2003 и выше; Deductor Studio 5.2 (поставка Academic) и выше. г) электронные учебные ресурсы E-learning от BaseGroup Labs. Доступ:http://www.basegroup.ru/edu/navigator/elearning/ 10. Материально-техническое обеспечение дисциплины Изучение дисциплины предусматривает использование специализированной аудитории с компьютерами, имеющими доступ в Internet. Использование электронных информационных ресурсов предусматривает доступ к глобальной сети Internet. _____________________________________________________________________________ Разработчик кафедра ИС и ВТ доцент В.И. Минков