Правительство Российской Федерации Федеральное государственное автономное образовательное учреждение высшего профессионального образования "Национальный исследовательский университет "Высшая школа экономики" Факультет прикладной математики и кибернетики Кафедра математической экономики и эконометрики Программа дисциплины Анализ интернет-данных для направления 230700.62 Прикладная информатика Бакалаврская программа Автор программы: Жукова Л.В. Одобрена на заседании кафедры Математической экономики и эконометрики «___»____________ 2014 г Зав. кафедрой Канторович Г.Г. Одобрена на заседании кафедры «___»____________ 20 г Зав. кафедрой Рекомендована секцией УМС «___»____________ 20 г Председатель Утверждена УС факультета прикладной математики и кибернетики Ученый секретарь «___»_____________20 г. ________________________ [подпись] Москва, 2014 1. Область применения и нормативные ссылки Настоящая программа учебной дисциплины устанавливает минимальные требования к знаниям и умениям бакалавра и определяет содержание и виды учебных занятий и отчетности. Программа разработана в соответствии с: -образовательным стандартом ФГОС -рабочим учебным планом университета 2. Цели освоения дисциплины Целью курса является овладение слушателями общими принципами, концепциями и современными методами в сфере анализа данных из сети интернет и других открытых источников, умение извлекать полезную информацию с помощью математического и статистического аппарата. Место курса в учебном плане. В соответствии с учебным планом специальности, курс "Анализ интернет-данных" изучается в течение 1-го модуля 4 курса. Он основывается на курсах «Информатика», «Базы данных», группой математических дисциплин, и коррелирует с содержанием курсов: «Экономическая теория», «Эконометрика». Задачи курса. Основной задачей курса является изучение применения маетматических методов к изучению данных . 3. Компетенции бакалавра, формируемые в результате освоения дисциплины В результате освоения дисциплины бакалавр должен: - знать методы обработки данных; - уметь решать конкретные профессиональные задачи; - иметь практические навыки по анализу данных с целью формирования предложений. В результате освоения дисциплины компетенции: бакалавр осваивает следующие ОК-1 - способность использовать, обобщать и анализировать информацию, ставить цели и находить пути их достижения в условиях формирования и развития информационного общества ОК-3 - способность работать в коллективе, нести ответственность за поддержание партнерских, доверительных отношений ОК-4 - способность находить организационно-управленческие решения и готов нести за них ответственность ОК-8 - способность работать с информацией в глобальных компьютерных сетях ПК-2 - способен при решении профессиональных задач анализировать социальноэкономические проблемы и процессы с применением методов системного анализа и математического моделирования ПК-4 - способен ставить и решать прикладные задачи с использованием современных информационно-коммуникационных технологий ПК-11 - способен принимать участие в создании и управлении ИС на всех этапах жизненного цикла ПК-17 - способен применять методы анализа прикладной области на концептуальном, логическом, математическом и алгоритмическом уровнях ПК-22 - способен готовить обзоры научной литературы и электронных информационно-образовательных ресурсов для профессиональной деятельности 4. Тематический план учебной дисциплины № п/п 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Наименование тем Тема 1. Введение в анализ данных Тема 2. Повторение теории вероятностей и математической статистики т 3. Формирование выборки Тема Тема 4. Подготовка данных Тема 5. Числовые данные, их обработка и визуализация Тема 6. Дисперсионный анализ Тема 7. Анализ категориальных данных. Коэффициент корреляции Юла. Тема 8. Таблицы сопряженности признаков. Тема 9. Анализ временных рядов. Тренд и сезонная составляющая Итого Всего часов по дисциплине 4 Аудиторные часы лекции практ. занятия 2 2 8 4 4 6 8 2 4 4 4 12 6 6 10 4 6 6 4 2 6 4 2 8 4 4 64 34 34 5. Форма текущего, промежуточного и итогового контроля Форма итогового контроля: экзамен в 1-ом семестре Форма промежуточного контроля: 2 домашние работы Форма текущего контроля: аудиторные доклады по темам курса Итоговая оценка состоит из оценки за экзамен и накопленной за два домашних задания оценки. Формула расчета итоговой оценки: Итоговая оценка = 0,6*(экзаменационная оценка) + 0,4*(Накопленная оценка), где Накопленная оценка = 0,5*(оценка за 1 дом. раб.) + 0,5* (оценка за 2 дом. раб.) 6. Краткое содержание тем Тема 1. Введение в анализ данных Цели и основные этапы анализа данных. Типология особенностей данных. Критерии ценности особенности данных. Стандартные компоненты задачи анализа данных. Основные результаты анализа данных. Тема 2. Повторение теории вероятностей и математической статистики Основные понятия теории вероятностей. Случайные события и случайные величины. Непрерывные и дискретные случайные величины и их основные числовые характеристики. Генеральная совокупность и выборка. Выборочное распределение и выборочные характеристики: среднее, дисперсия, ковариация, корреляция. Статистическое оценивание. Ошибки выборки. Примеры репрезентативных выборок в информационном пространстве. Тема 3. Формирование выборки. Формы и методы сбора информации. Первичный и вторичный методы онлайн сбора информации. Информационные базы данных. Смещенные и несмещенные выборки. Системы онлайн-опросов, анкетирование. Проверка данных на достоверность. Сводка данных. Тема 4. Подготовка данных Описательная статистика. Очистка данных. Интеграция и преобразование данных. Уменьшение размерности данных. Дискретизация и иерархическое обобщение данных. Сводные таблицы. Тема 5. Числовые данные, их обработка и визуализация Табличная запись числовых данных. Использование электронных таблиц для хранения и обработки данных. Визуализация данных. Различные виды графиков и диаграмм. Анализ данных по их графическому представлению. Тема 6. Дисперсионный анализ Понятие статистической гипотезы и проверки гипотез. Методы проверки гипотез. Критерии значимости. Однофакторный и многофакторный дисперсионный анализ. ANOVA и MANOVA. Тема 7. Анализ категориальных данных. Коэффициент корреляции Юла. Определение силы связи для категориальных переменных или анализ таблиц. Коэффициент корреляции Юла. Свойства коэффициента корреляции Юла. Тема 8. Таблицы сопряженности признаков. Коэффициенты сопряженности: Фи коэффициент, "лямбда", тау б, тау с. Проверка гипотез о различиях. Основы дисперсионного и ковариационного анализа. Тема 9. Анализ временных рядов. Тренд и сезонная составляющая Понятие и виды временных рядов. Графический анализ. Выявление базовых компонент врменных рядов - тренд, сезонность. 7. Учебно-методическое обеспечение курса Рекомендуемая литература: 1. Магнус Я., Катышев П., Пересецкий А. Эконометрика. Начальный курс. 6-е изд. – М.: Дело, 2004 2. Нэреш К. Малхотра. Маркетинговые исследования. М.:«Вильямс», 2003. 3. Доугерти К. Ведение в эконометрику: Пер. с англ. -- М: ИНФРА-М, 2001. 4. Елисеева И.И. Эконометрика. М.:«Финансы и статистика», 2001. Дополнительная литература 1. Green (2008), Econometric Analysis, -- Pearson Prentice Hall. 2. Шведов А. Теория вероятностей и математическая статистика – 2 (промежуточный уровень). М.: ТЕИС, 2007