Правительство Российской Федерации Государственный университет Высшая школа экономики Программа дисциплины Методы анализа данных для направления 080700.68 «Бизнес-информатика» подготовки магистра Авторы: д.ф.-м.н., проф. С.О. Кузнецов, к.ф.-м.н., доцент Е.Р. Горяинова Рекомендовано секцией УМС _________________________ Одобрено на заседании кафедры высшей математики на факультете экономики Зав. кафедрой Председатель _____________ Ф.Т. Алескеров _____________ __________ ________________ " __" __________ 200_ г. " __ " ______________ 200_ г. Утверждено УС факультета _____________ Ученый секретарь _______________ ______________ " __ " _________ 200_ г. Москва 1 Тематический план № самост. работа Всего Аудиторные часы часов лекции семинары 1 Основные методы статистического анализа данных. 22 4 2 16 2 Исследование однородности двух выборок 30 4 4 22 34 6 6 22 3 Название темы Дисперсионный анализ 4 Анализ статистической взаимосвязи социально-экономических явлений 38 10 8 20 5 Регрессионный анализ 40 2 4 34 6 Факторный анализ 18 4 6 8 24 4 4 16 28 6 6 16 36 6 8 22 270 46 48 176 7 8 9 Кластерный анализ Анализ данных на графах и данные на решетках Модели машинного обучения и решетки понятий Итого Базовый учебник по курсу 1. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. – М.: Инфра. – М, 2003. 2. Кибзун А.И., Горяинова Е.Р., Наумов А.В. Теория вероятностей и математическая статистика. Базовый курс с примерами и задачами. - М.:Физматлит, 2005 3. Ganter B. and Wille R., Formal Concept Analysis: Mathematical Foundations, Springer, 1999. Дополнительная литература по курсу 1. Интерпретация и анализ данных в социологических исследованиях (под редакцией В.Г. Андреенкова и Ю.Н.Толстовой). – М.: Наука, 1987. 2. Холлендер М., Вулф Д. Непараметрические методы статистики. – М.: Финансы и статистика, 1983. 3. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Исследование зависимостей. Справочное издание под ред. Айвазяна С.А. – М.: Финансы и статистика, 1985. 4. Ивченко Г.И., Медведев Ю.И. Математическая статистика. – М.: Высшая школа, 1992. 5. Дрейпер Н., Смит Г. Прикладной регрессионный анализ: В 2-х книгах, Кн. 1. – М.: Финансы и статистика, 1986. Кн. 2. – М.: Финансы и статистика, 1987. 6. Иберла К. Факторный анализ. – М.: Статистика, 1980. 2 7. Кендел М. Ранговые корреляции. – М.: Статистика, 1975. 8. Леман Э. Проверка статистических гипотез. – М.: Наука, 1964. 9. Хьюбер П. Робастность в статистике. – М.: Мир, 1984. 10 Хампель Ф., Рончетти Э., Рауссей П., Штаэль В. Робастность в статистике. Подход на основе функции влияния. – М.: Мир, 1989. 11. Дэниел К. Применение статистики в промышленном эксперименте. – М.: Мир, 1979. 12. Факторный, дискриминантный и кластерный анализ. – М.: Финансы и статистика, 1989. 13. Кокрен У. Методы выборочного исследования. – М.: Статистика, 1976 14. Хеттманспергер Т. Статистические выводы, основанные на рангах. – М.:Финансы и статистика,1987. 15. Биркгоф Г., Теория решеток. - М.: Наука, 1984. - 568 с. 16. Биркгоф Г., Барти Т., Современная прикладная алгебра, М., Лань, 2005 – 400 с. 17. Davey B. A. and Priestley H. A., Introduction to Lattices and Order. Cambridge University Press, 1990. 18. Мейер Д., Теория реляционных баз данных. М.: Мир, 1987. 19. Mitchell T., Machine Learning, 1997. 20. Кузнецов С.О. Автоматическое обучение на основе анализа формальных понятий // Автоматика и телемеханика. 2001. - N 10. - с.3-27. 21. Duquenne V. and Guigues J.-L., Familles minimales d'implications informatives resultant d'un tableau de donnees binaires, Math. Sci. Humaines, Vol. 95, P. 5-18, 1986. 22. Fayyad U.M., Piatetsky-Shapiro G., Smyth P., Uthurusamy R., Advances in Knowledge Discovery and Data Mining, AAAI Press, 1996. 23. Ganter B. and Kuznetsov S.O., Formalizing Hypotheses with Concepts, Proc. 8th Int. Conf. on Conceptual Structures, ICCS'00, G. Mineau and B. Ganter, Eds., Lecture Notes in Atificial Intelligence, Vol. 1867, 2000, P. 342-356. 24. Ganter B. and Kuznetsov S.O., Pattern Structures and Their Projections, Proc. 9th Int. Conf. on Conceptual Structures, ICCS'01, G. Stumme and H. Delugach, Eds., Lecture Notes in Artificial Intelligence, Vol. 2120. 2001, P.129-142. 25. Kuznetsov S.O., On Computing the Size of a Lattice and Related Decision Problems, Order, 2001, Vol. 18 (4), P. 313-321. 26. Kuznetsov S.O. and Obiedkov S.A., Comparing performance of algorithms for generating concept lattices, J. Exp. Theor. Artif. Intell., 2002, Vol. 14, 2-3, P. 189-216. 27. Kuznetsov S.O., Complexity of Learning in Concept Lattices from Positive and Negative Examples, Discrete Applied Mathematics. 2004, no. 142, P. 111-125. 28. Kuznetsov S.O., On Complexity of Computing the Duquenne-Guigues Basis, Journal of Universal Computer Science. 2004, Vol. 10, no. 8, P. 927-933. 29. Kuznetsov S.O., Galois Connections in Data Analysis: Contributions from the Soviet Era and Modern Russian Research, in Formal Concept Analysis: Foundations and Applications, B. Ganter, G. Stumme, R. Wille, Eds., Lecture Notes in Artificial Intelligence, State-of-the Art Ser. 2005, Vol. 3626, P. 196-225. 30. Luxenburger M., Implications partielle dans un contexte, Math. Sci. Hum., 1991. Формы контроля. Контроль знаний студентов включает формы текущего и итогового контроля. Текущий контроль осуществляется в виде контрольной работы и домашнего задания. Итоговый контроль осуществляется в виде зачетной контрольной работы и письменного экзамена. Итоговая оценка Оитог по 10-балльной шкале формируется как взвешенная сумма 3 Оитог=0,1*Ок.р.+0,1*Од.з.+0,3*Озач.+0,5*Оэкз., округленная до целого числа баллов. Ок.р., Од.з, Озач. и Оэкз. обозначают оценки по 10-балльной шкале за контрольную работу, домашнее задание, зачет и экзамен соответственно. Содержание программы курса «Анализ данных» Тема 1. Основные методы статистического анализа данных Введение. Основы проверки статистических гипотез. Задача с дихотомическими данными. Биномиальный критерий. Определение объема репрезентативной выборки для однородной и стратифицированной генеральной совокупности. Основная литература 1. Кибзун А.И., Горяинова Е.Р., Наумов А.В. Теория вероятностей и математическая статистика. Базовый курс с примерами и задачами. - М.:Физматлит,2005. 2. Кокрен У. Методы выборочного исследования. М.: Статистика, 1976. Тема 2. Исследование однородности двух выборок Понятие об однородности выборок. Выявление неоднородности, связанной со сдвигом (классический критерий Стьюдента, критерий Вилкоксона, Фишера – Йейтса) или масштабом (классический F- критерий, критерий Ансари-Брэдли). Проверка однородности против альтернатив общего вида (критерий Колмогорова – Смирнова). Относительная асимптотическая эффективность (ОАЭ) статистических критериев по Питмену. Сравнительный анализ ОАЭ изученных критериев для различных распределений выборок. Понятие робастности (устойчивости) в терминах кривой чувствительности (IC), IC для статистики Стьюдента и Вилкоксона. Основная литература 1. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. – М.: Инфра. – М, 2003 2. Хеттманспергер Т. Статистические выводы, основанные на рангах. – М.:Финансы и статистика,1987. Тема 3. Дисперсионный анализ Задача однофакторного анализа (классический F-критерий, ранговый критерий Краскела – Уоллиса). Доверительное оценивание контрастов в гауссовской модели. Критерий Джонкхиера для упорядоченных альтернатив. ОАЭ классического критерия и критерия Краскела – Уоллиса. Задача двухфакторного анализа (F-критерий, ранговый критерий Фридмана, критерий Пейджа). ОАЭ классического критерия и критерия Фридмана. 4 Основная литература 1. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. – М.: Инфра. – М, 2003. Тема 4. Анализ статистической взаимосвязи социально-экономических явлений Шкалы измерений (количественная, порядковая, номинальная). Исследование связи между номинальными переменными (таблица сопряженности признаков, критерий хи-квадрат, меры связи признаков: коэффициенты контингенции, ассоциации, среднеквадратической сопряженности, Пирсона, Крамера). Исследование связи между порядковыми переменными (ранговый коэффициент корреляции Спирмена, коэффициент согласованности Кендалла, коэффициент конкордации). Случайные векторы. Ковариационная матрица. Независимость и некоррелированность компонент случайного вектора. Выборочный коэффициент корреляции. Анализ структуры и тесноты связи между количественными переменными. Критерий хиквадрат. Измерение тесноты связи при нелинейной зависимости (индекс корреляции и его оценивание по сгруппированным и несгруппированным данным). Анализ множественных связей (множественный коэффициент корреляции, его вычисление и свойства для общих и нормальных моделей). Основная литература 1. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. – М.: Инфра. – М, 2003. 2. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Исследование зависимостей. Справочное издание под ред. Айвазяна С.А. – М.: Финансы и статистика, 1985. Тема 5. Регрессионный анализ Задача линейной регрессии. Проблема выбора вида функции регрессии. Методы оценивания параметров. Свойства МНК оценок. Некоторые критерии проверки адекватности в нормальной регрессионной модели. Основная литература 1. Кибзун А.И., Горяинова Е.Р., Наумов А.В. Теория вероятностей и математическая статистика. Базовый курс с примерами и задачами. – М.:Физматлит,2005. 2. Дрейпер Н., Смит Г. Прикладной регрессионный анализ: В 2-х книгах, Кн. 1. – М.: Финансы и статистика, 1986. Кн. 2. – М.: Финансы и статистика, 1987. Тема 6. Факторный анализ Модель факторного анализа. Методы выделения общих факторов (метод главных компонент, метод главных факторов, метод максимального правдоподобия, метод наименьших квадратов, альфа-факторный анализ Кайзера). Критерий, позволяющий оценить количество общих факторов. Методы ортогонального вращения, позволяющие получить простую факторную структуру (квартимакс, варимакс, эквимакс). 5 Основная литература 1. Факторный, дискриминантный и кластерный анализ. – М.: Финансы и статистика, 1989. 2. Иберла К. Факторный анализ. – М.: Статистика, 1980. Тема 7. Кластерный анализ Определение меры расстояния между объектами (Евклидова, Минковского, Махаланобиса) Иерархические агломеративные методы группировки («ближнего соседа», «дальнего соседа», средней связи, центроидный). Итеративные кластерные процедуры (метод К-средних). Проверка адекватности разбиения на кластеры методами дисперсионного анализа. Основная литература 1. Факторный, дискриминантный и кластерный анализ. – М.: Финансы и статистика, 1989. Тема 8. Анализ данных на графах и данные на решетках Формальный контекст, формальное понятие, частичный порядок на формальных понятиях, решетка формальных понятий. Супремум и инфимум-неразложимые элементы решетки. Основная теорема АФП (Р. Вилле). Характеризация решеток через бинарное отношение. Отношение «стрелка». Характеризация дистрибутивных решеток через отношения «стрелок». Многозначные контексты, шкалирование. Системы импликаций, правила Армстронга, связь с функциональными зависимостями. Базисы импликаций. Псевдосодержания: определения Дюкенна-Гига и Гантера. Характеризация типов решеток по виду импликаций в минимальном базисе. Размеры базисов. Ассоциативные правила в разработке данных (Data mining), их поддержка и степень уверенность. Ассоциативные правила и решетки формальных понятий. Базис Люксенбургера для ассоциативных правил. Базис, основанный на остовном дереве диаграммы решетки понятий. Основная литература 1. Ganter B. and Wille R., Formal Concept Analysis: Mathematical Foundations, Springer, 1999. Тема 9. Модели машинного обучения и решетки понятий. Пространство версий через соответствия Галуа. Пространства версий с полурешеточным упорядочением классификаторов. ДСМ-метод порождения гипотез, гипотезы как содержания решетки понятий положительного контекста. Импликации и ДСМ-гипотезы. Гипотезы и пространства версий. Деревья решений и их погружение в решетку полупроизведения шкал. Узорные структуры и их проекции, обучение на узорных структурах. Импликации и ассоциативные правила на узорных структурах. Основная литература 1. Mitchell T., Machine Learning, 1997. 2. Кузнецов С.О. Автоматическое обучение на основе анализа формальных понятий // Автоматика и телемеханика. 2001. - N 10. - с. 3-27. 6 Тематика заданий по различным формам текущего контроля 1.Биномиальный критерий 2.Определение объема репрезентативной выборки 3.Исследование однородности двух совокупностей 4.Исследование влияния фактора на конечный результат 5.Исследование влияния главного фактора при наличии мешающего фактора 6.Выявление зависимостей у номинальных признаков 7.Выявление зависимостей у порядковых переменных 8.Анализ структуры и тесноты связи количественных переменных 9.Соотношение между графовым и табличным заданием отношений 10.Соотношение между заданием частичных порядков с помощью графов, диаграмм и таблиц. Вопросы для оценки качества освоения дисциплины Тема 1. 1. Что такое статистическая гипотеза? 2. В чем состоят ошибки I и II рода? 3. Дайте определение функции мощности статистического критерия. 4. Дайте определение квантили. Чему равна 0,05-квантиль стандартного гауссовского распределения, если 0,95-квантиль этого распределения равна 1,65? 5.Каков порядок проверки параметрических статистических гипотез? 6.Опишите задачу, которая решается с помощью биномиального критерия. 7. Какую выборку называют репрезентативной? Тема 2. 1. Какие выборки называют однородными? 2. Назовите основные типы неоднородности выборок. 3. Опишите условия применимости классических и ранговых критериев для проверки гипотезы об однородности. 4. Какие преимущества и какие недостатки имеют ранговые критерии по сравнению с классическими? 5. Какие критерии применяют для проверки гипотезы об однородности двух выборок? 6. Что такое относительная эффективность по Питмену? 7. Чему равна АОЭ по Питмену критерия Стьюдента по отношению к критерию Вилкоксона, если наблюдения имеют гауссовское распределение? Тема 3. 1. Назовите основные термины дисперсионного анализа. 2. В чем состоит задача однофакторного дисперсионного анализа? 3. В чем состоит задача двухфакторного дисперсионного анализа? 4. Опишите условия применимости классических и ранговых критериев в задачах однофакторного дисперсионного анализа. 5. Как построить доверительный интервал контраста в задаче однофакторного анализа для гауссовских наблюдений? 6. В каких ситуациях следует применять критерий Джонкхиера и критерий Пейджа? 7 Тема 4. 1. Опишите основные типы шкал измерений и допустимые преобразования в этих шкалах. 2. Что такое таблица сопряженности признаков? 3. Дайте определение независимости признаков, измеряемых в номинальной шкале. 4. Как проверить гипотезу о независимости признаков в номинальной шкале? 5. Как проверить гипотезу о независимости признаков в порядковой шкале? 6. Назовите основные коэффициенты, измеряющие связь признаков в номинальной шкале. 7. Что такое коэффициент корреляции? Каковы его основные свойства? 8. Как проверить гипотезу о некоррелированности признаков? 9. В каком случае проверка некоррелированности наблюдений эквивалентна проверке независимости? 10. Как измерить тесноту связи двух нелинейно зависимых переменных? 11. Что такое множественный коэффициент корреляции? Каковы его свойства? Тема 5. 1. В чем состоит задача линейной регрессии? 2. В чем состоит идея метода наименьших квадратов (МНК)? 3. Какие методы оценивания параметров регрессии вам известны? 4. Какими свойствами обладает МНК-оценка параметров регрессии? Тема 6. 1. Опишите модель факторного анализа. 2. Что такое матрица нагрузок? 3. Как можно определить количество общих факторов? 4. Какова цель вращения факторного пространства? 5. В чем состоит геометрическая интерпретация метода главных компонент? Тема 7. 1.Как можно вычислять расстояние между объектами? 2. Определите способы измерения расстояний между кластерами. 3. Применяются ли иерархические и параллельные кластер-процедуры при решение задач с большими объемами наблюдений? 4.В чем состоит идея метода К-средних? Тема 8. 1. Для контекста, представленного таблицей A 1 2 3 4 5 X X X b x с x x D X X X x X x x построить множество всех понятий, диаграмму решетки понятий 2. Для решетки, представленной следующей диаграммой: 8 а) определить множества - и -неразложимых элементов J(V) и M(V); б) составив контекст (J(V), M(V), ), где - отношение частичного порядка в решетке, построить его решетку понятий; в) указать (стрелками) отображение, устанавливающее соответствие между исходной решеткой и полученной решеткой понятий. 3. Для многозначного контекста a a b C B B C C 1 2 3 5 3 5 4 4 да нет да нет да да нет нет + + + + - провести номинальное шкалирование первого и третьего признаков, порядковое шкалирование второго признака (со значениями порядковой шкалы 2 , 3, 4) 1 2 3 4 5 2 3 Х х Х х х 4 Х Х Х Х и дихотомическое шкалирование 4-го и 5-го признаков. 4. Как выражены признаковые импликации на диаграмме решетки понятий? 5. Для контекста, представленного таблицей 1 2 3 4 a x b x x c x x d x x 9 а) построить решетку понятий; б) определить (объяснив ответ), имеют ли место признаковые импликации ac b, cb a, bd c; в) привести еще, как минимум, три нетривиальные импликации, выполняющиеся в контексте (импликация A B называется тривиальной если B A). 6. Для множества импликаций a b, b cd, d e построить контекст с множеством признаков {a,b,c,d,e}, в котором выполняются только эти импликации (и те, которые следуют по ним по правилам Армстронга). 7. По многозначному контексту a r s s t 1 2 3 4 b s r r t c t t s r d t t s r построить бинарный контекст, в котором импликации синтаксически совпадают с функциональными зависимостями в исходном многозначном контексте. 8. По контексту, представленному таблицей 1 2 3 4 a x b x x c x x d x x построить многозначный контекст, для которого множество функциональных зависимостей синтаксически совпадает с множеством импликаций в исходном контексте, с использованием всех значений из множества натуральных чисел от 1 до 7. 9. Каков размер минимального базиса ассоциативных правил? 10. Как построить минимальный базис ассоциативных правил по диаграмме решетки понятий? 11. Для контекста, представленного таблицей a 1 2 3 4 5 x x x b x с x x d x x x x x x x построить множество ассоциативных правил вида X Y, удовлетворяющих свойству conf ½, X, Y M, X – минимальный генератор, Y – замкнутое множество признаков. 10 12. С помощью процедуры Attribute Exploration построить минимальный базис импликаций 1 2 3 4 5 a x x x x b x x x с x x x d x x x x считая, что "дополнительные знания" эксперта выражаются с помощью контекста 1 2 3 a b x x x с x d x x x Тема 9. 1. Каков размер минимального базиса ассоциативных правил? 2. Как построить минимальный базис ассоциативных правил по диаграмме решетки понятий? 3. Для контекста, представленного таблицей a 1 2 3 4 5 x x x b x с x x d x x x x x x x построить множество ассоциативных правил вида X Y, удовлетворяющих свойству conf ½, X, Y M, X – минимальный генератор, Y – замкнутое множество признаков. 4. С помощью процедуры Attribute Exploration построить минимальный базис импликаций 1 2 3 4 5 a x x x x b x x x с x x x d x x x x считая, что "дополнительные знания" эксперта выражаются с помощью контекста a 1 b с x d x 11 2 3 x x x x x 5. Можно ли найти все гипотезы для данных, представленных помеченными графами, с помощью алгоритма, имеющего в худшем случае временную сложность O(exp{(|E|+|V|)n}), где |E| - максимальное число ребер, а |V| - максимальное число вершин в графе из обучающей выборки размера n? 6. Сохраняет ли оператор проекции операцию пересечения? 12