МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ДИСЦИПЛИНЫ ОПД.Р.10 МНОГОМЕРНЫЕ СТАТИСТИЧЕСКИЕ МЕТОДЫ. ОСНОВНАЯ ОБРАЗОВАТЕЛЬНАЯ ПРОГРАММА ПОДГОТОВКИ СПЕЦИАЛИСТА ПО СПЕЦИАЛЬНОСТИ 010501 «Прикладная математика и информатика» 1.Цель, задачи, место курса в общей системе подготовки специалиста. Цель курса заключается в том, чтобы дать студентам научное представление о многомерных случайных величинах, а также о методах их исследования и использования математических методов при принятии решений в условиях неопределенности и риска с последующим применением последних в экономике и бизнесе. Задачи курса: Научить использовать методы корреляционного, дисперсионного, регрессионного, факторного анализа для построения различных эконометрических моделей; Выработать навыки работы со статистическими ППП. Научить содержательно интерпретировать формальные результаты. Научить использовать результаты анализа построенных моделей для прогноза и принятия обоснования экономических решений. Место курса в общей системе подготовки специалиста. Курс базируется на дифференциальном и интегральном исчислении, на линейной алгебре и теории вероятностей. Здесь развиваются идеи, с которыми студенты ознакомились при изучении математической статистики. Является основой для курсов эконометрики, теории рисков и моделирования рисковых ситуаций. Требования к уровню освоения содержания дисциплины Студенты должны знать: • Основные задачи и этапы многомерного статистического анализа. • Алгоритм отбора факторов для построения модели. • Методы исчисления устойчивых (робастных) оценок • Основные виды коэффициентов корреляции, их особенности. • Методы проверки значимости коэффициентов корреляции. Интервальное оценивание. • Особенности линейной модели множественной регрессии. Метод наименьших квадратов (МНК). • Метод главных компонент • Алгоритм выделения главных факторов • Методы вычисления расстояний между объектами и их группами. • Методы классификации наблюдений при наличии обучающих выборок • Алгоритм вычисления канонических корреляций и канонических величин Студенты должны уметь: • Применять методы многомерного статистического анализа в экономических исследованиях. • Видеть возможности использования многомерных статистических методов в профессиональной деятельности. • Проверять наблюдения на аномальность. • Производить идентификацию и спецификацию моделей. • Рассчитывать коэффициенты корреляции. • Проверять значимость коэффициентов корреляции. • Строить интервальные оценки параметров связи. • Получать оценки регрессионных моделей. • Получать и использовать матрицы индивидуальных значений главных компонент • Получать и использовать матрицы нагрузок. • Использовать методы вращения в факторном анализа. • Определять расстояние между объектами; определять расстояние между кластерами. • Проводить линейный дискриминантый анализ при наличии обучающих выборок. • Вычислять канонические корреляции • Применять статистические пакеты для решения практических задач. 2. Объем дисциплины и виды учебной работы Виды учебной работы в часах № п/п Шифр и наименование специальности Курс Семестр Трудоемкость Всего аудит. ЛК ПР/ СМ 1 010501 «Прикладная математика и информатика» 4 8 140 70 36 34 ЛБ Сам. работа 70 Вид итогового контроля (форма отчетности) зачет 3. Содержание дисциплины. 3.1. Разделы дисциплины и виды занятий (в часах). Примерное распределение учебного времени: Количество часов № Наименование раздела, темы п/п Общая Всего Сам. ЛК ПР/СМ труд-ть ауд. раб. Многомерные статистические 1 12 4 2 2 8 методы в измерении риска Анализ эффективности 2 16 8 4 4 8 инвестиций Множественный 3 21 12 6 6 9 корреляционный анализ Множественный регрессионный 4 17 8 4 4 9 анализ 5 Компонентный анализ 21 12 6 6 9 6 Факторный анализ 17 8 4 4 9 7 Кластерный анализ 17 8 4 4 9 8 Прикладные задачи 19 10 6 4 9 Всего 140 70 36 34 70 3.2. Содержание разделов дисциплины. Тема 1. Робастность и аномальность. Предмет и содержание курса «Многомерные статистические методы». Назначение, содержание и основные этапы многомерного статистического анализа. Применение многомерных статистических методов в социально-экономических исследованиях. Особенности анализа количественных и качественных показателей. Проблема размерности в многомерных методах исследования. Многомерные методы оценивания и статистического сравнения. Многомерное нормальное распределение, как основная модель современных многомерных методов. Робастность в многомерном статистическом анализе. Оценки Хубера, Пуанкаре и Винзора. Робастное оценивание при наличии асимметрии распределения экономических показателей. Проверка наблюдений на аномальность. Тема 2. Множественный корреляционный анализ. Корреляционный анализ многомерной генеральной совокупности, его назначение и место. Оценка ковариационной (корреляционной) матрицы. Оценки частных и множественных коэффициентов корреляции. Проверка значимости и построение доверительных областей. Тема 3. Множественный регрессионный анализ. Основные задачи регрессионного анализа. Линейная множественная регрессионная модель. Предпосылки и их нарушение. Выбор адекватного уравнения регрессии. Понятие о нелинейной регрессии. Уравнения регрессии в многомерной модели. Оценка вектора коэффициентов уравнения регрессии и остаточной дисперсии с помощью метода наименьших квадратов. Тема 4. Компонентный анализ. Модель, математическое обоснование и алгоритм метода главных компонент. Собственные векторы и собственные значения корреляционной матрицы и их использование для получения матрицы весовых коэффициентов. Квадратичные формы и главные компоненты. Главные компоненты двумерного, трехмерного и конечномерного пространства. Получение и использование матрицы индивидуальных значений главных компонент. Особенности регрессии на главные компоненты. Использование метода главных компонент в экономических и социологических исследованиях. Тема 5. Факторный анализ. Линейная модель факторного анализа. Различие предпосылок компонентного и факторного анализа. Основные проблемы факторного анализа. Факторное отображение и факторная структура. Компоненты дисперсии в факторном анализе. Преобразование корреляционной матрицы в факторном анализе. Методы расчета общностей. Получение и использование матрицы нагрузок и матрицы индивидуальных значений. Метод главных факторов. Получение первого главного фактора. Использование методов вращения. Регрессия на общие факторы. Сравнение результатов компонентного и факторного анализа. Экономическая интерпретация общих факторов. Использование факторного анализа в социально-экономических исследованиях. Тема 6. Кластерный анализ. Задача многомерной классификации объектов исследования. Классификация без обучения. Расстояние между объектами. Меры близости между объектами. Меры близости между кластерами. Классификация признаков на основе матриц коэффициентов статистической связи между ними. Иерархические кластерные процедуры. Метод К-средних. Метод параллельных процедур. Функционалы качества разбиения на классы. Зависимость выбора метода классификации от цели исследования. Классификация объектов (субъектов) в социальных и экономических исследованиях. Тема 7. Дискриминантный анализ. Классификация с обучением. Обучающие выборки. Математическое описание метода дискриминантного анализа. Линейный дискриминантный анализ при известных параметрах многомерного нормального закона распределения. Вероятность ошибочной классификации с помощью дискриминантной функции. Оценка качества дискриминантной функции и информативности отдельных признаков. Пошаговый дискриминантный анализ. Применение дискриминантного анализа в социально-экономических исследованиях. Тема 8. Канонические корреляции. Модель метода канонических корреляций. Канонические корреляции и канонические величины генеральной совокупностей и их оценивание. Интерпретация первого канонического коэффициента корреляции и соответствующих канонических величин. Тема 9. Интегральный статистический показатель качества сложной системы Индекс развития человеческого потенциала как интегральный показатель качества жизни населения. Математическая модель ИРЧП. 3.3. Темы для самостоятельного изучения. № Наименование раздела Форма п/п дисциплины. самостоятельной Тема. работы 1 2 3 4 5 6 7 8 9 10 11 Связь нахождения оптимальных стратегий с линейным программированием. Модель множественной регрессии Прогнозирование в регрессионных моделях Регрессия на главные компоненты Иерархические кластерные процедуры Факторный анализ. Формирование названия общего фактора Модель ковариационного анализа Линейный дискриминантный анализ при наличии k обучающих выборок Имитационная модель оценки риска Инвестиции в разработку полезных ископаемых Сравнительный анализ проектов различной продолжительности Колво часов контрольные работы 6 контрольные работы контрольные работы контрольные работы контрольные работы вопросы для самостоятельного изучения вопросы для самостоятельного изучения контрольные работы 6 вопросы для самостоятельного изучения контрольные работы вопросы для самостоятельного изучения Форма контроля выполнения самостоятельной работы проверка контрольных работ 6 проверка контрольных работ выполнение тестов 6 выполнение тестов 6 проверка контрольных работ проверка контрольных работ 6 8 проверка контрольных работ 8 выполнение тестов 6 выполнение тестов 6 проверка контрольных работ выполнение тестов 6 4. Содержание практических и лабораторных работ 4.1. Тематика и планы аудиторной работы студентов по изученному материалу (практические занятия и лабораторные работы). Практическое занятие №1. Методы исчисления устойчивых (робастных) оценок: Пуанкаре, Винзора, Хубера. Решение задач По статистическим наблюдениям проверить на «засорение», используя: критерий Граббса критерий Титьена-Мура рассчитать: среднюю арифметическую простую среднюю по Пуанкаре среднюю по Винзору сравнить полученные результаты сделать выводы Практическое занятие №2. Множественный корреляционный анализ. 1)Решение задач По представленным данным оценить параметры генеральной совокупности, которая предполагается нормально распределенной; проверить значимость частных коэффициентов корреляции, построить интервальную оценку найти точечную оценку множественного коэффициента корреляции и проверить его значимость сделать выводы 2)Выполнение тестов Практическое занятие №3. Множественная линейная регрессия. 1)Решение задач По статистическим данным рассчитать матрицу парных коэффициентов корреляции построить линейную регрессионную модель проверить значимость коэффициентов регрессии вычислить множественный коэффициент детерминации откорректировать модель (если требуется) проверить значимость полученного уравнения регрессии сделать выводы 2)Выполнение тестов Практическое занятие №4. Нелинейные регрессионные модели. 1)Решение задач По представленным выборочным данным найти вектор оценок коэффициентов регрессии, представленной показательной функцией логарифмической функцией гиперболой параболой сравнить полученные результаты Практическое занятие №5. Компонентный анализ. 1)Решение задач По представленным выборочным данным провести компонентный анализ: рассчитать выборочные характеристики нормировать данные составить и решить характеристическое уравнение рассчитать матрицы собственных значений и собственных векторов рассчитать матрицы факторных нагрузок и значений главных компонент построить уравнение регрессии на главных компонентах найти вектор оценок коэффициентов регрессии проверить значимость полученного уравнения регрессии проверить значимость коэффициентов регрессии сделать выводы 2)Выполнение тестов Практическое занятие №6. Факторный анализ. 1)Решение задач По матрице парных коэффициентов корреляции вычислить редуцированную корреляционную матрицу методом наибольшего элемента по строке (столбцу); среднего коэффициента корреляции; триад; первого центроидного фактора сравнить полученные результаты вычислить первый и второй главные факторы сделать выводы 2)Выполнение тестов Практическое занятие №7. Кластерный анализ. 1)Решение задач По представленным данным провести классификацию объектов по иерархическому агломеративному алгоитму с использованием обычного евклидова расстояния взвешенного евклидова расстояния Хемминогова расстояния принципа «ближайшего соседа» принципа центра тяжести принципа Варда сравнить полученные результаты построить дендрограммы сделать выводы 2)Выполнение тестов Практическое занятие №8. Дискриминантный анализ. 1)Решение задач По данным двух обучающих выборок определить, к какому классу относятся новые объекты По данным трех обучающих выборок определить, к какому классу относятся новые объекты 2)Выполнение тестов Практическое занятие №9. Канонические корреляции. 1)Решение задач По двум группам статистических данных вычислить первую пару канонических величин и каноническую корреляцию оценить значимость канонических корреляций Практическое занятие №10. Интегральный показатель качества жизни. 1)Решение задач По статистическим данным Мурманской области построить интегральный показатель качества жизни населения в 1999-2005 годах определить тенденцию сделать выводы 5. Учебно-методическое обеспечение дисциплины. 5.1. Рекомендуемая литература: Основная литература 1. Дубров А. М. Многомерные статистические методы: для экономистов и менеджеров. Учеб. Для студ.спец.вузов/ Дубров А.М., Мхитарян В.С., Трошин Л.И – М.: Финансы и статистика, 2003 гриф 2. Глинский, В. В. Статистический анализ : учеб. пособие для студ. вузов экон. профиля / В. В. Глинский, В. Г. Ионин. - 3-е изд., перераб. и доп. - М. : ИНФРАМ;Новосибирск:Сибирское соглашение, 2002. [Гриф] 3. Медик, В. А. Математическая статистика в медицине: учеб. пособие для студ. вузов/ В. А. Медик, М. С. Токмачев.- М..: Финансы и статистика, 2007. гриф. 4. Экономико-статистический анализ: учеб.пособие для студ. экон. спец. вузов/ Ильенкова С.Д., Ильенкова Н.Д., Орехов С.А. – М.: Юнити-Дана, 2002 гриф Дополнительная литература 1. Айвазян С.А., Бежаева Э.И., Староверов О.В. Классификация многомерных наблюдений. М., Статистика, 1974. 2. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Методы исследования зависимостей. М., Финансы и статистика, 1983, т.1. 3. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. М., Финансы и статистика, 1985, т.2. 4. Дубров A.M., Мхитарян B.C., Трошин Л.И. Многомерный статистический анализ в экономических исследованиях. М., МЭСИ, 1988. 5. Иберла К. Факторный анализ. М., Статистика, 1980. 6. Кендалл М., Стьюарт А. Многомерный статистический анализ и временные ряды. М. Наука. 1976. 7. Корнилов И.А. Исследование зависимостей с помощью пакетов программ статистического анализа для ЕС ЭВМ. М., МЭСИ, 1988. 8. Мандель И.Д. Кластерный анализ. М., Финансы и статистика, 1988. 9. Носко В.П. Эконометрика для начинающих. М. ИЭПП. 2000. 252 с. 10. Смоляк С.А., Титаренко Б.П. Устойчивые методы оценивания. М., Статистика, 1980. 11. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. М. Инфра-М. 2003. – 544 с. 12. Харман Г. Современный факторный анализ. М., Статистика, 1972. 6. Примерные зачетные тестовые задания. 1. Известно, что при фиксированном значении х3 между величинами х1 и х2 существует положительная связь. Какое значение может принять частный коэффициент корреляции r12/3 а) -0,8; б) 0; в) 0,4; г) 1,3. 2. По результатам п=20 наблюдений получен частный коэффициент корреляции r12(3) = 0,8 . Определите, чему при уровне значимости α=0,05 равна разность между наблюдаемым (r12(3)) и критическим (rkp) значениями коэффициентов корреляции: а) -0,513; б) 0,344; в) 0,700; г) 0,133. 3. Известно, что х3 усиливает связь между величинами х1 и х2. По результатам наблюдений получен частный коэффициент корреляции r12(3) = -0,45. Какое значение может принять парный коэффициент корреляции r12: а) 0,4; б) 0,2; в) -0,8; г) 1,2. 4. По результатам п=10 наблюдений рассчитан частный коэффициент корреляции r12(3) = 0,83 и с доверительной вероятностью γ=0,95 найдена интервальная оценка 0,37≤ r12(3)≤0,96. Какое значение принимает верхняя граница доверительного интервала а) 0,94; б) 0,98; в) 0,39; г) 0,27. 5. По результатам п=20 наблюдений рассчитан r13(2) = 0,62 и найден при γ =0,95 доверительный интервал 0,23≤ r12(3)≤0,83. Какое значение примет нижняя граница доверительного интервала для п=10 если γ и r13(2) остались неизменными: а) 0,45; б) 0,20; в) 0,32; г) 0,89. 6. Множественный коэффициент корреляции R1(2,3) = 0,8. Определите, какой процент дисперсии величины x1 объясняется влиянием х2 и х3 а) 28%; б) 32%; в) 64%; г) 80%. 7. По результатам 20 наблюдений найден множественный коэффициент корреляции R1(2;3) =0,8. Проверьте значимость множественного коэффициента корреляции, т.е. гипотезу Но: R1(2;3) =0 при α =0,05 и определите разность между наблюдаемым Fнабл и критическим Fkp значениями статистики критерия: а) 2,8; б) -13,6; в) 9,4; г) 11,5. 8. Какое значение может принимать коэффициент детерминации: а) -0,5; б) -0,2; в) 0,4; г) 1,2. 9. Какое значение может принять множественный коэффициент корреляции: а) -0,5; б) -1; в) 0; г) 1,2. 10. По результатам n=25 наблюдений получен парный коэффициент корреляции r12 = 0,6. Известно, что х3 занижает связь между х1 и х2. Какое значение может принять частный коэффициент корреляции r12(3): а) -0,5; б) -0,6; в) 0,5; г) 0,8. 11. Какие требования в модели регрессионного анализа предъявляются к распределению ошибок наблюдения εi, а именно к их математическому ожиданию Мεi, и дисперсии Dεi: a)Mεi =l;Dεi,=σ2; б) Мεi =0; D εi =0; в) Мεi,=0; Dεi = σ 2; г)Mεi =l;Dεi =0. 12. Что минимизируется согласно методу наименьших квадратов: n а) ( yi y ) n 2 б) i 1 yi yˆi n в) i 1 yi yˆi i 1 13. Дана ковариационная матрица вектора 0 5.52 0.08 3.45 1 ; Sˆb 0.08 0.01 0.04 3.045 0.04 2.21 2 Чему равна оценка дисперсии элемента 2 вектора , т.е. а) 5,52; б) 0,04; в) 0,01; г) 2,21. n г) ( yi yˆi )2 i 1 14. При исследовании зависимости себестоимости продукции y от объема выпуска x1 и производительности труда х2 по данным n=20 предприятий получено уравнение регрессии: у - 2,88 - 0,72x1-l,51x2 и среднеквадратические отклонения коэффициентов регрессии: sb1 = 0,052 и sb2 = 0,5. Можно ли при уровне значимости α=0,05 утверждать, что значимы коэффициенты регрессии: а) 1 ; б) 2 ; в) оба значимы; г) оба не значимы. 15. По данным теста 14 определите с доверительной вероятностью γ=0,99 на какую величину максимально может измениться себестоимость продукции у, если объем производства x1 увеличить на единицу: а) -0,6; б) 0,72; в) -1,5; г) -0,83. 16. Уравнению регрессии у= 2,88 - 0,72x1 -1,51x2 соответствует множественный коэффициент корреляции Ry (, 2) = 0,84 . Какая доля вариации результативного показателя у (в %) объясняется входящими в уравнение регрессии переменными х1 и х2 а) 70,6; б) 16,0; в) 84,0; г) 29,4. 17. По данным n=15 фирм исследована зависимость прибыли y от числа работающих x вида у = ˆ0 + ˆ1 х. Была получена оценка остаточной дисперсии ŝ = 2,2 и 2 T обратная матрица: ( X X ) 1 0.31 0.03 0.03 0.05 2 Определите чему равна дисперсия оценки коэффициента регрессии ŝˆ 1 а) 1,500; б) 0,110; в) 0,682; г) 0,242. 18. По данным n=25 регионов получена регрессионная модель объема реализации медикаментов на одного жителя y в зависимости от доли городского населения х1 и числа фармацевтов х2 на 10 тыс. жителей: y = 11,7 + 0,06 х1 +0,42 х2 и среднеквадратические 2 2 отклонения коэффициентов регрессии ŝˆ = 0,04 и ŝˆ = 0,14. Начиная с какого уровня 1 2 значимости α можно утверждать, что у зависит от доли городского населения x1: а) 0,3; б) 0,2; в) 0,1; г) 0,05. 19. По данным теста 18 определите, чему равна при доверительной вероятности γ=0,95 верхняя граница интервальной оценки коэффициента регрессии при х2 а) 0,13; б) 0,2; в) 0,65; г) 0,71. 20. Финансовая устойчивость предприятия характеризуется p=8 показателями. В результате расчетов получены собственные значения трех первых главных компонент: λ1=4,0; λ2=1,6 и λ3=0,8. Чему равен относительный вклад 2-х первых главных компонент (в %): а) 30; б) 70; в) 60; г) 80. 0.72 0.69 0.08 21. Дана матрица факторных нагрузок: A 0.88 0.44 0.19 . Чему равен 0.96 0.12 0.24 относительный вклад второй главной компоненты f2 в суммарную дисперсию (в %): а) 74; б) 37; в) 4; г) 23. 22. В каких пределах меняются элементы матрицы факторных нагрузок А: а)(-1;0); б) (0,1); в) (-1, 1); г)(0;2). 0.72 0.69 0.08 23. Дана матрица факторных нагрузок A 0.88 0.44 0.19 0.96 0.12 0.24 Чему равен парный коэффициент корреляции между переменной х3 и второй главной компонентой z2 а) 0,12; б) 0,96; в) -0,24; г) 0,19. 0.79 0.61 0.79 0.61 24. Дана матрица факторных нагрузок A Чему равен коэффициент корреляции между переменными х (1) и х(2): а) 0,75; б) 1,25; в) 0,25; г) -0,25. 25. При исследовании взаимосвязи двух показателей х(1)и х(2) получен коэффициент корреляции r12=0,9. Чему равно собственное значение λ1, соответствующее первой главной компоненте: а) 0,1; 6)1,9; в) 1,8; г) 0,2. 26. Деятельность п предприятий региона характеризуется четырьмя показателями. При проведении компонентного анализа по матрице R получены собственные значения, одно из которых оказалось пропущенным: 1,2; 1,4 и 0,6. Чему равно собственное значение λ3 соответствующее третьей главной компоненте: а) 2,5; б) 1,2; в) 0,6; г) 0,8. 27. В кластер S1 входят 4 объекта, расстояние от которых до объекта №5 составляет соответственно: 2, 5, 6, 7. Чему равно расстояние от объекта №5 до кластера S1, если исходить из принципа «ближайшего соседа»: а) 2; б) 5; в) 6; г) 7. 28. Определить по данным теста 1 расстояние от объекта 5 до кластера Si, исходя из принципа «дальнего соседа»: а) 2; 6)5; в) 6; г) 7. 29. Чему равно по данным теста 27 расстояние от объекта S1, исходя из принципа «средней связи»: а) 2; б) 5; в) 6; г) 7. 30. Расстояние между пятью объектами (n=5) характеризуется матрицей расстояний: 0 2.2 D 3.0 5.1 5.8 2.2 0 1.4 5.0 6.4 3.0 1.4 0 6.4 7.8 5.1 5.0 6.4 0 2.0 5.8 6.4 7.8 2.0 0 Чему равно расстояние между кластерами S1,2 и S3,4,5, в которые входят соответственно объекты (1,2) и (3,4,5), если исходить из принципа средней связи: а) 4,45; б) 3,37; в) 4,89; г) 2,86 31. Данные о четырех фирмах, деятельность которых характеризуется показателями х(1) и х(2), представлены в таблице i 1 2 3 4 (1) х 1 7 1 9 (2) х 5 9 3 7 Чему равно расстояние ρE(1,2) между 1-ми 2-м объектами, если в качестве метрики принять обычное евклидово расстояние: а) 3,78; 6)9,34; в) 7,21; г) 5,19. 7. Примерный перечень вопросов к зачету (экзамену). 1. Предмет и метод многомерного статистического анализа. Роль многомерных методов статистического анализа в социально-экономических исследования. 2. Многомерное нормальное распределение. Свойства. 3. Робастное оценивание при наличии ассимметрии распределения экономических показателей. 4. Методы исчисления устойчивых (робастных) оценок: Пуанкаре, Винзора, Хубера. 5. Виды коэффициентов корреляции. Проверка значимости и построение доверительных областей. 6. Оценку вектора коэффициентов уравнения регрессии и остаточной дисперсии с помощью метода наименьших квадратов. 7. Линейная множественная регрессионная модель. Предпосылки регрессионного анализа. 8. Кластерный анализ как метод многомерной классификации. Методы определения расстояний между объектами исследования. 9. Определение расстояния между кластерами в кластерном анализе. 10. Характеристики близости объектов и показателей в кластерном анализе. Функционалы качества разбиения. 11. Иерархические кластер-процедуры. 12. Метод k- средних. 13. Метод параллельных кластер-процедур. 14. Сущность метода дискриминантного анализа. Обучающие выборки. 15. Линейный дискриминантный анализ при наличии k-выборок. 16. Оценка качества дискриминантной функции и информативности отдельных признаков. 17. Метод главных компонент в ряду методов многомерной классификации. Регрессия на главные компоненты. 18. Математическая модель метода главных компонент. Алгоритм метода. Получение матрицы весовых коэффициентов, собственные значения и собственные векторы. 19. Квадратичные формы и главные компоненты. Главные компоненты двумерного и трехмерного пространства. 20. Линейная модель факторного анализа. Факторное отображение и факторная структура. 21. Преобразование матрицы парных коэффициентов корреляции в факторном анализе. Методы расчета общностей. 22. Метод главных факторов. Получение первого главного фактора. 23. Методы вращения факторной структуры. 24. Модель метода канонических корреляций. Канонические корреляции и канонические величины генеральной совокупности и их оценивание. 25. Построение интегрального показателя качества сложной системы на примере социальной системы. 8. Практикум по решению задач. Примеры решения задач. Задача №1 На основе данных средней производительности труда (выработка на одного работающего) 10 предприятий подотрасли. Проверить наличие грубых ошибок. Выработка рабочих № предприятия 1 2 3 4 5 6 7 8 9 10 Выработка 12 11 13 12 14 12 18 15 14 13 Решение 1. Составим вариационный ряд: 11,12,12,12,13,13,14,14,15,18. Наибольшее значение равно x(10=18. 2. Вычислим среднее значение: x =13,4. 3. Определим оценку среднего квадратического отклонения: S=1,91. 4. Наибольшее значение T(10) 18 13.4 2.41 1.91 5. По табл.8 для N=10 определим Са= С0.05 =2,294. 6. Проверим гипотезу Но С0.05<Т(10), т.е. 2,294<2,41. Следовательно, гипотеза об однородности ряда отвергается. Значение выработки на одного работающего на предприятии № 7 является нетипичным, Это значение можно считать грубой ошибкой при уровне значимости=0,05. Задача №2 Деятельность п = 8 карьеров характеризуется себестоимостью 1т. песка (X1), сменной добычей песка (Х2) и фондоотдачей (Х3). Значения показателей представлены в таблице. X1 (тыс.руб.) 30 20 40 35 45 25 50 30 Х2 (тыс.руб.) 20 30 50 70 80 20 90 25 Х3 20 25 20 15 10 30 10 20 Требуется: 1. Оценить параметры генеральной совокупности, которая предполагается нормально распределенной; 2. При =0.05 проверить значимость частных коэффициентов корреляции 1,2 / 3 , 1,3/ 2 , 2,3/1 . При =0.95 построить интервальную оценку для 1,3/ 2 . 3. Найти точечную оценку множественного коэффициента корреляции =0.05 проверить его значимость. 1/ 2,3 и при Решение: 1. Найдем значения средних арифметических ( x j ) и среднеквадратических отклонений ( s j ) где j =1, 2, 3, а также парных коэффициентов корреляции r12, r13 и r23 по формулам: 30 20 40 35 45 25 50 30 34.275 тыс. руб. 8 x2 =48.125 x3 =18.75 s1 =9,49 s2 = 26,68. s3 = 6,48 x1 x1x2 x1x2 1875 34.375 48.125 = 0.871 s1s2 9.49 26.68 1 n 1 где x1x2 xi1xi 2 (30 * 20 20 *30 40 *50 ... 30 * 25) = 1875 n i 1 8 r12 В результате расчетов получим 0.871 0.874 34.38 9.49 1 x 48.12 ; s 26.68 ; R 0.871 1 0.879 18.75 6.48 0.874 0.879 1 2. Предварительно найдем точечные оценки частных коэффициентов корреляции из выражения r1,2 / 3 R12 R11R22 где R12 - алгебраическое дополнение элемента r12 корреляционной матрицы R, а R11 и R22 алгебраические дополнения 1-го и 2-го диагонального элемента этой матрицы R12 (1)3 R22 (1) 4 0.871 0.879 0.874 1 1 0.874 0.874 1 0.103 R11 (1) 2 0.236 r1,2 / 3 1 0.879 0.879 1 0.227 0.103 0.445 0.227 * 0.236 Аналогично находим: и r23/1 =-0.494 Для проверки значимости частных коэффициентов корреляции найдем rкр. ( =0.05, v=n-c-2= 5)=0.754, где c- порядок коэффициента корреляции (число фиксированных признаков). В нашем примере c= 1. Так как r <rкр.=0.754, то гипотезы Н0: =0 не отвергаются, т. е. предположение о равенстве его нулю не противоречит наблюдениям, но п = 8 мало. Определим интервальную оценку для 1,3/ 2 при =0.95. Для этого используем Zr13/2=-0.462 преобразование Фишера и предварительно найдем интервальную оценку для Z из условия: 1 Z Z t nc3 По таблице Z-преобразования Фишера для r13/2=-0.462, учитывая, что Z'(-r)= -Z'(r), будем иметь Z'(-0,462) = -0.497. По таблице нормального закона из условия Ф(t)=0.95 найдем t=l.96. Тогда Z 0.497 1.96 1 , откуда Z [-1.477,0.483]. 84 По таблице Z - преобразования для Zmin= -1,477 и Zmax=0.483 найдем интервальную оценку для 1,3/ 2 : 1,3/ 2 [-0.9,0.45]. Полученная интервальная оценка подтверждает вывод о незначимости частного коэффициента корреляции 1,3/ 2 , т. к. ноль находится внутри доверительного интервала. 3. Найдем точечную оценку множественного коэффициента корреляции при =0.05 проверим его значимость. 1/ 2 ,3 и Точечная оценка определяется по формуле: r1/ 2,3 1 R , где R - определитель корреляционной матрицы R11 R = 1+0.871(-0.879)(-0.874)+0.871(-0.879)(-0.874) - (0.874)2- 0.8712- (-0.879)2 =0.043 r1/ 2,3 1 0.043 0.90 0.227 Проверим гипотезу Н0: 1/ 2 ,3 =0 1 2 r1/ 2,3 k 1 Fí àáë. 1 2 (1 r1/ 2,3 ) nk 0.81 2 10.66 , где с=2. Критическое значение по 0.19 5 таблице F - распределения Fкр. ( =0.05, V1 =2, V2 =5) = 5.79 Т. к. Fнабл.>Fкр., то гипотеза Н0 отвергается, т. е. множественный коэффициент корреляции не равен нулю ( 1/ 2 ,3 0). Задача №3 По данным n=20 сельскохозяйственных районов требуется построить регрессионную модель урожайности на основе следующих показателей: Y - урожайность зерновых культур (ц/га); X1 - число колесных тракторов (приведенной мощности) на 100 га; Х2 - число зерноуборочных комбайнов на 100 га; Х3 - число орудий поверхностной обработки почвы на 100 га; Х4 - количество удобрений, расходуемых на гектар; Х5 - количество химических средств оздоровления растений, расходуемых на гектар. Исходные данные для анализа приведены в таблице Исходные данные для анализа Номер Y X1 X2 X3 X4 X5 наблюдения 1 9.70 1.59 0.26 2.05 0.32 0.14 2 8.40 0.34 0.28 0.46 0.59 0.66 9.00 2.53 0.31 2.46 0.30 0.31 4 9.90 4.63 0.40 6.44 0.43 0.59 5 9.60 2.16 0.26 2.16 0.39 0.16 6 8.60 2.16 0.30 2.69 0.32 0.17 7 12.50 0.68 0.29 0.73 0.42 0.23 8 7.60 0.35 0.26 0.42 0.21 0.08 9 6.90 0.52 0.24 0.49 0.20 0.08 10 13.50 3.42 0.31 3.02 1.37 0.73 11 9.70 1.78 0.30 3.19 0.73 0.17 12 10.70 2.40 0.32 3.30 0.25 0.14 13 12.10 9.36 0.40 0.38 11.51 0.39 14 9.70 1.72 0.28 2.26 0.82 0.17 15 7.00 0.59 0.29 0.60 0.13 0.35 16 7.20 0.28 0.26 0.30 0.09 0.15 17 8.20 1.64 0.29 1.44 0.20 0.08 18 8.40 0.09 0.22 0.05 0.43 0.20 19 20 13.10 8.70 0.08 1.36 0.25 0.26 0.03 1.17 0.73 0.99 0.20 0.42 Решение. Предварительно, с целью анализа взаимосвязи показателей построена таблица парных коэффициентов корреляции R. Y X1 X2 Х3 X4 X5 1.00 0.43 0.37 0.40 0.58 0.33 0.43 1.00 0.85 0.98 0.11 0.34 0.37 0.85 1.00 0.88 0.03 0.46 0.40 0.98 0.88 0.03 0.28 1.00 0.58 0.11 0.03 0.03 1.00 0.57 0.33 0.34 0.46 0.28 0.57 1.00 Анализ матрицы парных коэффициентов корреляции показывает, что результативный показатель наиболее тесно связан с показателем X4- количеству удобрений, расходуемых на гектар (ry4=0.58). В то же время связь между признаками-аргументами достаточно тесная. Так, существует практически функциональная связь между числом колесных тракторов (X4) и числом орудий поверхностной обработки почвы (Х3) – r13=0.98. О наличии мультиколлинеарности свидетельствует также коэффициенты корреляции r12=0.85 и r32=0.88 Чтобы продемонстрировать отрицательное влияние мультиколлинеарности, рассмотрим регрессионную модель урожайности, включив в нее все исходные показатели: y=3.515 - 0.006X1 + 15.542Х2 + 110Х3 + 4.475Х4 - 2.932Х5 (-0.01) (0.72) (0.13) (2.90) (-0.95) В скобках указаны tнабл(bj), расчетные значения t - критерия для проверки гипотезы о значимости коэффициента регрессии Н0: j=0, j=l, 2, 3, 4, 5. Критическое значение tkp=1.76 найдено по таблице t - распределения при уровне значимости =0.1 и числе степеней свободы v=14. Из уравнения следует, что статистически значимым является коэффициент регрессии только при Х4 так как |t4| =2.90>tkp=l.76. He поддаются экономической интерпретации отрицательные знаки коэффициентов регрессии при X1и Х5, из чего следует, что повышение насыщенности сельского хозяйства колесными тракторами (X1) и средствами оздоровления растений (Х5) отрицательно сказывается на урожайности. Таким образом, полученное уравнение регрессии не приемлемо. После реализации алгоритма пошагового регрессионного анализа с исключением переменных и учетом того, что в уравнение должна войти только одна из трех тесно связанных переменных (X1, X2 или Х3) получаем окончательное уравнение регрессии: Y =7.342 + 0.345Х! + 3. (11.12) (2.09) (3.02) В уравнение включен X1, как определяющий из трех показателей. Уравнение значимо при =0.05, т.к. Fнабл=266>FKp=3.20, найденного по таблице F-распределения при =0.05; V1=3 и V2=17. Значимы и все коэффициенты регрессии:в уравнении |tj|>tKp| ( =0.05; v=17) = 2.11. Коэффициент регрессии 1 следует признать значимым из экономических соображений при этом t1=2.09 лишь незначительно меньше tkp=2.11. При =0.1 tkp =1.74 и 1 статистически значим. Из уравнения регрессии следует, что увеличение на 1 числа тракторов на 100 га пашни приводит к росту урожайности зерновых в среднем на 0.345 ц/га (b1=0.345). Коэффициенты эластичности Э1=0.068 и Э4=0.161 показывают, что при увеличении показателей X1 и Х4 на 1% урожайность зерновых повышается соответственно на 0.068% и 0.161%. Ý j b j xj y Множественный коэффициент детерминации r2у =0.469 свидетельствует о том, что только 46.9% вариации урожайности объясняется вошедшими в модель показателями (X1 и Х4, то есть насыщенностью растениеводства тракторами и удобрениями. Остальная часть вариации обусловлена действием неучтенных факторов (Х2, Х3, X5, погодных условий и др.). Средняя относительная ошибка аппроксимации 10.5% характеризует адекватность модели, также как и величина остаточной дисперсии S =1.97. Задача №4 По данным о численности (x1) и фонде зарплаты (х2) строительных организаций провести компонентный анализ. 3 6 x 8 2 7 4 5 9 3 6 Решение: Рассчитаем выборочные характеристики переменных: x1 5.2 s1 2.315 x2 5.4 s2 2.059 х, =5,2 Si=2,315 х2=5,4 s2=2,059 Выборочный коэффициент корреляции равен: r x1x2 x1x2 32.4 5.2*5.4 0.906 s1s2 2.315* 2.059 Преобразуем матрицу X в матрицу нормированных значений Z 0.950 .0680 0.346 0.194 Z 1.210 1.748 1.382 1.166 0.778 0.291 Матрица парных коэффициентов корреляции имеет вид: 0.906 1 R 1 0.906 Для определения собственных значений матрицы R, рассмотрим характеристическое уравнение (12). 0.906 0 1 0.906 1 0 0.906 1 0 0.906 1 Отсюда следует, (1 )2 0.9062 0 или 1 0.906 Т.к. по условию компонентного анализа 1 2 , то 1 1.9062; 2 0.0938 1 , 2 соответственно дисперсии и вклад 1-й и 2-й главных компонент в суммарную дисперсию, равную 1 2 k 2 . где Относительный вклад компонент в суммарную дисперсию равен: 1 1.9062 100% 95.3% k 2 2 0.094 100% 100% 4.7% k 2 100% Таким образом, 0 1.0962 0.0938 0 Определим матрицу собственных векторов из уравнения ( R E ) 0 . Откуда собственный вектор V1 находим из условия: 1 1 0.906 V11 0 0.906 1 V 0 1 21 Подставляя полученные значения получим: 1 V1 1 Нормированный собственный вектор, соответствующий U1 1 , равен 1 2 1 2 1 1 Аналогично найдем собственный вектор V2 Откуда, 0,9062V 12+0,9062V22=0 или -Vi2=V22, V2= Нормированный собственный вектор, соответствующий 2 равен: 1 2 U1 1 2 тогда нормированная матрица собственных векторов имеет вид: U 1 2 1 2 1 2 0.707 0.707 1 0.707 0.707 2 Матрицу факторных нагрузок найдем по формуле: A U 1/ 2 , где 1/ 2 1 0 0 2 Подставив полученные значения, получим: 0.9763 0.2166 A 0.9763 0.2166 Матрицу факторных нагрузок используют для интерпретации главных компонент, т.к. элементы матрицы a jv rjv характеризуют тесноту связи между xj-м признаком и fv главной компонентой. В нашем примере первая главная компонента тесно связана с показателями x1 и x2, f1 - характеризует размер предприятия. Матрицу значений главных компонент F можно получить по формуле: F Z ( AT )1 ZU 1/ 2 0.835 0.624 0.077 1.246 F 1.515 1.544 1.305 0.500 0.547 1.122 Как уже отмечалось, матрица F, которую мы получили, характеризует пять строительных организаций в пространстве главных компонент. Ее можно использовать в задачах классификации и регрессионного анализа. Например, классификация организаций по первой главной компоненте f1, характеризующих размер предприятия, позволяет их ранжировать в порядке возрастания следующим образом: 1; 4; 2; 5; 3, что согласуется с матрицей X. Задача №5 В результате решения задачи, имеющей семь признаков, получено два общих фактора. Необходимо определить: 1) вклады общих и характерного факторов в дисперсию признаков, %; 2) вклад всех семи признаков в каждый общий фактор, %; 3) вклад каждого общего фактора в суммарную дисперсию, построить график вкладов признаков в каждый из общих факторов, %; 4) составить таблицу относительного вклада факторов в суммарную дисперсию. Матрица А весовых коэффициентов общих факторов имеет вид: 0.90 0.80 0.60 0.50 0.50 0.30 0.20 A 0.30 0.30 0.30 0.20 0.50 0.60 0.80 Признаки z j матрицы A отображены на рис.1. (25) Рис. 1. Признаки, отображенные в пространстве общих факторов Пояснения. Первая строка данной матрицы представляет собой вектор весовых коэффициентов первого общего фактора. Вторая строка матрицы А - вектор весовых коэффициентов второго общего фактора. Так, а13 является весовым коэффициентом связи 2 между признаком z3 и первым общим фактором, а a13 0.36 - вклад третьей переменной в дисперсию первого общего фактора. Решение 1. Определим вклады общих и характерного факторов в дисперсию признаков. а) вклад первого признака в дисперсию первого фактора составит 2 2 a11 0.902 0.81 , а его вклад во второй фактор - a21 0.302 0.09 . Следовательно h1 a11 a21 0.81 0.09 0.90 ,. а d1 1 0.90 0.10 Результаты расчетов представлены в табл. 1. Таблица 1 2 2 Расчетные значения h j ; d j 2 2 2 2 № переменной j a12j a22 j А 1 2 3 4 5 6 1 0,81 0,64 0,36 0,25 0,25 0,09 2 0,09 0,09 0,09 0,04 0,25 0,36 h2j a12j a22 j 3 0,90 0,73 0,45 0,29 0,50 0,45 d 2j 1 h2j 4 0,10 0,27 0,55 0,71 0,50 0,55 7 0,04 0,64 0,68 0,32 2. Определим вклады признаков: а) в дисперсию первого общего фактора. За 100% принимаем дисперсию первого общего фактора. Дисперсия первого фактора равна сумме элементов табл. 2 7 1 V1 a12j 2.44 j 1 Вклад первого признака в дисперсию первого фактора составит 2 a11 0.81 0.3320 0.33 V1 2.44 б) в дисперсию второго общего фактора. За 100% принимаем дисперсию второго общего фактора 7 2 V2 a22 j 1.56 j 1 Вклад первой переменной в дисперсию второго фактора a122 0.09 0.0577 0.06 V2 1.56 в) составим таблицу вкладов переменных в дисперсию общих факторов (табл. 2). Таблица 2 Вклады признаков в дисперсии общих факторов Вклады признаков, % № фактора r z1 z2 z3 z4 z5 z6 z7 1 33 26 15 10 10 4 2 2 6 6 6 2.5 16 23 41 3. Рассчитаем вклады общих факторов в суммарную общность и определим: а) суммарную общность 7 h2j V0 V1 V2 2.44 1.56 4.00 j 1 б) вклад первого фактора в суммарную общность: V1 / V0 2.44 / 4.00 0.61 в) вклад второго фактора в суммарную общность: 1 V1 / V0 1 0.61 0.39 г) вклады каждого признака в общность первого и второго факторов с точностью до 1% (табл.3). Для этого надо вклад каждого признака (табл.3) умножить на вес 2 соответствующего фактора в суммарной общности процесса, или значения a1 j и a22 j (табл.2) разделить на суммарную общность (4,0). Таблица 3 Вклады признаков с учетом вкладов факторов в суммарную общность Вклады признаков, % № фактора r z1 z2 z3 z4 z5 z6 z7 1 20 16 9 6 6 2 1 2 2 2 2 1 6 9 16 График вкладов признаков в каждый из общих факторов самостоятельно. 4. Составим итоговую таблицу долей дисперсий факторов (табл.4). Таблица 4 Доли дисперсий факторов № фактора r А 1 2 3 4 Наименование дисперсии 1 Дисперсия процесса (полная дисперсия) Дисперсия первого фактора Дисперсия второго фактора Значение вклада 3 7,00 Вклад, % 4 100 V1 a12j 2,44 34,86 V2 a22 j 1,56 22,29 4,0 57,14 Формула 2 ŝ 2 7 Общность процесса V0 (суммарная общность) j 1 7 j 1 7 h2j V1 V2 j 1 7 Vx d 2j Суммарная 3,0 42,86 j 1 характерная дисперсия Следует отметить, что дисперсия процесса равна 7 и совпадает с числом признаков. Дисперсия каждого нормированного признака равна 1, поэтому полная дисперсия при семи показателях равна 7. Естественно, что Vx V0 4.0 3.0 7.0 . Необходимо также заметить, что весь анализ дисперсий был проведен только на основе заданной матрицы весовых коэффициентов общих факторов. Значит, значение общих факторов однозначно определяет значения весовых коэффициентов характерных факторов. 5 Задача №6 Провести классификацию п=6 объектов, каждый из которых характеризуется двумя признаками. Номер 1 2 3 4 5 6 объекта i Xil 5 6 5 10 11 10 Xi2 10 12 13 9 9 7 Расположение этих точек на плоскости показано на рис. 2. Рис. 2 Воспользуемся агломеративным иерархическим алгоритмом классификации. В качестве расстояния между объектами примем обычное евклидово расстояние. Тогда согласно (1) расстояние между объектами 1 и 2 равно 12 (5 6) 2 (10 12) 2 2.24 , а между объектами 1 и 3 - 13 (5 5) 2 (10 13) 2 3 , очевидно, что ii 0 Аналогично находим расстояния между всеми шестью объектами и строим матрицу расстояний 2.24 3 5.10 6.08 0 2.24 0 1.41 5 5.83 3 1.41 0 6.40 7.21 D 5 6.40 0 1 5.10 6.08 5.83 7.21 1 0 2 2.24 5.83 640 7.81 5.83 6.40 7.81 2 2.24 0 Из матрицы расстояний следует, что объекты 4 и 5 наиболее близки d4,5=l,00 и поэтому по методу «ближайшего соседа» объединяются в один кластер. После объединения имеем пять кластеров Номер кластера 1 2 3 4 5 (1) (2) (3) (4,5) (6) Состав кластера Расстояние между кластерами будем находить по принципу "ближайшего соседа", воспользовавшись формулой пересчета (15). Так, расстояние между объектом S1 и кластером S(4,5) равно 5.10 Мы видим, что расстояние Ρ 1, (4,5) равно расстоянию от объекта 1 до ближайшего к нему объекта, входящего в кластер S(4,5), т.е. Ρ 1,(45) = Ρ 1,4 =5,10- Тогда матрица расстояний равна 2.24 3 5.10 5.83 0 2.24 0 1.41 5 6.40 D2 3 1.41 0 6.40 7.81 5 6.40 0 2 5.10 5.83 6.40 7.81 2 0 Объединим объекты 2 и 3, имеющие наименьшее расстояние Ρ2.3 =1,41. После объединения имеем четыре кластера: S(i), S(2,3), S(4,5), S(6). Вновь найдем матрицу расстояний. Для этого необходимо рассчитать расстояние до кластера s(2,3)- Для этого воспользуемся матрицей расстояний D2. Например, расстояние между кластерами s(4,5) и S(2,3) равно: Проведя аналогичные расчеты, получим 2.24 5.10 5.83 0 2.24 0 5 6.40 D3 5.10 5 0 2 2 0 5.83 6.40 Объединим кластеры S(4,5) и S(6), расстояние между которыми согласно матрице D3 наименьшее. В результате этого получим три кластера Si, S(2,3) И S(4,5,6)Матрица расстояний будет иметь вид 2.24 5.10 0 D4 2.24 0 5 5.10 5 0 Объединим теперь кластеры S1 и S23, расстояние между которыми равно 2,24. В результате получим два кластера: S(i,2,3) S(4,5,6), расстояние между которыми, найденное по принципу "ближайшего соседа", равно 5 Результаты иерархической классификации объектов представлены на рис. 3 в виде дендрограммы. ρ 5.00 2.24 2.00 1.41 1.00 1 2 3 4 Рис. 3. Дендрограмма 5 6 Слева на рисунке приводится расстояние между объединяемыми на данном этапе кластерами (объектами). В задаче предпочтение следует отдать предпоследнему этапу классификации, когда все объекты объединены в два кластера S(l,2,3) и S(4,5,6), что наглядно видно на рис. 2 и 3. Задача №7 Пусть имеются шесть объектов, которые необходимо разбить на три класса (кластера) при помощи метода k-средних. Каждый из объектов описывается тремя переменными Х1, Х2 X3. Исходные значения этих переменных представлены в таблице Исходные данные Номер X1 X2 X3 объекта 1 0,10 10 5,0 2 0,80 14 2,0 3 0,40 12 3,0 4 0,18 11 4,0 5 0,25 13 3,2 6 0,67 15 2,4 В качестве эталонов возьмем первые три объекта (k = 3). Согласно выбранному правилу классификации запишем исходные значения эталонов и весов: E10 X 1 (0.10,10,5.0); 10 1 E20 X 2 (0.80,14,2.0); 20 1 — нулевая итерация. E30 X 3 (0.40,12,3.0); 30 1 На первом шаге берем четвертый объект и определяем его расстояние до каждого из эталонов по евклидовой метрике: d41 =1,416, d42 =3,222, d43 = =1,431. Следовательно, рассматриваемый объект должен быть присоединен к первому эталону и первый эталон будет пересчитан, а второй и третий не меняются: 10 E10 X 4 0.10 0.18 10 11 5 4 E , , (0.14,10.5,4.5); 2 2 2 10 1 11 10 1 1 1 где Х4 — вектор значений переменных для четвертого объекта, Е\ — пересчитанное значение эталона; На втором шаге проверяем, к какому эталону ближе всего находится пятый объект: d5l =2.820, d52=1.656, d53=1.031 П ятый объект присоединяется к третьему эталону, этот эталон пересчитывается и вес его увеличивается: 0.40 0.25 13 12 3 3.2 2 1 E32 , , (0.325,12.5,3.1); 3 3 1 2 2 2 На третьем шаге все рассуждения повторяем для шестого объекта: d61 =4,994, d62=1.085, d63=2.619 Пересчитываем второй эталон и его вес: 0.80 0.67 14 15 2 2.4 3 2 E23 , , (0.735,14.5,2.2); 2 2 1 2 2 2 После того как просмотрены все объекты, кроме первых трех, процесс «зацикливается», т.е. по тому же правилу осуществляются просмотр и присоединение к соответствующему эталону каждого из шести объектов. При этом происходит пересчет эталонов и продолжается наращивание их весов. Результаты расчетов, начиная с четвертой итерации, представлены в таблице. Итак, на этом процесс завершается, так как последующее разбиение (интерации 16—21) дали такой же результат, как и предыдущее разбиение (итерации 10—15). Образованы три кластера: S1 {1}, S2{2, 6}, S3 {3, 4, 5}. Вычисляем центры тяжести полученных кластеров, причем в общем случае эти центры не совпадают с эталонами: С1= (0,10; 10; 5,0) — центр 1 кластера, С2 = (0,735; 14,5; 2,2) — центр 2 кластера, С3 = (0,277; 12,00; 3,4) - центр 3 кластера. После этого строится окончательное разбиение: каждая многомерная точка относится к тому кластеру, центр которого ближе всех к этой точке. Для нашего примера определяем поочередно расстояния всех точек (Х1, X2, X3, Х4, Х5, Х6) до центров трех кластеров. Как видно из табл. 4, подтверждается полученное разбиение на три кластера: S1 {1}, S2{2, 6}, S3 {3, 4, 5}. На этом алгоритм завершается. Параметрические данные кластеризации объектов методом k- средних Номер итерации Эталоны и их веса 1 2 3 4 (0.127, 7, 4.7) (0.735, 14.5, 2.2) (0.325, 12.5, 3.1) 3 2 2 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Номер объекта (0.127, 7, 4.7) 3 (0.127, 7 ,4.7) 3 (0.140, 8, 4.3) 4 (0.140, 8, 4.3) 4 (0.132, 8.4, 4.44) 5 (0.126, 5.72, 4.55) 6 (0.126, 5.72, 4.55) 6 (0.126, 5.72, 4.55) 6 (0.126, 5.72, 4.55) 6 (0.126, 5.72, 4.55) 6 (0.126, 5.72, 4.55) 6 (0.122, 8.9, 4.61) 7 (0.122, 8.9, 4.61) 7 (0.122, 8.9, 4.61) 7 (0.122, 8.9, 4.61) 7 (0.122, 8.9, 4.61) 7 (0.122, 8.9, 4.61) 7 1 Расстояния до центров классов Объекты Центры кластеров 1 2 3 4 С1 0 5,049 2,844 1,416 С2 5,338 0,542 2,646 3,939 С3 5,920 2,497 0,418 1,169 (0.757, 14.33, 2.133) 3 (0.757, 14.33, 2.133) 3 (0.757, 14.33, 2.133) 3 (0.735, 14.5, 2.2) 4 (0.735, 14.5, 2.2) 4 (0.735, 14.5, 2.2) 4 (0.748, 14.4, 2.16) 5 (0.748, 14.4, 2.16) 5 (0.748, 14.4, 2.16) 5 (0.748, 14.4, 2.16) 5 (0.735, 14.5, 2.2) 6 (0.735, 14.5, 2.2) 6 (0.744, 14.43, 2.17) 7 (0.744, 14.43, 2.17) 7 (0.744, 14.43, 2.17) 7 (0.744, 14.43, 2.17) 7 (0.735, 14.5, 2.2) 8 2,6 5 3,502 1,867 1,020 (0.325, 12.5, 3.1) 2 (0.35, 12.33, 3.07) 3 (0.35, 12.33, 3.07) 3 (0.35, 12.33, 3.07) 3 (0.35, 12.33, 3.07) 3 (0.35, 12.33, 3.07) 3 (0.35, 12.33, 3.07) 3 (0.36, 12.25, 3.050 4 (0.324, 12, 3.24) 5 (0.312, 12.17, 3.23) 6 (0.312, 12.17, 3.23) 6 (0.312, 12.17, 3.23) 6 (0.312, 12.17, 3.23) 6 (0.324, 12.14, 3.20) 7 (0.306, 12.00, 303) 8 (0.3, ,12.11, 3.29) 9 (0.3, ,12.11, 3.29) 9 3,4,5 6 5,664 0,542 3,187 Задача №8 Деятельность каждого производственного объединения отрасли оценивалась по следующим трем показателям: • среднегодовой стоимости основных производственных фондов (ОПФ); • среднесписочной численности промышленно-производственного персонала (ППП); • балансовой прибыли. В отрасли выделены две группы: передовая, состоящая из четырех объединений, и остальная, включающая пять объединений. Отрасли передано объединение Z, у которого по принятым трем показателям получены следующие результаты: стоимость ОПФ - 55,451; численность ППП - 9,592 тыс.человек; балансовая прибыль -12,840. Определить, можно ли отнести новое объединение к передовой группе предприятий отрасли. Решение 1. Запишем исходные данные в виде матриц X и Y согласно (9) и (10). Исходные данные Показатели Стоимость Численность Балансовая Группа ОПФ ППП прибыль объединений 224,228 17,115 22,981 151,827 14,904 21,481 Передовая 147,313 13,627 28,669 152,253 10,545 10,199 46,757 4,428 11,124 29,033 5,510 6,091 Остальная 52,134 4,214 11,842 37,050 5,527 11,873 63,979 4,211 12,860 224.228 17.115 22.981 151.827 14.904 21.481 X 147.313 13.627 28.669 152.253 10.545 10.199 46.751 4.428 11.124 29.033 2.210 6.091 Y 52.134 4.214 11.842 37.050 5.527 11.873 63.979 4.211 12.860 строка матрицы Z: Zr= (55,451 2. Получим векторы средних 9,592 12,840). 168.92025 45.7926 X 14.04775 ; Y 4.778 20.8324 10.758 3. Определим оценку ковариационных матриц 1025.61 55.66575 28.94475 S x 5.6468625 10.27365 44.879675 145.8666 6.60952 22.78694 S y 0.371782 0.902484 5.750302 4. Получим несмещенную оценку суммарной ковариационной матрицы 690.25328 27.087914 32.816242 1 Sˆ (4S x 5S y ) 3.4923371 5.2260257 452 29.752887 5. Определим обратную матрицу 0.0020945371 0.017349116 0.00073714 Sˆ 0.53214303 0.07433441 0.04565381 1 6. Найдем вектор оценок коэффициентов дискриминации a 7. Вычислим оценки дискриминантной функции 12.437003 55.346433 13.486817 43.457381 ˆ ˆ U x Xa ; U 12.46277 39.3990544 y 13.571031 36.113833 13.555623 8. Определим средние значения оценок дискриминантной функции uˆx 43.577047; uˆ y 13.102648 9. Получим константу 1 Cˆ (43.577047 13.102648) 28.339847 2 10. Определим возможность включения объединения Z в группу •передовых. Так как матрица Z представлена одной строкой, то Uˆ y обозначим Uˆ z . Uˆ z a1z1 a2 z2 a3 z3 23.69 Среднее значение дискриминантной функции меньше чем константа, следовательно, объединение z не может быть отнесено к группе передовых предприятий Задачи для самостоятельного решения: Задача №1 Выработка на одного работающего в строительно-монтажных организациях описывается логарифмически нормальным распределением. Из чего следует, что логарифм величины выработки имеет нормальное распределение P(ln x; m, ) 1 x 2 e (ln x m )2 2 2 , ãäå x 0 с дисперсией и средней т. В таблице представлены центрированные значения логарифма выработки. Центрированные значения логарифма выработки в строительно-монтажных организациях 2 ln xi m № ln xi m № № ln xi m № ln xi m ln xi m № организ орган орган органи орган ации изаци изаци зации изаци и и и 1 -0,13 4 0,03 7 -0,60 10 -0,02 13 0,04 2 0,08 5 0,21 8 -0,06 11 -0,19 14 0,17 3 0,43 6 -0,09 9 -0,09 12 -0,10 15 0,27 Построить вариационный ряд и выявить не являются ли крайние правое или левое значения грубыми ошибками. Задача №2 По данным n=10 машиностроительных предприятий методами корреляционного анализа исследуется взаимосвязь между следующими показателями: x1 - рентабельность (%); x2 - премии и вознаграждения на одного работника (млн.руб.); х3 - фондоотдача. № п/п x1 x2 х3 1 13,26 1,23 1,45 2 10,16 1,04 1,30 3 13,72 1,80 1,37 4 12,82 0,43 1,65 5 10,63 0,88 1,91 6 9,12 0,57 1,68 7 25,83 1,72 1,94 8 23,39 1,70 1,89 9 14,68 0,84 1,94 10 10,05 0,60 2,06 Требуется: а) рассчитать вектора средних и среднеквадратических отклонений, матрицу парных коэффициентов корреляции ( x , s, R); б) проверить при =0,05 значимость парного коэффициента корреляции 1,2 и найти его интервальную оценку с доверительной вероятностью =0,95; в) по корреляционной матрице R рассчитать частные коэффициенты корреляции г) проверить при =0,05 значимость частного коэффициента корреляции 1,2 / 3 и определить его интервальную оценку при =0,95; д) по корреляционной матрице R вычислить оценку множественного коэффициента корреляции r1/ 2,3 и при =0,05 проверить гипотезу Н0: r1/ 2,3 =0. Задача №3 На основании данных о темпе прироста (%) внутреннего национального продукта (У) и промышленного производства (X) десяти развитых стран мира за 1992г., приведенных в таблице и предположения, что генеральное уравнение регрессии имеет вид: страны Y X Япония 3,5 4,3 США зд 4,6 Германия 2,2 2,0 Франция 2,7 3,1 Италия 2,7 3,0 Великобритания 1,6 1,4 Канада Австралия Бельгия Нидерланды 3,1 1,8 2,3 2,3 3,4 2,6 2,6 2,4 Требуется: а) определить оценки вектора b и остаточной дисперсии S; б) при =0,05 проверить значимость уравнении регрессии; в) при =0,05 проверить значимость коэффициентов уравнения; г) с доверительной вероятностью =0,9 построить интервальные оценки; д) с доверительной вероятностью =0,9 построить интервальные оценки 1 3 уравнения регрессии в точках, определяемых вектором начальных условий х°= 1 5 х°= Задача №4 По данным n=20 сельскохозяйственных районов провести компонентный анализ и построить уравнение регрессии урожайности Y на главные компоненты. Y - урожайность зерновых культур (ц/га); X1 - число колесных тракторов (приведенной мощности) на 100 га; Х2 - число зерноуборочных комбайнов на 100 га; Х3 - число орудий поверхностной обработки почвы на 100 га; Х4 - количество удобрений, расходуемых на гектар; Х5 - количество химических средств оздоровления растений, расходуемых на гектар. Исходные данные для анализа приведены в таблице Исходные данные для анализа Номер Y X1 X2 X3 X4 X5 наблюдения 1 9.70 1.59 0.26 2.05 0.32 0.14 2 8.40 0.34 0.28 0.46 0.59 0.66 9.00 2.53 0.31 2.46 0.30 0.31 4 9.90 4.63 0.40 6.44 0.43 0.59 5 9.60 2.16 0.26 2.16 0.39 0.16 6 8.60 2.16 0.30 2.69 0.32 0.17 7 12.50 0.68 0.29 0.73 0.42 0.23 8 7.60 0.35 0.26 0.42 0.21 0.08 9 6.90 0.52 0.24 0.49 0.20 0.08 10 13.50 3.42 0.31 3.02 1.37 0.73 11 9.70 1.78 0.30 3.19 0.73 0.17 12 10.70 2.40 0.32 3.30 0.25 0.14 13 12.10 9.36 0.40 0.38 11.51 0.39 14 9.70 1.72 0.28 2.26 0.82 0.17 15 7.00 0.59 0.29 0.60 0.13 0.35 16 7.20 0.28 0.26 0.30 0.09 0.15 17 8.20 1.64 0.29 1.44 0.20 0.08 18 8.40 0.09 0.22 0.05 0.43 0.20 19 13.10 0.08 0.25 0.03 0.73 0.20 20 8.70 1.36 0.26 0.99 0.42 1.17 Задача №5 С целью изучения помощи факторного анализа взаимосвязей между восемью показателями по данным n=305 наблюдений была построена матрица парных 2 коэффициентов корреляции R. Требуется определить h j , используя следующие методы: 1) наибольшего элемента по строке (столбцу); 2) среднего коэффициента корреляции; 3) триад; 4) первого центроидного фактора. Составить таблицу и построить график по полученным результатам. Сравнить полученные результаты с данными Хармана. (См.: Харман Г. Современный факторный анализ / Пер. с англ. - М.: Статистика, 1972) Матрица парных коэффициентов корреляции R представлена в виде треугольной, хотя она является симметрической. x2 x3 x4 x5 x6 x7 x8 xg x1 xj x1 x2 x3 x4 x5 x6 x7 x8 1 0,846 0,805 0,859 0,473 0,398 0,301 0,382 1 0,881 0,826 0,376 0,326 0,277 0,415 1 0,801 0,380 0,319 0,237 0,345 1 0,436 0,329 0,327 0,365 1 0,762 1 0,730 0,583 1 0,629 0,577 0,539 1 Задача №6 По иерархическому агломеративному алгоритму провести классификацию n=4 хозяйств, работа которых характеризуется показателями объема реализованной продукции: x1 - растениеводства и х2 - животноводства с одного гектара пашни (млн.руб/га). Построить дендрограмму. номер хозяйства 1 2 3 4 Хi1 1 7 1 9 Xi2 5 9 3 7 Для этого: а) в качестве расстояния между объектами принять обычное евклидово расстояние, а расстояние между кластерами измерять по принципу "средней связи"; б) в качестве расстояния между объектами принять взвешенное евклидово расстояние с "весами" 1 =0,l, 2 =0,9, а расстояние между кластерами измерять по принципу "дальнего соседа"; в) в качестве расстояния между объектами принять обычное евклидово расстояние, а расстояние между кластерами измерять по принципу "центра тяжести".