Задача 1 Составить уравнение линейной регрессии (данные в табл.1). Также вычислить параметры и рассчитать линейный коэффициент корреляции и корреляционное отношение. Сравнить величину коэффициента корреляции и корреляционного отношения. Сформулировать выводы. Таблица 1 Исходные данные для задачи 1 Произведено, Месяц Цена за 1 т, тыс.руб млн.т. январь 82.46 279.7 февраль 80.13 71.4 март 63.42 242.8 апрель 76.17 76.3 май 75.13 74.7 июнь 74.84 210.7 июль 73.03 75.1 август 73.41 75.5 сентябрь 71.34 335.3 Решение 1) Требуется построить уравнение линейной регрессии, которое показывает зависимость объема произведенной продукций от цены за единицу продукции. Значит: Х – цена за 1 т, тыс.руб.; Y – объем произведенной продукции, млн.т. 2) Чтобы найти параметры уравнения линейной регрессии решается следующая система уравнений: Поэтому строим вспомогательную таблицу и находим коэффициенты при параметрах a и b, а также свободные члены уравнений. Таблица 2 Месяц январь февраль март апрель май июнь июль август сентябрь Сумма Вспомогательная расчетная таблица для построения линии регрессии Х Y X2 Y2 X*Y 82.46 279.7 6799.652 78232.090 23064.062 80.13 71.4 6420.817 5097.960 5721.282 63.42 242.8 4022.096 58951.840 15398.376 76.17 76.3 5801.869 5821.690 5811.771 75.13 74.7 5644.517 5580.090 5612.211 74.84 210.7 5601.026 44394.490 15768.788 73.03 75.1 5333.381 5640.010 5484.553 73.41 75.5 5389.028 5700.250 5542.455 71.34 335.3 5089.396 112426.090 23920.302 669.93 1441.5 448806.205 2077922.250 2077922.250 Получаем систему уравнений: 9𝑎 + 669.93𝑏 = 1441.5 669.93𝑎 + 448806.205𝑏 = 2077922.25 { Умножаем левую и правую стороны первого уравнения на − 669.93 9 В итоге имеем систему уравнений, которую решаем методом сложения: −669.93𝑎 − 49867.4𝑏 = −107300.46 669.93𝑎 + 448806.205𝑏 = 2077922.25 { 388938.849*b = 1970621.795 b= 1970621.795 388938.849 = 4.94 9𝑎 + 669.93𝑏 = 1441.5, откуда: 1441.5 − 669.93𝑏 1441.5 − 669.93 × 4.94 = = −207.55 9 9 Записываем уравнение линейной регрессии: 𝑎= Y = -207.55 + 4.94*X 3) Линейный коэффициент корреляции находим по формуле: 𝑟= ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅) (𝑌𝑖 − 𝑌̅) √∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 ∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅)2 Cтроим вспомагательную таблицу и находим необходимые суммы, предварительно рассчитав средние значения: ∑𝑛 𝑋 ̅ = 𝑖=1 𝑖 𝑋 𝑛 ∑𝑛𝑖=1 𝑌𝑖 ̅= 𝑌 𝑛 669.93 ̅ 𝑋= = 74.437 9 1441.5 ̅= 𝑌 = 160.167 9 Таблица 3 Вспомогательная расчетная таблица для вычисления линейного коэффициента корреляции (𝑌 − 𝑌̅) 119.533 (𝑋 − 𝑋̅ ) (𝑌 − 𝑌̅) январь 82.46 279.7 (𝑋 − 𝑋̅) 8.023 февраль 80.13 71.4 5.693 -88.767 -505.378 32.414 7879.521 март 63.42 242.8 -11.017 82.633 -910.344 121.367 6828.268 апрель 76.17 76.3 1.733 -83.867 -145.369 3.004 7033.618 май 75.13 74.7 0.693 -85.467 -59.257 0.481 7304.551 июнь 74.84 210.7 0.403 50.533 20.382 0.163 2553.618 июль 73.03 75.1 -1.407 -85.067 119.660 1.979 7236.338 август 73.41 75.5 -1.027 -84.667 86.924 1.054 7168.444 сентябрь 71.34 335.3 -3.097 175.133 -542.330 9.589 30671.684 Сумма 669.93 1441.5 -976.655 234.425 90964.260 Месяц Х 𝑟= Y −976.655 √234.425 × 90964.260 959.056 (𝑋 − 𝑋̅)2 (𝑌 − 𝑌̅)2 64.374 14288.218 = −0.21 По шкале Чеддока выясняем, что между объемом произведенной продукции и ценой за 1 т. существует слабая обратная статистическая связь. 4) Корреляционное отношение находим по формуле: 𝜎𝑥2 𝜌=√ 2 𝜎𝑦 𝜎𝑥2 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 234.425 = = = 26.047 𝑛 9 𝜎𝑦2 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 90964.260 = = = 10107.14 𝑛 9 𝜌=√ 26.047 = 0,05 10107.14 Если сравнивать коэффициент корреляции и корреляционное соотношение, то очевидно, что 𝜌 ≈ 𝑟 2 Выводы: Мы построили уравнение регрессии, которое показывает зависимость между объемом произведенной продукции и ценой за 1 т. Оно имеет вид: Y = -207.55 + 4.94*X. Также мы выяснили, что между факторной и зависимой переменной существует слабая обратная статистическая связь (линейный коэффициент корреляции = -0.21). Также мы нашли корреляционное соотношение и выяснили, что квадрат коэффициента корреляции приблизительно равен величине корреляционного соотношения. Задача 2 Составить уравнение регрессии по данным таблицы: Таблица 4 Исходные данные для задачи 2 № п/п. 1 2 3 4 5 6 Прибыль, тыс.руб 1200 2400 2480 1600 1750 1800 Затраты на 1 руб, руб 0.96 0.77 0.77 0.89 0.82 0.81 Решение 1) Требуется построить уравнение линейной регрессии, которое показывает зависимость объема произведенной продукций от цены за единицу продукции. Значит: Х – затраты за 1 руб, руб.; Y – прибыль, тыс.руб. 2) Чтобы найти параметры уравнения линейной регрессии решается следующая система уравнений: Поэтому строим вспомагательную таблицу и находим коэффициенты при параметрах a и b, а также свободные члены уравнений. Таблица 5 Вспомогательная расчетная таблица для построения линии регрессии № п/п. 1 2 3 4 5 6 Сумма Х 0.96 0.77 0.77 0.89 0.82 0.81 5.02 Y 1200 2400 2480 1600 1750 1800 11230 X2 0.9216 0.5929 0.5929 0.7921 0.6724 0.6561 4.228 Y2 1440000 5760000 6150400 2560000 3062500 3240000 22212900 X*Y 1152 1848 1909.6 1424 1435 1458 9226.6 Получаем систему уравнений: 6𝑎 + 5.02𝑏 = 11230 5.02𝑎 + 4.228𝑏 = 9226.6 { Умножаем левую и правую стороны первого уравнения на − 5.02 6 В итоге имеем систему уравнений, которую решаем методом сложения: −5.02𝑎 − 4.2𝑏 = −9395.77 5.02𝑎 + 4.228𝑏 = 9226.6 { 0.028*b = -169.167 b= −169.167 0.028 = -6056.1 6𝑎 + 5.02𝑏 = 11230 ,откуда: 11230 − 5.02𝑏 11230 − 5.02 × (−6056.1) = = 6938.6 6 6 Записываем уравнение линейной регрессии: 𝑎= Y = 6938.6 – 6056.1*X Вывод: Мы построили уравнение линейной регрессии, которое показывает нам зависимость прибыли от затрат в расчёте на 1 рубль. Если затраты в расчёте на 1 рубль будут равны 0.96, то Yрасч = 1124,4, а на самом деле они равны 1200, то есть отклонение от фактического результата составит всего 75 руб, что косвенно указывает на то, что модель пригодна для того, чтобы по ней производились расчёты, от которых зависит принятие некоторых важных решений. Задача 3 Зависимость между объемом произведенной продукции и балансовой прибылью по 10 предприятиям одной из отраслей промышленности характеризуется следующими данными: Объем реализованной продукции, Балансовая прибыль, млн.руб млн.руб 1 491.8 133.8 2 483 124.1 3 481.7 62.4 4 478.7 62.9 5 476.9 51.4 6 475.2 72.4 7 474.4 99.3 8 459.5 40.9 9 452.9 104 10 446.5 116.1 № предприятия Определите вид корреляционной зависимости, постройте уравнение регрессии, предварительно рассчитав его параметры, а также вычислите тесноту связи между показателями. Объясните полученные статистические характеристики. Решение 1) Для того чтобы определить вид корреляционной зависимости нужно построить диаграму рассеивания (корреляционное поле точок), по виду которого можно определить характер зависимости между факторной и зависимой переменными. В нашей задаче эта зависимость имеет такой вид: 160 140 Y 120 100 80 60 40 20 0 440 450 460 470 X 480 490 500 Разброс точек напоминает параболу. Аппроксимация всех точек на прямую невозможна, поэтому отсюда следует, что корреляционная зависимость нелинейная и представляет собой квадратическую функцию. 2) Строим уравнение квадратичной регрессии и рассчитываем ее параметры. Параметры квадратической регрессии находятся со следующей системы уравнений: 𝑛 𝑛 𝑛 𝑛𝑐 + 𝑏 ∑ 𝑥𝑖 + 𝑎 ∑ 𝑥𝑖 2 − ∑ 𝑦𝑖 = 0 𝑖=1 𝑛 𝑛 𝑖=1 𝑛 𝑖=1 𝑛 𝑐 ∑ 𝑥𝑖 + 𝑏 ∑ 𝑥𝑖 2 + 𝑎 ∑ 𝑥𝑖 3 − ∑ 𝑥𝑖 𝑦𝑖 = 0 𝑖=1 𝑛 𝑖=1 𝑛 𝑖=1 𝑛 𝑖=1 𝑛 𝑐 ∑ 𝑥𝑖 2 + 𝑏 ∑ 𝑥𝑖 3 + 𝑎 ∑ 𝑥𝑖 4 − ∑ 𝑥𝑖 2 𝑦𝑖 = 0 { 𝑖=1 𝑖=1 𝑖=1 𝑖=1 Поэтому строим вспомогательную таблицу и находим коэффициенты при параметрах a и b, а также свободные члены уравнений. Таблица 6 Вспомогательная расчетная таблица для построения квадратичной регрессии № предприятия X Y X2 X3 X4 X*Y X2*Y 1 491.8 133.8 241867.24 118950308.6 58499761785 65802.84 32361836.71 2 483 124.1 233289 112678587 54423757521 59940.3 28951164.9 3 481.7 62.4 232034.89 111771206.5 53840190177 30058.08 14478977.14 4 478.7 62.9 229153.69 109695871.4 52511413641 30110.23 14413767.1 5 476.9 51.4 227433.61 108463088.6 51726046958 24512.66 11690087.55 6 475.2 72.4 225815.04 107307307 50992432290 34404.48 16349008.9 7 474.4 99.3 225055.36 106766262.8 50649915065 47107.92 22347997.25 8 459.5 40.9 211140.25 97018944.88 44580205170 18793.55 8635636.225 9 452.9 104 205118.41 92898127.89 42073562121 47101.6 21332314.64 10 446.5 116.1 199362.25 89015244.63 39745306725 51838.65 23145957.23 Сумма 4720.6 867.3 2230269.74 1054564949 499042591452.76 409670.31 193706747.6 Записываем систему уравнений: { 10𝑐 + 4720.6𝑏 + 2230269.74a = 867.3 4720.6𝑐 + 2230269.74𝑏 + 1054564949a = 409670.31 2230269.74c + 1054564949b + 499042591452.7a = 193706747.6 Решим эту систему уравнений матричным методом. A*X = B X = A-1*В 10 𝐴 = ( 4720.6 2230269.74 4720.6 2230269.74 1054564949 2230269.74 1054564949 ) 499042591452.7 Сразу запишем обратную матрицу не расписывая этапов ее вычислений: −1 𝐴 165157.64712 = ( −706.29510 0.75442 −706.29510 3.02102 −0.00323 0.75442 −0.00323) 0.000003 867.3 В = ( 409670.31 ) 193706747.6 165157.64712 Х = ( −706.29510 0.75442 −706.29510 3.02102 −0.00323 867.3 29433.19 0.75442 −0.00323) × ( 409670.31 ) = ( −125.68 ) 193706747.6 0.134 0.000003 с = 29433.19 b = −125.68 a = 0.134 Модель квадратической регрессии запишется таким образом: Y = 0.134*X2 – 125.68*X + 29433.19 3) Тесноту связи (коэффициент корреляции для нелинейной параболической зависимости) между показателями Х и Y определим по такой формуле: 𝑌̂𝑥 – рассчётное значение Y по модели квадратичной регрессии: Y = 0.134*X2 – 125.68*X + 29433.19 Строим вспомогательную таблицу, предварительно находим значение величины Y. ̅= 𝑌 ∑𝑛𝑖=1 𝑌𝑖 𝑛 867.3 ̅= 𝑌 = 86.73 10 Таблица 7 Вспомогательная расчетная таблица для вычисления коэффициента корреляции для нелинейной параболической зависимости 𝑌̂𝑥 124.1 (𝑌 − 𝑌̅)2 2215.5849 1396.5169 138.630 91.383 (𝑌 − 𝑌̂𝑥 )2 23.330 1070.400 481.7 62.4 591.9489 86.169 564.944 4 478.7 62.9 567.8689 75.869 168.206 5 476.9 51.4 1248.2089 70.852 378.362 6 475.2 72.4 205.3489 66.912 30.115 7 474.4 99.3 158.0049 8 459.5 40.9 2100.3889 65.327 67.259 1154.133 694.807 9 452.9 104 298.2529 87.192 282.508 10 446.5 116.1 862.5969 117.706 2.580 Сумма 4720.6 867.3 867.300 4369.386 № предприятия X Y 1 491.8 133.8 2 483 3 𝑅 = √1 − 4369.386 9644.721 9644.721 = 0.74 Коэффициент корреляции для модели квадратичной регрессии высокий, что говорит о достаточно тесной связи между Х и Y. Вывод: мы построили квадратичную регрессию – один из видов нелинейной регрессии. Сначала мы выяснили по виду корреляционного поля точек, что лучше корреляционное отношение описывает квадратическая зависимость. Затем нашли коэффициенты уравнения квадратической регрессии и нашли уравнение этой нелинейной регрессии, его вид: Y = 0.134*X2 – 125.68*X + 29433.19. Связь между Х и Y тесная, о чем свидетельствует высокое значение коэффициента корреляции для нелинейной зависимости (он намного ближе к 1, чем к 0). Объяснение полученных статистических характеристик: Коэффициенты регрессии показывают вклад фактора в общую дисперсию, сама кривая регрессии (парабола) – показывает нам уравнение, которое лучше всего аппроксимирует точки, которые представлены корреляционным полем. Коэффициент корреляции показывает тесноту связи между фактором и зависимой переменной, в нашем случае между балансовой прибылью и объемом реализованной продукции.