ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ Государственное образовательное учреждение высшего профессионального образования Томский политехнический университет Утверждаю Декан ХТФ _______________В.М.Погребенков «_____» _______________2006 г. МЕТОДЫ КОРРЕЛЯЦИОННОГО И РЕГРЕССИОННОГО АНАЛИЗА ПРИ ОБРАБОТКЕ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ Методические указания к выполнению лабораторной работы по дисциплине «Методы кибернетики химико – технологических процессов» для студентов специальности 240802 «Основные процессы химических производств и химическая кибернетика» Томск 2006 г. УДК 618.5:66.01 Методические указания к выполнению лабораторной работы по дисциплине «Методы кибернетики химико – технологических процессов» для студентов специальности 240801. Томск, ТПУ, 2006.– с. Составитель О. Е. Мойзес Рецензент к. х. н. Н. В. Ушева Методические указания рассмотрены и рекомендованы методическим семинаром кафедры химической технологии топлива Зав. каф. Кравцов А. В. 2 1. ЦЕЛЬ РАБОТЫ Целью данной работы является: – освоить статистические методы обработки экспериментальных данных при исследовании химических процессов. – получить вид теоретической зависимости физико–химических (теплофизических) свойств соединения и проверить соответствие полученного уравнения регрессии эксперименту. обработать экспериментальные данные ХТП, получить вид функциональной зависимости и оценить ошибку аппроксимации. В результате исследований, предусмотренных ходом выполнения лабораторной работы, студенты должны решить следующие задачи: 1. Разработать алгоритм и программу расчета коэффициента парной корреляции и коэффициентов уравнения регрессии (по методу наименьших квадратов). Оценить погрешность вычислений по найденному уравнению регрессии. 2. Используя программу EXCEL исследовать возможность описания экспериментальных данных различными теоретическими зависимостями. 3. Выбрать (и обосновать) функциональную зависимость наилучшим образом описывающую экспериментальные данные. 4. Получить функциональную зависимость по имеющимся экспериментальным данным ХТП. 2. ЭКСПЕРИМЕНТАЛЬНО – СТАТИСТИЧЕСКИЕ МОДЕЛИ При отсутствии достаточного объема информации о моделируемом объекте уравнения математического описания могут представлять собой систему эмпирических зависимостей, полученных в результате статистического обследования объекта, и имеют вид регрессионных соотношений между входными и выходными параметрами объекта. В этом случае в структуре уравнений статистических моделей не отражаются физические свойства объекта моделирования. Основным источником информации является эксперимент, а обработка экспериментальных данных осуществляется методами теории вероятностей и математической статистики. Объект представляется в виде «черного ящика» (рис. 1). W1 W2 x1 x2 xn xi – входные параметры; yi – выходные параметры Wi – случайные воздействия, “шумы” Рисунок 1.- Схематическое изображение объекта WL y1 y2 ym Объект Математической моделью служит функция отклика, связывающая выходной параметр с входными: Y F(x 1 , x 2 ,..., x n ) (1) или в виде полинома k k k j 1 j 1 j 1 Y 0 j x j uj xu x j jj x 2j .... (2) Поскольку в реальном процессе всегда существуют «шумы», изменение величины y носит случайный характер, поэтому при обработке экспериментальных данных 3 получаются так называемые выборочные коэффициенты регрессии b , являющиеся оценками теоретических коэффициентов . Уравнение регрессии, полученное на основании опыта, запишется следующим образом: k k k j1 j1 j1 Y b 0 b jx j b ujx u x j b jj x 2j ...., (3) Вид уравнения регрессии обычно задается. Для получения статистических моделей в виде полиномов на основе данных, собранных в пассивном эксперименте используют методы корреляционного и регрессионного анализов. 2.1. Методы корреляционного и регрессионного анализов Методы корреляционного и регрессионного анализов широко применяются для выявления и описания зависимостей между случайными величинами по экспериментальным данным и базируются на теории вероятности и математической статистике. Корреляционный анализ основывается на предпосылке о том, что переменные величины y (выходной параметр) и xi (факторы) являются случайными величинами и между ними может существовать так называемая корреляционная связь, при которой с изменением одной величины изменяется распределение другой. Для количественной оценки тесноты связи служит выборочный коэффициент корреляции. n ( x i x ) ( y i y) rxy i 1 (4) , (n 1) S x S y 1 n xi , N i 1 1 n y yi , n i 1 где x S 2x , S 2y выборочные дисперсии: S 2x (x i x i ) 2 , N 1 (y i y i ) 2 2 Sу . N 1 При вычислении коэффициента корреляции удобно пользоваться следующими формулами: (x i x)( y i y) x i y i x i yi , N ( x i ) 2 1 N 2 2 2 2 ( N 1)S x x i ( x i ) ; S x N N 1 2 2 ( y i ) y i 1 N ( N 1)S 2y y i2 ( y i ) 2 ; S 2y N N 1 x i2 (5) где N – число опытов. 4 Выявить наличие или отсутствие корреляции между двумя величинами можно путем визуального анализа полей корреляции и оценкой величины выборочного коэффициента корреляции. На рис. 2 показаны примеры корреляции между случайными величинами. у у у х а) сильная корреляция х х б) слабая корреляция в) нет корреляции Рис. 2.Виды корреляции между случайными величинами Для независимых случайных величин коэффициент корреляции равен нулю, но он может быть равен нулю для некоторых зависимых величин, которые при этом называются некоррелированными. Коэффициент корреляции характеризует не всякую зависимость, а только линейную. Если случайные величины x и y связаны точной функциональной линейной зависимостью y b 0 b1 x , то rxy 1. . В общем случае, когда величины связаны произвольной стохастической зависимостью, коэффициент корреляции может иметь значение в пределах 1 rxy 1. Регрессионный анализ – предполагает (рассматривает) связь между зависимой (случайной) величиной y и независимыми (неслучайными) переменными x1,…,xi. Эта связь представляется с помощью математической модели, т. е. уравнения, которое связывает зависимую и независимую переменные. Обработка экспериментальных данных при использовании корреляционного и регрессионного анализа дает нам возможность построить статистическую математическую модель в виде уравнения регрессии. Постановка задачи. По данной выборке объема n найти уравнение приближенной регрессии и оценить допускаемую при этом ошибку, то есть нужно найти ŷ f ( x ) . Эта задача решается методами корреляционного и регрессионного анализа. По сгущениям точек (рис.3) можно найти определенную зависимость, т.е. получить вид уравнения регрессии. а) линейная б) нелинейная Рис.3. Виды регрессии 5 Если разброс точек значительный, то регрессии не будет. Следовательно, методы корреляционного и регрессионного анализа тесно связаны между собой. Вид уравнения регрессии зависит от выбираемого метода приближения. Обычно используется метод наименьших квадратов. n F y i f ( x i ) 2 min или i 1 (6) 2 n F ( y i ŷ i ) min i 1 где y i , ŷ i экспериментальные и расчетные значения выходного параметра, соответственно. Рассмотрим различные случаи приближенной регрессии. Линейная статистическая модель (линейная регрессия от одного параметра) При моделировании химико – технологических процессов (ХТП) во многих случаях связь между входными (x) и выходными (y) параметрами можно аппроксимировать линейным полиномом (зависимостью). ŷ b 0 b1 x i , (7) Для получения вида математической модели необходимо определить коэффициенты уравнения регрессии b0 и b1. Для этого применяется метод наименьших квадратов. n F ( y i b 0 b1 x i ) 2 min. i1 (8) Таким образом, процедура нахождения коэффициентов регрессии сводится к задаче определения минимума функции. Необходимое условие минимума функции является равенство нулю частных производных функции по исходным величинам (коэффициентам). n F 2 ( y i b 0 b1 x i ) 1 0, b i 1 0 (9) n F 2 ( y i b 0 b1 x i ) x i 0. b1 i 1 n n y i b 0 n b1 x i 0, i 1 i 1 n n n ( y i x i ) b 0 x i b1 x i2 0. i 1 i 1 i 1 (10) 6 n n b n b x y i, 0 1 i i 1 i 1 n n n b 0 x i b1 x i2 ( x i y i ). i 1 i 1 i 1 (11) Решая систему уравнений, выражаем коэффициенты b0 и b1. n y i 1 n b0 n x i i i 1 n ( xi yi ) xi2 i 1 i 1 n x n n i 1 i 1 i 1 n i 1 i 1 n x xi i 1 i 1 n x x i n yi xi2 xi ( xi yi ) i i 1 n n n 2 i n 2 (12) 2 i i 1 n yi n i 1 n n (x i yi ) xi b1 i 1 i 1 n xi n n i 1 n i 1 i 1 xi n n n i 1 i 1 i 1 2 n (x i yi ) x i yi n n n x i2 x i i 1 i 1 (13) xi 2 После вычисления коэффициентов необходимо провести статистический анализ полученного уравнения регрессии с целью проверки модели на адекватность. Статистические модели в виде нелинейных полиномов. Параболическая регрессия. При составлении статистических моделей ХТП часто возникает необходимость использовать уравнения нелинейной формы, в частности полином второй степени. ŷ b 0 b1 x b 2 x 2 (14) Коэффициенты регрессии определяем по методу наименьших квадратов. n F y i b 0 b1 x i b 2 x i2 i1 2 min . (15) 7 Приравняем к нулю частные производные функции по коэффициентам b0, b1, b2. n F 2 y i b 0 b1 x i b 2 x i2 1 0, b 0 i 1 n F 2 y i b 0 b1 x i b 2 x i2 x i 0, (16) b1 i 1 n F 2 y i b 0 b1 x i b 2 x i2 x i2 0. b 2 i 1 Выполнив преобразования, получим систему линейных уравнений с тремя неизвестными (b0, b1,b2). n n n 2 b n b x b x yi , 0 1 i 2 i i 1 i 1 i 1 n n n n 2 3 b 0 x i b1 x i b 2 x i x i y i , i 1 i 1 i 1 i 1 n n n b x 2 b x 3 b x 4 n x 2 y . i i i 1 i 2 i 0 i 1 i 1 i 1 i 1 (17) Введем обозначения: n n i 1 i 1 S1 x i ; S 2 x i2 n n n ; S 5 y i ; S 6 x i y i ; n S3 x 3i ; S 4 x i4 ; i 1 n i 1 S 7 x i2 y i . (18) i 1 i 1 i 1 С учетом принятых обозначений система будет иметь следующий вид: b 0 n b1 S1 b 2 S2 S5 , b 0 S1 b1 S2 b 2 S3 S6 , b S b S b S S . 1 3 2 4 7 0 2 (19) Определим неизвестные коэффициенты b0, b1, b2. b0 S5 S1 S2 S6 S2 S3 S7 S3 S4 n S1 S2 S1 S2 S3 S2 S3 S4 (20) S 5S 2 S 4 S 6 S 3S 2 S 7 S1S 3 S 7 S 2 S 2 S 6 S1S 4 S 5S 3S 3 nS 2 S 4 S1S 3S 2 S 2 S1S 3 S 2 S 2 S 2 S1S1S 4 nS 3S 3 8 b1 b2 n S5 S2 S1 S6 S3 S2 S7 S4 n S1 S2 S1 S2 S3 S2 S3 S4 n S1 S5 S1 S2 S6 S2 S3 S7 n S1 S2 S1 S2 S3 S2 S3 S4 (21) nS 6 S 4 S1S 7 S 2 S 2 S5S3 S 2 S 6 S 2 S1S5S 4 nS 7 S3 nS 2 S 4 S1S3S 2 S 2 S1S3 S 2 S 2 S 2 S1S1S 4 nS 3S3 (22) nS 2 S 7 S1S3S5 S 2 S1S 6 S 2 S 2 S5 S1S1S 7 nS 3S 6 nS 2 S 4 S1S3S 2 S 2 S1S3 S 2 S 2 S 2 S1S1S 4 nS 3S3 . После решения системы уравнений и вычисления коэффициентов b0, b1, b2 проводится статистический анализ полученного уравнения регрессии. Аналогичным образом будут определяться коэффициенты параболы любого порядка. Исследование уравнения проводится по статистическим критериям. Однако в этом случае не требуется вычислять выборочные коэффициенты корреляции. Адекватности уравнения регрессии эксперименту можно добиться, повышая степень полинома. Однако при этом все коэффициенты следует вычислять заново, так как существует корреляция между коэффициентами. 3. ПРИМЕР РАЗРАБОТКИ УРАВНЕНИЯ РЕГРЕССИИ Определить зависимость теплоемкости бутана от температуры. Объем выборки N = 9. Т, К Ср , кал/моль К 298 300 400 500 600 700 800 900 1000 23,29 23,40 29,60 35,34 40,30 44,55 48,23 51,44 54,22 I. Для описания зависимости теплоемкости бутана от температуры выберем полином второго порядка: ŷ b 0 b1 x b 2 x 2 . Определим коэффициенты уравнения по формулам (20) – (22). Для этого составим программу расчета, в основе которой лежит алгоритм метода наименьших квадратов (15). Блок – схема алгоритма приведена на рис. 4. В результате расчетов, выполненных по программе, были получены следующие значения коэффициентов регрессии: b0=1,24; b1=8,3 10-2; b2=3,018 10-5. Коэффициент парной корреляции рассчитываем по формуле (4) или (5). В результате уравнение регрессии будет иметь вид: ŷ 1.24 8.3 10 2 x 1 3.018 10 5 x 2 . Результаты расчета представлены в табл. 1. 9 Таблица 1. Теплоемкость, кал/моль К Температура, К Срэксп Абсолютная погрешность С эксп С расч р р Сррасч 298 23,29 23,31 0,02 300 23,40 23,44 0,04 400 29,60 29,63 0,03 500 35,34 35,22 0,12 600 40,30 40,20 0,10 700 44,55 44,58 0,03 800 48,23 48,36 0,13 900 51,44 51,53 0,09 1000 54,22 54,10 0,12 Среднеквадратическое отклонение рассчитывается по формуле эксп y iрасч yi S N 1 2 , Величина ошибки S =0,0919 показывает, что расчетные значения достаточно хорошо совпадают с экспериментальными, а, следовательно, зависимость теплоемкости бутана от температуры можно описать полиномом второго порядка. Значение коэффициента парной корреляции равно rxy =0.991 II. Проведена обработка экспериментальных данных в EXСEL с целью получения теоретической зависимости наилучшим образом описывающей экспериментальные данные. На рис. 5 приведены результаты обработки данных в EXCEL. 5. ПОРЯДОК ВЫПОЛНЕНИЯ РАБОТЫ 1. На основании экспериментальных данных теплофизических свойств химических соединений разработать алгоритм и программу расчета коэффициентов регрессии полинома второго порядка с использованием метода наименьших квадратов. 2. Рассчитать значение коэффициента корреляции. 3. Проверить соответствие полученной модели эксперименту. 4. Выполнить обработку экспериментальных данных при помощи электронных таблиц EXCEL. 5. Полученные результаты оформить в виде таблиц и графиков. 6. Составить отчет о проделанной работе. 5. СОДЕРЖАНИЕ ОТЧЕТА Отчет должен содержать: — цель работы; — исходные данные; — описание алгоритма МНК; — программу расчета с пояснениями; — таблицы и графики результатов вычислений; — обсуждение результатов, выводы. 10 Начало Ввод n; x0,...,xn; y0,...,yn; S1=0; S2=0; S3=0; S4=0; S5=0; S6=0; S7=0; i =1, n S1=S1+xi; S 2=S2+xi2; S 3 =S 3+xi3; S 4=S4+xi4; S5=S5+yi; S 6=S6+xiyi; S 7=S7+xi2yi; d1=nS 1S4+S1S3S2+S2S1S3; d2=S2S2S2+S3S3n+S 1S1S4; db01=S5S2S4+S1S3S7+S2S6S3; db02=S2S2S7+S5S3S3+S1S4S6; db11=nS 6S4+S5S3S2+S1S2S7; db12=S2S2S6+nS 3S7+S1S4S5; db21=nS 2S7+S1S6S2+S1S3S5; db22=S2S5S2+nS 3S6+S1S1S7; d=d1-d2; db 0=db01-db02; db1=db11-db12; db 2=db21-db22; b0=db0/d; b 1=db1/d; b 2=db2/d; i =1, n yiрасч; dyi; Вывод xi,yi,yi расч,dy, Вывод b1, b2, b3, Конец Рис. 4. Блок – схема алгоритма расчета коэффициентов методом наименьших квадратов. 11 Теплоемкость, Зависимость теплоемкости бутана от температуры кал/мольК60 Линейная y = 0,0451x + 11,391 2 R = 0,983 40 20 0 0 200 400 600 800 1000 1200 Температура, К Теплоемкость,кал/мольК 60 50 40 Логарифмическая y = 25,698Ln(x) - 123,68 R2 = 0,9982 30 20 10 0 0 200 400 600 800 1000 1200 Температура, К Теплоемкость,кал/мольК 60 50 40 30 20 10 0 Полином 2-го порядка 2 y = -3E-05x + 0,083x + 1,2408 2 R = 0,9999 200 0 400 600 800 1000 1200 Температура, К Теплоемкость, кал/мольК 60 50 40 Степенная y = 0,4138x 0,7111 2 R = 0,9945 30 20 10 0 0 200 400 600 800 1000 1200 Температура, К Теплоемкость, кал/моль К 80 60 40 20 5. СОДЕРЖАНИЕ ОТЧЕТА Экспоненциальная y = 17,625e 0,0012x 2 R = 0,9436 0 Отчет 0 должен 200 содержать: 400 600 800 1000 1200 — цель работы; Температура, К — исходные данные; — обработки описание алгоритма МНК; Рис.5. Результаты экспериментальных данных программой EXCEL. R- степень достоверности. 12 ЛИТЕРАТУРА 7. 1. Кафаров В.В. Методы кибернетики в химии и химической технологии. М.: Химия, 1985.- 489 с. 2. Ахназарова С.Л,, Кафаров В.В. Оптимизация эксперимента в химии и химической технологии.- М:Высшая шк.,1978.-319с. 3. Статистические методы в инженерных исследованиях . Лабораторный практикум. / Под ред.Круга Г.К. М.:Высш.шк.,1983.-216с. 4. Кравцов А.В., Новиков А.А., Коваль П.И. Компьютерный анализ технологических процессов. Новосибирск.: Наука,1998.-212с. 5. Кравцов А.В., Новиков А.А., Коваль П.И. Методы анализа химико-технологических процессов. - Учебное пособие. Томск.:ТПУ,1994.6. Афифи А., Эйзен С. Статистический анализ. Подход с использованием ЭВМ.– М.:Мир,1982.–486с. Методы корреляционного экспериментальных данных и регрессионного анализа при обработке Методические указания Составитель Ольга Ефимовна Мойзес 13