ЛАБОРАТОРНАЯ РАБОТА № 5 В.Н. Демидов Тема работы: Нелинейная регрессия. Выбор оптимальной степени обобщенного многочлена. Цель работы: Вычисление коэффициентов нелинейной регрессионной зависимости; подбор эмпирической формулы оптимальным образом описывающей экспериментальные данные. Задание: В результате серии экспериментальных измерений получены значения yi в заданных точках xi . Величины yi измерены независимо друг от друга и с одинаковой среднеквадратичной ошибкой . Используя метод наименьших квадратов и полиномы Чебышева построить регрессионную зависимость y f x в виде обобщенного многочлена. Определить оптимальную степень многочлена. Основываясь на результатах статистического анализа обосновать оптимальность полученной эмпирической зависимости. Теоретическая часть В инженерной практике часто возникает задача подбора эмпирической формулы, адекватно описывающей имеющийся экспериментальный материал. Обычно формула строится в виде обобщенного многочлена y f x; a0 ,a1 ,am a00 x a11 x amm x , (1) где 0 x , 1 x , , m x (2) заданная система линейно независимых базисных функций, a0 , a1 , , a m - параметры формулы, являющиеся коэффициентами обобщенного многочлена. Оценки параметров, определяемые по методу наименьших квадратов, находятся из системы нормальных уравнений a P , где 0 xi 0 xi 0 xi 1 xi 0 xi m xi 1 xi 0 xi 1 xi 1 xi 1 xi m xi , m xi 0 xi m xi 1 xi m xi m xi y i 0 xi yi 1 xi . P y i m xi С вычислительной точки зрения наиболее целесообразным представляется использование в качестве базисных функций (2) какой-либо ортогональной (на множестве точек x1 , x2 , , xn ) системы функций, например, полиномов Чебышева. В этом случае матрица системы нормальных уравнений становится диагональной и хорошо обусловленной. В силу этого, во-первых, чрезвычайно облегчается задача вычисления коэффициентов обобщенного многочлена, во-вторых, при последовательном уточнении эмпирической формулы на каждом этапе вычисляется лишь один новый коэффициент a k , в-третьих, данный вычислительный алгоритм может быть применен при любой степени обобщенного многочлена. Отметим, что широко используемая при полиномиальной аппроксимации система функций 0 x 1, 1 x x, , m x x m , приводящая к классическим алгебраическим многочленам, применяется лишь при m 5 . Если m 5 , то, как правило, нормальная система уравнений настолько плохо обусловлена, что вычисленные на ее основе параметры a0 , a1 , , a m оказываются полностью искаженными ошибками округления. Ортогональные многочлены Чебышева Q0 , Q1 , , Qi , определяются рекуррентным соотношением H Qi 1 x x i 1 Qi x i Qi 1 x i 1, 2, , (3) H i 1 где n Hi Qi2 xk 1 i 1 Hi k 1 n x Q x k 2 i k 1 Чтобы воспользоваться этой рекуррентной полиномы нулевой и первой степени; они имеют вид: Q1 x x x , Q0 x 1 , i 0,1, . k формулой, 1 x n необходимо задать n x . k k 1 Эмпирическая формула (1) с использованием многочленов Чебышева запишется в виде y a0 Q0 x a1Q1 x am Qm x . (4) Вычисление оценок коэффициентов многочлена осуществляется по формуле: 1 ai Hi n y Q x , k i i 0, 1, , m . k (5) k 1 Хорошее сглаживание ошибок эксперимента при среднеквадратичной аппроксимации наблюдается когда m n . Но если m слишком мало, то для описания сложной нелинейной зависимости yx коэффициентов многочлена может не хватить. Ясно, что в каждом конкретном случае должно существовать какое-то оптимальное число коэффициентов. Определяется оно следующим образом. Задавшись некоторым числом m и определив согласно (5) соответствующие коэффициенты, вычислим остаточную дисперсию 1 Dm n m 1 n y y 2 i i 1 i (6) и сравним ее с известной точностью эксперимента по критерию Фишера. Если Dm f1 , (7) 2 то математическая погрешность аппроксимации (значимо) больше физической погрешности исходных данных, и формула (5) нуждается в уточнении. Поэтому увеличиваем m на единицу, вычисляем по формуле (5) коэффициент a m1 и повторяем проверку качества аппроксимации согласно (6), (7). Обычно расчет начинают с m 1 , когда (при нелинейной зависимости) неравенство (7) заведомо выполнено, и увеличивают число коэффициентов до тех пор, пока при некотором значении m не выполнится условие Dm (8) f1 . 2 Это условие означает, что дисперсия Dm (при данном m ) образована только за счет случайных ошибок измерений и, следовательно, дополнительные слагаемые в функции (4) не способны эту дисперсию уменьшить. Следовательно, полученное значение m является оптимальной степенью аппроксимирующего многочлена, и эмпирическая формула (4) считается окончательной. Если при этом m n , то вид аппроксимирующей функции (в форме обобщенного многочлена) выбран удачно, в противном случае следует поискать более подходящий вид аппроксимирующей функции. В соотношении (7) f1 - квантиль распределения Фишера, т. е. корень уравнения Fnm1, f1 1 , где Fnm1, x - функция распределения Фишера с n m 1 и степенями свободы (т.е. считаем, что генеральная дисперсия 2 известна из большого числа предыдущих опытов, поэтому приписываем ей бесконечно большое число степеней свободы), - уровень значимости. Порядок выполнения задания 1. Присвойте переменной ORIGIN значение равное единице. 2. Из файлов Lab5 kx и Lab5 ky (k – номер варианта задания) введите исходные данные и разместите их в массивах (x) и (y). 3. Постройте полиномы Чебышева нулевого и первого порядков ( m 1 ). 4. Вычислите коэффициенты a 0 , a1 и постойте согласно (4) аппроксимирующий многочлен первого порядка. 5. Постройте график линии регрессии и изобразите на нем исходные экспериментальные точки. Оцените визуально качество аппроксимации. 6. Задавшись определенным уровнем значимости и используя критерий Фишера, выясните, нуждается ли построенная регрессионная зависимость в уточнении. 7. Если уточнение необходимо, увеличьте значение m на единицу; постройте многочлен Чебышева Qm . 8. Вычислите очередной коэффициент am и постройте обобщенный многочлен степени m. 9. Последовательно повторяйте пункты 5-8 до тех пор, пока не выполнится неравенство (8). 10. Сохраните рабочий документ на диске.