Занятие 4. Нелинейная регрессия

Лекция 4. Нелинейная регрессия Краткое содержание 1. 2. 3. 4. 5. Нелинейная регрессия: постановка задачи Методы Ньютона, Гаусса-Ньютона, Левенберга-Марквардта Функции в языке GNU Octave Практическая реализация нелинейной регрессии в GNU Octave Проблемы глобальной оптимизации и генетические алгоритмы Виды регрессии 1. Линейная регрессия 𝑦 = 𝑏0 + 𝑏1 𝑥1 + ⋯ + 𝑏𝑛 𝑥𝑛 𝑋𝛽 = 𝑦; 𝛽 = 𝑋 ⊤ 𝑋 −1 𝑋 ⊤ 𝑦 2. Нелинейная регрессия, поддающаяся линеаризации 𝑦 = 𝑏0 + 𝑏1 𝑓1 (𝑥1 , … , 𝑥𝑛 ) + ⋯ + 𝑏𝑛 𝑓𝑛 (𝑥1 , … , 𝑥𝑛 ) Примеры: 𝑘 = 𝑘0 exp − 𝐸𝑎 𝑅𝑇 ⇒ ln 𝑘 = ln 𝑘0 − 𝐸𝑎 ;𝑐 𝑅𝑇 𝑝 𝑇 = 𝑎 + 𝑏𝑇 + 𝑐𝑇 2 ; 3. Нелинейная регрессия, не поддающаяся линеаризации 𝑦 = 𝑓 𝛽1 , … , 𝛽𝑚 , 𝑥1 , … , 𝑥𝑛 = 𝑓(𝛽, 𝑥) 1 Пример: 𝑦 = 1+exp −𝛽1 −𝛽2 𝑥 Для решения таких задач используют численные методы: Ньютона, Гаусса-Ньютона, градиентного спуска, Левенберга-Марквардта Численные методы и МНК Нелинейная система уравнений Как правило, полученную систему уравнений нельзя решить аналитическими методами 𝜑 𝛽1 , … , 𝛽𝑘 , 𝑥11 , 𝑥21 , … 𝑥𝑚1 = 𝑦1 𝜑 𝛽1 , … , 𝛽𝑘 , 𝑥12 , 𝑥22 , … , 𝑥𝑚2 = 𝑦2 Нужно использовать численные … 𝜑 𝛽1 , … , 𝛽𝑘 , 𝑥1𝑛 , 𝑥2𝑛 , … , 𝑥𝑚𝑛 = 𝑦𝑛 методы Минимизируемая сумма квадратов 𝐹 𝛽 = 𝑦𝑖 − 𝑦𝑖 𝑖 2 = 𝜑 𝛽, 𝑥𝑖 − 𝑦𝑖 𝑖 2 𝑓𝑖2 = 𝑖 Система уравнений для поиска минимума (ср. с линейным МНК) 𝜕𝐹 𝛽 =0 𝜕𝛽1 ⋯ 𝜕𝐹 𝛽 =0 𝜕𝛽𝑚 Рассматриваемые численные методы 1. Метод Ньютона 2. Метод Гаусса-Ньютона 3. Метод Левенберга-Марквардта Метод Ньютона Одномерный случай (нелинейное уравнения) 𝑓 𝑥 ≈ 𝑓 𝑥0 + 𝑓 ′ 𝑥0 𝑥 − 𝑥0 = 0 𝑓(𝑥0 ) 𝑥 = 𝑥0 − ′ 𝑓 𝑥0 Многомерный случай (система нелинейных уравнений) 𝜕𝐹 𝛽0 0 𝐹 𝛽 ≈ 𝐹 𝛽0 + 𝛽𝑖 − 𝛽𝑖 = 0 ⇒ 𝐹 𝛽0 + 𝛻𝐹 𝛽0 𝑝 = 0 𝜕𝛽𝑖 𝑖 1. 2. 3. Особенности метода Ньютона Быстро сходится (квадратичная сходимость) В случае нескольких корней может быть найден любой из них (зависит от начального приближения) Скорость сходимости (и сама сходимость) может зависеть от начального приближения Метод Ньютона: практическая реализация Уравнение 𝑓 𝑥 = cos 𝑥 − 𝑥 3 = 0 𝑓 ′ 𝑥 = − sin 𝑥 − 3𝑥 2 = 0 Программа format long; delta = 1e-15; x0 = 0.5; x = x0 + 2*delta; while abs(x-x0) >= delta x0 = x; f = cos(x0)-x0^3; df = -sin(x0)-3*x0^2; x = x0 – f/df; disp(x); end Касательная Прибл. решение Функция Начальное прибл. 2.000000000000000 1.348055393079852 1.001262924310922 0.880591138294078 0.865691456412747 0.865474078978736 0.865474033101617 0.865474033101614 МНК и метод Гаусса-Ньютона Система уравнений и метод Ньютона 𝜕𝐹 𝛽 =0 𝜕𝛽1 𝜕𝐹 𝛽 𝜕𝐹 𝛽 0 ⋯ ⇒ ≈ 𝜕𝛽𝑖 𝜕𝛽𝑖 𝜕𝐹 𝛽 =0 𝜕𝛽𝑚 + 𝑗 𝜕𝐹 𝛽 0 𝜕𝛽𝑖 𝜕𝛽𝑗 𝛽𝑗 − 𝛽𝑗 0 =0 Матричная запись и метод Гаусса-Ньютона 𝛻𝐹 𝛽 0 0 +𝐻 𝛽 𝑝 = 0 ⇒ 𝐽⊤ 𝛽 0 𝑓 𝛽 0 + 𝐽⊤ 𝛽 0 𝐽 𝛽 0 𝑝=0 Градиент, якобиан и гессиан 𝛻𝐹 𝐻𝑖𝑗 = 𝑖 𝜕𝐹 𝜕 = = 𝜕𝛽𝑖 𝜕𝛽𝑖 𝜕𝐹 𝛽 𝜕 = 2 𝜕𝛽𝑖 𝜕𝛽𝑗 𝜕𝛽𝑗 𝑓𝑗2 𝑗 𝑓𝑘 𝑘 =2 𝜕𝑓𝑘 =2 𝜕𝛽𝑖 𝑗 𝑘 𝜕𝑓𝑗 𝜕𝑓𝑖 𝜕𝜑(𝛽, 𝑥𝑖 ) ⊤ 𝑓𝑗 = 2𝐽 𝑓; 𝐽𝑖𝑗 = = 𝜕𝛽𝑖 𝜕𝛽𝑗 𝜕𝛽𝑗 𝜕𝑓𝑘 𝜕𝑓𝑘 𝜕𝑓𝑘 + 𝑓𝑘 ≈2 𝜕𝛽𝑖 𝜕𝛽𝑗 𝜕𝛽𝑖 𝜕𝛽𝑗 𝑘 𝜕𝑓𝑘 𝜕𝑓𝑘 = 2𝐽⊤ 𝐽 𝜕𝛽𝑖 𝜕𝛽𝑗 Метод Левенберга-Марквардта 𝐽⊤ 𝐽 + 𝜆𝐼 𝑝 = −𝛻𝐹 = −𝐽⊤ 𝑓 (вариант 1) 𝐽⊤ 𝐽 + 𝜆diag 𝐽⊤ 𝐽 𝑝 = −𝛻𝐹 = −𝐽⊤ 𝑓 (вариант 2) Каждая итерация включает в себя подбор шага 𝝀: 1. Взять начальное (очень малое) значение 𝜆 2. Выполнить итерацию, найдя 𝑝 3. Если значение 𝐹 возросло, то увеличить шаг 𝜆 и вернуться к п.1 4. Если значение 𝐹 уменьшилось, то принять полученное значение 𝑝 и перейти к следующей итерации Сходится медленнее метода Гаусса-Ньютона, но менее требователен к начальному приближению. Широко применяется на практике. Метод Л.-М. – комбинация методов Гаусса-Ньютона и градиентного спуска а) метод градиентного спуска: 𝑝 = −𝜆𝛻𝐹 𝛽 0 б) метод Гаусса-Ньютона: 𝐽⊤ 𝐽𝑝 = −𝛻𝐹 Обозначения: 𝑝 = 𝛽 − 𝛽(0) , 𝛽(0) – начальное приближение; 𝛽 – результат итерации,𝜆 – шаг, 𝐹 – минимизируемая функция О функциях в GNU Octave Функция – фрагмент программного кода, который можно вызывать из других частей программы. Имеет входные и выходные параметры (аргументы), а также свою область видимости для переменных. Именованные функции Анонимные функции Хранятся в файлах. Синтаксис: Хранятся в переменных. Синтаксис: % Справочная информация function [o1,…,om]=funcname(i1,…,in) % Тело функции end func = @(arg1,…,argn) expression Примеры: sqr = @(x) x.^2 len = @(x,y) sqrt(x.^2 + y.^2) Пример: % SQREQ_ROOTS Finds the roots % of square equation function [x1,x2] = sqreq_roots(a,b,c) D = b.^2 - 4*a.*c; x1 = (-b + sqrt(D)) ./ (2*a); x2 = (-b - sqrt(D)) ./ (2*a); end См. также: вложенные функции (nested function), MEX-файлы, объектноориентированное программирование Нелинейная регрессия: практическая реализация Шаг 1. Задание аппроксимирующей функции 𝑦 = 𝛽1 + 𝛽2 exp(−𝛽3 𝑥) Шаг 3. Запись на языке Octave b0 = [10 10 10]; [b, res, J] = ... lsqfit_lm(X,Y,@func, b0); [db, b_lb, b_ub, sb] = ... lsqfit_ci(b, res, J); function [F, J] = func(b, x) F = b(1) + b(2)*exp(-b(3)*x); if nargout == 2 df_db1 = ones(size(x)); df_db2 = exp(-b(3)*x); df_db3 = -b(2)*exp(b(3)*x).*x; J = [df_db1 df_db2 df_db3]; end Шаг 2. Задание якобиана 𝜕𝑦𝑖 =1 𝜕𝛽1 𝜕𝑦𝑖 = exp −𝛽3 𝑥𝑖 𝜕𝛽2 𝜕𝑦𝑖 = −𝑥𝛽2 exp(−𝛽3 𝑥𝑖 ) 𝜕𝛽3 Шаг 4. Подбор начального приближение и визуализация результатов Нелинейная регрессия: доверительные интервалы Линейная регрессия 𝑠𝜷2 = 𝜎 2 𝑋 ⊤ 𝑋 −1 (1) 1 𝑥1 𝑋= ⋮ ⋮ (𝑛) 1 𝑥1 (1) ⋯ 𝑥𝑚 ⋱ ⋮ (𝑛) ⋯ 𝑥𝑚 Исходная система уравнений 𝜑 𝛽, 𝑥1 = 𝑦1 ⋯ 𝜑 𝛽, 𝑥𝑛 = 𝑦𝑛 𝜕𝜑(𝛽, 𝑥) 𝑖 𝜕 𝛽𝑖 При этом якобиан и отклонения рассчитываются в точке 𝜷 Результат линеаризации в векторной форме 𝐽 𝛽 𝛽−𝛽 =𝑦−𝑦 =𝑒 Разложение в ряд Тейлора 𝜑 𝛽, 𝑥 = 𝜑 𝛽, 𝑥 + Нелинейная регрессия 𝑠𝜷2 = 𝜎 2 𝐽⊤ 𝐽 −1 𝛽𝑖 − 𝛽𝑖 𝐽(𝛽) - аналог матрицы 𝑋 в линейной регрессии Проблемы глобальной оптимизации Локальный минимум: c – локальный минимум функции 𝑦 = 𝑓(𝑥), если ∃𝛿 > 0 такое, что 𝑓 𝑥 − 𝑓 𝑐 ≥ 0 для ∀𝑥 ∈ 𝑐 − 𝛿, 𝑐 + 𝛿 Глобальный минимум: c – глобальный минимум функции 𝑦 = 𝑓(𝑥), если 𝑓 𝑥 − 𝑓 𝑐 ≥ 0 для ∀𝑥 ∈ 𝐷(𝑓) При оптимизации параметров модели важно избегать локальных минимумов и искать глобальный Методы глобальной оптимизации • Генетические алгоритмы • Метод отжига • Комбинированные методы • Символьная регрессия Локальный минимум Глобальный минимум Генетические алгоритмы Генетические алгоритмы – алгоритмы нелинейной оптимизации. Ключевые характеристики: • Работа с большим количеством потенциальных решений («популяцией») • Использование целевой функции для отбора членов популяции • Получение новых членов популяции операциями «скрещивания» (комбинированием) и «мутациями» (случайные изменения) Ср. с процессом эволюции в живой природе (идея генетического алгоритма была взята именно из биологии) Генерация исходной (случайной) популяции Отбор части популяции с использованием целевой функции ДА Желаемый результат достигнут? НЕТ Вернуть результат Получение недостающей части популяции скрещиванием и мутациями Пример: функция Растригина 𝑓 𝑥1 , 𝑥2 = 20 + 𝑥12 + 𝑥22 − 10 cos 2𝜋𝑥1 − 10 cos 2𝜋𝑥2 Имеет множество локальных минимумов и один глобальный Метод Левенберга-Марквардта и ему подобные зачастую находит локальный минимум Пример: функция Растригина Шаг 1. Создание начальной популяции (0) (0) 𝑥1 = 𝑥2 = 10 (𝑖) (0) 𝑥1 = 𝑥1 + 𝑁𝑖 0; 𝜎 2 (𝑖) (0) 𝑥2 = 𝑥2 + 𝑁𝑖 (0; 𝜎 2 ) Шаг 2. Отбор (𝑖) (𝑖) Целевая функция – значение функции Растригина для 𝑥1 и 𝑥2 Шаг 3. Скрещивание и мутации Ведётся на основе лучших 5-10% членов популяции Скрещивание: Мутация: (𝑖) (𝑚) (𝑖) (𝑚) 𝑥1 = (1 − 𝑤1 )𝑥1 (𝑛) +𝑤1 𝑥1 ; 𝑤1 ∈ [0; 1] (𝑛) 𝑥2 = (1 − 𝑤1 )𝑥2 +𝑤2 𝑥2 ; 𝑤2 ∈ [0; 1] (𝑖) 𝑖 ,∗ = 𝑥1 + 𝑁(0; 𝜎 2 ) 𝑖 ,∗ = 𝑥2 + 𝑁(0; 𝜎 2 ) 𝑥1 𝑥2 (𝑖) Пример: функция Растригина

Занятие 4. Нелинейная регрессия

Похожие документы

Разделы

Поддержка

Занятие 4. Нелинейная регрессия

Похожие документы

Добавить этот документ в коллекции

Добавить этот документ в сохраненные

Предложите, как улучшить StudyLib