Построение регрессионных моделей и решение задачи предсказания Родионова Оксана Евгеньевна [email protected] Институт химической физики РАН, Российское хемометрическое общество 1 Два класса решаемых задач X11 X21 . . . … Xn1 … … X12 X22 . . . … Y1 Y2 X X1m Метод- МГК Задачи . . . . . . … Xnm 1. Анализ структуры, поиск латентных переменных 2. Классификация и дискриминация Методы : РГК, РЛС Задачи Y . . . … Yn 1. Построение модели Y(X) 2. Прогнозирование Y = XA + E 2 Постановка задачи. Исходные данные Независимые наблюдения - предикторы X11 X21 . . . … Xn1 … … X12 X22 . . . … X X1m Зависимые переменные - отклики Y1 Y2 Y . . . . . . … Xnm m -количество переменных (факторов) . . . … Yn n –количество образцов (наблюдений) 3 Экспериментальные данные Обучающий набор … … X11 X12 X21 X22 . . . … Xn1 . . . … X . . . X1p . . . … Xnp Y11 Y21 … … Y1k Y . . . … . . . . . . … Проверочный Yнабор Y n1 nk 4 Цель исследования 1. Построить модель для известных наборов X и Y 2. Оценить возможности модели для предсказания неизвестных значений Y по новым значениям X. 5 Множественная регрессия. y=Xb+f y=b 0 +b 1 x 1 +b 2 x 2 +..+b m x m +f Проверка основных статистических гипотез об уравнении регрессии, его коэффициентах и прогнозируемых значениях откликов. Сложности 1. Количество переменных больше, чем количество образцов 2. Наличие связей между переменными в X -матрице 6 Коллинеарность Коллинеарность означает, что между переменными, составляющими матрицу X, существует взаимная корреляция, т.е. они в некоторой степени линейно зависимы между собой, например X1=f (X2, X3, …, Xn) X2 X1 X2 X1 Y X2 X3 X3 X4 X4 t1 Y t2 7 Регрессия на главные компоненты (РГК) Для «нужного» числа ГК Двухэтапная процедура РГК 8 Моделирование – хемометрический подход (ycal , Xcal) Построение модели (ytest , Xtest) Проверка качества прогноза 9 Обучающий набор данных Предикторы Xcal Отклики Ycal Измеренные референтным методом 1. Набор должен быть достаточно большим 2. Должны охватывать всю будущую совокупность 3. Измерения X, по возможности, должны быть несложными Планирование эксперимента Теория пробоотбора 10 Построение модели Модель Модель 3. Остаток при моделировании 4. Квадрат остатка для каждого образца Среднеквадратичная погрешность моделирования 11 Оценка антиоксидантов методом ДСК Объект Антиоксиданты в ПП Цель Оценка эффективности АО Y- измерения Длительное термостарение X- измерения Температура начала окисления Эксперимент Дифференц. калориметрия Обработка Регрессия на главные компоненты 12 ДСК эксперимент Оценка температуры начала окисления (ТНО) при разных скоростях нагрева v 5 4 3 Сигнал ДСК, mV v=5 v=2 2 1 v=10 0 v=15 ТНО ТНО -1 v=20 ТНО -2 ТНО -3 ТНО -4 -5 200 210 220 230 Температура, C 13 ДСК данные и референтные данные Образцы Время старения в печке (дни) ТНО (С) для разных скоростей нагрева (град/мин) 2 5 10 15 20 калибровка C1 6 193.0 200.0 207.1 210.1 209.1 C2 C3 C4 C5 C6 C7 1 2 18 3 15 173.6 192.5 194.0 193.4 194.0 179.2 203.5 197.7 192.7 197.7 181.7 204.4 209.7 199.1 209.7 190.9 208.5 212.8 207.9 212.8 193.2 212.9 202.0 209.2 205.3 1.5 185.8 193.1 199.0 205.2 209.7 C8 2.5 185.8 193.1 199.0 205.2 207.1 C9 3 3 186.0 186.0 192.1 192.1 197.0 197.0 211.3 211.0 207.0 208.2 5 203.0 208.5 216.5 222.9 222.0 T1 T2 0.5 185.0 191.7 197.0 197.2 211.2 17 194.0 197.7 209.7 212.8 203.1 T3 8 186.8 191.0 208.2 205.1 205.1 T4 5 203.9 213.9 220.2 221.4 227.2 C10 C11 контроль 14 Предварительная обработка данных X-измерения однородные Yи-измерения дисперсия ошибки растет с ростом Yи не взвешиваются методом измерения способ приготовления образцов X и Y - центрируются 15 Метод главных компонент в примере с АО Среднеквадратичная погрешность График счетов (ГК1-ГК2) 10 PC2 1.2 8 T4 T1 6 4 C7 C10 2C9 C5 C8 C11 C3 -40 C2 -20 -2 0 C1 20 N PC RMSEC 0 1 1 0.792 2 0.151 3 6.70E-02 4 6.09E-02 1 0.8 PC1 0 RMSEC 0.6 40 0.4 -4 T3 -6 -8 -10 C6 T2 C4 0.2 N PCs 0 0 1 2 3 ГК1-ГК2: объясняют 96% структуры X и 97 % структуры Y16 4 Проверочный (тестовый) набор данных Предикторы Xtest Отклики Ytest Измеренные референтны методом 1. Набор должен быть достаточно большим 2. Данные должны охватывать всю будущую совокупность 3. Данные не должны быть «слишком» похожи на обучающий набор Используются только для оценки погрешности предсказания 17 Моделирование – стадия проверки Используются для оценки качества прогноза Модель 8. 9. Остаток при прогнозе Квадрат остатка для каждого образца Среднеквадратичная погрешность при прогнозе 18 Способы проверки Проверка на тестовом наборе Самый надежный способ Перекрестная проверка Используется тогда, когда нельзя собрать тестовый массив Проверка корректировкой размахом 1. Самый быстрый и самый грубый способ 2. Не использует тестовый массив 19 Перекрестная проверка Проверочный набор отсутствует Самый медленный способ проверки и не всегда надежный (ytest , Xtest) Моделируют проверочный набор используя обучающий (ycal , Xcal) Создают как бы «проверочный набор» 20 Полная перекрестная проверка Xcal Модель 1 Ycal Модель 2 … … «Тесто вый набор» Модель N Модель 21 Проверка корректировкой размахом «Быстрый» Требует построения лишь одной модели «Грубый» Погрешность предсказания всегда оценивается слишком оптимистично 22 Сколько выбрать главных компонент Погрешность предсказания 23 Погрешность моделирования погрешность предсказания Проверка корректировкой размахом Перекрестная проверка 1.4 RMSE Проверка на тестовом наборе 1.2 1 0.8 Погрешность моделирования не зависит от вида проверки и 0.6 0.4 0.2 0 1 2 3 N PCs 4 24 Число ГК для АО примера 1.4 N PCs 1 2 3 4 RMSEC 0.792 0.151 6.70E-02 6.09E-02 RMSE RMSE RMSEP 1.228 0.253 0.414 0.417 RMSEC RMSEC RMSEP 1.2 1 0.8 0.6 0.4 2 главные компоненты 0.2 N PCs 0 1 2 3 4 25 Прогноз эффективности АО Образец Ts1 Ts2 Ts3 Ts4 Пред-ние Откл-ие 0.564 4.072 3.125 1.856 0.407 0.16 0.371 0.287 Изм-ние 0.707 4.123 2.828 2.236 RMSEP = 0.253 Yпред=Y2*RMSEP 26 Слабость РГК РГК – мощное средство борьбы с мультиколлинеарностью в матрице X РГК –двухэтапный метод Декомпозиция X по МГК МЛР Эта декомпозиция не учитывает связи между XиY 27 Регрессия на латентные структуры (ПЛС - регрессия) X W P T U Схематическое представление Y Q X X11 X X22 tt11 X X33 X X44 tt22 ( Herman Wold, 1973 & Agnar Höskuldsson, 1988 ) Y Y 28 Интерпретация ПЛС-модели T - матрица счетов P - матрица нагрузок W –матрица взвешенных (эффективных) нагрузок U - матрица счетов Q - матрица нагрузок 29 Графики зависимости X-Y Данные содержат выбросы Данные не содержат выбросов 30 График остаточной вариации Остаточная вариация Y - число ГК Для ПЛС-моделей вариация должна падать 31 Заключительный график Предсказанные значения Y - измеренные значения Y 32 Выводы Два основных проекционных регрессионных метода. Регрессия на главные компоненты Регрессия на латентные структуры. 1. Уменьшают размерность исследуемых данных 2. Позволяют проанализировать скрытые в данных закономерности Выбор меньшего числа ГК дает более устойчивую модель Проверка с помощью представительного тестового набора наиболее надежный способ оценки ошибки прогнозирования 33 Принципы построения «хорошей» калибровки / градуировки • правильно приготовить (собрать) образцы • визуально изучить данные • при необходимости, применить предварительную обработку (pre-processing), шкалирование/ центрирование (scaling/centering) • интерпретация модели, изучить структуру данных, выявить и удалить возможные выбросы • тщательно оценить размерность модели, оценить погрешность моделирования • изучить предсказательные способности модели 34 Определение октанового числа бензина по данным ИК-спектроскопии Исходные данные Обучающий набор = 26 образца Прогнозный набор = 13 образцов Количество переменных (длин волн) = 226 (1100 – 1550 nm) 35 Экспериментальные данные Y Y: 86.7 92.4 36 Разделения смеси спиртов по данным ИК-спектроскопии Исходные данные Обучающий набор = 16 образцов Проверочный набор = 11 образцов Прогнозный набор = 13 образцов Количество переменных (длин волн) = 101 (1100 – 1600 nm) 37 Экспериментальные данные Y Y1 этанол Y2 метанол Y3 пропанол CY1+CY2+CY3=100% 38 Экспериментальные данные X Измерения: спектры пропускания в диапазоне 1100-1600nm Чистые спектры AU=-log(R) 39 MSC коррекция поправка на многократное рассеяние Полная MSC-коррекция Поправка на общее смещение Поправка на общее расширение MSC – множественная коррекция сигнала 40