Все что вы хотели знать о хемометрике

advertisement
Все что вы хотели знать
о хемометрике
– но стеснялись спросить
10.02.05
WSC-4 Courses
1
Содержание
1. Введение
2. Кинетика
3. Промышленность
4. Фармацевтика
5. Многие приложения
6. Информация
10.02.05
WSC-4 Courses
2
Хемометрика: два определения
Дедуктивное
Хемометрика - это научная дисциплина, находящаяся на
стыке химии и математики, предметом которой являются
математические методы исследования химических данных
сайт Российского хемометрического общества
Индуктивно
е
Хемометрика – это то, что делают хемометрики.
сайт Международного хемометрического общества
Хемометрики – это такие люди, которые все время пьют
пиво и воруют идеи у математиков
Svante Wold
10.02.05
WSC-4 Courses
3
Что делает хемометрика?
• Хемометрика имеет дело с данными (зачастую с очень большими), поэтому хемометрика это подраздел информатики (Data mining)
• Данные, которые исследует хемометрика по
большей части происходят из химии, поэтому
хемометрика - это подраздел химии (Analytical
chemistry)
• Методы, которые использует хемометрика
ориентированы на формальное моделирование
(Soft modeling)
10.02.05
WSC-4 Courses
4
Почему «хемо-» ?
• Хемометрика родилась из задачи анализа химических спектров
• Спектроскопия – наилучший метод получения
информации по ходу процесса (on-line) в режиме
реального времени: быстро и без влияния на
процесс
• «Хемо» подчеркивает практическую, а не статистическую значимость применяемых методов
10.02.05
WSC-4 Courses
5
Почему «-метрика» ?
• Хемометрические методы легко и плодотворно
переносятся в другие области, например, в психологию, биологию, геологию, и т. д.
• Хемометрика активно эксплуатирует математику
статистику, линейную алгебру
• ‘It is easier to teach a chemist statistics that to teach
chemistry to a statistician.’ (Svante Wold)
10.02.05
WSC-4 Courses
6
Много переменных и много измерений
Одно измерение – спектр (600 точек)
Один цикл – 800 спектров (времен)
Один массив данных – 200 образцов (циклов)
ю
10.02.05
...
WSC-4 Courses
7
Основная задача хемометрики
Заменить прямые измерения, которые либо –
 невозможны
 дороги
 длительны
на косвенные измерения, которые –
 доступны
 дешевы
 быстры
с последующей их обработкой (калибровкой).
10.02.05
WSC-4 Courses
8
Определение качества бензина по ИК-спектру
0.6
0.4
0.2
0
1100
0.6
PC2
Scores
92
H
0.3
90
HH
H
H
H
H
H
1500
1600
Elements:
Slope:
Offset:
Correlation:
RMSEP:
SEP:
Bias:
S
13
1.010279
-0.918475
0.987680
0.233897
0.243305
0.008032
S
S
S S
S S
S
S
S
88
S
-0.3
H
M
10.02.05
1400
Predicted Y
LL
LLLL
L
-0.2
1300
S
S
H
LMM
M
LM
L
0
1200
0
0.2
PC1
0.4
0.6
86
0.8
WSC-4 Courses
Measured Y
86
87
88
89
90
91
92
9
Как определить число ГК?
L6. Defining
Multivariate Calibration
Model Complexity for
Model Selection and
Comparison
John Kalivas
Idaho State University, Pocatello,
USA
10.02.05
WSC-4 Courses
10
Формальные и содержательные модели
Содержательные
“Hard” models
Формальные
“Soft” models
Физика, химия, ….
Из данных
y=f (x,a)+e
y=Xa+e
Параметры
Имеют физ. смысл
Физически бессмысленны
Проблемы
Построить модель
Обработать данные
Назначение
Экстраполяция
Интерполяция
Пример
Хим. кинетика
ANOVA
Откуда
Формула
10.02.05
WSC-4 Courses
11
Белые, серые и черные модели
L2. Gray Modelling
Approaches to Investigate
Chemical Processes
Roma Tauler
Institute of Chemistry and Environmental
Research, CSIC, Barcelona, Spain
10.02.05
WSC-4 Courses
12
Хемометрика среди своих сестер
1970
Хемометрика
Психометрика
1900
Биометрика
Оригинальность методов
1940
Область приложений
10.02.05
WSC-4 Courses
13
H – принцип. Основы хемометрики
L3.The H-principle of
Mathematical
Modeling
Agnar
Höskuldsson
IPL, DTU, Kgs Lyngby, Denmark
10.02.05
WSC-4 Courses
14
Численные
методы
Хемометрика
Фармацевтика
Экология
Хемометрика
Аналитическая
химия
Множество
приложений
QSAR
QSPR
Распознавание
образов
10.02.05
Промышленность
WSC-4 Courses
15
Хемометрика – от археологии до
астрономии
L5. Exploration and
Classification:
Applications from
Archaeometry to
Spectroscopy
Kurt Varmuza
Vienna Technical University, Vienna,
Austria
10.02.05
WSC-4 Courses
16
Кинетика – curve resolution
1
7
13
19
25
31
37
43
49 0
10.02.05
2
WSC-4 Courses
4
6
8
10
17
Численные
методы
Хемометрика
Фармацевтика
Экология
Хемометрика
Аналитическая
химия
Множество
приложений
QSAR
QSPR
Распознавание
образов
10.02.05
Промышленность
WSC-4 Courses
18
Как найти кинетику по спектрам?
k1
k2
A  B  C
Концентрации
1.0
1.0
C
A
0.8
0.8
0.6
B
0.4
0.2
0.6
0.4
0.2
0.0
0.0
0
2
4
6
8
10
time
10.02.05
C
B
A
spectral signal
concentrations
«Чистые» спектры компонент
0
5
10
15
20
25
30
35
40
45
50
conventional wavelengths
WSC-4 Courses
19
Эволюция спектра компонент реакции
1.0
t=0
t=10
t=8
0.9
t=6
spectral signal
0.8
0.7
0.6
t=2
0.5
t=4
0.4
0.3
0.2
0.1
0.0
0
10
20
30
40
50
conventional wavelengths
10.02.05
WSC-4 Courses
20
Оценки кинетических констант
0.40
GRAM
k1
0.35
ПБО
SBE
0.30
0.25
0.20
WCR
0.15
LM-PAR
0.10
-0.05
10.02.05
0.00
0.05
k2
0.10
WSC-4 Courses
0.15
0.20
0.25
21
Кинетика и хемометрика
L1.Principal
Component Analysis in
Photochemistry
Владимир Разумов
Institute of Problems of Chemical
Physics, Chernogolovka, Russia
10.02.05
WSC-4 Courses
22
Хемометрика в промышленности
по материалам Nouna Kettaneh-Wold, Sweeden
и Richard Brereton, UK
10.02.05
WSC-4 Courses
23
Численные
методы
Хемометрика
Фармацевтика
Экология
Хемометрика
Аналитическая
химия
Множество
приложений
QSAR
QSPR
Распознавание
образов
10.02.05
Промышленность
WSC-4 Courses
24
PAT & FDA
Process Analytical Technology (PAT) =
Технология (методы) анализа процессов
PAT =
Статистический контроль процессов (SPS) +
Хемометрика (Chemometrics)
FDA = U.S. Department of Health and Human
Services Food and Drug Administration
Guidance for Industry PAT — A Framework for Innovative
Pharmaceutical Development, Manufacturing, and Quality Assurance
Pharmaceutical CGMPs, September 2004
10.02.05
WSC-4 Courses
25
Многомерный статистический
контроль процессов (MSPC)
MSPC – это математический анализ реальных исторических данных, характеризующих опыт работы
•
Цель:
Научиться у самих себя принимать
оптимальные решения в различных ситуациях.
•
Средства: Сбор истории работы процесса, а также
анализ накопленных данных.
•
Результат: Снижении затрат при стабилизации
качества.
MSPC – это один из методов анализа процессов (PAT)
10.02.05
WSC-4 Courses
26
Зачем в MSPC нужна хемометрика?
Потому, что все больше данных о процессах
получают с помощью современных, эффективных
приборов
 Макропеременные (температура, pH, давление, ... )
 Спектроскопия (УФ, ИК, БИК, ...)
 Хроматография (ЖХ, ГХ, ...)
 Гибридные методы (ЖХ/МС, ЖХ/ЯМР, ...)
 Видео образы и гиперспектры (2D, 3D)
10.02.05
WSC-4 Courses
27
Контроль с помощью SPC
X1
X2
Одномерная область контроля
t
t
t
t
t
t
t
X2
t
t
t
t
t
X1
t
Многомерная область контроля
t
10.02.05
WSC-4 Courses
28
Контроль с помощью MSPC
X3
Мера Т2 Хотеллинга
(расстояние внутри модели)
X1
X2
Ошибка моделирования
(расстояние до модели)
10.02.05
WSC-4 Courses
29
Периодические (batch) процессы
Периодические процессы применяются при производстве лекарств, полимеров, пищевых продуктов, и т. п.
Они характеризуются –
 Конечной продолжительностью
 Кинетикой протекания
 Изменчивостью, как внутри, так и между циклами
 Частой сменой производимых продуктов
В непрерывных процессах важны только взаимоотношения между переменными, тогда как в периодических
важно знать как переменные меняются во времени.
Поэтому здесь особенно важен контроль в реальном
времени.
10.02.05
WSC-4 Courses
30
Сравнение двух типов процессов
Непрерывный процесс
Периодический процесс
X
X
t
10.02.05
WSC-4 Courses
$t1
$t2
$t3
batch 1
batch 2
batch 3
t
31
Контроль в фармацевтике
Концентрации
Реакция
идет при
T= – 50оС
concentrations
1
A
C
0.8
0.6
B
0.4
0.2
0
0
2
4
time
6
8
10
Модель
Макропараметры: температура, давление
t
t
10.02.05
WSC-4 Courses
32
MSPC в фармацевтике
Реактор
История процесса
Спектры
Проекционная модель
Макро
t
t
t
t
t
MSPC Контроль
Текущий цикл
Обратная связь
10.02.05
WSC-4 Courses
33
Трехмодальные (3-way) данные
X
y
time
batch 2
time
batch 3
time
batch 4
time
batch 5
time
batches
batch 1
wavelengths
wavelengths
10.02.05
WSC-4 Courses
34
Регрессия
n наблюдений
p переменных
X
p >> n
10.02.05
a = y+ e
rank (X) < p
WSC-4 Courses
35
Вполне реальный пример
10.02.05
WSC-4 Courses
36
MSPC Контроль по первым двум ГК
Средняя траектория хороших циклов (зеленая) ± 3 (красные).
Хорошие циклы должны лежать в этих пределах.
10.02.05
WSC-4 Courses
37
Контроль процесса в реальном времени
Плохой процесс (черный) выходит
за пределы допустимых отклонений
по ГК1.
Причина выясняется с помощью
графика вкладов переменных в
первую ГК.
Bad batch
10.02.05
Bad variable
WSC-4 Courses
38
Контрольная карта для этой переменной
10.02.05
WSC-4 Courses
39
Многомерный анализ изображений (MIA)
по материалам Paul Geladi, Sweeden
10.02.05
WSC-4 Courses
40
Численные
методы
Хемометрика
Фармацевтика
Экология
Хемометрика
Аналитическая
химия
Множество
приложений
QSAR
QSPR
Распознавание
образов
10.02.05
Промышленность
WSC-4 Courses
41
Разложение изображения по каналам
Red channel
Blue channel
Green channel
10.02.05
WSC-4 Courses
42
Оцифровка изображения
10.02.05
WSC-4 Courses
43
Применение МГК для анализа
Образ ГК1
X
10.02.05
PCA
Образ ГК2
WSC-4 Courses
44
Исследование состояния лесов (Канада)
Область
высоким
Старые
Новыеспосадки
деревья
Область в тени
коэффициентом
Исходный аэроснимок отражения
Он же в пространстве ГК1
10.02.05
WSC-4 Courses
45
Хемометрика и экспертиза
по материалам Оксаны Родионовой, Россия
и Lars P. Houmøller, Denmark
10.02.05
WSC-4 Courses
46
Численные
методы
Хемометрика
Фармацевтика
Экология
Хемометрика
Аналитическая
химия
Множество
приложений
QSAR
QSPR
Распознавание
образов
10.02.05
Промышленность
WSC-4 Courses
47
Фальшивые таблетки
10.02.05
WSC-4 Courses
48
ИК Спектры таблеток
0.7
N1
N1Cut
0.6
N2
N2Cut
0.5
0.4
0.3
N2
0.2
N1
0.1
0
3800
-0.1
cm -1
4800
5800
6800
7800
8800
9800
-0.2
-0.3
Прибор Bomem MB160 в диапазоне 3800 – 10000 cm-1 (ближний ИК
спектр); 1609 значений.
N1 - таблетки от производителя –10 штук;
N1Cut – образец N1 разрезанный
N2 - таблетки фальсифицированные – 10 штук;
N2Cut – образец N2 разрезанный
10.02.05
WSC-4 Courses
49
PCA полного спектра
0.3
PC2
0.2
Fake
N1
N1Cut
N2
N2Cut
0.1
True
PC1
0.0
-0.1
-0.2
-0.8
10.02.05
-0.6
-0.4
-0.2
0.0
WSC-4 Courses
0.2
0.4
0.6
50
Отдельные участки спектра
0.2
N1
N1Cut
N2
N2Cut
-0.01
7000
7100
7200
-0.03
7300
7400
cm-1
0.16
-0.05
0.12
-0.07
0.08
-0.09
-0.11
0.04
0
5800
10.02.05
6000
6200
6400
6600
cm-1
-0.13
6800
-0.15
WSC-4 Courses
N1
N1Cut
N2
N2Cut
51
Анализ «наихудшего» участка спектра
0.70
0.08
N2
PC2
0.65
0.06
0.60
0.04
N1
N1Cut
N2
N2Cut
Fake
0.55
0.02
N1
True
0.50
PC1
0.00
0.45
-0.02
0.40
3800
3900
4000
4100
4200
4300
-1
cm
10.02.05
-0.04
-0.10
WSC-4 Courses
-0.05
0.00
0.05
0.10
52
SIMCA
Полный спектр (1609 точек)
Участок спектра (130 точек)
0.020
0.005
N2
0.010
N1Cut
0.005
N2
0.004
Distance to model, s i
Distance to model, s i
0.015
0.003
0.002
N1Cut
0.001
0.000
0.000
0
10
20
30
40
50
60
70
Leverage, h
10.02.05
WSC-4 Courses
0
20
40
60
80
100
Leverage, h
53
Гипреспектры таблеток
10.02.05
WSC-4 Courses
54
Хемометрика и экология
по материалам Pentti Minkkinen, Finland
10.02.05
WSC-4 Courses
55
Численные
методы
Хемометрика
Фармацевтика
Экология
Хемометрика
Аналитическая
химия
Множество
приложений
QSAR
QSPR
Распознавание
образов
10.02.05
Промышленность
WSC-4 Courses
56
Влияние ванадиевой пыли на людей
Испытательная
группа 17 человек
подверженных
пыли V2O5 на
фабрике
Контрольная
группа 18 человек
Измерялись 26
клинических
показателей
плазмы крови
10.02.05
WSC-4 Courses
57
График ГК
5
4
3
V
ГК2 (29.9 %)
2
V V
1
V C
V
0
V
C
-1
-2
-5
-5
10.02.05
V V
V
V
C
C V
C
C V
V
VC
C
C
C
C
C C
-3
-4
V
V VV
C C
C
C
0
ГК1 (17.5 %)
WSC-4 Courses
5
58
PLS-D Дискриминация
Матрица дескрипторов X
x11
x12
…
…
x1k
1
0
x21
x22
…
…
x2k
1
0
…
…
…
…
1
0
…
…
…
…
1
0
xi1
xi2
…
…
xik
1
0
xi+1,1
xi+1,2
…
…
xi+1,k
0
1
…
…
0
1
0
1
CLASS
CLASS
10.02.05
Матрица индикаторов Y
C
V
…
PLS2
…
…
…
0
1
xn1
xn2
xnk
0
1
WSC-4 Courses
59
График ГК в PLS-D
3
ГК2
C
2
C
C
C
C
C
V
C
1
C
C
C
C
0
V V
VV V
V
C
C
C
-1
V
C
C
V
VV
V
V
C
VV V
V
V
-2
ГК1
-3
-5
10.02.05
-4
-3
-2
-1
0
WSC-4 Courses
1
2
3
4
60
Хемометрика в биологии
по материалам David O. Nelson and
Matt Coleman, USA
10.02.05
WSC-4 Courses
61
Численные
методы
Хемометрика
Фармацевтика
Экология
Хемометрика
Аналитическая
химия
Множество
приложений
QSAR
QSPR
Распознавание
образов
10.02.05
Промышленность
WSC-4 Courses
62
Новая биология: X- omics
Традиционный подход:
• Один ген/белок/реакция за раз
• Исследование отдельной модели
Новый «системный» подход:
• Все ДНК/РНК/белки исследуются вместе
• Глобальный анализ больших данных
10.02.05
WSC-4 Courses
63
Что такое microarray - чип?
• Каждый микрореактор
содержит ДНК (или
белок)
• Обычно в каждом
реакторе разные ДНК,
с повторами для
контроля точности
• За один раз несколько
микрореакторов
гибридизируются с
экстрактами тканей
• Результат виден как
образ, состоящий из
множества цветных
пятен
10.02.05
WSC-4 Courses
64
Эксперименты с ДНК
Подготовка проб ДНК
контроль
Подготовка чипа
тест
подкрашивание
красителями
смешивание
в равных
объемах
гибридизация
пробы
сканирование
Сравниваются две пробы ДНК. Они подкрашиваются разными красителями
Результат эксперимента это интенсивности через два фильтра - красный и
зеленый
10.02.05
WSC-4 Courses
65
Схема обнаружения промоторов
1. Эксперимент с
чипом
2. Извлечение
кластеров кДНК
A
5. Определение потенциальных промоторов
3. Поиск последовательностей в базе
4. Извлечение
последовательностей
7. Поиск других
генов в базе
8. Возможные гены
B C
6. Возможная модель
промотора
Из Thomas Werner Biomolecular Engineering, 17: 87-94 (2001)
10.02.05
WSC-4 Courses
66
QSAR и QSPR
по материалам Альфреда Сулейманова, Россия
10.02.05
WSC-4 Courses
67
Численные
методы
Хемометрика
Фармацевтика
Экология
Хемометрика
Аналитическая
химия
Множество
приложений
QSAR
QSPR
Распознавание
образов
10.02.05
Промышленность
WSC-4 Courses
68
Что такое QSAR/QSPR?
QSAR/QSPR
Quantitative structure-activity/property
relationships
Количественная связь
«структура-активность/свойство»
Цель – создание новых продуктов с
заданными свойствами
10.02.05
WSC-4 Courses
69
Разработка изделий из ПВХ (QSPR)
Матрица дескрипторов X
Модификаторы
FM22
Дакрилан
Стабилизаторы
Интерстаб Нафтомикс
Прочие
добавки
Матрица свойств Y
Белизна
Разрывное
растяжение
Ударная
прочность
Текучесть
расплава
Ytraining
Xtraining
PLS
Ynew
Xnew
10.02.05
WSC-4 Courses
70
Связь «состав-свойства»
График X и Y нагрузок
0.6
Прогноз ударной прочности
Дакрилан
PC2
36
Slope=0.865
FM22
Удар
Offset=3.14
Correlation=0.9
34
Интерстаб
RMSEC=1.33
0.3
Растяжение
Белизна
PC1
0
-0.6
-0.3
Текучесть
0
-0.3
0.3
0.6
RMEP=1.57
32
Predicted, KJ/m
Нафтомикс
30
28
26
24
24
-0.6
10.02.05
26
28
30
32
34
36
Measured, KJ/m
WSC-4 Courses
71
Подробнее о QSAR/QSPR
T14. QSAR/QSPR:
Universal Approach to the
Prediction of Properties of
Chemical Compounds and
Materials
Владимир Палюлин
Moscow State University, Russia
10.02.05
WSC-4 Courses
72
Электронные язык и нос
по материалам Алисы Рудницкой, Россия
10.02.05
WSC-4 Courses
73
Численные
методы
Хемометрика
Фармацевтика
Экология
Хемометрика
Аналитическая
химия
Множество
приложений
QSAR
QSPR
Распознавание
образов
10.02.05
Промышленность
WSC-4 Courses
74
Схема электронного языка
multiplexor
sensor
array
measuring device
V
reference
electrode
computer
analysed
solution
10.02.05
WSC-4 Courses
75
Реальный вид
10.02.05
WSC-4 Courses
76
Корреляция «человек-сенсор»
5
bitter
sweet
salty
4
3
Root2 (8%)
2
1
0
-1
-2
-3
-6
-4
-2
0
2
4
6
8
10
12
14
Root1 (92%)
10.02.05
WSC-4 Courses
77
Подробнее о языке и носе
T5. Comparison of PLS
Regression and Artificial
Neural Network for the
Processing of the
Electronic Tongue Data
from Fermentation Growth
Media Monitoring
Алиса Рудницкая
Sr. Petersburg University, Russia
10.02.05
WSC-4 Courses
78
Пробоотбор
по материалам Pentti Minkkinen, Finland
10.02.05
WSC-4 Courses
79
Теория пробоотбора
Пробоотбор
• Искусство отделения малой части из большой массы и
подготовки этой пробы к анализу
Лозунг дня
• Результат анализа всегда хуже, чем проба, по которой он
сделан
• Проба должна быть представительной
Теория, соединяющая техническую и статистическую
стороны была разработана
Pierre Gy: Sampling for Analytical Purposes, Wiley, 1998
и теперь развивается в работах
Kim Esbensen & Pentti Minkkinen
10.02.05
WSC-4 Courses
80
Неправильный отбор образца
10.02.05
WSC-4 Courses
81
Правильный отбор образца
10.02.05
WSC-4 Courses
82
Выводы
Хемометрика находит приложение
во многих, очень многих областях
10.02.05
WSC-4 Courses
83
Конференция Analytica Expo 2005
Москва, Выставочный Центр
«Сокольники», 19 апреля 2005 г.
APPLICATIONS OF
CHEMOMETRICS TO PAT
Richard G. Brereton
Centre for Chemometrics University of Bristol
United Kingdom
10.02.05
WSC-4 Courses
84
Download