Что такое хемометрика и нужна ли она лично Вам?

advertisement
Что такое хемометрика и нужна ли
она лично Вам?
Родионова Оксана Евгеньевна,
Институт химической физики РАН.
Содержание
1. Введение
2. БИК-спектроскопия и калибровка
3. Сенсоры и хемометрика
4. Формальные и содержательные
модели
5. Многомерный статистический
контроль процессов
6. Многие приложения
7. Заключение
Хемометрика: два определения
Дедуктивное
Хемометрика - это научная дисциплина, находящаяся на
стыке химии и математики, предметом которой являются
математические методы исследования химических данных
сайт Российского хемометрического общества
Индуктивно
е
Хемометрика – это то, что делают хемометрики.
сайт Международного хемометрического общества
Хемометрики – это такие люди, которые все время пьют
пиво и воруют идеи у математиков
Svante Wold
Что делают хемометрики?
• проводят допинг контроль спортсменов;
•• проводят
исследуют
причины
разрушения
локализуют
месторождение
золота
в на
диагностику артрита
и рака
документов,
написанных
старинными
Швеции;
ранних стадиях;
гальскими чернилами
• определяют состояние лесов в Канаде по
• находят следы кокаина на банкнотах,
• расшифровывают
снимкам
из космоса;состав косметики
собранных в Британском парламенте;
Древнего Египта;
• исследуют органические субстанции в
• выявляют фальшивые лекарства;
• определяют
происхождение пигментов,
кометном
веществе
старыми живописцами.
•использованных
контролируют производство
аспирина,
полупроводников, пива, водки, бумаги
полиэтилена, бензина, булочек …
Так что же делает хемометрика?
• Хемометрика имеет дело с данными (зачастую с очень большими), поэтому хемометрика это подраздел информатики (Data mining)
• Данные, которые исследует хемометрика по
большей части происходят из химии, поэтому
хемометрика - это подраздел химии (Analytical
chemistry)
• Методы, которые использует хемометрика
ориентированы на формальное моделирование
(Soft modeling)
Почему «хемо-» ?
• Хемометрика родилась из задачи анализа химических спектров
• Спектроскопия – один из наилучший метод
получения информации по ходу процесса (online) в режиме реального времени: быстро и без
влияния на процесс
• «Хемо» подчеркивает практическую, а не статистическую значимость применяемых методов
Почему «-метрика» ?
• Хемометрические методы легко и плодотворно
переносятся в другие области, например, в психологию, биологию, геологию, и т. д.
• Хемометрика активно эксплуатирует математику
статистику, линейную алгебру.
------------------------------------------------------------------‘It is easier to teach a chemist statistics that to teach
chemistry to a statistician.’ (Svante Wold)
Когда появилась?
«Каждая попытка применить
математические методы для исследования
химических проблем должна
рассматриваться как абсолютно абсурдная и
противоречащая самому духу химии.
Если математический анализ, когдалибо займет сколько-нибудь значительное
место в химии – извращение, которое по
счастью почти невероятно – это повлечет за
собой повсеместно быстрое вырождение этой
науки».
Огюст Конт, 1825
США, Сиэтле, 1974 год
Брюс Ковальски (B. Kowalski)
Сванте Волд (S. Wold)
Почему появилась?
Математические
методы
Много переменных и много измерений
Одно измерение – спектр (600 точек)
Один цикл – 800 спектров (времен)
Один массив данных – 200 образцов (циклов)
ю
...
Основные принципы
1. Использование многомерного подхода при
конструировании экспериментов и анализе их
результатов.
2. Что считать шумом, а что – информацией,
всегда решается с учетом поставленных целей и
методов, используемых для ее достижения.
3. Понятие эффективного (химического) ранга и
скрытых, латентных переменных, число которых
равно этому рангу.
Основная задача хемометрики
Заменить прямые измерения, которые либо –
 невозможны
 дороги
 длительны
на косвенные измерения, которые –
 доступны
 дешевы
 быстры
с последующей их обработкой (калибровкой).
Определение качества бензина
БИК-спектру
по
0.6
0.4
0.2
0
1100
0.6
PC2
Scores
92
H
0.3
90
H
H
H
H
H
H
H
1400
1500
1600
Predicted Y
Elements:
Slope:
Offset:
Correlation:
RMSEP:
SEP:
Bias:
S
13
1.010279
-0.918475
0.987680
0.233897
0.243305
0.008032
S
S
S S
S S
S
S
S
88
LL
LLLL
L
S
-0.3
H
M
-0.2
1300
S
S
H
LMM
M
LM
L
0
1200
0
0.2
PC1
0.4
0.6
0.8
86
Measured Y
86
87
88
89
90
91
92
Определение качества зерна по
БИК-спектру
NIR analyzers
standardization
Pavel A. Luzanov,
Lumex ltd.,
St. Petersburg, Russia
Сенсоры и хемометрика.
Электронные язык и нос
по материалам Алисы Рудницкой, Россия
Схема электронного языка
multiplexor
sensor
array
measuring device
V
reference
electrode
computer
analysed
solution
Реальный вид
Корреляция «человек-сенсор»
5
bitter
sweet
salty
4
3
Root2 (8%)
2
1
0
-1
-2
-3
-6
-4
-2
0
2
4
6
Root1 (92%)
8
10
12
14
Подробнее о языке
Analysis of port wines
using the electronic
tongue. Assessment of
port wine age and
comparison with
chemical analysis data
Alisa Rudnitskaya
Sr. Petersburg University,
Russia
И еще о сенсорах
The classification of aqueous
solutions with the use of
voltammetric system of divided
cells and principal component
analysis
Artem Sidelnikov,
Bashkir State University,
Ufa, Russia
Формальные и содержательные модели
Содержательные
“Hard” models
Формальные
“Soft” models
Физика, химия, ….
Из данных
y=f (x,a)+e
y=Xa+e
Параметры
Имеют физ. смысл
Физически бессмысленны
Проблемы
Построить модель
Обработать данные
Назначение
Экстраполяция
Интерполяция
Пример
Хим. кинетика
ANOVA
Откуда
Формула
Оценка активности
антиоксидантов методом ДСК
Hard and soft modeling. A
case study
Alexey Pomerantsev
Institute of Chemical
Physics,
Moscow, Russia
Многомерный статистический
контроль процессов (MSPC)
MSPC – это математический анализ реальных исторических данных, характеризующих опыт работы
•
Цель:
Научиться у самих себя принимать
оптимальные решения в различных ситуациях.
•
Средства: Сбор истории работы процесса, а также
анализ накопленных данных.
•
Результат: Снижении затрат при стабилизации
качества.
MSPC – это один из методов анализа процессов (PAT)
Контроль с помощью SPC
X1
X2
Одномерная область контроля
t
t
t
t
t
t
t
X2
t
t
t
t
t
t
t
X1
Многомерная область контроля
Контроль с помощью MSPC
X3
Мера Т2 Хотеллинга
(расстояние внутри модели)
X2
Ошибка моделирования
(расстояние до модели)
X1
Зачем в MSPC нужна хемометрика?
Потому, что все больше данных о процессах
получают с помощью современных, эффективных
приборов
 Макропеременные (температура, pH, давление, ... )
 Спектроскопия (УФ, ИК, БИК, ...)
 Хроматография (ЖХ, ГХ, ...)
 Гибридные методы (ЖХ/МС, ЖХ/ЯМР, ...)
 Видео образы и гиперспектры (2D, 3D)
Диагностика отказов
Real time diagnostics of
technological processes and
field equipment
Rusinov L.A,
St. Petersburg Technological
University, Russia
PAT & FDA
Process Analytical Technology (PAT) =
Технология (методы) анализа процессов
PAT =
Статистический контроль процессов (MSPC) +
Хемометрика (Chemometrics)
FDA = U.S. Department of Health and Human
Services Food and Drug Administration
Guidance for Industry PAT — A Framework for Innovative
Pharmaceutical Development, Manufacturing, and Quality Assurance
Pharmaceutical CGMPs, September 2004
Контроль и оптимизация
Analytical Process Control
and Optimization
Oxana Rodionova
Institute of Chemical Physics,
Moscow, Russia
Периодические (batch) процессы
Периодические процессы применяются при производстве лекарств, полимеров, пищевых продуктов, и т. п.
Они характеризуются –
 Конечной продолжительностью
 Кинетикой протекания
 Изменчивостью, как внутри, так и между циклами
 Частой сменой производимых продуктов
В непрерывных процессах важны только взаимоотношения между переменными, тогда как в периодических
важно знать как переменные меняются во времени.
Поэтому здесь особенно важен контроль в реальном
времени.
Сравнение двух типов процессов
Непрерывный процесс
Периодический процесс
X
X
t
$t1
$t2
$t3
batch 1
batch 2
batch 3
t
Контроль в фармацевтике
Концентрации
Реакция
идет при
T= – 50оС
concentrations
1
A
C
0.8
0.6
B
0.4
0.2
0
0
2
4
time
6
Модель
Макропараметры: температура, давление
t
t
8
10
MSPC в фармацевтике
Реактор
История процесса
Спектры
Проекционная модель
Макро
t
t
t
t
t
Текущий цикл
Обратная связь
MSPC Контроль
Рентгеновская кристаллография
белков
Two examples of chemometrics
application in protein
crystallography
Andrey Bogomolov,
European Molecular Biology
Laboratory (EMBL), Hamburg,
Germany
Многомерный анализ изображений
(MIA)
по материалам Paul Geladi, Sweeden
Разложение изображения по каналам
Red channel
Green channel
Blue channel
Оцифровка изображения
Применение МГК для анализа
Образ ГК1
X
PCA
Образ ГК2
Исследование состояния лесов (Канада)
Область
высоким
Старые
Новыеспосадки
деревья
Область в тени
коэффициентом
Исходный аэроснимок отражения
Он же в пространстве ГК1
Анализ изображений и медицина
Using black and white models for
classification of medical images
Sergei Kucheryavski,
Altai State University, Barnaul,
Russia
Хемометрика и экспертиза
по материалам Оксаны Родионовой, Россия
и Lars P. Houmøller, Denmark
Фальшивые таблетки
ИК Спектры таблеток
0.7
N1
N1Cut
0.6
N2
N2Cut
0.5
0.4
0.3
N2
0.2
N1
0.1
0
3800
-0.1
cm -1
4800
5800
6800
7800
8800
9800
-0.2
-0.3
Прибор Bomem MB160 в диапазоне 3800 – 10000 cm-1 (ближний ИК
спектр); 1609 значений.
N1 - таблетки от производителя –10 штук;
N1Cut – образец N1 разрезанный
N2 - таблетки фальсифицированные – 10 штук;
N2Cut – образец N2 разрезанный
PCA полного спектра
0.3
PC2
0.2
Fake
N1
N1Cut
N2
N2Cut
0.1
True
PC1
0.0
-0.1
-0.2
-0.8
-0.6
-0.4
-0.2
0.0
0.2
0.4
0.6
Отдельные участки спектра
0.2
N1
N1Cut
N2
N2Cut
-0.01
7000
7100
7200
-0.03
0.16
-0.05
0.12
-0.07
0.08
-0.09
-0.11
0.04
0
5800
6000
6200
6400
6600
cm-1
-0.13
6800
-0.15
N1
N1Cut
N2
N2Cut
7300
7400
cm-1
Анализ «наихудшего» участка спектра
0.70
0.08
N2
PC2
0.65
0.06
0.60
0.04
N1
N1Cut
N2
N2Cut
Fake
0.55
0.02
N1
True
0.50
PC1
0.00
0.45
-0.02
0.40
3800
3900
4000
4100
4200
4300
-1
cm
-0.04
-0.10
-0.05
0.00
0.05
0.10
SIMCA
Полный спектр (1609 точек)
Участок спектра (130 точек)
0.020
0.005
N2
0.010
N1Cut
0.005
N2
0.004
Distance to model, s i
Distance to model, s i
0.015
0.003
0.002
N1Cut
0.001
0.000
0.000
0
10
20
30
40
50
60
70
Leverage, h
0
20
40
60
80
100
Leverage, h
Гипреспектры таблеток
Spectral Dimensions
MatrixNIR Hyperspectral Imaging Camera
Wavelength: 900 – 1700nm @ 10 nm intervals
Image size: 256 x 320 pixels
Гиперспектральный анализ
Is Hypserspectral Imaging an
Analytical Instrument?
Paul Geladi, SLU, Umeå,
Sweden
Хемометрика и экология
по материалам Pentti Minkkinen, Finland
Влияние ванадиевой пыли на людей
Испытательная
группа 18 человек
подверженных
пыли V2O5 на
фабрике
Контрольная
группа 17 человек
Измерялись 26
клинических
показателей
плазмы крови
График ГК
5
4
3
V
ГК2 (17.5 %)
2
V V
1
V C
V
0
V
C
-1
-2
-5
-5
V V
V
V
C
C V
C
C V
V
VC
C
C
C
C
C C
-3
-4
V
V VV
C C
C
C
0
ГК1 (29.9 %)
5
PLS-D Дискриминация
Матрица дескрипторов X
Матрица индикаторов Y
x11
x12
…
…
x1k
1
0
x21
x22
…
…
x2k
1
0
…
…
…
…
1
0
…
…
…
…
1
0
xi1
xi2
…
…
xik
1
0
xi+1,1
xi+1,2
…
…
xi+1,k
0
1
…
…
0
1
0
1
CLASS
CLASS
C
V
…
PLS2
…
…
…
0
1
xn1
xn2
xnk
0
1
График ГК в PLS-D
3
ГК2
C
2
C
C
C
C
C
V
C
1
C
C
C
C
0
V V
VV V
V
C
C
C
-1
V
C
C
V
VV
V
V
C
VV V
V
V
-2
ГК1
-3
-5
-4
-3
-2
-1
0
1
2
3
4
Анализ экологического состояния
Волжского бассейна
The principle of
«ecological matreshka (a
set of nesting doll)» in the
system of the analysis of
multivariate ecological
data
G.S. Rozenberg, Institute
of ecology of the Volga
river basin of the RAS,
Togliatti, Russia
Реки Каталонии
Investigation of main
contamination sources of heavy
metal ions in fish, sediments
and waters from catalonia
rivers using different multiway
data analysis methods
Roma Tauler
IIQAB-CSIC, Barcelona, Spain
Озеро Саимаа в Финляндии
Environmental Monitoring of
Lake Saimaa, Finland
Satu-Pia Reinikainen,
Lappeenranta University of
Technology,
Lappeenranta, Finland
Мониторинг состояния
окружающей среды
Chemometric methods
for environmental
pollution monitoring
D.E Bykov,
Samara State Technical
University,
Samara, Russia
Пробоотбор
по материалам Pentti Minkkinen, Finland
Теория пробоотбора
Пробоотбор
• Искусство отделения малой части из большой массы и
подготовки этой пробы к анализу
Лозунг дня
• Результат анализа всегда хуже, чем проба, по которой он
сделан
• Проба должна быть представительной
Теория, соединяющая техническую и статистическую
стороны была разработана
Pierre Gy: Sampling for Analytical Purposes, Wiley, 1998
и теперь развивается в работах
Kim Esbensen & Pentti Minkkinen
Введение в теорию пробоотбора
Representative sampling in PAT
and environmental/geological
work: Theory of Sampling (TOS)
— a missing link
Kim H. Esbensen, Aalborg
University, Esbjerg Institute of
Technology, Denmark
Подробнее об ошибках пробоотбора
Weighting Error — the
Often Neglected Component
of the Sampling Errors
Pentti Minkkinen,
Lappeenranta University of
Technology,
Lappeenranta, Finland
Четвертая парадигма
Парадигма – концептуальная схема,
используемая для постановки проблем и
их решения, господствующая в научном
сообществе в течение длительного
исторического периода.
Энциклопедический словарь
по материалам Алексея Померанцев
Познать, значит нарисовать
V-III вв до н.э.
Познать, значит посчитать
X-XV н.э.
Познать, значит составить и решить
дифференциальное уравнение
XVII в. –н.в.
2H2+O2 2H2O
Познать, значит собрать и
проанализировать данные
Download