Современные методы обработки экспериментальных данных

advertisement
Логашенко И.Б.
Современные методы обработки
экспериментальных данных
Байесовский подход к оценке
вероятностей
Когда нужно применять
байесовский подход?
В современных экспериментах часто возникает ситуации, когда “классические” методы анализа
погрешностей и доверительных интервалов дают неправильный результат. Обычно это связано с
малой статистикой или близостью измеряемых величин к физически возможной границе.
• измерение массы нейтрино
• изучение редкого процесса при наличии фона
В подобных случаях байесовские методы оценки вероятностей
приводят к более осмысленным результатам. Основные идеи
были опубликованы в 1763 году в труде Томаса Байеса, поэтому
эти методы такие же классические, как и “классические”. Однако
широко байесовские подходы стали применяться только во
второй половине 20 века.
В настоящее время байесовские методы применяются в широком
классе задач, связанных с анализом данных, принятием решения,
построением экспертных систем.
Логашенко И.Б.
Современные методы обработки
экспериментальных данных
2
Что такое вероятность
• Обычно под вероятностью понимается предел отношения определенного результата эксперимента
к общему числу экспериментов. Это частотное определение вероятности
Как правило, именно так понимается вероятность при обработке физического эксперимента.
Удобство этого определения в том, что оно предоставляет объективную методику измерения
вероятности.
Но как практически измерить очень маленькую вероятность? И не всегда есть возможность
провести множество экспериментов. Например, как ответить на вопрос: “Какова вероятность,
что я женюсь на соседке по парте?”
• Баейсовское понимание вероятности: степень уверенности в истинности суждения
Такое определение по своей природе субъективно. Как превратить расплывчатое “степень
уверенности” в количественную меру? Например, определять вероятность как нормированное
количество денег, которое мы готовы поставить на тот или иной исход.
Теорема Байеса задает правило, по которому степень уверенности изменяется при появлении
новой информации.
Логашенко И.Б.
Современные методы обработки
экспериментальных данных
3
Аксиоматическое определение
вероятности
Вероятность подчиняется аксиомам:
0 ≤ P( E ) ≤ 1
P (Ω) = 1
P( E1 ∪ E2 ) = P( E1 ) + P( E2 ), если E1 ∩ E2 = 0
Следствия:
P( E ) = 1 − P( E )
P(∅) = 0
Если A ⊆ B, то P( A) ≤ P( B)
P( A ∪ B) = P( A) + P( B) − P( A ∩ B)
Логашенко И.Б.
Современные методы обработки
экспериментальных данных
4
Условная вероятность
Условная вероятность: P(A|B) – вероятность того, что А произойдет, при условии, что В истинно
(произошло)
Не путать с P(A∩B), или P(A,B) – вероятностью, что произойдет и A, и B!
P( A | B) =
P( A ∩ B)
P( B)
P( A ∩ B) = P( A | B) P( B)
P ( A ∩ B ) = P ( B | A) P ( A)
P ( B | A) =
P ( A | B ) P ( B ) = P ( B | A) P ( A)
P( A | B) P( B)
P ( A)
Простейший вид теоремы Байеса
Логашенко И.Б.
Современные методы обработки
экспериментальных данных
5
Теорема Байеса
Пусть E – экспериментальные данные, а {H1,H2,…} – множество независимых гипотез, образующих
полную систему:
• Hi ∩ H j = ∅
•
∪H
i
=Ω
i
Теорема Байеса решает обратную задачу:
• прямая задача: найти вероятность события E в рамках гипотезы H
• обратная задача: найти “вероятность” гипотезы H при условии, что зарегистрировано событие E
P( E | H i ) P( H i )
P( E )
⎛
⎞
Подставим P( E ) = P ⎜ ∪ ( E ∩ H i ) ⎟ = ∑ P ( E ∩ H i ) = ∑ P( E | H i ) P ( H i )
⎝ i
⎠
P( H i | E ) =
P( H i | E ) =
P( E | H i ) P( H i )
∑ P( E | H j ) P( H j )
j
Логашенко И.Б.
Современные методы обработки
экспериментальных данных
6
Априорная и апостериорная
вероятности
Формула Байесовского (Bayesian) вероятностного вывода (inference):
Априорная
вероятность
Функция
правдоподобия
P( H i | E ) =
Апостериорная
вероятность
P( E | H i ) P( H i )
∑ P( E | H j ) P( H j )
j
Нормировочный
множитель
Априорная вероятность содержит в себе исходные предположения о вероятности той или иной
гипотезы (которые могут быть субъективны)
Апостериорная вероятность поправляет исходные предположения с учетом сделанных наблюдений
При большом числе наблюдений апостериорная вероятность практически не зависит от априорной
вероятности (кроме вырожденных случаев, например P(H)=0)
При малой статистике разумный выбор априорной вероятности представляет собой основную
проблему при применении баейсовского вывода
Логашенко И.Б.
Современные методы обработки
экспериментальных данных
7
Пример применения т.Б.
Задача: случайному пациенту сделали тест на наличие СПИД, и получили положительный результат.
Пусть точность теста 99.8% (т.е. он дает положительный результат у 0.2% здоровых людей). Какова
вероятность, что у этого пациента СПИД?
Решение:
Априорная вероятность P(больной) – доля больных в стране (пусть 0.3%)
P (больной | тест +) =
≈
P (тест+ | больной ) ⋅ P(больной )
≈
P (тест+ | больной ) ⋅ P (больной ) + P (тест+ | здоровый ) ⋅ P ( здоровый )
1 ⋅ 0.003
= 60%
1 ⋅ 0.003 + 0.002 ⋅1
Если пациент не случайный (например, симптомы указывали на наличие СПИД), то априорная
вероятность не 0.3%, а порядка 50%, и тогда P(больной|тест+)=99.8%
Логашенко И.Б.
Современные методы обработки
экспериментальных данных
8
Формулировка т.Б. для
непрерывного распределения
Пусть x – измеренное значение, μ – параметр модели. Тогда формула Байесовсого вывода:
f ( μ | x) =
f ( x | μ )· f 0 ( μ )
∫ f ( x | μ ) f ( μ )d μ
0
Всю информацию о вероятности различных параметров модели несет распределение f(μ|x).
Обычно, распределение характеризуют средним и дисперсией:
μ = ∫ μ f ( μ | x)d μ
σ μ2 = ∫ μ 2 f ( μ | x)d μ − μ 2
При наличии скрытых параметров (например, систематических ошибок):
f ( x | μ , h) f ( μ , h)dh
∫
f ( μ | x) = ∫ f ( μ , h | x) f ( μ , h)dh =
∫ ∫ f ( x | μ , h) f (μ , h)d μ dh
0
0
0
Логашенко И.Б.
Современные методы обработки
экспериментальных данных
9
Метод максимального
правдоподобия и теорема Байеса
Часто в качестве априорного распределения используется равномерное распределение, определенное
в достаточно широком диапазоне. В этом случае:
f ( μ | x) =
1
∫ f ( x | μ )d μ
f (x | μ)
Функция правдоподобия
Нормировочный множитель
Метод максимального правдоподобия является частным случаем байесовского анализа в случае
равномерного априорного распределения.
Баейсовский вывод
f ( μ | x)
μ = ∫ μ f ( μ | x)d μ
σ μ2 = ∫ μ 2 f ( μ | x)d μ − μ 2
Логашенко И.Б.
Равномерное
априорное
распределение
Метод максимального
правдоподобия
max ln L(x|μ )= − ln f ( x | μ )
∂ 2 ln f ( x | μ )
2 ≈
∂μ 2
σμ
1
Δ(ln f ( x | μ )) =
Современные методы обработки
экспериментальных данных
1
2
10
Пример: измерение
эффективности
Задача: из N событий n событий прошло критерии отбора. Какова эффективность p (вероятность)
этих критериев отбора?
Решение:
Параметр модели – эффективность p
Априорная вероятность – равномерное распределение на интервале [0,1]
Функция правдоподобия f (n|p,N) – биномиальное распределение
Требуется получить f (p|n,N)
f (n | N , p) =
N!
p n (1 − p ) N − n
( N − n) ! n !
( N ≥ 1, n ≥ 0, 0 ≤ p ≤ 1)
n
N
n +1
p=
N +2
p (1 − p )
σ p2 =
N +3
pmax =
f ( p | n, N ) =
p n (1 − p ) N − n
∫
1
0
p n (1 − p ) N − n dp
=
( N + 1)! n
p (1 − p) N − n
n !( N − n) !
Это бета-распределение B(p;n+1,N-n+1)
Логашенко И.Б.
Современные методы обработки
экспериментальных данных
11
Для справки: Бета-распределение
Γ( p + q) p −1
B( x; p, q ) =
x (1 − x) q −1
Γ ( p )Γ ( q )
0 ≤ x ≤1
p, q = 1, 2,3, …
∞
Свойства:
x=
0
p
p+q
σ x2 =
∫
1
0
Γ(c) = ∫ x c −1e − x dx
Γ(n + 1) = n !
pq
( p + q) 2 ( p + q + 1)
B( x; p, q )dx = 1
Бета-распределение часто используется для описания распределений, ограниченных в определенном
интервале.
Логашенко И.Б.
Современные методы обработки
экспериментальных данных
12
Случай 100% эффективности
Пусть из N событий все прошли критерии отбора. Какова эффективность p (вероятность) этих
критериев отбора?
f ( N | N , p) = p N
( N ≥ 1, 0 ≤ p ≤ 1)
f ( p | N , N ) = ( N + 1) p N
pmax = 1
p=
N +1
N +2
Найдем нижний предел p0, соответствующий 95%:
1
0.95 = ∫ f ( p | N , N )dp
p0
p0 = N +1 0.05
Логашенко И.Б.
Современные методы обработки
экспериментальных данных
13
Объединение результатов
эксперимента
Пусть в одном эксперименте из N1 событий n1 событий прошло критерии отбора, а в другом
эксперименте – из N2 событий “прошло” n2. Какова средняя эффективность p этих критериев
отбора?
Решение:
Объединить результаты нескольких измерений можно, последовательно применяя теорему Байеса.
Для первого эксперимента априорная вероятность – равномерное распределение. Для второго
эксперимента априорная вероятность – это апостериорная вероятность первого эксперимента.
f ( p | n2 , N 2 ) ~ p n2 (1 − p)( N2 − n2 ) · f ( p | n1 , N1 ) ~ p n2 (1 − p )( N2 − n2 ) · p n1 (1 − p )( N1 − n1 )
После нормировки:
f ( p | n1 , n2 , N1 , N 2 ) =
( N1 + N 2 + 1)!
p n1 + n2 (1 − p ) N1 + N2 − n1 − n2
(n1 + n2 )!( N1 + N 2 − n1 − n2 )!
Получили ожидаемый результат:
f ( p | n1 , n2 , N1 , N 2 ) = f ( p | (n1 + n2 ), ( N1 + N 2 ) )
Логашенко И.Б.
Современные методы обработки
экспериментальных данных
14
Пример: учет систематических
ошибок
Задача: в эксперименте измерили некую величину x с точностью σx. При этом измерительная шкала
сдвинута на неизвестную величину с нулевым ожиданием и дисперсией σz. Требуется оценить
значение x0 и ошибку измерения σ0 истинного значения величины.
Решение:
Обозначим неизвестное смещение измерительной шкалы z. Считаем, что z и x – независимые
величины, и поэтому априорная вероятность факторизуется: f ( x0 , z ) = f ( x0 )· f ( z )
Мы ничего не знаем о x0, поэтому f(x0) – константа в широком диапазоне. Априорное распределение
f(z) – гауссово распределение со средним 0 и дисперсией σz:
⎛ z2 ⎞
1
f ( x0 , z ) = const ·
exp ⎜ − 2 ⎟
2πσ z
⎝ 2σ z ⎠
Функция правдоподобия:
⎛ ( x − x0 − z ) 2 ⎞
f ( x | x0 , z ) =
exp ⎜ −
⎟
2σ x2
2πσ x
⎝
⎠
1
Логашенко И.Б.
Современные методы обработки
экспериментальных данных
15
Пример: учет систематических
ошибок (2)
Применяем формулу вероятностного вывода:
f ( x0 | x) =
∫
∫∫
⎛ ( x − x0 − z ) 2 ⎞ 1
⎛ z2 ⎞
exp ⎜ −
exp ⎜ − 2 ⎟ dz
⎟
2
2
σ
2πσ x
2
πσ
x
⎝ 2σ z ⎠
⎝
⎠
z
=
⎛ ( x − x0 − z ) 2 ⎞ 1
⎛ z2 ⎞
1
exp ⎜ −
exp ⎜ − 2 ⎟ dzdx0
⎟
2
2
σ
2πσ x
2
πσ
x
⎝ 2σ z ⎠
⎝
⎠
z
1
⎛ ( x0 − x) 2 ⎞
=
exp ⎜ −
2
2 ⎟
2
2
+
2(
σ
σ
+
2π σ x σ z
x
z)⎠
⎝
1
Получили ожидаемый результат:
Логашенко И.Б.
x0 = x
σ 2 = σ x2 + σ z2
Современные методы обработки
экспериментальных данных
16
Пример: ограниченный диапазон
изменения физической величины
Задача: в эксперименте измерили массу нейтрино и получили значение x=-5.41 эВ. В результате
моделирования было получено, что разрешение (точность измерения) установки σ=3.3 эВ. Что
можно сказать о массе нейтрино m?
Решение:
Параметр модели – масса нейтрино m
Априорная вероятность – равномерное распределение на интервале 0÷30 эВ (другие возможности –
половинка гауссового распределения, или треугольное распределение)
Верхний предел в
Баейсовском подходе
Функция правдоподобия f(x|m) – гауссово распределение
Требуется получить f(m|x)
f (m | x) =
∫
30
0
⎡ ( x − m) 2 ⎤ 1
1
exp ⎢ −
⎥· 30
2
σ
2
2πσ
⎣
⎦
, 0 ≤ m ≤ 30 эВ
2
⎡ ( x − m) ⎤ 1
1
exp ⎢ −
· dm
⎥
2
2σ
2πσ
⎣
⎦ 30
Верхний
предел в
классическом
подходе
Верхний предел: m<3.9 эВ с вероятностью 95%
Логашенко И.Б.
Современные методы обработки
экспериментальных данных
17
Пример: наблюдение эффекта
при наличии фона
Задача: в эксперименте зарегистрировали n событий. С результате моделирования получили, что
ожидаемое количество событий фона за это же время – nb. Что можно сказать о количестве
зарегистрированных событий сигнала ns?
Решение:
Параметр модели – число событий эффекта ns
Априорная вероятность – равномерное распределение на интервале от 0 до +бесконечности
Функция правдоподобия f (n| ns,nb) – распределение Пуассона с ожидаемым числом событий (ns+ nb)
Требуется получить f (ns| n,nb)
(ns + nb ) n − ( ns + nb )
f (n; ns , nb ) =
e
n!
f (ns ; n, nb ) =
∫
∞
0
Логашенко И.Б.
(ns + nb ) n e − ( ns + nb )
(ns + nb ) n e − ( ns + nb ) dns
Современные методы обработки
экспериментальных данных
18
Пример: наблюдение эффекта
при наличии фона (2)
В современных экспериментах часто возникает ситуация, когда регистрируется “малое” число
событий сигнала при “большом” числе событий фона. В таких случаях результатом эксперимента
является “верхний предел” – чему равна верхняя граница интервала nup, такая, что истинное
ожидаемое количество событий сигнала находится в диапазоне от 0 до nup с некоторой заданной
вероятностью (обычно 95%)?
nup
0.95 =
∫
6
f (ns ; n, nb )dns
0
Количество зарегистрированных
событий n
4
Верхний предел в
Баейсовском подходе
Берем по частям n раз:
e
− ( nup + nb )
1 − 0.95 =
n
∑
(nup + nb ) k
k!
k =0
e
− nb
2
0
nbk
∑
k =0 k !
n
Верхний
предел в
классическом
подходе
Это уравнение решается численно.
Логашенко И.Б.
Современные методы обработки
экспериментальных данных
19
Download