распределения и доверительные интервалы

advertisement
Занятие 2. Распределения и
доверительные интервалы
𝑥1 , 𝑥2 , … , 𝑥𝑛
𝑥1 , 𝑥2 , … , 𝑥𝑛
Теоретическая часть
1. Распределение случайной величины и функция плотности распределения
2. Нормальное распределение, математическое ожидание и дисперсия
3. Распределение Стьюдента (t-распределение)
4. Квантили и доверительные интервалы
Практическая часть
1. Вычисление доверительных интервалов
2. Построение гистограмм нормального распределения или tраспределения (на выбор)
3. Критерий трёх сигм – практическое использование
Функции распределения и плотности распределения
Функция распределения вероятностей 𝐹 𝑥 = 𝑃(𝑋 < 𝑥) – вероятность того,
что случайная величина X примет значение меньшее, чем x
Свойства:
• Определена на всей числовой прямой
• Если 𝑥1 < 𝑥2 , то 𝐹 𝑥1 ≤ 𝐹 𝑥2
• 𝐹 −∞ = 0; 𝐹 +∞ = 1
• 𝐹 𝑥 непрерывна справа
Плотность распределения вероятностей непрерывной случайной величины
𝑝 𝑥 =
𝑑𝐹(𝑥)
𝑑𝑥
Свойства:
+∞
• −∞ 𝑝 𝑥 𝑑𝑥 = 1
• 𝐹 𝑥 =
𝑥
𝑝
−∞
𝜉 𝑑𝜉
• 𝑃 𝑎<𝑥<𝑏 =
𝑏
𝑝
𝑎
𝜉 𝑑𝜉
Нормальное распределение
Мат. ожидание
Плотность вероятности
𝑝 𝑥 =
1
𝜎 2𝜋
Полуширина
𝑥−𝜇 2
−
𝑒 2𝜎2
Оценка параметров
нормального распределения
(𝒏 > 𝟐𝟎)
1
𝜇=𝑥=
𝑛
𝜎=𝑠=
𝑥𝑖
𝑖
𝑖
𝑥𝑖 − 𝑥
𝑛−1
2
Стандартное норм. распр.
𝜎 = 1; 𝜇 = 0
Центральная предельная теорема
Если 𝑋𝑖 - независимые и одинаково
распределенные случайные величины с
конечными 𝜎 2 и 𝜇, то
𝑛
𝑖=1 𝑋𝑖
− 𝑛𝜇
→ 𝑁(0; 1) при 𝑛 → ∞
𝜎 𝑛
n=1
n=2
n=3
n=5
Оценка дисперсии
𝐷 𝑋 =𝑀 𝑋−𝑀 𝑋
2
= 𝑀 𝑋2 − 𝑀 𝑋
2
X – случайная величина, M – математическое ожидание
Среднеквадратичное отклонение
∗
𝐷 =
𝑖
𝑥𝑖 − 𝑥
𝑁
𝐷∗
=
𝑁
2
1
=
𝑁
2
𝑖 𝑥𝑖
−
𝑥𝑖2
𝑖
− 2𝑥𝑖 𝑥 + 𝑥
2
𝑖 𝑥𝑖 −
𝑁2
2
2
𝑖<𝑗 𝑥𝑖 𝑥𝑗
1
=
𝑁
=
𝑥𝑖2
𝑖
(𝑁 − 1)
2
−𝑥 =
2
𝑖 𝑥𝑖
−2
2
𝑖 𝑥𝑖
𝑁
−
𝑖 𝑥𝑖
𝑁2
2
𝑖<𝑗 𝑥𝑖 𝑥𝑗
𝑁2
Математическое ожидание среднеквадратичного отклонения
𝑁−1
2
𝑁−1
2 𝑁2 − 𝑁
2
∗
2
𝑀𝐷 =
𝑀 𝑥𝑖 − 2
𝑀 𝑥𝑖 𝑀 𝑥𝑗 =
𝑀𝑋 − 2
𝑀𝑋
𝑁2
𝑁
𝑁
𝑁
2
𝑖
=
𝑁−1
𝑀 𝑋2 − 𝑀 𝑋
𝑁
Поправка Бесселя
(Bessel’s correction)
𝑖<𝑗
2
=
𝑁−1
𝐷(𝑋)
𝑁
2
=
Распределение Стьюдента (t-распределение)
Плотность вероятности
𝑛+1
𝑛+1
− 2
2
Γ
𝑦
2
𝑝 𝑦 =
1
+
𝑛
𝑛
𝜋𝑛Γ 2
𝑥𝑖 𝑠 =
𝑖
𝑖
𝑡 𝑓 =
𝑥𝑖 − 𝑥
𝑛−1
𝑥−𝜇
𝑠/ 𝑛
𝑛 – число точек
𝑓 = 𝑛 − 1 – число степеней
свободы
1
𝑓
𝑓
2
𝑖=1 𝑌𝑖
Yi – независимые
стандартные нормальные
случайные величины
При 𝑛 → ∞ переходит в нормальное
Оценка доверительного
интервала
1
𝑥=
𝑛
𝑡=
𝑌0
2
Квантили
Квантиль (α-квантиль) 𝑥𝛼 – число, такое, что заданная случайная величина превышает
его лишь с фиксированной вероятностью 1 − 𝛼 , т.е. 𝑃 𝑋 ≤ 𝑥𝛼 = 𝛼
Квантиль рассчитывается по уравнению: 𝐹 𝑥𝛼 = 𝛼
Двухсторонний квантиль
Определение
Случай симметричного
распределения
𝑃 𝑥1−𝛼 ≤ 𝑋 ≤ 𝑥1+𝛼 = 𝛼
2
2
𝐹 𝑥1+𝛼 − 𝐹 𝑥1−𝛼 = 𝛼
2
𝑥1+𝛼 = −𝑥1−𝛼
2
2
2
Пример: 𝛼 = 0.95
1 + 𝛼 1 + 0.95
=
= 0.975
2
2
1 − 𝛼 1 − 0.95
=
= 0.025
2
2
𝒙𝟏−𝜶
𝟐
𝒙𝟏+𝜶
𝟐
Доверительный интервал: теория
Нормальное распределение
Если 𝑋1 , … , 𝑋𝑛 независимы друг от друга и 𝑋𝑖 ~𝑁 𝜇𝑖 , 𝜎𝑖2 , то их линейная
комбинация 𝑌 = 𝑖 𝑐𝑖 𝑋𝑖 подчиняется нормальному распределению
𝑁 𝑖 𝑐𝑖 𝜇𝑖 , 𝑖 𝑐𝑖2 𝜎𝑖2
Распределение выборочного среднего (оценки мат.ожидания)
2
1
1
1
𝜎
𝑋−𝜇
2
2
𝑋=
𝑋𝑖 ~
𝑁 𝜇, 𝜎 ~ 𝑁 𝑛𝜇, 𝑛𝜎 ~𝑁 𝜇,
⇒
~𝑁(0,1)
𝑛
𝑛
𝑛
𝑛
𝜎/ 𝑛
𝑖
𝑖
Оценка доверительного интервала
𝑃 𝑋−
𝜎
𝜎
⋅ 𝑧1+𝛼 ≤ 𝜇 ≤ 𝑋 +
⋅ 𝑧1+𝛼 = 𝛼
𝑛
𝑛
2
2
Обычно 𝛼 = 0.95 и 𝑧 = 1.96
(«две сигмы»)
ВНИМАНИЕ!
Зауженный доверительный
интервал при 𝜎 2 = 𝑠 2 и 𝑛 < 50
(особенно при 𝑛 < 8 − 10)
При малых n пользуйтесь
распределением Стьюдента
Доверительный интервал: теория
Распределение Стьюдента
Теорема Фишера для нормальных выборок
Если 𝑋1 , … , 𝑋𝑛 независимы друг от друга и 𝑋𝑖 ~𝑁 𝜇, 𝜎 2 , а 𝑋 =
𝑖
•
•
•
𝑋𝑖 − 𝑋 2
1
𝑛
𝑖 𝑋𝑖
и 𝑠2 =
, тогда
𝑛−1
𝑋−𝜇
~𝑁 0; 1 (стандартное
𝜎/ 𝑛
𝑋 и 𝑠 2 независимы
𝑛−1 𝑠 2
2
~𝜒𝑛−1
2
𝜎
нормальное распределение)
(распределение хи-квадрат с n-1 степенями свободы)
Оценка доверительного интервала
𝑠
𝑠
𝑃 𝑋−
⋅ 𝑡1+𝛼 ≤ 𝜇 ≤ 𝑋 +
⋅ 𝑡1+𝛼 = 𝛼
,𝑓
𝑛
𝑛
2
2 ,𝑓
𝑓 = 𝑛 − 1 – число степеней свободы
Обычно 𝛼 = 0.95 и 𝑡 = 2 − 7
ВНИМАНИЕ! НЕ ПУТАТЬ!
• 𝛼и1−𝛼
• Одно- и двухсторонние
квантили
• 𝑛и𝑓
Проверка: lim 𝑡0.95,𝑓 = 1.96
𝑓→∞
Доверительные интервалы: практика
1. Рассчитать 𝒙 (среднее значение) и 𝒔 (стандартное отклонение)
Функции MS Excel: СРЗНАЧ, СТАНДОТКЛОН
𝜇=𝑥=
1
𝑛
𝑥𝑖
𝑖
𝑠=
𝑖
𝑥𝑖 − 𝑥
𝑛−1
2
2. Найти двухсторонний квантиль t-распределения для заданной вероятности
(обычно p=95%) и числа степеней свободы (f = n – 1)
Функции MS Excel: СРЗНАЧ, СТАНДОТКЛОН
(1) чем выше p, тем больше значение квантиля
(2) чем больше f, тем меньше значение квантиля
(3) для 𝑓 ≈ 100 – квантили как для нормального распределения (например,
t(p=0.95, f=100)=1.98
(4) различайте p и 1-p, одно- и двухсторонние квантили!
3. Рассчитать стандартное отклонение среднего значения и доверительный
интервал
𝑠𝑥 = 𝑠/ 𝑛
Δ𝑥 = 𝑠𝑥 𝑡(𝑝; 𝑛 − 1)
Грубые промахи; критерий 3σ
Алгоритм
1. Рассчитать среднее значение
2. Рассчитать стандартное отклонение
(исключив предполагаемый промах)
3. Если предполагаемый промах за
пределами 3s, то исключить его
4. Применять для n=20-100
Задача: найти промах в выборке
8,07
8,05
8,10
8,16
8,18
8,14
8,06
8,10
8,22
8,06
8,04
8,11
8,09
8,14
8,11
8,15
8,16
8,50
8,09
8,14
8,12
8,13
8,18
8,20
8,17
Download