НИУ ВШЭ, 2013-14, «Теория вероятностей» Отделение лингвистики, 2013-14 уч. год Теория вероятностей Задачи по статистике (26 февраля 2014) И. В. Щуров, Д. А. Филимонов Нам потребуется определить 𝛼-квантиль — это часть выборки с самыми маленькими значениями, составляющая долю 𝛼 от всей выборки. Определение 1. Рассмотрим выборку {𝑥0 , 𝑥2 , . . . , 𝑥𝑁 −1 }. (Мы начинаем нумерацию с нуля, в выборке 𝑁 элементов.) Перенумераем элементы в выборке по возрастанию. Обозначим то, что получится, через {𝑣0, 𝑣1, . . . , 𝑣𝑁 −1}. Пусть 𝛼 — доля (число от 0 до 1). Обозначим через 𝐾 нижнее целое от 𝛼 · (𝑁 − 1) (то есть максимальное целое число, не превосходящее 𝛼 · (𝑁 − 1)). Тогда ∙ при 𝐾 + 1 < 𝛼𝑁 , 𝛼-квантиль = 𝑣𝐾+1 ∙ при 𝐾 + 1 = 𝛼𝑁 , 𝛼-квантиль = (𝑣𝑘 + 𝑣𝐾+1 )/2 ∙ при 𝐾 + 1 > 𝛼𝑁 , 𝛼-квантиль = 𝑣𝐾 . Задача 1. Пусть дана выборка {2, 4, 1, 3, 2, 4}. (a) Найти среднее и дисперсию выборки; (b) найти медиану и первый и третий квартили; (c) найти 0.3-квантиль и 0.9-квантиль; Решение. Упорядочим выборку. Полчится {1, 2, 2, 3, 4, 4}, 𝑁 = 6. Тогда 𝐾 = ⌊5 · 0.3⌋ = ⌊1.5⌋ = 1. 𝛼𝑁 = 6 · 0.3 = 1.8. 𝐾 + 1 = 2 > 𝛼𝑁 = 1.8 0.3 Таким образом, -квантиль = 𝑉𝐾 = 𝑉1 = 2. Действуя чуть менее формально, можно рассуждать так. Возьмём часть выборки, состоящую только из первого элемента. Какую долю она составляет от всей выборки? 1/6 ≈ 0.16. Добавим к ней второй элемент, получится {1, 2}. Какую долю эта часть составляет от всей выборки? 2/6 = 1/3 ≈ 0.33. Видно, что дальше добавлять элементы нет смысла — мы будем удаляться от искомого значения 0.3. Из двух чисел, 0.16 и 0.33, к 0.3 ближе второе. Значит, набор {1, 2} лучше всего приближает долю 0.3 от всей выборки, но при этом он чуть больше к 0.3. Значит, cамый большой элемент в этом наборе (в данном случае — 2) и есть искомая 0.3-квантиль. Если бы требовалось найти 0.51-квантиль, рассуждая похожим образом, мы бы пришли к набору {1, 2, 2}, но этот набор составляет ровно 0.5 от всей выборки, что чуть меньше, чем нам требуется. Поэтому в качестве 0.51-квантили был бы выбран следующий элемент (самый маленький элемент выборки, не входящий в наш набор) — 4. Наконец, в случае 0.5-квантили (медианы), набор {1, 2, 2} составляет ровно 0.5 от всей выборки. В этом случае в качестве квантили берут среднее арифметическое между двумя крайними значениями. В данном случае — (2 + 3)/2 = 2.5. И. В. Щуров, Д. А. Филимонов 1 НИУ ВШЭ, 2013-14, «Теория вероятностей» (d) изобразить на графике выборочную функцию распределения. Задача 2. Пусть дана выборка {−5, −3, 0, 4, 4.1, 4.2, 3.9, 4.4, 3.7, 4}. (a) Найти среднее и дисперсию выборки; (b) найти медиану и первый и третий квартили; (c) найти 0.3-квантиль и 0.9-квантиль; (d) изобразить на графике выборочную функцию распределения. И. В. Щуров, Д. А. Филимонов 2