Занятие 1. Погрешности, доверительные интервалы, проверка

Занятие 1 Погрешности, доверительные интервалы, проверка статистических гипотез • Информация о курсе • Виды погрешностей и правила округления • Доверительные интервалы; нормальное распределение и tраспределение • Проверка статистических гипотез; критерии Стьюдента (t), Фишера (F) и Пирсона (χ2) Сведения о курсе Название: методы обработки результатов измерений Преподаватель: к.х.н., с.н.с. Восков Алексей Леонидович; [email protected] http://td.chem.msu.ru/study/specialcourses/ http://td.chem.msu.ru/study/generalcourses/ Темы занятий 1. Погрешности, доверительные интервалы, проверка статистических гипотез 2. Основы работы в GNU Octave (клон MATLAB) 3. Метод наименьших квадратов. Линейная и нелинейная регрессия. 4. Методы глобальной оптимизации. Метод отжига, символьная регрессия и генетические алгоритмы. Домашние задания 1. Доверительные интервалы и проверка статистических гипотез 2. Основы работы в GNU Octave 3. Регрессионный анализ Для получения зачёта – не менее 75% баллов по домашней работе, не менее 60% за каждое задание Необходимое программное и аппаратное обеспечение • • • • Программы MS Office 97 или выше с установленным пакетом анализа данных GNU Octave или MATLAB VirtualBox 4.3 (для работы с GNU Octave) Просмотровщик PDF Возможна замена MS Office for Windows на MS Office for Mac OS X или LibreOffice (пакет анализа данных будет заменен на заготовки) «Железо» • X86-компьютер с 1Гб RAM или более • 7 Гб свободного места на диске • ОС Windows, Mac OS или Linux Погрешности Виды погрешностей • Случайная погрешность – вызывается большим числом причин в каждом измерении (пример – разброс между результатами титрования) • Систематическая погрешность – обусловлены несовершенством метода измерений (приборы, примеси в реактивах и т.п.) • Грубые промахи – связаны с ошибками экспериментатора (неправильное чтение показаний прибора и т.п.) Абсолютная погрешность: Δ𝑥 = 𝑥𝑡𝑟𝑢𝑒 − 𝑥𝑚𝑒𝑎𝑠 - разница между истинным и измеренным значением Относительная погрешность: 𝛿𝑥 = Δ𝑥/𝑥 Правила округления Значащие цифры – все цифры данного числа от первой слева, не равной нулю, до последней справа Примеры: • 123 – 3 значащих цифра • 0.012 – 2 значащих цифры • 6.022*1023 – 4 значащих цифры • 5*103 – 1 значащая цифра. НО: 5000 – 4 значащих цифры! Округление до N-го разряда: • Если N+1 – ый разряд < 5 – то отбросить все цифры после N-го разряда • Если N+1 – ый разряд ≥ 5 – то увеличить N-ый разряд на 1 и отбросить все цифры после N-го разряда Примеры: • 123 -> 120 • 0.0458 -> 0.05 • 1.95 -> 2.0 Правила округления Примеры: • 53216 ± 348 → 5.32 ± 0.03 ⋅ 104 • 0.0322 ± 0.012 → 3.2 ± 1.2 ⋅ 10−2 • 12.482 ± 0.973 → (12.5 ± 1.0) Вход 𝑥, Δ𝑥 Первый разряд Δ𝑥 1 или 2? Да Нет Округлить Δ𝑥 до 1 цифры Округлить 𝑥 до того же разряда, что и Δ𝑥 Выход 𝑥 ± Δ𝑥 Округлить Δ𝑥 до 2 цифр Нельзя округлять: 1. Промежуточные вычисления (потеря точности) 2. Коэффициенты регрессии, полученные МНК (они коррелированы друг с другом) Сложение погрешностей Сложение случайных погрешностей при сложении и вычитании: Δ𝑦 = Δxi 2 Погрешность значения функции: 𝑦 = 𝑓(𝑥1 , … , 𝑥𝑛 ) Δ𝑦 = 𝑖 𝑖 Сложение систематических погрешностей при сложении и вычитании: Δ𝑦 = Δ𝑥𝑖 𝑖 Действие Погрешность 𝑦 = 𝑎 + 𝑏; 𝑦 =𝑎−𝑏 Δ𝑦 = 𝑦 = 𝑎𝑏; 𝑦 = 𝑎/𝑏 2 𝜕𝑓 𝑥 Δ𝑥𝑖 𝜕𝑥𝑖 Δ𝑎 𝛿𝑦 = 2 + Δ𝑏 𝛿𝑎2 + 𝛿𝑏2 𝑦 = ln 𝑎 Δ𝑦 = 𝛿𝑎 𝑦 = 𝑎𝑛 𝛿𝑦 = 𝑛𝛿𝑎 𝑦= 𝑛 𝑎 𝛿𝑦 = 𝛿𝑎 /𝑛 𝛿𝑦 = Δ𝑦/𝑦 2 Доверительные интервалы Среднее значение, стандартное отклонение, квантили Величина Среднее Формула Функция MS Excel 𝑥= Стандартное отклонение 𝑠𝑥2 = 1 𝑁 СРЗНАЧ 𝑥𝑖 𝑖 𝑖 𝑥𝑖 − 𝑥 𝑁−1 2 СТАНДОТКЛОН Двухсторонний квантиль tраспределения 𝑡𝛼,𝑓 СТЬЮДЕНТ.ОБР.2Х Односторонний квантиль нормального распределения 𝑧𝛼 НОРМ.ОБР Левосторонний квантиль F-распределения (Фишера) 𝐹𝛼,𝑓1 ,𝑓2 Левосторонний квантиль хи2-распределения (Пирсона) 2 𝜒𝛼,𝑓 F.ОБР ХИ2.ОБР Функции распределения и плотности распределения Функция распределения вероятностей 𝐹 𝑥 = 𝑃(𝑋 < 𝑥) – вероятность того, что случайная величина X примет значение меньшее, чем x Свойства: • Определена на всей числовой прямой • Если 𝑥1 < 𝑥2 , то 𝐹 𝑥1 ≤ 𝐹 𝑥2 • 𝐹 −∞ = 0; 𝐹 +∞ = 1 • 𝐹 𝑥 непрерывна справа Плотность распределения вероятностей непрерывной случайной величины 𝑝 𝑥 = 𝑑𝐹(𝑥) 𝑑𝑥 Свойства: +∞ • −∞ 𝑝 𝑥 𝑑𝑥 = 1 • 𝐹 𝑥 = 𝑥 𝑝 −∞ 𝜉 𝑑𝜉 • 𝑃 𝑎<𝑥<𝑏 = 𝑏 𝑝 𝑎 𝜉 𝑑𝜉 Нормальное распределение Мат. ожидание Плотность вероятности 𝑝 𝑥 = 1 𝜎 2𝜋 Полуширина 𝑥−𝜇 2 − 𝑒 2𝜎2 Оценка параметров нормального распределения (𝒏 > 𝟐𝟎) 1 𝜇=𝑥= 𝑛 𝜎=𝑠= 𝑥𝑖 𝑖 𝑖 𝑥𝑖 − 𝑥 𝑛−1 2 Стандартное норм. распр. 𝜎 = 1; 𝜇 = 0 Центральная предельная теорема Если 𝑋𝑖 - независимые и одинаково распределенные случайные величины с конечными 𝜎 2 и 𝜇, то 𝑛 𝑖=1 𝑋𝑖 − 𝑛𝜇 → 𝑁(0; 1) при 𝑛 → ∞ 𝜎 𝑛 n=1 n=2 n=3 n=5 Распределение Стьюдента (t-распределение) Плотность вероятности 𝑛+1 𝑛+1 − 2 2 Γ 𝑦 2 𝑝 𝑦 = 1 + 𝑛 𝑛 𝜋𝑛Γ 2 𝑥𝑖 𝑠 = 𝑖 𝑖 𝑡 𝑓 = 𝑥𝑖 − 𝑥 𝑛−1 𝑥−𝜇 𝑠/ 𝑛 𝑛 – число точек 𝑓 = 𝑛 − 1 – число степеней свободы 1 𝑓 𝑓 2 𝑖=1 𝑌𝑖 Yi – независимые стандартные нормальные случайные величины При 𝑛 → ∞ переходит в нормальное Оценка доверительного интервала 1 𝑥= 𝑛 𝑡= 𝑌0 2 Квантили Квантиль (α-квантиль) 𝑥𝛼 – число, такое, что заданная случайная величина превышает его лишь с фиксированной вероятностью 1 − 𝛼 , т.е. 𝑃 𝑋 ≤ 𝑥𝛼 = 𝛼 Квантиль рассчитывается по уравнению: 𝐹 𝑥𝛼 = 𝛼 Двухсторонний квантиль Определение Случай симметричного распределения 𝑃 𝑥1−𝛼 ≤ 𝑋 ≤ 𝑥1+𝛼 = 𝛼 2 2 𝐹 𝑥1+𝛼 − 𝐹 𝑥1−𝛼 = 𝛼 2 𝑥1+𝛼 = −𝑥1−𝛼 2 2 2 Пример: 𝛼 = 0.95 1 + 𝛼 1 + 0.95 = = 0.975 2 2 1 − 𝛼 1 − 0.95 = = 0.025 2 2 𝒙𝟏−𝜶 𝟐 𝒙𝟏+𝜶 𝟐 Доверительный интервал: теория Нормальное распределение Если 𝑋1 , … , 𝑋𝑛 независимы друг от друга и 𝑋𝑖 ~𝑁 𝜇𝑖 , 𝜎𝑖2 , то их линейная комбинация 𝑌 = 𝑖 𝑐𝑖 𝑋𝑖 подчиняется нормальному распределению 𝑁 𝑖 𝑐𝑖 𝜇𝑖 , 𝑖 𝑐𝑖2 𝜎𝑖2 Распределение выборочного среднего (оценки мат.ожидания) 2 1 1 1 𝜎 𝑋−𝜇 2 2 𝑋= 𝑋𝑖 ~ 𝑁 𝜇, 𝜎 ~ 𝑁 𝑛𝜇, 𝑛𝜎 ~𝑁 𝜇, ⇒ ~𝑁(0,1) 𝑛 𝑛 𝑛 𝑛 𝜎/ 𝑛 𝑖 𝑖 Оценка доверительного интервала 𝑃 𝑋− 𝜎 𝜎 ⋅ 𝑧1+𝛼 ≤ 𝜇 ≤ 𝑋 + ⋅ 𝑧1+𝛼 = 𝛼 𝑛 𝑛 2 2 Обычно 𝛼 = 0.95 и 𝑧 = 1.96 («две сигмы») ВНИМАНИЕ! Зауженный доверительный интервал при 𝜎 2 = 𝑠 2 и 𝑛 < 50 (особенно при 𝑛 < 8 − 10) При малых n пользуйтесь распределением Стьюдента Доверительный интервал: теория Распределение Стьюдента Теорема Фишера для нормальных выборок Если 𝑋1 , … , 𝑋𝑛 независимы друг от друга и 𝑋𝑖 ~𝑁 𝜇, 𝜎 2 , а 𝑋 = 𝑖 • • • 𝑋𝑖 − 𝑋 2 1 𝑛 𝑖 𝑋𝑖 и 𝑠2 = , тогда 𝑛−1 𝑋−𝜇 ~𝑁 0; 1 (стандартное 𝜎/ 𝑛 𝑋 и 𝑠 2 независимы 𝑛−1 𝑠 2 2 ~𝜒𝑛−1 2 𝜎 нормальное распределение) (распределение хи-квадрат с n-1 степенями свободы) Оценка доверительного интервала 𝑠 𝑠 𝑃 𝑋− ⋅ 𝑡1+𝛼 ≤ 𝜇 ≤ 𝑋 + ⋅ 𝑡1+𝛼 = 𝛼 ,𝑓 𝑛 𝑛 2 2 ,𝑓 𝑓 = 𝑛 − 1 – число степеней свободы Обычно 𝛼 = 0.95 и 𝑡 = 2 − 7 ВНИМАНИЕ! НЕ ПУТАТЬ! • 𝛼и1−𝛼 • Одно- и двухсторонние квантили • 𝑛и𝑓 Проверка: lim 𝑡0.95,𝑓 = 1.96 𝑓→∞ Доверительные интервалы: практика 1. Рассчитать 𝒙 (среднее значение) и 𝒔 (стандартное отклонение) Функции MS Excel: СРЗНАЧ, СТАНДОТКЛОН 𝜇=𝑥= 1 𝑛 𝑥𝑖 𝑖 𝑠= 𝑖 𝑥𝑖 − 𝑥 𝑛−1 2 2. Найти двухсторонний квантиль t-распределения для заданной вероятности (обычно p=95%) и числа степеней свободы (f = n – 1) Функции MS Excel: СРЗНАЧ, СТАНДОТКЛОН (1) чем выше p, тем больше значение квантиля (2) чем больше f, тем меньше значение квантиля (3) для 𝑓 ≈ 100 – квантили как для нормального распределения (например, t(p=0.95, f=100)=1.98 (4) различайте p и 1-p, одно- и двухсторонние квантили! 3. Рассчитать стандартное отклонение среднего значения и доверительный интервал 𝑠𝑥 = 𝑠/ 𝑛 Δ𝑥 = 𝑠𝑥 𝑡(𝑝; 𝑛 − 1) Статистические гипотезы Нормальное распределение Ц.П.Т. t-распределение (распределение Стьюдента) Одновыборочный t-критерий 𝑥и𝜇 Двухвыборочный t-критерий 𝑥1 и 𝑥2 Доверительный интервал 𝑥 ± Δ𝑥 Распределение χ2 Критерий Пирсона (χ2-тест) Распределение Фишера Критерий Фишера (F-test) 𝜎12 и 𝜎22 Одновыборочный t-критерий Пусть Тогда 𝑥- среднее по выборке 𝜇 – математическое ожидание 𝑠𝑥2 𝑛 𝑖=1 𝑥𝑖 −𝑥 2 = - несмещённая 𝑛−1 оценка дисперсии 𝑛 – число элементов в выборке 𝒙−𝝁 𝑠𝑥 / 𝑛 Где t(n-1) – распределение Стьюдента для n-1 степеней свободы 𝑡 𝑛−1 ~ Дано: выборка 𝑥1 , … , 𝑥𝑛 и математическое ожидание 𝜇 Использование критерия: 1. Рассчитать значения 𝑥, 𝑠𝑥2 для выборки 𝑥−𝜇 2. Рассчитать значение treal(n-1)=𝑠 / 𝑛 𝑥 3. Рассчитать t(n-1) (см. СТЬЮДЕНТ.ОБР.2Х в MS Excel) 4. Если 𝑡𝑟𝑒𝑎𝑙 𝑛 − 1 > 𝑡(𝑛 − 1), то 𝑥 ≠ 𝜇 Примечание: можно использовать функцию MS Excel ДОВЕРИТ.СТЬЮДЕНТ F-распределение (Фишера) Пусть 𝑌1 и 𝑌2 - две независимые случайные величины с распределением 𝜒 2 , т.е. 𝑌𝑖 = 𝜒 2 (𝑑𝑖 ), где 𝑑𝑖 ∈ ℕ. 𝑌 /𝑑 Тогда 𝐹 𝑑1 , 𝑑2 = 1 1 - распределение Фишера (F-распределение) 𝑌2 /𝑑2 Свойства: • Если 𝐹~𝐹(𝑑1 , 𝑑2 ), то 𝐹 −1 ~𝐹 𝑑2 , 𝑑1 • Если 𝑑1 , 𝑑2 → ∞, то 𝐹 → 𝛿 𝑥 − 1 Дельта-функция: 0 если 𝑥 ≠ 0 𝛿 𝑥 = +∞ если 𝑥 = 0 F-тест (критерий Фишера) Пусть имеются две выборки 𝑋𝑖 (𝑖 = 1 … 𝑚) и 𝑌𝑖 (𝑖 = 1 … 𝑛) нормально распределённых случайных величин 𝑋 и 𝑌, а 𝜎𝑋2 и 𝜎𝑌2 - выборочные дисперсии Тогда 𝐹 = 2 𝜎𝑋 ~𝐹(𝑚 𝜎𝑌2 − 1, 𝑛 − 1) 1. Рассчитать стандартные отклонения 𝑠𝑥2 , 𝑠𝑦2 для выборок X и Y 2. Если 𝑠𝑥2 < 𝑠𝑦2 , то поменять выборки местами 3. Рассчитать 𝐹𝑒𝑚𝑝 = 𝑠𝑥2 𝑠𝑦2 и 𝐹 𝛼; 𝑚 − 1, 𝑛 − 1 Если 𝐹𝑒𝑚𝑝 < 𝐹, то дисперсии одинаковы Функции MS Excel: F.ТЕСТ, F.РАСП, F.ОБР, ФТЕСТ, ФОБР, FРАСП, FРАСПОБР Двухвыборочный t-критерий 𝑥−𝑦 𝑡эмп (𝑝; 𝑑𝑓) = 𝜎𝑥−𝑦 Функции MS Excel: пакет анализа данных Одинаковые дисперсии (по критерию Фишера) 𝜎𝑥−𝑦 = 1 1 (𝑛1 − 1)𝑠12 + (𝑛2 − 1)𝑠22 + 𝑛1 𝑛2 𝑛1 + 𝑛2 − 2 𝑑𝑓 = 𝑛1 + 𝑛2 − 2 Разные дисперсии (по критерию Фишера) 𝜎𝑥−𝑦 = 𝑠12 𝑠22 + 𝑛1 𝑛2 𝑑𝑓 = 𝑠12 𝑠22 + 𝑛1 𝑛2 2 2 𝑠1 𝑛1 𝑛1 − 1 + 2 2 2 𝑠2 𝑛2 𝑛2 − 1 Распределение хи-квадрат (χ2) Пусть 𝑧1 , … , 𝑧𝑘 - независимые стандартные нормальные случайные величины (т.е. 𝑧𝑖 ~𝑁(0; 1)) Тогда величина 𝑥 = 𝑖 𝑧𝑖2 имеет распределение 𝜒 2 c k степенями свободы (т.е. 𝑥~𝜒 2 (𝑘)). Функции плотности вероятности Квантиль 𝝌𝟐 (𝜶, 𝒇) Критерий согласия χ2 (Пирсона) Пусть имеются 2 дискретных распределения, заданных двумя наборами частот 𝑂𝑖 (𝑖 = 1 … 𝑚) (наблюдаемые частоты, Observed) и 𝐸𝑖 (𝑖 = 1 … 𝑚) (ожидаемые частоты, Expected), причём 𝑖 𝑂𝑖 = 𝑖 𝐸𝑖 . Тогда если 2 𝜒𝑒𝑚𝑝 = 2 𝑚 𝑂𝑖 −𝐸𝑖 𝑖=1 𝐸𝑖 < 𝜒 2 (𝛼, 𝑚 − 1), то с вероятностью 𝛼 наблюдаемое распределение совпадает с ожидаемым «Слишком хорошее» согласие? Возможно, систематическая ошибка или подлог? Распределения одинаковые (согласуются) Распределения разные (не согласуются) Критерий согласия χ2 (Пирсона) Пример с игральной костью Игральная кость: pi = 1/6 +--+------+------+ |No| Oi | Ei | +--+------+------+ | 1| 12| 8| | 2| 4| 8| | 3| 6| 8| | 4| 8| 8| | 5| 7| 8| | 6| 11| 8| +--+------+------+ | | 48| 48| +--+------+------+ chi2(empirical): 5.75000 chi2(a=0.95;f=5): 11.07050 chi2(a=0.05;f=5); 1.14548 Игральная кость: p1 = 3pi (i=2..6) +--+------+------+ |No| Oi | Ei | +--+------+------+ | 1| 20| 8| | 2| 4| 8| | 3| 5| 8| | 4| 10| 8| | 5| 5| 8| | 6| 4| 8| +--+------+------+ + | 48| 48| +--+------+------+ chi2(empirical): 24.75000 chi2(a=0.95;f=5): 11.07050 chi2(a=0.05;f=5); 1.14548 Критерий согласия χ2 : непрерывное распределение 1. Найти минимальное 𝑥𝑚𝑖𝑛 и максимальное 𝑥𝑚𝑎𝑥 значение в выборке 𝑥𝑖 𝑥𝑚𝑖𝑛 𝑥𝑚𝑎𝑥 2. Разделить отрезок на 5-6 равных промежутков, рассчитать 𝑂𝑖 для каждого из них (т.е. построить гистограмму) 𝑦0 𝑦1 𝑦2 𝑦3 𝑦4 𝑦5 3. Построить теоретическую гистограмму 𝐸𝑖 (например, на основе 𝑠 2 и 𝑥) 𝑦𝑖 𝐸𝑖 = 𝑁 𝑝 𝑥 𝑑𝑥 = 𝑁 𝐹 𝑦𝑖 − 𝐹(𝑦𝑖−1 ) 𝑦𝑖−1 𝑁 – число точек, 𝑛 – число промежутков (карманов, корзин); 𝑦0 = −∞, 𝑦𝑛 = +∞ 4. Применение критерия Пирсона 𝑂𝑖 − 𝐸𝑖 2 2 𝜒𝑒𝑚𝑝 = 𝐸𝑖 𝑖 Критерии для отсева грубых промахов range Грубые промахи Q-критерий (Dixon’s q-test) 𝑥1 ≤ 𝑥2 ≤ ⋯ ≤ 𝑥𝑛 Особенности: • Если 𝑄 ≥ 𝑄𝑡𝑎𝑏𝑙 , то значение – промах • n = 3-10 • Использовать только один раз для выборки gap 𝑄= 𝑔𝑎𝑝 𝑥2 − 𝑥1 = 𝑟𝑎𝑛𝑔𝑒 𝑥𝑛 − 𝑥1 Задача: выявить промах в выборке (p=0.9): 0.189, 0.167, 0.187, 0.183, 0.186, 0.182, 0.181, 0.184, 0.181, 0.177 Грубые промахи Критерий 3σ Алгоритм 1. Рассчитать среднее значение 2. Рассчитать стандартное отклонение (исключив предполагаемый промах) 3. Если предполагаемый промах за пределами 3s, то исключить его 4. Применять для n=20-100 Задача: найти промах в выборке 8,07 8,05 8,10 8,16 8,18 8,14 8,06 8,10 8,22 8,06 8,04 8,11 8,09 8,14 8,11 8,15 8,16 8,50 8,09 8,14 8,12 8,13 8,18 8,20 8,17

Занятие 1. Погрешности, доверительные интервалы, проверка

Похожие документы

Разделы

Поддержка

Занятие 1. Погрешности, доверительные интервалы, проверка

Похожие документы

Добавить этот документ в коллекции

Добавить этот документ в сохраненные

Предложите, как улучшить StudyLib