Метрология количественного химического анализа (статистика малых выборок)

НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТОМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ Химический факультет МЕТРОЛОГИЯ КОЛИЧЕСТВЕННОГО ХИМИЧЕСКОГО АНАЛИЗА (СТАТИСТИКА МАЛЫХ ВЫБОРОК) Часть 1 Учебно-методическое пособие по курсу «Обработка результатов химического эксперимента» для студентов химического факультета направлений подготовки 04.03.01 – «Химия», 04.05.01 – «Фундаментальная и прикладная химия» Томск Издательский Дом Томского государственного университета 2018 1 РАССМОТРЕНО И УТВЕРЖДЕНО методической комиссией химического факультета Протокол № 16 от «10» октября 2017 г. Председатель МК ХФ В.В. Хасанов Учебно-методическое пособие составлено в соответствии с тематикой семинарских занятий и программой дисциплины «Обработка результатов химического эксперимента» студентов химического факультета направлений подготовки 04.03.01 – «Химия» и 04.05.01 – «Фундаментальная и прикладная химия». В учебно-методическом пособии дано комплексное рассмотрение элементов общей теории измерений (основы общей метрологии), наиболее важных для метрологии методов статистической обработки данных и способов обеспечения качества химического анализа (химическая метрология). Особое внимание уделено специфическим особенностям метрологии количественного химического анализа и способам обеспечения его качества «по конечному результату». В экспериментальной части даны основы статистической обработки экспериментальных данных в MS EXCEL. Для преподавателей, аспирантов, студентов и магистрантов химических ВУЗов, слушателей ФПК. СОСТАВИТЕЛИ: В.И. Отмахов, Д.Е. Бабенков 2 ОГЛАВЛЕНИЕ Предисловие ………………………………………………………… Термины и определения …………………………............................ Глава 1. Химическая метрология ………………………………….… 1.1. Задачи методов математической статистики …………….... 1.2. Виды погрешностей измерений ……………….…................ 1.3. Источники погрешностей анализа ..……………...…............ Глава 2. Элементы теории вероятности и математической статистики ……………………………………………………………. 2.1. Событие и его вероятность. Статистическая вероятность события ……………………………………………… 2.2. Дискретные и непрерывные случайные величины ……….… 2.3. Функции распределения: дифференциальная и интегральная ................................................................................ Глава 3. Статистические характеристики измерений ……………… 3.1. Математическое ожидание и среднеарифметическое значение …………………………………………………………… 3.2. Дисперсия: генеральная и выборочная. Закон сложения и свойства дисперсии ……………………………………………. 3.3. Стандартные отклонения и расчет погрешности …..……… 3.4. Представление результатов количественного химического анализа ……………………………………………… Глава 4. Распределение случайных величин ……...………………. 4.1. Закон нормального распределения .……..…………………. 4.2. Закон нормированного распределения ……………………… 4.3. Статистика малых выборок. Распределение Стьюдента …. Глава 5. Статистические критерии …………...……………………. 5.1. Q-критерий ……………………………................................... 5.2. Критерий Стьюдента …………………….…………………… 5.3. Критерий Граббса ………………………...……….………… 5.4. Критерий Фишера ………………………………...……..…… 5.5. Критерий Кохрена …………………………………………… Глава 6. Линейный регрессионный анализ ………………...……… 6.1. Функция регрессии ……………….......................................... 6.2. Метод наименьших квадратов ……………………………… 6.3. Расчет коэффициентов регрессии и их погрешностей ......… 3 5 6 11 11 11 14 16 16 18 19 21 21 23 24 25 27 27 28 29 30 30 30 32 32 33 33 33 34 35 Глава 7. Обработка экспериментальных данных с использованием программного обеспечения MS Excel …………. Семинар 1. Статистическая обработка результатов анализа …….. Задача 1 …………………………………………………………..… Семинар 2. Оценка правильности выполнения измерений ………. Задача 2 .…………………………………………………………… Задача 3 ……………………………………………………..……… Задача 4 ……………………………………………………..……… Семинар 3. Оценка равноточности выполнения измерений ….….. Задача 5 …………………………………………………………..... Задача 6 ……………………………………………………………. Семинар 4. Нахождение уравнения линейной регрессии, построение калибровочных графиков, расчет ошибок при определении коэффициентов линейной регрессии …………… Задача 7 …………………………………………………………… Приложение ……………………………………………………...…… Таблица 1. Критические значения Q-критерия для различной доверительной вероятности P (%) и степеней свободы f ……… Таблица 2. Критерий Граббса для различной доверительной вероятности P (%) и степеней свободы f ………………………… Таблица 3. Критические значения t-критерия Стьюдента для различной доверительной вероятности, P, % и степеней свободы f …….................................................................................. Таблица 4. Таблица значений F-критерия Фишера при доверительной вероятности P=95% .………………………… Таблица 5. Таблица значений F-критерия Фишера при доверительной вероятности P=99% ………………………… Таблица 6. Критические значения коэффициента Кохрена (G-критерия) для доверительной вероятности Р = 0,95 и числе степеней свободы f ……………………………………… Литература ………………………………........................................... 4 36 36 36 50 50 53 58 61 61 65 67 67 79 79 79 80 81 83 85 86 ПРЕДИСЛОВИЕ Завершающей стадией количественного анализа химического состава вещества любым методом является статистическая обработка результатов измерений. Она позволяет оценить систематические и случайные погрешности измерений. Используя приемы математической статистики, можно: рассчитать основные метрологические характеристики анализа (оценить прецизионность и правильность полученных данных, отбросив результаты, содержащие промахи); определить методом регрессивного анализа вид функциональной зависимости аналитического сигнала от концентрации (содержания) определяемого элемента. Статистическая обработка результатов анализа конкретным методом дает возможность объективно сравнить его с другими методами. Данное учебно-методическое пособие является элементарным введением в проблемы количественного химического анализа. В нем даются основы современных методов статистической обработки и графического анализа данных. Изложение дополнено примерами и задачами. Пособие предназначено для студентов химического факультета. В теоретической части студенты изучают элементарные методы обработки данных. В экспериментальной части студенты знакомятся с основами статистической обработки данных и переходят к вычислению погрешностей современными методами. Поскольку на первом курсе студенты обучены работе с вычислительной техникой, то вычислительные процедуры оказываются достаточно компактными и не усложняют процедуру проведения анализа. В качестве основной меры погрешности на первом этапе используется среднеквадратическая неопределенность. Затем вычисляются доверительные интервалы с использованием коэффициентов Стьюдента, которые позволяют оценить расширенную неопределенность. В данном пособии планируется, что студенты должны усвоить соотношение между числом измерений и погрешностью среднего значения результата, научиться вычислять доверительные интервалы для любой доверительной вероятности при произвольном числе измерений, самостоятельно выбирать оптимальное число измерений, свободно и обоснованно пользоваться нелинейными (в первую очередь – логарифмическими) шкалами при построении графиков, изучить простейшие приемы применения метода наименьших квадратов (вычисление среднего и построение оптимальной линии тренда). 5 ТЕРМИНЫ И ОПРЕДЕЛЕНИЯ Аккредитованная аналитическая лаборатория (центр) – аналитическая лаборатория (центр), получившая в результате ее проверки органом по аккредитации аттестат аккредитации, подтверждающий ее компетентность в выполнении аналитических работ, вошедших в область ее аккредитации. Аналит – компонент, искомый или определяемый в пробе. Аналитический контроль – оценивание соответствия объекта установленным требованиям, опирающееся на результаты аналитических работ. Аналитический сигнал – физическая величина, несущая информацию о содержании аналита. Внутрилабораторная прецизионность – степень близости друг к другу независимых результатов измерений, полученных в условиях внутрилабораторной прецизионности: одним и тем же методом, на одних и тех же образцах, но при вариации нескольких факторов (разные приборы, разное время, разные аналитики, разные партии реактивов одного типа и т.п.). Воспроизводимость – степень близости друг к другу независимых результатов измерений, полученных в условиях воспроизводимости: одним и тем же методом, на идентичных объектах, но в разных лабораториях (разные операторы, различное оборудование). Выборка – ограниченная серия результатов измерений одного образца в заданных условиях. Градуировочный образец – образец сравнения (или набор таких образцов), используемый для получения градуировочной характеристики. Градуировочная характеристика – зависимость аналитического сигнала от содержания аналита, выраженная в виде формулы (градуировочная функция), графика (градуировочный график) или таблицы. Действительное значение – значение физической величины, полученное экспериментальным путем и настолько близкое к истинному значению, что в поставленной измерительной задаче может быть использовано вместо него. Дисперсия (S2(x)) – мера рассеивания значений случайной величины относительно среднего. 6 Единичное определение – однократное проведение всей последовательности операций, предусмотренных методикой анализа вещества. Истинное значение – значение величины, которое идеальным образом характеризует в качественном и количественном отношении соответствующую физическую величину. Качественный анализ – экспериментальное установление факта присутствия или отсутствия аналита в пробе при заданном пороговом значении его содержания. Это определение указывает на то, что при выдаче результата качественного анализа необходимо указывать предел обнаружения аналита. Количественный химический анализ (КХА) – экспериментальное определение содержания одного или нескольких аналитов в объекте анализа. Межлабораторные сравнительные испытания (МСИ) – организация, проведение испытаний и оценка результатов испытаний на одних и тех же или идентичных образцах двумя или более лабораториями в соответствии с предварительно заданными условиями. Они проводятся с целью проверки квалификационных качеств лаборатории, в том числе для демонстрации их компетентности перед заказчиком, для определения характеристик точности методик анализа, включая выявление смещения, полученного разными методами. Метод анализа – способ получения информации о химическом составе вещества на основе одного или нескольких принципов. Методика анализа (или методика выполнения измерений (МВИ) – документированная совокупность операций и правил, выполнение которых обеспечивает получение результата анализа вещества с установленными характеристиками погрешности (неопределенностью) или – для методик качественного анализа – установленной достоверностью. Методика аналитического контроля – документированная совокупность операций и правил проведения аналитического контроля конкретных объектов. Она включает методики отбора и подготовки проб, методику анализа, правила приемки и т.п. Норма содержания компонента в объекте – предельные (максимальное и/или минимальное) содержания компонента в объекте аналитического контроля, с которым сопоставляется результат анализа. Образец сравнения – материал или вещество объекта аналитического контроля, достаточно однородное в отношении одной или не7 скольких надежно установленных характеристик, чтобы быть использованным при калибровке прибора, оценке метода измерений или приписывания значений этих характеристик материалам или веществам. Отбор пробы (пробоотбор) – процедура отбора части вещества или материала (объекта) с целью формирования пробы для последующего определения его состава (структуры и/или свойств). Относительное стандартное (среднеквадратическое) отклонение (ОСКО) (Sr(x)) – отношение стандартного (среднеквадратического) отклонения к среднему (математическому ожиданию). Повторяемость – степень близости друг к другу независимых результатов измерений, полученных в условиях повторяемости: одним и тем же методом, на идентичных объектах, в одной и той же лаборатории, одним и тем же оператором, с использованием одного и того же оборудования, в пределах короткого промежутка времени. Погрешность пробоотбора – разность между значениями величин, характеризующих состав и/или свойства, и/или структуру объекта и пробы. Погрешность результата измерения – отклонение результата измерения от истинного (действительного) значения измеряемой величины. Правильность – степень близости среднего значения, полученного на основании большой серии результатов измерения, к принятому опорному значению. Предел обнаружения (сmin) – наименьшее содержание аналита, при котором он может быть обнаружен с помощью данной методики с заданной доверительной вероятностью. Предел определения (сопр) – наименьшее содержание аналита, которое может быть количественно определено с помощью данной методики с установленными характеристиками погрешности (неопределенности). Представительная проба – проба, состав и/или свойства, и/или структура которой принимается идентичной составу и/или свойствам, и/или структуре объекта, от которого она отобрана. Прецизионность – степень близости друг к другу независимых результатов измерений, полученных в конкретных регламентированных условиях. Принцип анализа вещества (материала) – физическое явление или эффект, положенные в основу метода анализа. 8 Принятое опорное значение – значение, которое служит в качестве согласованного для сравнения и получено как: а) теоретическое или установленное значение, базирующееся на научных принципах; б) приписанное или аттестованное значение, базирующееся на экспериментальных работах какой-либо национальной или международной организации; в) согласованное или аттестованное значение, базирующееся на совместных экспериментальных работах под руководством научной или инженерной группы; г) математическое ожидание (общее среднее значение) заданной совокупности результатов измерений в условиях отсутствия необходимых эталонов, обеспечивающих воспроизведение, хранение и передачу соответствующих значений измеряемых величин (истинных или действительных значений измеряемых величин). Проба – отобранная для анализа часть вещества или материала (объекта), отражающая его химический состав (структуру и/или свойства). В зависимости от способа получения различают следующие виды проб: точечная, исходная, разовая, суточная, промежуточная, объединенная, сокращенная, лабораторная, аналитическая и др. В зависимости от назначения различают пробы: контрольная, рабочая, резервная, арбитражная и др. Промах (в анализе) – результат анализа, резко отличающийся от других результатов анализа этой же пробы. Промежуточная прецизионность – степень близости друг к другу независимых результатов измерений, полученных в условиях промежуточной прецизионности: одним и тем же методом, на одних и тех же образцах при вариации одного фактора (разные приборы, разное время, разные аналитики, разные партии реактивов одного типа и т.п.). Результат аналитического контроля – заключение о соответствии или несоответствии объекта аналитического контроля установленным требованиям к его химическому составу, структуре, свойствам, представленное в виде документа. Результат измерения – значение характеристики, полученное выполнением регламентированного метода измерений. Результат холостого опыта – содержание аналита, полученное при проведении холостого опыта, используемое при вычислении результата анализа. 9 Систематическая погрешность – разность между математическим ожиданием результата измерения и истинным (или в его отсутствие – принятым опорным) значением. Случайная погрешность – составляющая погрешности результата измерения, изменяющаяся случайным образом (по знаку и значению) при повторных измерениях, проведенных с одинаковой тщательностью, одной и той же физической величины. Стандартное (среднеквадратическое) отклонение (СКО) (S(x)) – корень квадратный из дисперсии. Точность – степень близости результата измерения к принятому опорному значению. Химический анализ вещества (материала) – определение компонентов химического состава вещества (материала). Холостой опыт – проведение всей процедуры анализа без участия аналитической пробы или с использованием образца (холостой пробы), имеющего химический состав, аналогичный аналитической пробе, но не содержащий аналит. Чувствительность (в анализе) – значение первой производной градуировочной характеристики (функции) при данном содержании аналита. 10 Глава 1. ХИМИЧЕСКАЯ МЕТРОЛОГИЯ 1.1. Задачи методов математической статистики Химия, как и любая естественнонаучная дисциплина, направлена на получение теоретических и практических научных данных об окружающем нас мире. Однако полученные данные должны обладать рядом качеств, важнейшим из которых является достоверность. Математическая статистика служит именно для того, чтобы оценить достоверность получаемых результатов, в том числе и в химии. Говоря о достоверности полученных результатов исследований, следует упомянуть не только точность, но и прецизионность результатов, оценку равноточности и повторяемости средних значений нескольких серий измерений, которые могут быть получены в тех или иных условиях (повторяемость, внутрилабораторная прецизионность, воспроизводимость и т.д.). Без этой информации невозможно было бы проверять и доказывать выдвигаемые гипотезы, сравнивать и подтверждать результаты, полученные в разных местах и разными исследователями. К тому же математическая статистика позволяет количественно описать все эти характеристики и дать вероятностную оценку ошибки. Это объясняет то, что полученные в разных или же, наоборот, одинаковых условиях результаты исследования одного и того же явления или объекта могут значительно отличаться. Это связано с отклонением от идеальности условий проводимого эксперимента, разницей реально проводимого опыта и его теоретической модели. Таким образом, основными задачами математической статистики являются: оценка достоверности результатов и количественное определение погрешности измерений, анализов либо испытаний. 1.2. Виды погрешностей измерений В задачу измерений входит не только нахождение самой величины, но также и оценка допущенной при измерении погрешности. Полностью погрешности устранить невозможно, однако их можно уменьшить до чрезвычайно малых величин. По способу представления погрешности разделяют на абсолютные и относительные. Абсолютная погрешность (Δ) – это разность измеренного и истинного значений. Она характеризует точность метода измерения, обыч11 но обозначается греческой буквой Δ («дельта») и измеряется в единицах измеряемой величины. Абсолютная погрешность показывает интервал, в котором находится истинное значение (х) измеряемой величины. Например, погрешность аналитических весов может быть Δ = ± 0,0005 г. Знак «±» означает, что наблюдаемое отклонение от полученного результата может быть направлено как на его уменьшение, так и на увеличение. Относительная погрешность (δ) – это абсолютная погрешность, отнесенная к истинному значению или среднему ̅ : δ = Δ/ ̅ . Она может быть выражена в относительных единицах (долях) или в процентах, например, δ = 0,005 = 0,5%. Общая погрешность результата измерения всегда состоит из двух составляющих, отличающихся причинами их возникновения, – систематической и случайной погрешностей. Кроме того, существуют грубые промахи. Систематическая погрешность – погрешность, вызываемая известными или неизвестными причинами, которые можно устранить или учесть при детальном рассмотрении процедуры анализа. Каждая из систематических погрешностей однозначна и постоянна по значению. Среди систематических погрешностей можно выделить методические погрешности, погрешности, связанные с особенностями используемых приборов и реактивов, оперативные и индивидуальные. Систематические погрешности можно выявить, устранить или учесть при расчетах в виде поправки. К систематическим погрешностям приводит работа с использованием неисправных измерительных приборов, недостаточная чистота реактивов и дистиллированной воды, неправильная калибровка мерной посуды и т.п. Погрешности методические являются наиболее распространёнными. Они возникают, когда в применяемой методике наблюдается отклонение от идеального способа осуществления той или иной процедуры, которое не зависит от аналитика. Например, если используемая в КХА реакция протекает не полностью, или высаживаемый осадок частично растворяется, или анализируемый компонент вступает в неучтённую побочную реакцию и т.п. Недостаточно тщательное или неправильное следование указаниям методики КХА приводит к оперативным погрешностям. К постоян12 ному завышению результата, например, будет приводить использование недостаточно чистой посуды, реактивов, растворителей, избыток реактива, а к занижению – неполное сливание аликвоты из пипетки, недостаток реактива, избыточное промывание осадка. Данный тип погрешности связан с аналитиком и потому может быть легко обнаружен и устранён сменой аналитика. От индивидуальных особенностей самого аналитика зависят погрешности индивидуальные, связанные, например, со слабым зрением, психологической предвзятостью и т.п. Обнаружены и устранены они могут быть аналогично оперативным погрешностям. Отличить их между собой может оказаться сложнее, но в этом нет никакой необходимости. Случайная погрешность – погрешность, которая не имеет видимых причин, точнее эти причины многочисленны и их индивидуальное рассмотрение не имеет смысла. Общая случайная погрешность не постоянна, ее оценка проводится на основе математической статистики. Она характеризует разброс результатов в серии измерений и определяет воспроизводимость измерений или метода. Случайные погрешности происходят при всяком измерении, как бы тщательно оно не проводилось, но их влияние на результат измерений может быть уменьшено при многократном повторении опыта. Случайные погрешности могут быть связаны с изменением температуры и влажности, несовершенством приборов, тряской в городских условиях, с несовершенством объекта измерений, с особенностями самой измеряемой величины. В отличие от систематических погрешностей случайные погрешности не могут быть измерены, но могут быть оценены по законам математической статистики. Грубая погрешность (промах) – погрешность, возникшая вследствие недосмотра экспериментатора или неисправности аппаратуры (например, если экспериментатор неправильно прочёл номер деления на шкале прибора или если произошло замыкание в электрической цепи), сильно искажающая результат анализа. Из-за промахов результат данного определения становится неверным, и потому он отбрасывается при выводе среднего из серии параллельных определений. 1.3. Источники погрешностей анализа Источниками погрешностей анализа являются: 1. Отбор представительной пробы. 13 Именно от данного этапа в большей степени зависит погрешность анализа. От того насколько представительная проба будет представлена аналитику зависит в первую очередь точность анализа. Например, при отборе пробы воздуха или воды из потока следует учитывать в каком месте потока проба отбирается, попадание в пробоотборник других частиц и т.д. При отборе проб почв также следует учитывать глубину отбора, площадь отбора, места отбора, высоты отбора (если местность неровная) и т.д. В случае же геологических объектов следует учитывать существенную неоднородность отбора, а потому масса отбираемого образца должна быть как можно больше. Следует учитывать также погрешности, которые могут возникнуть в последующих процедурах уменьшения навески и усреднения пробы. 2. Перевод пробы в удобную для анализа форму. Перевод пробы в удобную для анализа форму можно считать вторым существенным источником погрешности в анализе. Потери, возникающие в процессе растворения, выпаривания, осаждения или других операций, проводимых аналитиком, вносят систематическую погрешность в анализ. Используемые реактивы, наоборот, могут быть недостаточно чисты и содержать хоть и малые, но всё же видимые аналитическим методом, количества определяемых элементов или веществ, тем самым завышая результаты определения. Любые процессы взятия аликвот, переливания растворов из одной посуды в другую и т.д. также увеличивают случайную погрешность измерений за счёт погрешности мерной посуды. Любые операции разбавления или концентрирования также приводят к увеличению случайной составляющей погрешности. Фактически любые операции, которые могут быть проведены с пробой, чтобы подготовить её к анализу, вносят случайную и систематическую погрешности в результаты определения. 3. Разделение компонентов пробы на группы. Разделение компонентов пробы на группы может являться необходимой стадией для уменьшения, к примеру, межэлементного или матричного влияния. Данная операция направлена на уменьшение систематической составляющей погрешности. В то же время следует помнить, что разделение может проходить не полностью или сопровождаться внесением в пробу реактивов, что также может увеличивать систематическую и случайную погрешности. 4. Перевод определяемого компонента в аналитически активную форму. 14 Зачастую аналитическая форма компонента отличается от той, в которой он присутствует в пробе, поэтому необходимы дополнительные операции. Например, связывание фосфат-иона в окрашенные фосформолибденовые комплексы. Такие процессы характеризуются своими константами равновесия, термодинамикой, кинетикой и т.д., невозможность учёта которых в полной мере также вносит погрешность в анализ. 5. Измерение аналитического сигнала. Результат измерений аналитического сигнала в наибольшей степени зависит от измерительного прибора и его точности, а также условий проведения анализа. Так, например, их изменение может привести к тому, что одно и то же количество определяемого компонента может дать разный аналитический сигнал, а уравнения, связывающие аналитический сигнал и концентрацию определяемого элемента будут отличаться. 6. Оценка содержания определяемого компонента по градуировочному графику. Последним источником погрешности можно считать градуировочный график. Во-первых, всегда существует неточность построения градуировочного графика, связанная со случайной погрешностью анализа градуировочных стандартов. Во-вторых, градуировочные стандарты являются максимальным приближением к идеальному образцу, когда отсутствуют какие-либо взаимные влияния элементов, веществ или фаз на аналитический сигнал друг друга или другие особенности пробы. Соответственно, реальные пробы могут хоть и незначительно, но отличаться от стандартных образцов. Поэтому может возникнуть необходимость корректировки условий регистрации аналитического сигнала или введения поправочных коэффициентов при расчете конечного результата. 15 Глава 2. ЭЛЕМЕНТЫ ТЕОРИИ ВЕРОЯТНОСТИ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ 2.1. Событие и его вероятность. Статистическая вероятность события Вероятность – характеристика, описывающая возможность наступления определённого события. О вероятности обычно говорят, когда у какого-то события существует минимум одна альтернатива и когда соблюдается условие того, что событие является случайным, т.е. к нему приводят не целенаправленные действия или факторы. К примеру, если положить в коробку 5 белых и 5 чёрных шаров, изготовленных из одного материала, абсолютно одинаковых по размеру, форме и массе, так что различить их по цвету можно только визуально, то, перемешав их и начав вытягивать с закрытыми глазами, существует вероятность вытянуть как чёрный, так и белый шар. Поскольку у чёрных шаров есть альтернатива в виде белых, то событие вытянуть черный шар случайно и можно говорить о вероятности. Вероятность может быть выражена количественно, при этом она может варьироваться в диапазоне значений от 0 до 100%. Когда вероятность события составляет 0 или 100%, то можно говорить о его абсолютной невозможности или, наоборот, об абсолютной уверенности в том, что событие произойдёт. Например, вероятность вытащить куб из той же коробки с шарами равна 0%. Потому что их там нет. В данном случае такая альтернатива была добавлена как бы виртуально. К примеру, для человека, который вообще не знает, что находится в коробке, там может находиться что угодно, но на самом деле там только шары. С другой стороны, вероятность достать шар из коробки с шарами равна 100%, потому что ничего кроме шаров там нет. Если поставить вопрос о том, какова вероятность достать именно чёрный или белый шар, то вероятность обоих событий будет 50%, поскольку шаров одного цвета в коробке поровну. Таким образом, вероятность может быть рассчитана. P = 5/10. Поскольку шаров любого одного цвета 5, а всего шаров 10, то вероятность достать шар определённого цвета составляет 5 из 10. Также с вероятностями можно проводить определённые математические операции. Мы разберём только две основных. 16 Первая – вероятности можно складывать. К примеру, вероятность вытащить из коробки чёрный или белый шар равна 100%, поскольку других там нет. Но если мы доложим в коробку ещё 5 красных шаров, то вероятность достать шар любого конкретного цвета будет равна 33,33%. Соответственно вероятность достать шар чёрного или белого цвета будет равна сумме вероятностей достать шар конкретно чёрный или белый, т.е. 66,66%. Вторая – вероятности можно умножать. Такая операция проводится, когда мы оцениваем вероятность нескольких событий одновременно, каждое из которых имеет свою вероятность. К примеру, если в той же коробке 10 шаров: 5 белых и 5 чёрных, то вероятность достать белый шар равна 5/10. Но предположим, что нам нужно достать 2 шара, например, 2 белых шара. В таком случае, вероятность этого события будет рассчитываться следующим образом P = 5/10·4/9 = 22,22%. Умножение на 4/9 обусловлено тем, что после того, как мы взяли один белый шар, их в коробке осталось 4, а всего оставшихся шаров 9. Аналогичная ситуация будет наблюдаться в случае, если мы захотим вытащить подряд 2 чёрных шара. Разница появится, если мы захотим вытащить 1 чёрный и 1 белый шар в любом порядке. В таком случае вероятность этого события будет P = 5/10·5/9 = 27,78%. Таким образом, вероятность вытащить 2 разных шара выше, чем вероятность вытащить 2 одинаковых. Такая тенденция будет наблюдаться с увеличением количества событий, идущих подряд. Вероятность того, что при увеличении количества доставаемых шаров они будут одного цвета, будет резко падать, в то время как максимальная вероятность будет у события достать наиболее близкое к равенству количество белых и чёрных шаров (2 к 1, 2 к 2, 3 к 2, 3 к 3 и т.д.). Таким образом, вероятность работает таким образом, чтобы полученный после ряда последовательных событий результат имел характер изначального распределения вероятностей. Однако при расчёте вероятностей стоит быть очень внимательным. Так, например, казалось бы, что вероятность того, что в группе из небольшого количества человек (около 20–30) у двух людей совпадут дни рождения, очень невелика. Но это не так. На самом деле вероятность этого события для 20 человек – 41%, а для 30 уже 70%. Давайте посчитаем. Возьмём конкретного человека с конкретным днём рождения и добавим к нему в группу другого человека. При этом вероятность того, 17 что его день рождения не совпадёт с днём рождения первого 1 − . Добавляя к ним каждый раз одного человека, вероятность того, что его день рождения не совпадёт с днями рождения предыдущих будет уменьшаться на . Таким образом, вероятность того, что ни у кого в группе из n человек не будет совпадать день рождения равна: 1 2 n P ( n )  (1  )  (1  )  ...  (1  ) 365 365 365 (1) 365  364  363  ...  (365  n  1) 365 !   365 n 365 n  (365  n ) ! Тогда вероятность того, что у 2 людей совпадёт день рождения равна ( ) = 1 − ( ). Значение ( ) резко уменьшается с ростом n. При n = 50, ( ) = 97%, а при n = 100, ( ) = 99,99996%. Далее при увеличении n вероятность будет расти, но достигнет максимума, 100%, лишь при n = 365. 2.2. Дискретные и непрерывные случайные величины Вероятность – характеристика событий или действий, возможность осуществления которых обуславливается случаем. Результаты таких действий или событий называются случайными величинами. Эти случайные величины также обладают определённым важным математическим свойством. Они могут быть как дискретны, так и непрерывны. Под дискретными случайными величинами понимают величины, которые могут принимать строго заданные значения с той или иной вероятностью. Например, всё те же шары в ящике или лотерея. Величины принимают строго заданные значения, кубышки с номером или шары чёрный и белый. При этом дискретные случайные величины подчиняются закону распределения дискретных случайных величин. Согласно этому закону, каждая дискретная величина обладает определённой вероятностью, а сумма вероятностей всех дискретных величин должна быть равна 1 (100%). Под непрерывными случайными величинами понимают величины, которые меняют своё значение непрерывно в определённом диапазоне. Примерами таких величин могут быть практически любые физические и математические величины. Так, к примеру, содержание какого-то элемента в пробе может варьироваться в рамках определённых значе18 ний и принимать абсолютно любые значения в данных пределах. Когда речь идёт о непрерывных случайных величинах, всегда говорят о диапазоне значений, а не о конкретных значениях. Для непрерывных величин также действуют следующие законы. 1. Вероятность для непрерывных величин определяется функцией вероятности и может быть представлена в интегральном и дифференциальном виде. 2. Функция вероятности определена на всём отрезке от –∞ до +∞. 3. Для интегральной функции вероятности существует некое значение х1, при значениях меньше которого вероятность всегда будет P(x) = 0, и значение х2 > х1, при значениях больше которого вероятность всегда будет P(x) = 1. 4. Вероятность для определённого диапазона случайных величин [a; b] определяется как P(b) – P(a). 5. P(x) ≥ 0. 2.3 Функции распределения: дифференциальная и интегральная Как уже было сказано выше, существуют интегральная и дифференциальная функции распределения вероятности для непрерывных случайных величин. Свойства интегральной функции также были описаны выше. Интегральная функция имеет вид кривой, всегда стремящейся к 1 с ростом значений x (рис. 1). Рис. 1. Интегральная функция распределения вероятности 19 Значение функции P(x) в любой точке x характеризует сумму вероятностей для всех значений отрезка (–∞; x). Это не совсем удобно, поскольку для нахождения вероятности конкретного значения по такой функции придётся вычислять разницу P(x+Δx) – P(x), где Δх – бесконечно малый прирост аргумента. Поэтому для оценки вероятности в конкретных точках используют дифференциальную функцию плотности вероятности φ(х). Возможный вид функции φ(х) представлен на рис. 2. Рис. 2. Дифференциальная функция распределения вероятности В соответствии с графиком для каждого значения можно найти плотность вероятности, характеризующую вероятность «выпадения» конкретного значения. Очевидно, что функция φ(х) является первой производной функции P(x): (2)  ( x)  P ' ( x ) ; P ( x)    ( x) dx . (3) Соответственно площадь под кривой плотности вероятности от значения a до b равна разнице значений P(b) – P(a): b P(b)  P(a )    ( x)dx . (4) a Дифференциальная функция распределения плотности вероятности также обладает рядом свойств. 20 1. Функция плотности вероятности определена на всём отрезке от –∞ до +∞. 2. φ(x) ≥ 0. 3.    ( x)dx  1 .  Глава 3. СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ ИЗМЕРЕНИЙ 3.1. Математическое ожидание и среднеарифметическое значение Ни один полученный результат нельзя считать на 100% верным, поскольку всегда существует вероятность его ошибки. Для увеличения достоверности результата имеет смысл получать серию результатов измерений, которая подчиняется определённым статистическим законам. Именно поэтому результаты измерений обычно записываются в виде диапазона значений, главной характеристикой которого является математическое ожидание. Математическое ожидание (μ) или М(х) – среднее значение случайной величины. Оно может быть выражено следующей формулой:    M ( x )   x ( x)dx . (5)  В большинстве случаев математическое ожидание отвечает значению x, при котором φ(x) = max, но это совсем не обязательно. Термин «математическое ожидание» используется, когда речь идёт о генеральной совокупности. Под генеральной совокупностью обычно понимают бесконечно большой массив значений аргумента, для которого определено распределение вероятности. Когда речь идёт о конечном и сравнительно небольшом массиве значений аргумента, то его называют выборкой. Выборка также обладает средними значениями. Среднее значение может быть представлено по-разному, в зависимости от ситуации, а именно среднее арифметическое x , среднее геометрическое xг и медиана (срединное значе-  . Для любой серии значений Х, содержащей n значений: х1, х2, ние) x х3, … хi … хn, можно рассчитать среднее арифметическое: 21 n x x i 1 n i . (6) Ключевым недостатком данного представления является большая зависимость от «выбивающихся» значений. Это связано с тем, что среднее арифметическое очень сильно зависит от величины значений серии. Например, для серии значений: 2,5; 2,6; 2,7; 2,7; 2,8 среднее арифметическое, равное 2,66, будет удовлетворительно представлять среднее значение выборки. А для серии значений: 2,5; 2,6; 2,7; 2,7; 3,2 среднее арифметическое, равное 2,74 будет искажать представление среднего значения, поскольку оно больше по величине, чем 4 из 5 значений выборки. Поэтому довольно часто используют другие представления среднего значения выборки. Если результаты получены, используя не линейные, а другие (логарифмические или степенные) зависимости, то обычно пользуются средним геометрическим: (7) xг  n x1  x2  ...  xn . Если в выборке не наблюдается существенных отклонений, то эти два представления будут достаточно близки, поэтому чаще пользуются средним арифметическим, как более простым для расчёта. В случае же, когда в серии имеются «выбивающиеся» значения, как показано в примере выше, более правильно использовать медиану. Она не чувствительна к величине значений выборки. Для её расчёта необходимо предварительно расположить значения выборки в порядке возрастания. Если выборка содержит нечётное количество результатов измерений, то в качестве медианы выбирается центральное значение результатов измерений. Если же выборка содержит чётное количество результатов измерений, то в качестве медианы представляется полусумма двух центральных значений. Например, для серии значений: 25; 25; 26; 27; 30 медианой будет значение 26. А для серии значений: 25; 25; 26; 27; 29; 30 медианой будет 26,5. Математическое ожидание и среднее значение обладают следующими свойствами. 1. Математическое ожидание константы равно самой константе: ( )= . 22 2. Математическое ожидание произведения константы на выборку равно произведению константы на математическое ожидание выборки: ( )= ( ). 3. Математическое ожидание суммы равно сумме математических ожиданий: ( + + ⋯ + ) = ( ) + ( ) + ⋯ + ( ). 4. Если существует некая функция = ( , , … , ), то математическое ожидание этой функции будет равно функции от математи( ), ( ), … , ( ) . ческих ожиданий её аргументов: ( ) = 3.2. Дисперсия: генеральная и выборочная. Закон сложения и свойства дисперсии Бесконечно большой массив значений аргумента функции распределения вероятности, о котором говорилось ранее, и который характеризуется математическим ожиданием, называют генеральной совокупностью. Генеральная совокупность характеризуется не только математическим ожиданием, но и генеральной дисперсией, описывающей разброс функции распределения относительно математического ожидания. В связи с этим математическое ожидание также называют генеральным средним. Генеральная дисперсия записывается следующим образом:   Г2  M (( x   ) 2 )   ( x   ) 2  ( x)dx . (8)  При работе с выборками пользуются соответственно дисперсией выборки. Она рассчитывается следующим образом: n (x i  x) 2 . (9) n 1 Дисперсия, как и любая математическая функция, обладает рядом свойств. 1. Дисперсия константы равна нулю: ( ) = 0. 2. Если из каждого члена выборки можно вынести константу, то из дисперсии также можно вынести квадрат этой константы: ( )= · ( ). Если одна выборка представляет из себя сумму выборок, то её дисперсия равна сумме дисперсий этих выборок: S  2 i 1 23 n X   Xi ; (10) i 1 n S2 (X )   S 2( Xi ) . (11) i 1 Если существует некая функция y, зависящая от выборок Xi , то дисперсия этой функции равна сумме произведений квадратов частных производных данной функции на дисперсии этих выборок: = ( , , … , , … , ); (12) n S 2 ( y)   ( i 1 y 2 2 ) S ( Xi ) . X i (13) 5. При увеличении числа измерений дисперсия среднего уменьша= , ,… , ; = ется. Так, если взять несколько выборок , ,…, ; …; = , ,…, которым соответствуют следующие средние ̅ ′, ′′, … , ̅ , а их дисперсии равны ( ′) = ( ′′) = , для которой = ⋯ = ( ), и объединить в одну ), то справедлива будет следующая запись: ( ′, ′′, … , m X 2 2 i  X ' X '' ...  X m 2 2 i ) S ( X )  ( ( )) S ( X )   i i m i 1 X i1 X . (14) 2 1 m S (X )  2 (S 2 ( X ')  S 2 ( X '')  ...  S 2 ( X m ))  2 S 2 ( X )  m m m m S 2 ( X )  ( Таким образом, чем больше m, тем меньше дисперсия генерального среднего. Подобными свойствами обладает и генеральная дисперсия. 3.3. Стандартные отклонения и расчет погрешности СКО – это квадратный корень из дисперсии. Рассчитав среднее значение выборки и её дисперсию, можно рассчитать СКО по следующей формуле: (15) S ( x)  S 2 ( x) . Не менее часто для описания разброса результатов в выборке пользуются относительным среднеквадратичным отклонением (ОСКО). Данная характеристика абсолютна и безразмерна, но может быть вы- 24 ражена в %, и не зависит от величины переменных. Рассчитывается ОСКО по следующей формуле: S ( x) . (16) Sr ( x )  x Расчёт самой погрешности (Δ) для среднего значения выборки осуществляется с использованием коэффициента Стьюдента, соответствующего данной выборке и СКО по следующей формуле: t ( P, f )  S ( x) , (17)  n где t – коэффициент Стьюдента для заданных P и f; P – вероятность; f – число степеней свободы; n – количество измерений в серии; S(x) – СКО. 3.4. Представление результатов количественного химического анализа Результаты количественного анализа всегда представляют не в виде конкретного числа, однозначно определяющего значение исследуемой величины, а в виде непрерывного интервала значений этой величины с минимальным и максимальным значениями, равноудалёнными от среднего значения. Например, (2,0 ± 0,3) моль/л, (385 ± 3) г и т.д. Для записи результата пользуются следующим правилом: среднее значение в записи результата должно обладать той же точностью, что и погрешность. Следует помнить о правильной записи погрешности. Для величины погрешности значимыми цифрами являются все нули в левой части числа вплоть до первой ненулевой цифры и сама первая ненулевая цифра. Исключением являются цифры 1 и 2, которые должны быть уточнены следующей за ними цифрой. Значащей цифрой является любая цифра, кроме нулей, стоящих в конце числа, записанного в виде десятичной дроби. Таким образом, числа 29,5; 29,50; 29,500 имеют одинаковое количество значащих цифр, а числа 0,1; 0,01; 0,001 имеют по 2, 3 и 4 значащих цифры, соответственно. Пример: если полученное значение погрешности равно 0,452, то значимыми будут 0 и 4, т.е. погрешность округляется до 0,4. Если же 25 погрешность равна 1,183, то значимыми цифрами будут 1 и 1, т.е. погрешность округляется до 1,2. Уточнение 1 и 2 необходимо, поскольку, например, 4, стоящая после 1, округлится в меньшую сторону, и полученная погрешность окажется меньше почти на 30% от изначальной, что является существенным занижением погрешности результата. Округление можно осуществлять многими способами, но при работе с представлением результатов измерений обычно придерживаются следующих правил: 1) цифры, за которыми следуют 0–4, оставляют в том же значении; 2) цифры, за которыми следуют 6–9, увеличивают на 1; 3) цифры, за которыми следует 5 округляют в большую сторону, если за 5 следуют другие ненулевые цифры; 4) если после 5 ненулевые цифры отсутствуют, то округляют в сторону чётной цифры. Например: 1,89 округляют до 1,9; 5,26 округляют до 5; 4,5036 округляется до 5; а 4,500 округляют до 4. В итоге, запись результата производят по следующему алгоритму. 1. Сначала смотрят на погрешность и количество значащих в ней цифр. 2. Производят округление погрешности. 3. Уравнивают точность погрешности и среднего значения округлением или дополнением среднего. Пример: имеется среднее значение 389,56 и приписываемая ему погрешность 41,93. Первым делом смотрят на погрешность. В ней будет единственное значимое число – 4. Таким образом мы округляем погрешность до значения 40. Далее приводим в соответствие точность среднего и погрешности. Получаем следующую запись результата: (390 ± 40). Имеется среднее значение 0,448 и погрешность 0,135. Согласно тому же алгоритму погрешность будет 0,13, поскольку 1 необходимо уточнить. А записанный результат будет выглядеть следующим образом: (0,45 ± 0,13). 26 Глава 4. РАСПРЕДЕЛЕНИЕ СЛУЧАЙНЫХ ВЕЛИЧИН 4.1. Закон нормального распределения В разделе 2.3 уже говорилось о распределениях случайных величин. Видов данных распределений достаточно много, но наиболее часто встречаются зависимости, подчиняющиеся закону нормального распределения или распределению Гаусса. Нормальное распределение вероятности подразумевает под собой зависимость, выраженную следующей формулой: ( x  ) 2  1 2 (18)  ( x)  e 2 ,  2 где x – непрерывен и определён на всём промежутке от -∞ до +∞; μ – математическое ожидание; σ2 – генеральная дисперсия. Графически данная зависимость представлена на рис. 3. Рис. 3. Нормальное распределение вероятности Центральной точкой графика является математическое ожидание μ, плотность вероятности которого максимальна. Генеральная дисперсия σ2 является мерой рассеяния. Чем она больше, тем более пологим будет график, и будет выше плотность вероятности получения значений, отличающихся от μ. 27 Однако нормальный закон распределения выведен для генеральной совокупности результатов. Чаще всего характеристики генеральной совокупности μ и σ не известны, поэтому удобней пользоваться законом нормированного распределения, в котором произведены некоторые замены. 4.2. Закон нормированного распределения Если над уравнением (13) произвести операцию замены переменных следующего характера ui  xi   , (19)  то полученное в ходе преобразования уравнение получит следующий вид: u2  1 (20) e 2  (u )  2 . За счёт такого преобразования = 0, а = 1. В таком случае график принимает следующий вид: Рис. 4. Нормированное распределение вероятности С данным распределением проще работать. Если проинтегрировать уравнение по всем значениям u от -∞ до +∞, то получим 1. Это значит, что вероятность того, что искомая величина лежит в данном диапазоне равна 1. Если же интегрировать в определённом диапазоне 28 от –u до +u, то получим определённую площадь под кривой между данными значениями. Так как u теперь измеряется в долях σ то, используя табличные данные, можно рассчитать, что за пределами ±2σ будут находиться – 5%, а за ±3σ – 0,3% случайных величин. 4.3. Статистика малых выборок. Распределение Стьюдента В разделах 4.1 и 4.2 было показано, что вероятность получения результатов близких по значению к математическому ожиданию значительно выше, чем вероятность получения сильно отклоняющихся результатов. В таком случае, если исследователь при анализе осуществит очень малую серию измерений, то вероятность присутствия в ней грубых результатов очень мала. В таком случае дисперсия, рассчитанная для данной выборки, будет существенно занижена относительно генеральной дисперсии. Поэтому для малых выборок принято пользоваться распределением Стьюдента. При использовании распределения Стьюдента замена переменных происходит следующим образом = ( ) . Теперь переменная не со- держит неизвестной величины σ. График плотности вероятности для распределения Стьюдента аналогичен графику нормированного распределения, однако теперь степень его пологости зависит не только от S(x), но и от количества измерений в серии. Так, при количестве измерений более 20, график практически полностью совпадает с Гауссовой кривой. Рис. 5. Распределение вероятности при f = 1, 2, 5, ∞. 29 Глава 5. СТАТИСТИЧЕСКИЕ КРИТЕРИИ 5.1. Q-критерий Q-критерий используется для оценки грубого результата в полученной выборке. Используя данный критерий, можно откинуть результаты, которые в значительной мере отличаются от других результатов в выборке. Данная операция необходима, поскольку такие грубые значения могут существенно исказить как значение математического ожидания выборки, так и её дисперсии. Принцип работы Q-критерия достаточно прост, в связи с чем он нашёл широкое применение в аналитической химии. Суть метода заключается в том, чтобы сначала расположить все полученные результаты в выборке в порядке возрастания их числового значения. Логично, что грубый результат будет находить в начале или в конце последовательности. Далее необходимо воспользоваться следующими формулами: x x (21) Qi  1 2 , x1  xn если подозрительное значение в начале, или x x (22) Qi  n1 n , x1  xn если подозрительное значение в конце последовательности. Если же количество результатов в выборке больше 10, то Qкритерий не применим. Вместо него используется t-критерий. Изначально Q-критерий используют при доверительной вероятности P = 0,95. В случае же если подозрительное значение не проходит проверку при данной доверительной вероятности, то переходят на следующий её уровень P = 0,99. 5.2. Критерий Стьюдента Критерий Стьюдента (t-критерий) является наиболее распространённым критерием оценки результатов измерений в виду своей простоты и многофункциональности. Так, первым его применением может являться отброс грубых результатов по аналогии с Q-критерием. Следует понимать, что t-критерий является более «жёстким» по сравне30 нию с Q-критерием, с другой же стороны он работает при любом количестве измерений. Рабочая формула в данном случае выглядит следующим образом: xi  x (23) n, S ( x) где xi – проверяемое на грубость значение выборки, ̅ – средне арифметическое выборки, S(x) – СКО, n – число измерений. В случае если величина ti для рассматриваемого подозрительного значения в конкретной полученной выборке оказывается больше, чем табличное значение коэффициента Стьюдента для данной выборки, такое значение сначала можно считать потенциальным промахом. Если при переходе с уровня значимости 0,05 на 0,01 ti всё ещё больше коэффициента Стьюдента, то данное значение окончательно является промахом и его следует отбросить. Следует помнить, что все дальнейшие математические операции для выборки необходимо проводить при уровне значимости 0,01. Вторым применением критерия Стьюдента можно считать сравнение среднего и действительного значения. Такое применение критерия используется для оценки правильности анализа и оценки его систематической погрешности. Рабочая формула (19) практически не отличается от приведённой выше для оценки грубого результата: ti  ax (24) n, S ( x) где a – действительное значение, ̅ – математическое ожидание, S – СКО, n – количество измерений. В случае если величина ti для рассматриваемого математического ожидания оказывается больше, чем табличное значение коэффициента Стьюдента для данной выборки, систематическую ошибку необходимо считать значимой на фоне случайного разброса. Третьим применением критерия Стьюдента является сравнение 2-х средних, полученных для 2-х равноточных выборок. Условие равноточности является обязательным для применения критерия Стьюдента, описание расчётов критерия равноточности приводится разделах 5.4 и 5.5. Рабочая формула (25) имеет вид: ti  31 x1  x2 n1n2 , (25) S g ( x) n1  n2 где ̅ и ̅ – это средние для 1-ой и 2-ой выборок соответственно, n1 и n2 – количества измерений в этих выборках, а Sg – СКО, рассчитанное по следующей формуле: ti  (n1  1) S12 ( x ')  ( n2  1) S22 ( x '') . (26) n1  n2  2 В случае если величина ti для рассматриваемых математических ожиданий оказывается больше, чем табличное значение коэффициента Стьюдента для данной выборки, расхождение результатов значимо. S g ( x)  5.3 Критерий Граббса Критерий Граббса также направлен на оценку грубого результата. Он в большей степени похож на критерий Стьюдента. Рабочей формулой является: Gi  xi  x S ( x) . (27) Аналогично с критерием Стьюдента, если полученное значение больше табличного, то необходимо перейти на следующий уровень значимости (с 0,05 на 0,01) и повторно проверить результат на грубость. Если полученное значение Gi при уровне значимости 0,01 окажется больше табличного, данный результат считать промахом и отбросить, если меньше – продолжить статистическую обработку. 5.4. Критерий Фишера Критерий Фишера (F-критерий) имеет только одну функцию – сравнение 2-х выборок на равноточность. Рабочая формула: S 2 ( x) . (28) F  max i 2 Smin ( x) Если полученное значение Fi окажется больше табличного, то рассматриваемые выборки нельзя считать равноточными, и они не подлежат сравнению. Соответственно дальнейшие операции математиче- 32 ской статистики с этими выборками (как поиск общего среднего 2-х выборок и т.д.) также невозможны. 5.5. Критерий Кохрена Критерий Кохрена используется в случае, если необходимо сравнить более 2-х выборок. Рабочая формула имеет следующий вид: S 2 ( x) . (29) Gi  n max  Si2 ( x) i 1 Аналогично критерию Фишера, если полученное значение Gi окажется больше табличного, то рассматриваемые выборки нельзя считать равноточными и сравнивать между собой. Глава 6. ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ 6.1. Функция регрессии В аналитической химии в рамках количественного химического анализа очень широко применяется метод градуировочного графика. Для построения градуировочного графика производится замер определяемой характеристики у нескольких градуировочных образцов с точно заданной величиной аттестованного значения концентрации. По результатам замеров производится сопоставление аналитического сигнала с величиной аттестованного значения концентрации стандартного образца и строится градуировочный график. Очевидно, что при построении градуировочного графика, как и при любых других измерениях, замер каждой точки или каждого градуировочного образца, по которым строится график, необходимо проводить несколько раз. Поэтому каждому значению x графика будет соответствовать несколько значений y и, следовательно, к полученным точкам можно применить статистические законы. График, полученный на основе средних значений каждой точки, будет называться регрессией. Градуировочные графики бывают разных типов, но наиболее часто используемым видом регрессии является линейная регрессия. Данный тип регрессии наиболее удобен, поскольку на всей области, где график 33 определён, сохраняется приблизительно одинаковое соотношение ΔI – Δс, где ΔI – изменение (шаг) аналитического сигнала, а Δс – изменение (шаг) искомой величины. 6.2. Метод наименьших квадратов Для построения линейной регрессии можно использовать несколько методов, но наиболее широко используемым является метод наименьших квадратов (МНК). Принцип данного метода заключается в том, чтобы сумма квадратов отклонений от результирующей линии была бы минимальна. При этом сравниваются отклонения по обе стороны от результирующей линии. Таким образом, согласно МНК, разница квадратов отклонений левой и правой частей стремится к минимальному значению, и в частном случае, когда возможно решение системы уравнений, эта разница равна нулю. Используя метод наименьших квадратов можно рассчитать коэффициенты для результирующей линии (рис.6). Рис. 6. Графическая интерпретация метода наименьших квадратов Также МНК можно выразить через формулы: − = , (30) где yi – значения функции, полученные экспериментально, Yi – значения функции, теоретически рассчитанные из уравнения линейной регрессии, а – разницы экспериментальных и рассчитанных значений функции, называемые отклонениями. 34 Суть метода МНК заключается в том, чтобы сумма квадратов отклонений (θ) была минимальна: n     i2  min . (31) i 1 При этом, если заменить рассчитанное Yi на уравнение прямой линейной регрессии то получим: n    ( yi  a  bxi ) 2  min . (32) i 1 6.3 Расчет коэффициентов регрессии и их погрешностей Для расчёта коэффициентов линейной регрессии выведены следующие уравнения (28, 29): n a n n a   2 i i 1 i1 n i i 1 n i 1 n  x  ( xi ) i1 n b b   n x  y x x y 2 i n xi yi   xi   yi i 1 n i 1 n n x  ( xi ) 2 i i 1 i , (33) 2 i 1 n n i 1 i . (34) 2 i 1 Для оценки погрешности определения данных коэффициентов используются формулы (30–37): n (y  i  a  bxi ) 2 ,  i1 n2 n2 n  S 02 n  S 02 , S b2   n n  2 2 n xi  ( xi ) S 02  i 1 S  S 02   xi2 i1  (36) i 1 n n 2 a (35)  S 02   xi2 , i1 n n n  x  (  xi ) i1 35 2 i i 1 2 (37) Sa  Sa2 , (38) 2 b Sb  S , (39)   a  t ( f ) Sa ,   b  t ( f ) Sb , f  n 2. (40) (41) (42) Глава 7. ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ MS Excel Семинар 1. Статистическая обработка результатов анализа Задача 1. В образце воды определяли содержание свинца методом инверсионной вольтамперометрии. Получили следующую серию значений (мг/дм3): 1,4; 1,3; 1,5; 1,6; 1,4; 1,2; 1,7; 2,0; 1,3. Рассчитать среднее значение ( ̅ ) и доверительные границы (Δ) для содержания свинца при доверительной вероятности (P) равной 95% и 99%. Решение: Обработку и вычисление результатов проводят с помощью программы Excel. 1. Вносят в таблицу файла Excel значения выборки из условия задачи (рис. 7). Рис. 7. Общий вид файла Excel с внесенными значениями выборки 36 2. Располагают значения в порядке возрастания. Для этого необходимо выделить указанные значения и отсортировать. Это можно сделать либо, нажав правой кнопкой на значения, а затем перейти к действию СОРТИРОВКА и далее перейти ОТ МИНИМАЛЬНОГО К МАКСИМАЛЬНОМУ (рис. 8), либо, выбрав на панели инструментов действие СОРТИРОВКА И ФИЛЬТР, перейти далее ОТ МИНИМАЛЬНОГО К МАКСИМАЛЬНОМУ (рис. 9). Рис. 8. Сортировка значений выборки с помощью выбора действий Рис. 9. Сортировка значений выборки с помощью панели инструментов 37 Данные в задаче значения выборки, введенные в файл Excel, приобретут следующий вид (рис. 10). Рис. 10. Общий вид файла Excel с отсортированными значениями данных выборки 3. Оценивают выборку на наличие грубого результата с использованием Q-критерия, согласно формулам (21) и (22). При условии практ ≤ теор – все результаты значимы, а при условии Qпракт ≥ Qтеор – проверяемый результат грубый. Чтобы воспользоваться формулами (21) и (22), их вводят в файл. Ввести формулу можно несколькими способами: а) в формульной строке; б) в самой ячейке. Формулу можно ввести вручную, поставив знак «=» и напечатав формулу (при этом возможные функции будут появляться в списке по мере набора, где можно будет выбрать интересующую), либо нажав на кнопку ВСТАВИТЬ ФУНКЦИЮ рядом с формульной строкой и выбрав из списка нужную функцию. При этом большинство простых формул можно ввести только самостоятельно. В данном случае формулу вводят самостоятельно. Поскольку формула короткая, её проще прописать в самой ячейке столбца В (рис. 11, 12). 38 Рис. 10. Введение формулы для проверки минимального значения выборки на наличие грубого результата по Q-критерию Рис. 11. Введение формулы для проверки максимального значения выборки на наличие грубого результата по Q-критерию В ячейку столбца С вводят значение Qтеор, взятое из таблицы значений Q-критерия (Приложение, табл. 1) (Рис. 12). В обоих случаях Qпракт ≤ Qтеор (Р = 0,95; f = 8), следовательно, все результаты значимы и можно проводить их статистическую обработку. 39 Рис. 12. Введение в таблицу значения Qтеор 4. Определяют среднее значение выборки. Для этого используют формулу СРЗНАЧ. Ввести её можно уже упомянутыми выше двумя способами. Прописать вручную (рис. 13) или выбрать в меню ВСТАВИТЬ ФУНКЦИЮ (рис. 14). Рис. 13. Введение формулы для поиска среднего значения прописью формулы 40 Рис. 14. Введение формулы для поиска среднего значения через выбор формулы в меню ВЫБРАТЬ ФУНКЦИЮ В процессе введения формулы программа предложит в скобках варианты аргументов для расчёта (число 1, число 2 и т.д.). Чтобы выбрать их, производим выделение значений выборки в столбце А. После выделения всех значений выборки (рис. 15) производится расчет среднего значения выборки (рис. 16) Рис. 15. Выделение всей выборки для расчета среднего значения 41 Рис. 16. Результат расчета среднего значения выборки, предложенной в задаче 5. Аналогично находят СКО, используя функцию СТАНДОТКЛОН.В (рис. 17). После выделения всех значений выборки появляется результат расчета СКО (рис. 18). Рис. 17. Введение функции СТАНДОТКЛОН.В для расчета СКО выборки 42 Рис. 18. Результат расчета СКО выборки 6. Чтобы перейти к расчёту погрешности, необходимо определить коэффициент Стьюдента для заданных условий. Сделать это можно с помощью программы Excel, либо с помощью таблицы (Приложение, табл. 2). Воспользуемся программой Excel. Для этого выбирают функцию СТЬЮДЕНТ.ОБР.2Х (рис. 19). Вводимые в скобках через точку с запятой числа соответствуют вероятности и степени свободы. Под вероятностью в данном случае понимают уровень значимости, т.е. величину α = 1 – P = 1 – 0,95 = 0,05, а под степенью свободы f = n – 1, т.е. количество значимых результатов за вычетом единицы. После записи этих данных в формулу появляется значение коэффициента Стьюдента (рис. 20). Рис. 19. Определение коэффициента Стьюдента для заданных условий (Р = 0,95; f = 8) с помощью программы Excel 43 Рис. 20. Результат определения коэффициента Стьюдента с помощью программы Excel 7. Приступают непосредственно к вычислению абсолютной погрешности. Для этого используют формулу (39):  t ( P, f )  S ( x) , n (43) где S – СКО, t(P, f) – коэффициент Стьюдента, n – количество значимых результатов. Поскольку формула простая, лучше записать её вручную. При этом в формуле будет фигурировать корень. Вычисление корней в Excel можно проводить двумя путями: а) используя функцию КОРЕНЬ; б) приписывая числу дробную степень. Во втором случае степень числу в программе Excel приписывают за счёт символа «^», а последующее дробное число, обозначающее степень корня, вводят в скобках. Данный приём может быть удобнее, когда используются корни более высоких степеней, чем квадратный, а также если само число предварительно должно быть возведено в степень. В нашем случае это не требуется и достаточно квадратного корня. На рис. 21 и 22 показаны варианты расчета абсолютной погрешности с двумя способами вычисления корней в формуле (43). На рис. 23 показан результат вычисления абсолютной погрешности для среднего значения данной выборки. 44 Рис. 21. Расчет абсолютной погрешности результатов анализа для заданных условий (Р = 0,95; f = 8) с использованием для вычисления корня функции КОРЕНЬ Рис. 22. Расчет абсолютной погрешности результатов анализа для заданных условий (Р = 0,95; f = 8) с использованием для вычисления корня числа с дробной степенью Рис. 23. Результат расчета абсолютной погрешности среднего значения выборки для заданных условий (Р = 0,95; f = 8) 45 Получив значение погрешности, видим, что 0 и 1 (как и 2, если бы она была) – не значимы и требуют уточнения, а 9 значима. Следовательно, количество цифр после запятой – две. Поэтому среднее значение мы также изменяем, чтобы оно имело 2 цифры после запятой. Менять разрядности можно 2 способами: а) при помощи функций на панели инструментов УМЕНЬШИТЬ РАЗРЯДНОСТЬ и УВЕЛИЧИТЬ РАЗРЯДНОСТЬ; б) в окне ФОРМАТ ЯЧЕЙКИ, которое можно вызвать, кликнув на ячейке правой кнопкой мыши и выбрав ФОРМАТ ЯЧЕЙКИ или кликнув на вкладку ЧИСЛО на панели инструментов (рис. 24, 25). Рис. 24. Изменение разрядности среднего значения 46 Рис. 25. Изменение разрядности среднего значения через окно ФОРМАТ ЯЧЕЙКИ В данном окне можно выбрать количество знаков после запятой. Погрешность необходимо рассчитать при различных вероятностях. Для этого повторяем процедуры расчета по пунктам 6 и 7 с тем лишь изменением, что α = 0,01 (рис. 26–29). Рис. 26. Определение коэффициента Стьюдента для заданных условий (Р = 0,99; f = 8) с помощью программы Excel 47 Рис. 27. Результат определения коэффициента Стьюдента для заданных условий (Р = 0,99; f = 8) с помощью программы Excel Рис. 28. Расчет абсолютной погрешности результатов анализа для заданных условий (Р = 0,99; f = 8) 48 Рис. 29. Результат расчета абсолютной погрешности среднего значения выборки для заданных условий (Р = 0,99; f = 8) Ответ записывают в следующей форме: x = ̅ ± Δ (рис. 30). Рис. 30. Результат расчета среднего значения содержания свинца ( ̅ ) и доверительных границ (Δ) при вероятностях (P) равных 95% и 99% 49 Семинар 2. Оценка правильности выполнения измерений Задача 2. В условиях воспроизводимости в 4 лабораториях проанализирован стандартный образец с концентрацией (с = 1 мг/дм3). Получены результаты: (1,4; 1,0; 0,8; 1,2) (мг/дм3). Определить, чем обусловлен разброс результатов анализа: обусловлен наличием только систематической или только случайной составляющей погрешности, либо их одновременным наличием? Решение: Оценку значимости систематической погрешности проводят по tкритерию, практическое значение которого рассчитывают согласно формуле (24). Приведем решение данной задачи с помощью программы Excel. 1. Вносят в таблицу файла Excel значения выборки из условия задачи (рис. 31, а) и проводят их сортировку аналогично тому, как было показано в задаче 2 (рис. 31, б). а б Рис. 31. Общий вид файла Excel с введенными значениями данных выборки до сортировки (а) и после сортировки (б) 2. Оценка грубого результата по Q-критерию (см. задачу 1) позволяет сделать вывод о том, что ни одно из значений не является грубым (рис. 32). 50 Рис. 32. Оценка грубого результата по Q-критерию 3. Производят расчёт среднего и СКО (см. задачу 1) (рис. 33). Рис. 33. Расчет среднего значения и СКО выборки 4. Полученные данные подставляют в формулу (24), используя функции ABS (модуль) и КОРЕНЬ (рис. 34, 35). В формуле (рис. 34) 1 – это значение стандартного образца, а 4 – количество измерений. 5. Теоретическое значение коэффициента Стьюдента находят, как было показано в задаче 1 (рис. 36). Ответ: Практическое значение коэффициента Стьюдента меньше теоретического tпракт ≤ tтеор (Р=0,95; f=3), следовательно, можно сделать вывод о том, что систематическая составляющая погрешности результатов анализа не значима на фоне случайного разброса. 51 Рис. 34. Введение формулы (24) для расчета практического коэффициента Стьюдента Рис. 35. Результат расчета практического значения коэффициента Стьюдента Рис. 36. Определение tтеор (Р = 0,95; f = 3) с помощью программы Excel 52 Задача 3. В условиях повторяемости двумя студентами выполнены две серии измерений и получены результаты. Серия 1: 0,091; 0,090; 0,091; 0,092; 0,090. Серия 2: 0,097; 0,094; 0,096; 0,095. Вторая серия измерений выполнена с использованием стандарта. Оценить правильность выполнения первой серии измерений. Решение: Для решения данной задачи используют t-критерий для сравнения 2-х средних согласно формулам (25), (26) и (44). 1. Вносят в таблицу значения результатов анализа, в соответствие с условием задачи (рис. 37, а). б а Рис. 37. Общий вид файла Excel с введенными значениями результатов анализа до сортировки (а) и после сортировки (б) 2. Проводят сортировку. В процессе сортировки, если какие-либо данные располагаются рядом, появляется соответствующее окно (рис. 38), в котором предлагается два варианта действий. Если выбрать АВТОМАТИЧЕСКИ РАСШИРИТЬ ВЫДЕЛЕННЫЙ ДИАПАЗОН, то значения соседнего(-их) столбца(-ов) отсортируются таким образом, что значения в соседнем(-их) столбце (-ах) будут построчно соответствовать значениям сортируемого столбца. Если выбрать СОРТИРОВАТЬ В ПРЕДЕЛАХ УКАЗАННОГО ВЫДЕЛЕНИЯ, то отсортируются только значения выбранного диапазона. Положение значений в соседних столбцах не изменится. 53 Рис. 38. Способы сортировки данных, располагающихся рядом Поскольку значения второго столбца должны быть отсортированы отдельно, то следует выбрать СОРТИРОВАТЬ В ПРЕДЕЛАХ УКАЗАННОГО ВЫДЕЛЕНИЯ. Данные двух серий опытов после сортировки приведены на рис. 37, б. 3. Проводят отбраковку грубых значений по Q-критерию для каждой серии отдельно. Поскольку в сериях разное количество измерений значение Qтеор для них будет разное (рис. 39). Рис. 39. Оценка грубых значений для двух серий опытов по Q-критерию На основании полученных данных делают вывод, что обе серии не содержат грубых значений. 4. Рассчитывают средние и СКО для обеих серий (рис. 40). 54 Рис. 40. Расчет средних и их СКО для двух серий опытов Найдены все необходимые данные, чтобы приступить к расчету значимости расхождения средних по формулам (25), (26). 5. По формуле (26) рассчитывают общее СКО (рис. 41, 42). Следует обратить внимание, что в формуле (26) фигурирует дисперсия, а не СКО. Рис. 41. Введение формулы для расчета общего СКО 55 Рис. 42. Значение общего СКО, полученное для двух серий опытов 6. Полученные данные подставляют в формулу для расчета tпракт (25). Пример расчета представлен на рис. 43. Рис. 43. Расчет tпракт для двух серий опытов 7. Находят теоретическое значение коэффициента Стьюдента. (рис. 44). При этом число степеней свободы, которое считают по формуле (44), равно 7. f  n1  n2  2 . (44) Критерий Стьюдента указывает на наличие систематической составляющей погрешности, поскольку tпракт > tтеор (Р = 0,95; f = 7). Для принятия окончательного решения о правильности результатов и о 56 значимости расхождения средних, переходят на уровень значимости α=0,01 (рис. 45). Рис. 44. Определение теоретического значения коэффициента Стьюдента для заданных условий (Р = 0,95; f = 7) Рис. 45. Определение теоретического значения коэффициента Стьюдента для заданных условий (Р = 0,99; f = 7) И в этом случае tпракт > tтеор (Р = 0,99; f = 7), что указывает на значимость расхождения между средними результатами. Ответ: расхождение между средними результатами значимы, проверяемая первая серия измерений дает не правильные результаты. Присутствует систематическая погрешность. 57 Задача 4. В десяти образцах плазмы крови человека определили содержание глюкозы (мг/100 мл) с помощью двух методов: ферментативного с фотометрической индикацией и проточно-инжекционного анализа (ПИА). Результаты анализов приведены в таблице 1. Т аблица 1 Результаты ферментативного с фотометрической индикацией и проточно-инжекционного методов анализа № образца 1 2 3 4 5 6 7 8 9 10 Содержание глюкозы (мг/100 мл), определенное методами Фотометрический Проточно-инжекционный 75 70 100 103 82 83 85 82 93 94 78 77 80 83 90 88 84 86 95 94 Di +5 -3 -1 +3 -1 +1 -3 +2 -2 +1 Можно ли утверждать (при уровне значимости 0,05), что оба метода дают различные результаты? Решение: Для решения данной задачи применяют попарный t-критерий. Рабочая формула: D , (45) t SD  n где: n SD   (D  D ) 2 i i 1 , n 1 (46) n D D i . (47) n 1. Поскольку имеющиеся данные относятся к 10 разным образцам, то не представляется возможным применить к ним стандартную статистическую обработку результатов. Поэтому уже приведены значения 58 i 1 расхождений между двумя методами по каждому образцу. Следует обратить внимание, что нет разницы, из какого результата следует вычитать, важно лишь, чтобы для каждого образца вычитание проходило одинаково, из первого метода вычитается второй или, наоборот, но для всех образцов одинаково. Это влияет на то, сколько значений разницы с каким знаком мы получим и на результирующий знак среднего. Внесят в таблицу значения Di в файл Excel и рассчитывают среднее и СКО выборки по формулам (46) и (47) (рис. 46, а, б) б а Рис. 46. Введение значений выборки в файл Excel (а) и расчёт среднего и СКО выборки (б) Следует обратить внимание, что в Excel положительные числа пишутся без плюса. Добавить к ним плюс можно только переведя ячейку в текстовый формат, что не позволит вести дальнейшие вычисления. 2. На основе полученных данных проводят расчет tпракт по формуле (45) (рис. 47, 48). 59 Рис. 47. Введение формулы для расчёта tпракт Рис. 48. Полученное значение tпракт 3. Рассчитывают теоретическое значение коэффициента Стьюдента, как это делали в задаче 1 (рис. 49). 60 Рис. 49. Определение теоретического значения коэффициента Стьюдента для заданных условий (Р = 0,95; f = 9) Ответ: tпракт < tтеор (Р = 0,95; f = 9). t-критерий указывает на отсутствие систематической составляющей погрешности и можно утверждать, что оба метода дают равноточные измерения. Семинар 3. Оценка равноточности выполнения измерений Задача 5. При исследовании 2-х образцов стёкол на содержание титана были получены следующие результаты, масс. %: 1) 0,154; 0,151; 0,158; 0,157 2) 0,167; 0,171; 0,164; 0,163 Определите, принадлежат ли оба образца к одному типу стекла? Решение: Для решения данной задачи необходимо воспользоваться Qкритерием для оценки наличия грубого результата и t-критерием для сравнения средних значений двух выборок. Но перед тем как применить критерий Стьюдента необходимо оценить равноточность пред- 61 ставленных выборок. Для оценки равноточности двух выборок применяют критерий Фишера согласно формуле (28). 1. Вносят данные из условий задачи в 2 колонки и проводят их раздельную сортировку, аналогично задаче 3 (рис. 50, а, б) б а Рис. 50. Внесение значений серий измерений в файл Excel (а) и их раздельная сортировка по столбцам (б) 2. Проводят оценку грубого результата по Q-критерию (рис. 51) аналогично задаче 1. Рис. 51. Оценка единичных измерений в выборках на наличие грубого результата с использованием Q-критерия Согласно Q-критерию ни одно из значений в обеих выборках не является грубым. 3. Производят расчёт средних и СКО (рис. 52). 62 Рис. 52. Расчёт средних значений и СКО для 2 серий измерений 4. Полученные данные подставляют в формулу (28) (рис. 53). В данной формуле для расчета используются дисперсии, а не СКО. Рис. 53. Расчёт практического значения F-критерия Значения Fтеор приведены в приложении, таблица 3 (рис. 54). 63 Рис. 54. Определение теоретического значения коэффициента Фишера для заданных условий (Р = 0,95; f1 = 3, f2 = 3) Очевидно, что Fпракт < Fтеор, (Р = 0,95; f1 = 3; f2 = 3), а значит выборки равноточны. 6. Далее сравнивают два средних аналогично задаче 3 (рис. 55). Рис. 55. Результаты расчёта общего СКО и практических и теоретических значений коэффициента Стьюдента Ответ: не смотря на отсутствие грубых значений и равноточность полученных выборок, образцы стекла не принадлежат одному типу так как tпракт > tтеор (Р = 0,99; f = 6). 64 Задача 6. При разработке методики анализа изучалась воспроизводимость. В пяти независимых лабораториях были получены выборки, состоящие из 17 результатов. Дисперсии полученных выборок следующие: 0,025; 0,028; 0,030; 0,024; 0,027. Оцените, равноточны ли результаты, полученные в разных лабораториях. Решение: Поскольку количество выборок превышает две, то для решения задачи следует воспользоваться критерием Кохрена по формуле (29). Основное условие применимости критерия – это равенство количества результатов в каждой выборке. 1. Заполняют колонку А в программе Excel значениями дисперсий и сортируют их (рис. 55, а, б). б а Рис. 55 Введение значений дисперсий (а) и их сортировка (б) 2. Подставляют значения в расчетную формулу (29). Для удобства суммирования используют функцию СУММ (рис. 56, 57). Для этого, в начале ввода её выбирают во всплывающем списке и затем выделяют диапазон суммируемых значений. 65 Рис. 56. Введение формулы (29) в Excel Рис. 57. Результат расчёта значения Fпракт Табличное значение критерия Кохрена приведено, в приложении, таблица 4 (рис. 58). 66 Рис. 58 Введение теоретического значения коэффициента Кохрена для заданных условий (Р = 0,95; f = 16, k = 5) Ответ: из полученных результатов видно, что экспериментальное значение меньше теоретического Gпракт < Gтеор (P = 0,95; k = 4; f = 16), а значит результаты, полученные в разных лабораториях равноточны. Семинар 4. Нахождение уравнения линейной регрессии, построение калибровочных графиков, расчет ошибок при определении коэффициентов линейной регрессии Задача 7. При построении градуировочного графика при анализе фосфора в виде фосфат-иона методом спектрофотометрии были получены следующие данные, представленные в таблице 2. Т аблица 2 Рез ул ьт ат ы спе кт рофот омет рического о пределен ия ф осфора С (P), мг/л A 2 4 6 8 10 12 0,27 0,54 0,80 1,05 1,33 1,62 Найдите уравнение линейной регрессии, лежащее в основе градуировочного графика, постройте градуировочный график и рассчитайте ошибку определения коэффициентов линейной регрессии. Решение: Для решения данной задачи следует воспользоваться методом наименьших квадратов (МНК). При этом расчёт можно вести как 67 вручную, так и автоматически. В основе метода лежат формулы (33) – (42). Вычисление всех необходимых значений по этим формулам довольно трудоёмко, поэтому используют программу Excel. 1. Вводят данные из условия задачи в таблицу файла. Excel (рис. 59). Рис. 59. Введение данных эксперимента В данном случае упорядочивания точек не требуется, но если имеется непоследовательный набор точек, то их лучше отсортировать от меньшего к большему. 2. Рассчитают все параметры регрессии. Для этого воспользуемся функцией ЛИНЕЙН. Функция имеет существенный рабочий потенциал. Она способна обрабатывать линейные уравнения не только с одной, но и несколькими переменными. Наш случай простейший, поскольку мы имеем только одну переменную. Как и любые другие функции в Excel данную функцию можно ввести как непосредственно в ячейке или в формульной строке, так и выбрав её в окне выбора функций. В случае её выбора в окне выбора функций метод ввода данных несколько, хоть и несущественно, изменится и станет более удобным и понятным. Рассмотрим введение данной функции непосредственно в ячейку. Сама функция при её введении содержит 4 поля ввода данных, разделённых знаком «;» и представлена следующим образом: ЛИНЕЙН (известные_значения_y; известные_значения_x; конст; статистика). Разберём эти поля поподробнее. «известные_значения_y» и «известные_значения_x» – это наши значения, на основе которых мы будем строить график. В поле «конст» вводятся логические значения ИСТИНА или ЛОЖЬ. Введение ИСТИ68 НА подразумевает, что константа a в модели нашего уравнения типа y = a + bx присутствует. Если же прописать ЛОЖЬ, то она автоматически приравнивается к нулю. В поле «статистика» также вводятся логические значения. Введение ИСТИНА подразумевает, что дополнительная регрессионная статистика будет рассчитана. В случае введения ЛОЖЬ она рассчитана не будет. Перейдём непосредственно к расчётам. Вводимая функция будет выглядеть как показано на рисунке 60: Рис. 60. Введение функции для расчёта всех параметров по МНК Рис. 61. Результат работы функции ЛИНЕЙН при расчёте линейной регрессии по МНК Функция сработала, но не все необходимые нам данные были отображены (рис. 61). Для того чтобы их отобразить, выделяют область из 5 строк и n+1 столбцов таким образом, чтобы ячейка с формулой оказалась в верхнем левом углу данной области. n – это количество переменных, фигурирующих в рассматриваемом уравнении. В нашем слу69 чае она всего одна, следовательно, количество столбцов будет равно двум (рис. 62). Рис. 62. Выбор области вывода дополнительных данных по МНК Далее проводят некоторые операции с помощью клавиш. В первую очередь нажимают клавишу F2. Произойдёт следующее (рис. 63). Рис. 63. Преобразование вывода данных по МНК Далее необходимо нажать одновременно комбинацию 3 клавиш CTRL+SHIFT+ENTER. Это позволит массиву данных отобразиться. (рис. 64). 70 Рис. 64. Отображение массива данных по МНК Чтобы не запутаться какие число что обозначают, им приписывают обозначения в Excel (рис. 65). Рис. 65. Приписанные обозначения для массива данных по МНК a и b – коэффициенты нашей регрессии, а Sb и Sa соответственно их средние квадратичные отклонения. Sy – среднее квадратичное отклонение y. r2 – это коэффициент детерминированности. Он определяет степень близости полученного уравнения к имеющимся данным. Сравниваются фактические значения y и значения, получаемые из уравнения прямой; по результатам сравнения вычисляется коэффициент детерминированности, нормированный от 0 до 1. Если он равен 1, то имеет место полная корреляция с моделью, т.е. различий между фактическим и оценочным значениями y нет. В противоположном случае, если коэффициент детерминированности равен 0, использовать уравнение регрессии для предсказания значений y не имеет смысла. 71 F – F-статистика или F-наблюдаемое значение. F-статистика используется для определения того, является ли случайной наблюдаемая взаимосвязь между зависимой и независимой переменными. df – степени свободы. ssreg – регрессионная сумма квадратов. ssresid – остаточная сумма квадратов. Проводя регрессионный анализ, Excel вычисляет для каждой точки квадрат разности между прогнозируемым значением y и фактическим значением y. Сумма этих квадратов разностей называется остаточной суммой квадратов (ssresid). Затем Excel подсчитывает общую сумму квадратов (sstotal). Общая сумма квадратов будет равна сумме квадратов разностей действительных значений y и средних значений y. После этого регрессионную сумму квадратов можно вычислить следующим образом: ssreg = sstotal - ssresid. Чем меньше остаточная сумма квадратов, тем больше значение коэффициента детерминированности r2, который показывает, насколько хорошо уравнение, полученное с помощью регрессионного анализа, объясняет взаимосвязи между переменными. Коэффициент r2 равен отношению ssreg/sstotal. 3. Рассчитывают погрешность определённых коэффициентов регрессии. Для этого сначала находят теоретическое значение коэффициента Стьюдента для определённого выше числа степеней свободы (рис. 66). Рис. 66. Определение теоретического значения коэффициента Стьюдента для заданных условий (Р = 0,95; f = 4) 72 Подставим полученные значения в формулы (40) и (41) (рис. 67). Рис. 67. Определение и запись коэффициентов линейной регрессии 4. Строят градуировочный график. Для этого выделяют данные (рис. 68). Рис. 68. Выделение области построения градуировочного графика 73 Далее выбирают вкладку ВСТАВКА (рис. 69). Рис. 69 Использование вкладки ВСТАВКА для построения графика Выбирают ТОЧЕЧНАЯ и ТОЧЕЧНАЯ С МАРКЕРАМИ (рис. 70). Рис. 70. Проведение операций по построению точечного графика 74 В результате строят график (рис. 71). Рис. 71. Построенный точечный график на основе имеющихся данных Однако сейчас на этом графике отображены только точки на основе наших данных. Чтобы построить непосредственно градуировочный график необходимо кликнуть по любой из точек на графике сначала левой, а потом правой кнопкой мыши и в выплывшем меню выбрать ДОБАВИТЬ ЛИНИЮ ТРЕНДА (рис. 72). 75 Рис. 72. Построение линии тренда с использованием МНК В появившемся окне выбирают параметры линии тренда. В первую очередь выбирают тип зависимости, которая аппроксимирует точки графика. В нашем случае это ЛИНЕЙНАЯ. Дополнительно можно выбрать название для линии тренда и насколько она будет выступать за крайние точки. Также можно отметить галочками, чтобы на графике 76 отображалось уравнение аппроксимирующей линии и коэффициент детерминированности (рис. 73). Рис. 73. Порядок операций по построению линии тренда с использованием МНК В результате получают следующий рисунок (рис. 74). 77 Рис. 74. Линейная регрессия, рассчитанная и построенная с использованием МНК Задача решена! 78 Приложение Т аблица 1 Критические значения Q-критерия для различной доверительной вероятности P (%) и степеней свободы f Число степеней свободы, f 2 3 4 5 6 7 8 9 90 0,89 0,68 0,56 0,48 0,43 0,40 0,37 0,34 Доверительная вероятность, P, % 95 0,94 0,77 0,64 0,56 0,51 0,48 0,46 0,44 99 0,99 0,89 0,76 0,70 0,64 0,58 0,53 0,48 Т аблица 2 Критерий Граббса для различной доверительной вероятности P (%) и степеней свободы f Число степеней свободы, f Доверительная вероятность, P, % 90 95 99 Число степеней свободы, f Доверительная вероятность, P, % 90 95 99 2 1,41 1,41 1,41 14 2,33 2,49 2,80 3 1,65 1,69 1,72 15 2,35 2,52 2,84 4 1,79 1,87 1,96 16 2,38 2,55 2,87 5 1,89 2,00 2,13 17 2,40 2,58 2,90 6 1,97 2,09 2,27 18 2,43 2,60 2,93 7 2,04 2,17 2,37 19 2,45 2,62 2,96 8 2,10 2,24 2,46 20 2,47 2,64 2,98 9 2,15 2,29 2,54 21 2,49 2,66 3,01 10 2,19 2,34 2,61 22 2,50 2,68 3,03 11 2,23 2,39 2,66 23 2,52 2,70 3,05 12 2,26 2,43 2,71 24 2,54 2,72 3,07 13 2,30 2,46 2,76 79 Т аблица 3 Критические значения t-критерия Стьюдента для различной доверительной вероятности, P, % и степеней свободы f Число степеней свободы, f Доверительная вероятность, P, % 90 95 99 Число степеней свободы, f Доверительная вероятность, P, % 90 95 99 1 6,3138 12,7062 63,6567 25 1,7081 2,0595 2,7874 2 2,9200 4,3027 9,9248 26 1,7056 2,0555 2,7787 3 2,3534 3,1824 5,8409 27 1,7033 2,0518 2,7707 4 2,1318 2,7764 4,6041 28 1,7011 2,0484 2,7633 5 2,0150 2,5706 4,0321 29 1,6991 2,0452 2,7564 6 1,9432 2,4469 3,7074 30 1,6973 2,0423 2,7500 7 1,8946 2,3646 3,4995 32 1,6939 2,0369 2,7385 8 1,8595 2,3060 3,3554 34 1,6909 2,0322 2,7284 9 1,8331 2,2622 3,2498 36 1,6883 2,0281 2,7195 10 1,8125 2,2281 3,1693 38 16860 2,0244 2,7116 11 1,7959 2,2010 3,1058 40 1,6839 2,0211 2,7045 12 1,7823 2,1788 3,0545 42 1,6820 2,0181 2,6981 13 1,7709 2,1604 3,0123 44 1,6802 2,0154 2,6923 14 1,7613 2,1448 2,9768 46 1,6787 2,0129 2,6870 15 1,7531 2,1314 2,9467 48 1,6772 2,0106 2,6822 16 1,7459 2,1199 2,9208 50 1,6759 2,0086 2,6778 17 1,7396 2,1098 2,8982 55 1,6730 2,0040 2,6682 18 1,7341 2,1009 2,8784 60 1,6706 2,0003 2,6603 19 1,7291 2,0930 2,8609 65 1,6686 1,9971 2,6536 20 1,7247 2,0860 2,8453 70 1,6669 1,9944 2,6479 21 1,7207 2,0796 2,8314 80 1,6641 1,9901 2,6387 22 1,7171 2,0739 2,8188 90 1,6620 1,9867 2,6316 23 1,7139 2,0687 2,8073 100 1,6602 1,9840 2,6259 24 1,7109 2,0639 2,7969 80 5,99 5,59 5,32 5,12 4,96 4,84 4,75 4,67 4,60 4,54 4,49 4,45 6 7 8 9 10 11 12 13 14 15 16 17 3,59 3,63 3,68 3,74 3,81 3,89 3,98 4,10 4,26 4,46 4,74 5,14 2 199,5 19,00 9,55 6,94 5,79 1 161,4 18,51 10,13 7,71 6,61 Число степеней свободы, f1 1 2 3 4 5 3 3,20 3,24 3,29 3,34 3,41 3,49 3,59 3,71 3,86 4,07 4,35 4,76 215,7 19,16 9,28 6,59 5,41 4 2,96 3,01 3,06 3,11 3,18 3,26 3,36 3,48 3,63 3,84 4,12 4,53 224,6 19,25 9,12 6,39 5,19 5 2,81 2,85 2,90 2,96 3,03 3,11 3,20 3,33 3,48 3,69 3,97 4,39 230,2 19,30 9,01 6,26 5,05 82 2,70 2,74 2,79 2,85 2,92 3,00 3,09 3,22 3,37 3,58 3,87 4,28 234,0 19,33 8,94 6,16 4,95 6 2,61 2,66 2,71 2,76 2,83 2,91 3,01 3,14 3,29 3,50 3,79 4,21 236,8 19,35 8,89 6,09 4,88 7 8 2,55 2,59 2,64 2,70 2,77 2,85 2,95 3,07 3,23 3,44 3,73 4,15 238,9 19,37 8,85 6,04 4,82 Число степеней свободы, f2 2,49 2,54 2,59 2,65 2,71 2,80 2,90 3,02 3,18 3,39 3,68 4,10 240,5 19,38 8,81 6,00 4,77 9 2,45 2,49 2,54 2,60 2,67 2,75 2,85 2,98 3,14 3,35 3,64 4,06 241,9 19,40 8,79 5,96 4,74 10 15 2,31 2,35 2,40 2,46 2,53 2,62 2,72 2,85 3,01 3,22 3,51 3,94 2,23 2,28 2,33 2,39 2,46 2,54 2,65 2,77 2,94 3,15 3,44 3,87 248,0 19,45 8,66 5,80 4,56 20 Т аблица 4 245,9 19,43 8,70 5,86 4,62 Таблица значений F-критерия Фишера при доверительной вероятности P=95% f1 – число степеней свободы большей дисперсии, f2 – число степеней свободы меньшей дисперсии 3,55 4,41 4,38 4,35 19 20 3,49 3,52 2 1 Число степеней свободы, f1 18 3,10 3,13 3,16 3 2,87 2,90 2,93 4 2,71 2,74 82 2,60 2,63 2,66 6 2,51 2,54 2,58 7 8 2,45 2,48 2,51 Число степеней свободы, f2 2,77 5 2,39 2,42 2,46 9 2,35 2,38 2,41 10 2,20 2,23 2,27 15 2,12 2,16 2,19 20 Окончани е таблиц ы 4 9,33 9,07 8,86 8,68 8,53 8,40 8,29 12 13 14 15 16 17 18 11,26 8 9,65 12,25 7 11 8,02 13,75 6 10,56 16,26 5 10,04 21,20 4 9 34,12 3 10 8,65 98,50 2 6,01 6,11 6,23 6,36 6,51 6,70 6,93 7,21 7,56 9,55 10,92 13,27 18,00 30,82 99,00 2 499,5 1 4052,2 Число степеней свободы, f1 1 3 5,09 5,18 5,29 5,42 5,56 5,74 5,95 6,22 6,55 6,99 7,59 8,45 9,78 12,06 16,69 29,46 99,17 5403,4 4 4,58 4,67 4,77 4,89 5,04 5,21 5,41 5,67 5,99 6,42 7,01 7,85 9,15 11,39 15,98 28,71 99,25 5624,6 5 4,25 4,34 4,44 4,56 4,69 4,86 5,06 5,32 5,64 6,06 6,63 7,46 8,75 10,97 15,52 28,24 99,30 5763,6 83 4,01 4,10 4,20 4,32 4,46 4,62 4,82 5,07 5,39 5,80 6,37 7,19 8,47 10,67 15,21 27,91 99,33 5859,0 6 3,84 3,93 4,03 4,14 4,28 4,44 4,64 4,89 5,20 5,61 6,18 6,99 8,26 10,46 14,98 27,67 99,36 5928,4 7 8 3,71 3,79 3,89 4,00 4,14 4,30 4,50 4,74 5,06 5,47 6,03 6,84 8,10 10,29 14,82 27,49 99,37 5981,1 Число степеней свободы, f2 3,60 3,68 3,78 3,89 4,03 4,19 4,39 4,63 4,94 5,35 5,91 6,72 7,98 10,16 14,66 27,35 99,39 6022,5 9 3,51 3,59 3,69 3,80 3,94 4,10 4,30 4,54 4,85 5,26 5,81 6,62 7,87 10,05 14,55 27,23 99,40 6055,8 10 15 3,23 3,31 3,41 3,52 3,66 3,82 4,01 4,25 4,56 4,96 5,52 6,31 7,56 9,72 14,20 26,87 99,43 3,08 3,16 3,26 3,37 3,51 3,66 3,86 4,10 4,41 4,81 5,36 6,16 7,40 9,55 14,02 26,69 99,45 6208,7 20 Т аблица 5 6157,3 Таблица значений F-критерия Фишера при доверительной вероятности P=99% f1 – число степеней свободы большей дисперсии, f2 – число степеней свободы меньшей дисперсии 5,93 8,18 8,10 20 5,85 2 1 Число степеней свободы, f1 19 4,94 5,01 3 4,43 4,50 4 4,10 84 3,87 3,94 6 3,70 3,77 7 8 3,56 3,63 Число степеней свободы, f2 4,17 5 3,46 3,52 9 3,37 3,43 10 3,09 3,15 15 2,94 3,00 20 Окончани е таблиц ы 5 1 9985 9669 9065 8412 7808 7271 6798 6835 6020 5410 4709 3894 2929 2370 1737 0998 2 9750 8709 7679 6838 6161 5612 5157 4775 4450 3924 3346 2705 1980 1576 1131 0632 3 9392 7797 6841 5981 5321 4800 4377 4027 3733 3264 2758 2205 1593 1259 0895 0495 4 9057 7454 6287 5441 4803 4307 3910 3584 3311 2880 2419 1921 1377 1082 0765 0419 Число степеней свободы f 5 6 8 8772 8534 8159 7071 6771 6333 5895 5598 5175 565 4783 4387 4447 4184 3817 3974 3726 3384 3595 3362 3043 7276 3067 2768 3029 2823 2541 2624 2439 2187 2195 2034 1815 1735 1602 1422 1237 1137 1001 0968 0887 0782 0682 0623 0552 0371 0337 0292 10 7880 6025 4884 4118 3568 3154 2829 2568 2353 2020 1671 1303 0921 0713 0497 0266 16 7341 5466 4366 3645 3135 2756 2462 2226 2032 1737 1429 1108 0771 0595 0411 0218 36 6602 4748 3720 3066 2612 2278 2022 1820 1655 1403 1144 0879 0604 0462 0316 0165 ∞ 5000 3333 2500 2000 1667 1429 1250 1111 1000 0833 0667 0500 0333 0250 0167 0083 85 Все значения G-критерия меньше единицы, поэтому в таблице приведены лишь десятичные знаки, следующие после запятой, перед которой при использовании таблицы нужно ставить ноль целых. 2 3 4 5 6 7 8 9 10 12 15 20 30 40 60 120 Число измерений, k Т аблица 6 Критические значения коэффициента Кохрена (G-критерия) для доверительной вероятности Р = 95% и числа степеней свободы f Литература 1. Агаянц И.М., Орлов А.М. Планирование эксперимента и анализ данных. Методические указания к лабораторным работам. М.: ИПЦ МИТХТ, 1998. 143 с. 2. Аристов И.В., Бобрешова О.В. Математическая обработка физикохимического эксперимента. Воронеж: Воронежский государственный университет, 2004. 15 с. 3. Гармаш А.В., Сорокина Н.М. Метрологические основы аналитической химии: метод. пособие. М.: Изд-во Московского государственного университета им. М.В. Ломоносова, 2012. 47 с. 4. Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Высш. образование, 2006. 479 с. 5. Горелова Г.В., Кацко И.А. Теория вероятностей и математическая статистика в примерах и задачах с применением Excel. Ростов н/Д: Феникс, 2005. 480 с. 6. Гончаров А.А., Копылов В.Д. Метрология, стандартизация, сертификация. М.: Издат. центр «Академия», 2005. 240 с. 7. ГОСТ Р 52361–2005. Контроль объекта аналитический. Термины и определения. М.: Стандартинформ, 2005. 16 с. 8. ГОСТ Р ИСО 5725-1-2002 – 5725-6-2002. ГСИ Точность (правильность и прецизионность) методов и результатов измерений. М.: Госстандарт России, 2002. 9. Дворкин В.И. Метрология и обеспечение качества количественного химического анализа. М.: Химия, 2001. 263 с. 10. Дёрффель к, Статистика в аналитической химии. М.: Мир, 1994. 268 с. 11. Зайдель А.Н. Погрешности измерений физических величин. Л.: Наука, 1985. 112 с. 12. Закс Л. Статистическое оценивание. М.: Статистика, 1976. 598 с. 13. Кадис Р.Л. Метрологический и статистический смысл понятия «точность» в химическом анализе. Точность, истинное значение и принятое опорное значение // Завод. лаборатория. 2005. Т. 71, № 12. С. 53–59. 14. Колесников А.А. Элементарные методы обработки результатов измерений: метод. пособие. СПб.: Санкт-Петербургский государственный технологический институт, 2010. 22 с. 86 15. Мешалкин А.В., Ларионова В.М. Метрологические основы химического анализа: метод. пособие для вузов. Калуга: Изд-во КГУ им. К.Э. Циолковского, 2016. 123 с. 16. Пикула Н.П., Бакибаев А.А., Слепченко Г.Б. Метрологическое обеспечение и контроль качества химического анализа: учеб. пособие. Томск: Изд-во Томского политехнического университета, 2012. 216 с. 17. РМГ 29-99. Метрология. Основные термины и определения. М.: Изд-во стандартов, 2000. 46 с. 18. Румшинский Л.З. Математическая обработка результатов эксперимента. М.: Наука, 1971. 192 с. 19. Смагунова А.Н., Карпукова О.М. Методы математической статистики в аналитической химии: учеб. пособие. Иркутск: Изд-во Иркутского государственного университета, 2008. 342 с. 20. Чарыков А.К., Математическая обработка результатов химического анализа: учеб. пособие для вузов. Л: Химия, 1984. 168 с. 87 Издание подготовлено в авторской редакции Отпечатано на участке цифровой печати Издательского Дома Томского государственного университета Заказ № 3084 от «21» марта 2018 г. Тираж 50 экз. 88

Метрология количественного химического анализа (статистика малых выборок)

Разделы

Поддержка

Метрология количественного химического анализа (статистика малых выборок)

Добавить этот документ в коллекции

Добавить этот документ в сохраненные

Предложите, как улучшить StudyLib