Лекция 3. Графическое представление статистического распределения. Гистограмма. 1. Постановка проблемы. Гистограмма - один из инструментов интерпретации результатов медицинских исследований, контроля состояния здоровья пациентов. Благодаря графическому представлению имеющейся количественной информации, можно увидеть закономерности, трудно различимые в простой таблице с набором цифр, оценить проблемы и найти пути их решения. То есть для осмысления качественных характеристик признаков, процессов, и наглядного представления тенденции изменения наблюдаемых значений применяют графическое изображение статистического материала, т. е. строят гистограмму распределения. Именно по виду гистограммы, по тому, на какой вид распределения плотности вероятности похожа гистограмма, подбирается теоретический закон распределения. 1) 2) 3) 4) Наиболее часто встречающиеся виды распределений: нормальное; показательное (экспоненциальное); равномерное; Рэлеевское. Рис. 1. Плотность нормального распределения По нормальному закону распределены рост, масса человека, систолическое давления, содержание холестерина в крови пациента и д.р. Рис. 2. Плотность показательного распределения. По показательному закону распределён интервал между однотипными случайными событиями: вызовами медсестры пациентами, число заказов лекарственных средств аптеками, страховые случаи. Рис. 3. Плотность равномерного распределения По равномерному закона распределены ошибка округления и фаза случайных колебаний. Рис. 4. Плотность Рэлеевского распределения Плотность Рэлеевского распределения отлична от нуля только для неотрицательных значений x. Это распределение однопараметрическое: оно зависит от одного параметра σ. По Рэлеевскому закону распределено расстояние от точки попадания в мишень до её центра. Таким образом, необходимо внимательно посмотреть на построенную гистограмму и выбрать подходящее распределение значений случайной величины. 2. Предыстория и суть метода. Гистогра́мма (от др.-греч. ἱστός — столб + γράμμα — черта, буква, написание) — способ графического представления табличных данных. Следовательно, термин следует интерпретировать, как некую форму записи, состоящую из 'столбиков', т.е. продолговатых, вертикально расположенных фигур. Термин 'гистограмма' был введен знаменитым статистиком Карлом Пирсоном (Karl Pearson) для обозначения "общей формы графического представления". Пирсон (Pearson) Карл (27.3.1857, Лондон,— 27.4.1936, там же), английский математик, биолог, философ-позитивист. Профессор прикладной математики и механики (с 1884), а затем евгеники (с 1911) Лондонского университета. Гистограмма - один из вариантов столбиковой диаграммы, позволяющий зрительно оценить распределение статистических данных, группированных по частоте попадания в определенный (заранее заданный) интервал. Таким образом, гистограмма представляет собой графическое изображение зависимости частоты попадания элементов выборки от соответствующего интервала значений случайной величины. 3. План построения гистограммы: 1) Пусть необходимо изучить распределение признака Х у объектов генеральной совокупности. Для этой цели делают репрезентативную выборку и производят n измерений значений исследуемого признака: x1, x2, ... ,.xn. 2) Надо найти минимальное значение xmin и максимальное значение xmax измеренного параметра. Полученный диапазон разделить на конечное число интервалов, предварительно определив их число (обычно 5-20 в зависимости от числа показателей) и определить ширину интервала Δx. Часто разность xmax – xmin не делится нацело. В таком случае интервал несколько расширяется, как в сторону меньших, так и в сторону больших значений. 3) Все данные распределить по интервалам в порядке возрастания: левая граница первого интервала должна быть меньше наименьшего из имеющихся значений. Данные обработки результатов представить в виде таблицы (таблица1). 4) Подсчитать частоту mi значений параметра, попавших в каждый из интервалов. 5) Вычислить плотность частот mi/Δx попадания данных в каждый из интервалов. 6) Вычислить плотности относительных частот mi/Δx·n1. Интервалы значений Частоты Плотности частот, mi/Δx Плотности относительных частот, m i/Δx·n (хо,x1) (x1,x2) (x2,x3) (x3,x4) … (xk-1,xk) m1 m2 m3 m4 … mk 7). По полученным данным построить гистограмму - столбчатую диаграмму, высота столбиков которой соответствует частоте или 1 Так как для возможности сравнения различных гистограмм необходимо исключить зависимость от объёма выборки и ширины интервала Δx. плотности частот, или плотности относительных частот попадания данных в каждый из интервалов, основаниями столбиков служат отрезки оси абсцисс, длины которых равны длинам интервалов. В результате получают ступенчатую фигуру в виде сдвинутых друг к другу прямоугольников, площади которых пропорциональны частотам (или плотностям относительных частот). Гистограмма частот (нормальное распределение) Гистограмма плотности относительных частот (нормальное распределение) 8). Проанализировать гистограмму: a) определить тип распределения данных (нормальное и т.д.); b) нарисовать линию по верхушкам полосок гистограммы и получить сглаживающую кривую, наилучшим образом представляющую данное статистическое распределение; c) осуществить анализ нормального распределения с использованием математического аппарата: найти значение генеральной средней, генеральное среднее квадратическое отклонение, выражение для нормального закона. Но не следует делать выводы, основанные на малых выборках. Чем больше объем выборки, тем больше уверенность в том, что три важных параметра гистограммы - ее центр, ширина и форма - представительны для всего исследуемого процесса или группы данных. d) Ответить на вопрос: "Почему распределение именно такое, и о чем это говорит?" Примеры анализа гистограмм: Симметричная (пример А). Большинство значений находятся по обе стороны от центра распределения (центральной тенденции) с отклонением, сбалансированным по обе стороны от центра. С наклоном (пример Б). Большинство значений находятся слева от центральной тенденции. Такой тип распределения данных может произойти, если есть естественное препятствие в случаях сортировки данных (результаты, которые не соответствуют определенному стандарту, удаляются из набора данных). Асимметричная (пример В). На таком графике имеется длинный "хвост" по одну сторону от центральной тенденции. По одну сторону имеется больше отклонений, чем по другую, указывая на то, что в течение процесса произошел сдвиг некоторых переменных значений. Двухмодальная (пример Г). В двух модальном типе имеется две вершины. Это обычно происходит, когда смешиваются две различные группы данных (категория невысоких людей смешивается с категорией очень высоких людей). В действительности, мы имеем две гистограммы, объединенные вместе. Достоинства метода: Наглядность, простота освоения и применения. Анализ на основании фактов, а не мнений. Позволяет лучше понять вариабельность, присущую процессу, глубже взглянуть на проблему и облегчить нахождение путей ее решения. Недостатки метода: Интерпретация гистограммы, построенная по малым выборкам, не позволяет сделать правильные выводы. Применение метода гистограмм в информатике: В последние два десятилетия гистограммы использовались в нескольких областях информатики, и, прежде всего, в областях обработки изображений. Анализ гистограммы яркости стал уже привычным делом во время редактирования фотографий в графическом редакторе. Гистограмма яркости, которую для краткости обычно называют просто "гистограмма", помогает оценить общее качество фотографии на основе математической интерпретации тонального диапазона изображения в виде специальной диаграммы. Гистограмма яркости изображения - это и есть такая столбчатая диаграмма, отображающая количество пикселов2 изображения (по вертикали), имеющих заданный уровень яркости (по горизонтали). Т.е. гистограмма яркости представляет собой график, который показывает, какие оттенки присутствуют в изображении. Диапазон оттенков изображения представлен в виде последовательности вертикальных линий, расположенных слева направо от самого темного до самого светлого. Высота каждой линии показывает, сколько в изображении пикселов соответствующего оттенка. Гистограмму можно получить для каждого цветового канала в отдельности. В этом случае она показывает количество пикселов, имеющих определенное значение величины яркости для каждого цвета. Величина яркости изменяется в диапазоне от 0 до 255 с точностью до Пи́ ксел (англ. pixel, сокр. от англ. PICture'S ELement, элемент изображения), пи́ ксель — минимальный участок изображения, для которого независимым способом можно задать цвет. Он представляет собой неделимый объект прямоугольной (обычно квадратной) формы, обладающий определенным цветом. Любое растровое компьютерное изображение состоит из пикселов, расположенных по строкам и столбцам. Если изображение увеличить, вы увидите ряды пикселов. 2 единицы, что соответствует цветовой глубине в 8 бит на каждый цветовой канал (в двоичном представлении от 00000000 – белый до 11111111 черный). В растровом изображении каждый пиксел содержит информацию о своем цвете. Цвет представляется числами в соответствии с той или иной цветовой моделью, например, RGB (Красный,зелёный,синий –цвета, с помощью сложения которых формируется изображение на экране) и др. Так, в модели RGB каждый пиксел описывается тремя числами, соответствующими яркостям базовых цветовых составляющих, которым в свою очередь, ставится в соответствие номер цвета. Числа, которыми описывается цвет пикселов, еще называют цветовыми каналами. Как известно, числа можно представлять в различных системах счисления. В обычной практике мы используем десятичную систему, в которой для записи чисел применяются 10 цифр (0, 1, 2, …, 9). В программировании часто используется шестнадцатеричная система счисления, в которой применяются 16 цифр ( 0, 1, 2,…, 9, A, B, C, D, E, F). Работа компьютеров основана на двоичной системе с двумя цифрами — 0 и 1. Двоичную цифру называют битом. Бит может принимать только одно из двух возможных значений. Количество информации, которое используется для кодирования точки изображения (пиксела), называется глубиной цвета (color depth), или битовой глубиной цвета (bit depth). Цветовая глубина определяет, как много цветов может быть представлено пикселом (какова палитра цветов). Например, если цветовая глубина равна 1 бит, то пиксел может представлять только один из двух возможных цветов, например, белый или черный. Если цветовая глубина равна 8 бит, то количество возможных цветов равно 2 8 = 256. При глубине цвета 24 бит на кодирование каждого цвета выделяется по 8 бит, а полное количество цветов количество цветов превышает 16 млн. Связь между битовой глубиной цвета и количеством цветов проста: Количество цветов = 2 битовая глубина цвета 𝑁 = 2𝐼 Глубина цвета и количество цветов в палитре Глубина цвета, I(бит) 8 16 24 Количество цветов в палитре (число номеров цвета),N 28=256 216=65536 224=16777216 Иногда под цветовой глубиной понимают максимальное количество цветов, которые можно представить. Очевидно: чем больше цветовая глубина, тем больше объем файла, содержащего описание всего изображения. Изображения в системах RGB и оттенках серого (gray scale) обычно содержат 8 бит на один цветовой канал. Поскольку в RGB три цветовых канала, глубина цвета в этих режимах равна 8 3 = 24 бит. Гистограмма является вспомогательной функцией для оценки качества фотографии, поэтому получаемую с ее помощью информацию нужно соотносить с изображением на дисплее цифровой камеры. Фотограф должен понимать, какие участки изображения вызывают возникновение полос на гистограмме. Слева на графике отображаются темные участки снимка, то есть тени. Справа - светлые участки. Если подъемы расположены примерно симметрично, ближе к центру гистограммы, то изображение хорошо сбалансировано. Если подъемы смещены влево или вправо относительно центра, то это является показателем того, что изображение, соответственно, слишком темное или светлое. В таком случае нужно в меню Levels редактора Photoshop переустановить конечную точку для черного или белого цвета (фото 1 и 2). Фото 1. Подъем на гистограмме смещен влево, то есть фотография затемнена. Возможно, это связано с недодержкой при съемке. Фото 2. После смещения конечной точки гистограмма "отцентрировалась", и изображение стало реалистичнее. Конечно, "слишком темное" или "слишком светлое" изображение не обязательно является свидетельством брака, а может быть вызвано объективными условиями композиции, объектом съемки. Например, гистограмма зимнего пейзажа объективно не может иметь подъемы, сгруппированные в центральной части (фото 3). Фото 3. Гистограмма зимнего пейзажа по понятным причинам смещена вправо. В некоторых случаях гистограмма может иметь всплески как в правой, так и в левой своей части, что говорит о наличии в кадре максимально темных и максимально светлых областей. Это бывает, когда фотография очень контрастна или имеет ярко выраженную игру света и тени, как видно из примера на фото 4, и ничего плохого тут, естественно, нет. Фото 4. Фотография имеет ярко выраженную игру света и тени, что отражается в виде двух пиков на гистограмме.