НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ Е.В. Чимитова Теория статистики Конспект лекций для студентов заочного отделения, обучающихся по специальности 080601 – «Статистика» Новосибирск - 2007 1 ВВЕДЕНИЕ Курс «Теория статистики» имеет целью дать студентам представление о содержании статистики как научной дисциплины, познакомить с ее основными понятиями, методологией и методикой расчета важнейших статистических аналитических показателей. В соответствии с этим данный конспект лекций охватывает самые общие начальные элементы статистической науки. В дальнейшем на базе курса «Теория статистики» изучаются конкретные статистические дисциплины: теория статистического наблюдения, анализ и прогнозирование временных рядов, классификации и группировки, многомерные статистические методы, отраслевые статистики и другие. ТЕМА 1. ПРЕДМЕТ И МЕТОД СТАТИСТИКИ Термин «статистика» произошёл от латинских слов Stato (государство) и Status (положение вещей, политическое состояние). В настоящее время термин «статистика» употребляется в нескольких значениях. 1. Статистикой часто называют совокупность сведений (фактов) о разных явлениях. Например, статистика населения, статистика рождаемости и смертности и т.д. 2. Под статистикой понимают также процесс получения сведений с последующей их обработкой. В этом смысле статистика – это практическая деятельность людей, направленная на сбор, обработку и анализ массовых данных Госкомстат РФ. 3. Под термином «статистика» понимают также некоторый функционал от ряда случайных величин (индивидуальных наблюдений) X 1 ,..., X n , например, средняя арифметическая, мода и т.д. 4. Наконец, под статистикой в широком смысле понимают науку, изучающую с количественной стороны массовые явления и их закономерности. Мы будем понимать термин «статистика» как науку. Предмет статистики Статистика изучает, как правило, массовые явления, т.е. такие явления, которые состоят из множества отдельных элементов и фактов. Отличительные особенности массового явления: 1. Каждый элемент такого множества обладает как индивидуальными признаками, как и общими. Пример: изучая результат промышленного производства за некоторый период, мы рассматриваем множество промышленных предприятий, каждое из которых имеет свои индивидуальные признаки (численность 2 работников, размер прибыли и т.д.). Но в тоже время все эти предприятия как единицы множества обладают общими признаками – все они являются промышленными (а не сельскохозяйственными, строительными …). Другими словами, все единицы множества, изучаемого статистикой, однокачественны по сути. 2. Характеристики (показатели) одного из элементов массового явления не могут быть получены на основе характеристик других единиц (элементов), т.е. индивидуальные характеристики у разных элементов множества должны быть полностью или частично независимы. Статистической совокупностью называется множество единиц, обладающих массовостью, однородностью, определенной целостностью и наличием вариации. Исходя из этого, можно сказать, что предметом статистики являются различные статистические совокупности, исследование которых связано с количественной характеристикой и выявлением присущих им закономерностей. Элементы, множество которых образует изучаемую статистическую совокупность, называют её единицами. Каждая единица совокупности может быть охарактеризована разного рода качественными и количественными признаками. Если некоторый признак имеет разные значения у отдельных единиц совокупности, то говорят, что он варьирует или имеет некоторую вариацию. Статистика, как правило, оперирует числовыми данными, которые обусловлены влиянием множества различных факторов, одни из которых являются главными, а другие – случайными. Абстрагироваться от случайного и выявить закономерное – основная задача статистики, и эту задачу можно решить только на основе массовых данных. По единичному факту нельзя выявить закономерность, поскольку она несёт на себе влияние случайного фактора. Закономерность, выявленная на основе массового наблюдения, называется статистической закономерностью. В одних случаях существование определённой закономерности в изучаемых явлениях можно теоретически предположить, опираясь на знания сущности рассматриваемых явлений. В других случаях статистическую закономерность можно установить эмпирически при обработке массовых данных, например, таким путём было выявлено, что при увеличении дохода семьи в её бюджете снижается доля расходов на питание. Статистические закономерности обнаруживаются благодаря действию так называемого закона больших чисел, сущность которых заключается в следующем. По мере увеличения числа наблюдений, влияние случайных факторов взаимопогашается в сводных (общих) характеристиках совокупности (например, в средних величинах) и на поверхность выступает действие основных факторов, которые и определяют закономерность. 3 Метод статистики Приемы и способы, с помощью которых статистика изучает свой предмет, образуют статистическую методологию. Статистическое исследование состоит из трех стадий: 1) статистическое наблюдение; 2) сводка и группировка результатов наблюдения; 3) анализ полученных обобщающих показателей. Всё это вместе составляет метод статистики. Теория статистики как научная дисциплина В процессе развития статистики как науки возникли следующие самостоятельные научные дисциплины: отраслевые статистики, в которых освещаются сущность и методология расчёта показателей, используемых при изучении соответствующей отрасли; экономическая статистика, в которой освещаются сущность и методология расчёта показателей, используемых при изучении экономики в целом; общая теория статистики, в которой освещается статистическая методология, статистический метод, общий для всех отраслевых статистик. Именно в общей теории статистики рассматриваются приёмы и правила сбора, обработки и анализа информации, проводимые с целью: получить итоговые данные по совокупности; определить структуру совокупности и соотношение отдельных её частей; изучить особенности распределения единиц совокупности по отдельным признакам; определить среднюю величину того или иного количественного показателя и его вариацию; выявить взаимосвязи между отдельными показателями; изучить динамику отдельных показателей. В статистике, имеющей дело с количественными показателями естественно применение математики. Так как выводы статистики основано на большом числе единичных случайных событий, она неизбежно соприкасается с теорией вероятностей. ТЕМА 2. СТАТИСТИЧЕСКОЕ НАБЛЮДЕНИЕ Статистическое наблюдение – научно-организованный сбор массовых данных об исследуемых процессах и явлениях. От достоверности и точности сведений, полученных в результате наблюдения, зависит правильность последующих выводов и эффективность прогнозирования. 4 К массовым данным предъявляется ряд требований: полнота статистических данных; достоверность и точность данных; их единообразие и сопоставимость. Формы и виды статистического наблюдения В статистической практике используются две организованные формы наблюдения: 1. Отчётность – это такая организационная форма, при которой единицы наблюдения представляют сведения о своей деятельности в виде формуляров регламентированного образца. Особенность отчётности состоит в том , что она обязательна. 2. Специальное статистическое обследование. Например, проведение переписи населения. С точки зрения полноты охвата фактов различают: Сплошное статистическое наблюдение – полный учёт всех единиц изучаемой совокупности; Несплошное наблюдение – учёт части единиц совокупности, на основе которой можно получить обобщающую характеристику всей совокупности. Наблюдение, при котором характеристика всей совокупности даётся по некоторой её части, отобранной в случайном порядке, называется выборочным наблюдением. Выборочный метод применяется в тех случаях, когда проведение сплошного наблюдения невозможно или экономически нецелесообразно. Например, проверка качества отдельных видов продукции может быть связано с её уничтожением; совокупности могут быть настолько велики, что было бы физически невозможно собрать данные в отношении каждого из их элементов (исследование бюджетов семей). ТЕМА 3. СВОДКА И ГРУППИРОВКА СТАТИСТИЧЕСКИХ ДАННЫХ Собранный в процессе статистического наблюдения материал нуждается в определённой обработке. Сводка – это комплекс последовательных операций по обобщению конкретных единичных фактов, образующих совокупность, для выявления типичных черт и закономерностей, присущих изучаемому явлению в целом. По глубине и точности обработки материала различают сводку простую и сложную. Простая сводка – это операция по подсчету общих итогов по совокупности единиц наблюдения. Сложная сводка – это комплекс операций, включающих группировку единиц наблюдения, подсчет итогов по каждой группе и по всему объекту и 5 представление результатов группировки и сводки в виде статистических таблиц. Программа сводки включает в себя определение: групп и подгрупп; системы показателей для характеристики групп и объекта в целом; видов статистических таблиц. В изучении массового явления необходимо прежде всего определить действующие в нем различные качественно однородные совокупности. Это первое основное требование научной методологии в статистике. Выделение и анализ однородных частных подсовокупностей выполняют с помощью методов группировки. Группировка – это разбиение совокупности на группы, однородные по какому-либо признаку. Метод группировки основывается на двух категориях – группировочном признаке и интервале. Группировочный признак – это признак, по которому происходит объединение отдельных единиц совокупности в однородные группы. Интервал очерчивает количественные границы групп. Как правило, он представляет собой промежуток между минимальным и максимальным значениями признака в группе. Виды статистических группировок В соответствии с задачами группировки различают следующие ее виды: типологическая, структурная, аналитическая. Типологическая группировка – это расчленение разнородной совокупности на качественно однородные группы. Структурной называется группировка, которая предназначена для изучения состава однородной совокупности по какому-либо варьирующему признаку. Аналитическая группировка – выявляет взаимосвязи между изучаемыми явлениями и их признаками. Принципы построения статистических группировок 1. Выделение группировочного признака. В основание группировки могут быть положены как количественные (возраст, доход,…), так и атрибутивные признаки (пол, цвет,…). 2. Определение числа групп. Чем больше групп, тем точнее будет воспроизведен характер исследуемого объекта. Однако слишком большое число групп затрудняет выявление закономерностей при исследовании социально-экономических явлений и процессов. Поэтому выбирать число групп следует исходя из особенностей объекта и целей исследования. Существует также множество 6 3. математических способов определения числа групп. Например, формула Старджесса: k 1 3,322 lg n , где k - число групп, n - число единиц совокупности (объем выборки). Определение величины интервалов. Интервалы бывают: равные, когда разность между минимальным и максимальным значениями в каждом из интервалов одинакова; неравные, когда, например, ширина интервала постепенно увеличивается; открытые, когда имеется только либо верхняя, либо нижняя граница; закрытые, когда имеются и верхняя и нижняя границы. Если вариация признака проявляется в сравнительно узких границах и распределение носит равномерный характер, то строят группировку с равными интервалами. Если же размах вариации признака велик и значения признака варьируются неравномерно, то необходимо использовать группировку с неравными интервалами. Среди группировок, выполненных по одному признаку, особо выделяют ряды распределения. Ряд распределения – это группировка, в которой для характеристики групп применяется один показатель – численность группы. В зависимости от признака, положенного в основу ряда распределения, различают атрибутивные и вариационные ряды распределения. Атрибутивными называют ряды распределения, построенные по качественным признакам, т.е. признакам, не имеющим числового выражения. Примером атрибутивного ряда распределения может служить распределение студентов группы ДС-301 по полу: Группы студентов по полу Число студентов, чел. Женщины Мужчины Всего 20 4 24 Удельный вес в общей численности студентов, % 83,3 16,7 100,0 Вариационными рядами называют ряды распределения, построенные по количественному признаку. В зависимости от характера вариации признака различают дискретные и интервальные ряды. Дискретный вариационный ряд характеризует распределение единиц совокупности по дискретному признаку, принимающему только целые значения. Например, распределение семей по числу детей (чел.). 7 Число детей в семье, чел Число семей, ед. Удельный вес % к итогу 1 2 3 Итого 600 300 100 1000 60,0 30,0 10,0 100,0 Построение интервальных вариационных рядов целесообразно прежде всего при непрерывных значениях признака. Примером такого ряда распределения может служить распределение работников строительной фирмы «Скат» по уровню дохода: Группы работников, По уровню дохода, руб. До 5000 5000 – 7500 7500 – 10000 10000 и более Итого Число работников, Чел. 60 30 15 10 115 Удельный вес % к итогу 52,2 26,1 13,0 8,7 100,0 Анализ рядов распределения наглядно можно проводить на основе их графического изображения. Для этой цели строят полигон, гистограмму распределения. Полигон используется при изображении дискретных вариационных рядов. Гистограмма применяется для изображения интервального вариационного ряда. (Изобразить для рассмотренных выше примеров) ТЕМА 4. ОБОБЩАЮЩИЕ СТАТИСТИЧЕСКИЕ ПОКАЗАТЕЛИ (АБСОЛЮТНЫЕ, ОТНОСИТЕЛЬНЫЕ И СРЕДНИЕ ВЕЛИЧИНЫ) Изучая массовые явления, статистика в своих выводах опирается на числовые данные. Результаты статистического наблюдения регистрируются прежде всего в форме первичных абсолютных величин. В статистике все абсолютные величины являются именованными и измеряются в конкретных единицах. Абсолютные величины часто получают путем специальных расчетов. Существуют моментные и интервальные абсолютные величины. Первые показывают фактическое наличие или уровень явления на определенный момент, вторые – итоговый накопленный результат за период в целом. 8 Абсолютные величины могут быть как положительными, так и отрицательными, что отличает понятие абсолютной величины в статистике от абсолютной величины в математике. Сама по себе абсолютная величина не дает полного представления об изучаемом явлении, не показывает его структуру, соотношение между отдельными частями, развитие во времени. Эти функции выполняют определяемые на основе абсолютных величин относительные показатели. Относительная величина в статистике – это обобщающий показатель, который дает числовую меру соотношения двух сопоставляемых абсолютных величин. Основное условие правильного расчета относительной величины – это сопоставимость сравниваемых показателей и наличие реальных связей между изучаемыми явлениями. Виды и взаимосвязи относительных величин Выделяют следующие типы относительных величин: 1. Относительный показатель динамики (ОПД) – характеризует изменение уровня развития какого-либо явления во времени. Получается в результате деления уровня признака в некоторый момент времени на уровень этого же показателя в предшествующий момент времени. Текущий уровень ОПД Предшествующий уровень Данный показатель может также быть переведен в проценты. Различают ОПД с постоянной и переменной базой сравнения. Пример: Производство сахара-песка в РФ я январе-апреле 1996 г. 2. Относительный показатель плана (ОПП). Рассчитывается как отношение уровня, запланированного на предстоящий период, к уровню, фактически сложившемуся в предшествующем периоде. Этот показатель характеризует напряженность плана, т.е., например, во сколько раз намечаемый объем производства превысит достигнутый уровень. Уровень, планируемый на (i 1) й период ОПП Уровень, достинутый в i ом периоде 3. Относительный показатель реализации плана (ОПРП). Рассчитывается как отношение фактически достигнутого в данном периоде уровня к запланированному. Этот показатель отражает, к примеру, фактический объема производства в процентах или коэффициентах по сравнению с плановым уровнем. Уровень, достинутый в (i 1) й период ОПРП Уровень, планированный на (i 1) й период Между относительными показателями плана, реализации плана и динамики существует следующая взаимосвязь: ОПП ОПРП ОПД 9 4. Относительный показатель структуры (ОПС) – представляет собой соотношение структурных частей изучаемого объекта и их целого. Показатель, характеризующий часть совокупности ОПС Показатель по всей совокупности в целом Выражается относительный показатель структуры в долях или в процентах. Полученные величины, соответственно называемые долями или удельными весами, показывают, какой долей обладает или какой удельный вес имеет та или иная часть в общем итоге. 5. Относительный показатель координации (ОПК) – представляет собой отношение одной части совокупности к другой части этой же совокупности. При этом в качестве базы сравнения выбирается та часть, которая имеет наибольший удельный вес или является приоритетной с экономической, социальной или какой-либо другой точки зрения. Он показывает, во сколько раз одна часть совокупности больше другой, либо сколько единиц одной части приходится на 1, 10, 100, 1000…. единиц другой части. Показатель, характеризующий i ую часть совокупности ОПК Показатель, характеризующий часть совокупности, выбранную в качестве базы сравнения 6. Относительный показатель сравнения (ОПС) – представляет собой соотношение одного и того же абсолютного показателя, характеризующего разные объекты (предприятия, районы, страны,…). Посредством этого показателя сопоставляются, например, мощности различных видов оборудования, производительность труда отдельных рабочих, производство продукции данного вида разными предприятиями, районами, странами. Показатель, характеризующий объект А ОПС Показатель, характеризующий объект Б 7. Относительный показатель интенсивности (ОПИ) – характеризуют степень распространения изучаемого процесса или явления и представляет собой отношение исследуемого показателя к размеру присущей ему среды. Например, при изучении демографических процессов рассчитываются показатели рождаемости, смертности и т. д. как отношение числа родившихся (умерших) к среднегодовой численности населения данной территории в расчете на 1000 человек. Показатель, характеризующий явление А ОПИ Показатель, характеризующий среду распространения явления А Средние величины в статистике Средняя величина обобщает количественную вариацию признака, т.е. в средних величинах погашаются индивидуальные различия единиц совокупности, обусловленными случайными обстоятельствами. 10 Общие принципы применения средних величин: 1. Необходим обоснованный выбор единицы совокупности, для которой рассчитывается средняя. 2. При определении средней величины необходимо исходить из качественного содержания усредняемого признака, учитывать взаимосвязь изучаемых признаков. 3. Средняя величина должна рассчитываться по однородной совокупности. 4. Общие средние должны подкрепляться групповыми средними. Средние величины делятся на два больших класса: 1. Степенные средние; к ним относятся такие наиболее известные и часто применяемые виды как средняя геометрическая, средняя арифметическая и средняя квадратическая; 2. Структурные средние, в качестве которых рассматриваются мода и медиана. Степенные средние в зависимости от представления исходных данных исчисляются в двух формах: простой и взвешенной. Простая средняя считается по негруппированным данным и имеет следующий общий вид: n X m X i 1 m i , n где X i – значение осредняемого признака; m – показатель степени средней; n – объем выборки. Взвешенная средняя считается по сгруппированным данным, представленным в виде дискретных или интервальных рядов распределения: k X m X j 1 m j fj k f j 1 j где X i – значение осредняемого признака или серединное значение интервала, в котором измеряется варианта; k – количество значений признака или количество интервалов группирования; m – показатель степени средней; f i – частота, показывающая, сколько раз встречаются i -е значения осредняемого признака. Общие формулы расчёта степенных средних имеют показатель степени ( m ). В зависимости от того, какое значение он принимает, различают следующие виды степенных средних, представленных в таблице. 11 Виды степенных средних Показатель степени (m ) Вид степенной средней Формула расчёта Простая Взвешенная k f n Гармоническая n 1 X -1 j 1 k i 1 j fj X i j 1 j k 0 Геометрическая n X1 X 2 ... X n fj j 1 X 1f1 X 2f2 ... X kfk k X n Арифметическая X 1 i 1 j 1 k i j f n j 1 fj j k X n Квадратическая X 2 i 1 2 i j 1 k 2 j f n j 1 fj j k X n Кубическая 3 3 X i 1 3 i 3 n j 1 k 3 j f j 1 fj j Если рассчитать все виды средних для одних и тех же исходных данных, то значения их окажутся неодинаковыми. Здесь действует правило мажорантности средних: с увеличением показателя степени m увеличивается и соответствующая средняя величина: X гарм X геом X арифм X квадр X куб В статистической практике чаще, чем остальные виды средних взвешенных, используются средние арифметические и средние гармонические взвешенные. Расчет средних по результатам группировки Очень часто исходные данные для анализа бывают представлены в сгруппированном виде, когда для каждого значения усредняемого признака Х сообщается частота его повторения. В этих случаях средняя величина рассчитывается по обычным формулам средних взвешенных 12 (арифметических или гармонических). Сложности возникают, когда в сгруппированных данных указывается не конкретное значение признака Х по каждой группе, а лишь интервал его изменения. В данном случае правильный расчет общей средней величины возможен, если удается получить среднее значение признака по каждой группе. Если же это сделать невозможно, то их заменяют серединами интервалов. Таким образом, расчет средней арифметической делают по формуле k X X j fj j 1 k fj , где X X max j X min j 2 . j 1 Отметим, что расчет среднего значения по данным группировки требует особого внимания при выборе взвешивающего показателя. Средняя арифметическая величина обладает рядом свойств, позволяющих ускорить расчет: 1. Величина средней арифметической не изменится, если веса всех вариантов умножить или разлить на одно и то же число. 2. Если все индивидуальные значения признака (все варианты) увеличить или уменьшить в одно и то же число раз, то среднее значение получившегося нового признака будет во столько же раз отличаться от среднего значения исходного показателя. Структурные средние Структурные средние применяются для изучения внутреннего строения рядов распределения значений признака, а также для оценки средней величины (степенного типа), если по имеющимся данным ее расчет не может быть выполнен. В качестве структурных средних чаще всего используют показатели моды – наиболее часто повторяющегося значения признака, и медианы – величины признака, которая делит упорядоченную последовательность его значений на две равные по численности части. Если изучаемый признак имеет дискретные значения, то особых сложностей при расчете моды и медианы не бывает. Рассмотрим случай, когда значения признака Х представлены в виде интервальных рядов. Поскольку медианное значение делит всю совокупность на две равные части, оно оказывается в одном из интервалов признака Х. С помощью интерполяции в этом медианном интервале, находят значение медианы: m / 2 SMe1 , Me X Me hMe mMe где ХMe – верхняя граница предмедианного интервала (начало медианного); hMe – величина медианного интервала; 13 m / 2 - половина от общего числа наблюдений. S Me1 - сумма наблюдений, накопленная до начала медианного интервала; mMe - число наблюдений в медианном интервале. ТЕМА 5. ПОКАЗАТЕЛИ ВАРИАЦИИ В статистической практике для изучения и измерения вариации используются различные показатели (меры) вариации в зависимости от поставленных перед исследователем задач. К ним относятся размах вариации, среднее линейное отклонение, средний квадрат отклонений (дисперсия), среднее квадратическое отклонение и коэффициент вариации. Способы вычисления показателей вариации. Размах вариации (R) является наиболее простым измерителем вариации признака R X max X min , где X max – наибольшее значение варьирующего признака; X min – наименьшее значение признака. Среднее линейное отклонение ( d ) представляет собой среднюю величину из отклонений вариантов признака от их средней. n d X i 1 i X – невзвешенное среднее линейное отклонение. n Показатели дисперсии и среднего квадратического отклонения являются общепринятыми мерами вариации и широко используются в статистических исследованиях. Дисперсия представляет собой средний квадрат отклонений индивидуальных значений признака от их средней величины. X n 2 i 1 i 2 – невзвешенная; n X k 2 X j 1 j X k f j 1 2 fj – взвешенная. j Среднее квадратическое отклонение представляет собой корень второй степени из среднего квадрата отклонений отдельных значений признака от их средней. Для целей сравнения колеблемости различных признаков в одной и той же совокупности или же при сравнении колеблемости одного и того же признака в нескольких совокупностях вычисляются относительные показатели вариации. Базой для сравнения служит средняя арифметическая. Различают следующие относительные показатели вариации ( V ): 14 Коэффициент осцилляции: VR R 100% . X Линейный коэффициент вариации: Vd Коэффициент вариации: V X d 100% . X 100% . Правило сложения дисперсий. Если данные представлены в виде аналитической группировки, то можно вычислить дисперсию общую, межгрупповую и внутригрупповую. Общая дисперсия измеряет вариацию признака во всей совокупности под влиянием всех факторов, обусловливающих эту вариацию: X k 2 j 1 X j 2 fj . k f j 1 j Межгрупповая дисперсия характеризует различия в величине изучаемого признака, возникающие под влиянием признака-фактора, положенного в основание группировки. Она рассчитывается по формуле: X k 2 м. гр . X j j 1 2 fj , k f j 1 j где X j и f j – соответственно средние и численности по отдельным группам. Внутригрупповая дисперсия отражает часть вариации, происходящую под влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Она исчисляется следующим образом: fj 2j X i 1 ij Xj 2 . fj Существует закон, связывающий три вида дисперсий. Общая дисперсия равна сумме средней из внутригрупповых и межгрупповых дисперсий: 2 2 м2 .гр. , k где 2 j 1 k 2 j f j 1 fj . j Данное соотношение называют правилом сложения дисперсий. Согласно этому правилу общая дисперсия, возникающая под влиянием всех факторов, равна сумме дисперсий, возникающих под влиянием прочих факторов, и дисперсии, возникающей за счёт группировочного признака. 15 ТЕМА 6. ВЫБОРОЧНОЕ НАБЛЮДЕНИЕ Тема «Выборочное наблюдение» является одной из центральных в курсе теории статистики. Выборочное наблюдение тесно связано с курсами математической статистики и теории вероятностей. Часть единиц отобранных для наблюдений принято называть выборкой, а всю совокупность единиц из которых производится отбор – генеральной совокупностью. Качество результатов выборочного наблюдения зависит от того, на сколько состав выборки представляет генеральную совокупность, иначе говоря, от того, насколько выборка репрезентативна. Чтобы обеспечить репрезентативность выборки, необходимо соблюдать принцип случайности отбора единиц. Особенности обследуемых объектов определяют 2 метода отбора единиц в выборочную совокупность – повторный и бесповторный. При повторном отборе каждая попавшая в выборку единица возвращается в генеральную совокупность и имеет шанс вторично попасть в выборку. Бесповторный отбор означает, что каждая отобранная единица не возвращается в генеральную совокупность и не может подвергнуться вторичной регистрации, а потому для остальных единиц вероятность попасть в выборку увеличивается. Понятно, что бесповторный отбор дает более точные результаты. Разность между показателями выборочной и генеральной совокупности называется ошибкой выборки. Расчёт ошибок позволяет решить одну из главных проблем организации выборочного наблюдения – оценить репрезентативность (представительность) выборочной совокупности. Рассмотрим на примере, насколько отличаются выборочные и генеральные показатели по данным об успеваемости студентов. Число студентов, чел. Оценка 2 3 4 5 Итого Генеральная совокупность 100 300 520 80 1000 Первая выборка Вторая выборка 9 27 54 10 100 12 29 52 7 100 Средний балл по генеральной совокупности X 3.58 по первой выборке X 1 3.65 по второй выборке X 2 3.65 . Доля студентов, получивших «4» и «5»: по генеральной совокупности p 0.6 по первой выборке W1 0.64 по второй выборке W2 0.59 16 Как видно из расчетов, выборочная средняя и выборочная доля являются случайными величинами и могут принимать различные значения, в зависимости от того, какие единицы совокупности попали в выборку. Следовательно, ошибки выборки также являются случайными величинами и могут принимать различные значения. Поэтому определяют среднюю из возможных ошибок: Для средней X 2 n p(1 p) n В этих формулах 2 и p(1 p ) являются характеристиками генеральной Для доли W совокупности, которые при выборочном наблюдении неизвестны. На практике их заменяют аналогичными характеристиками выборочной совокупности на основании закона больших чисел. При бесповторном отборе подкоренное выражение умножается на величину ( 1 n / N ), которая всегда меньше единицы, поэтому величина средней ошибки выборки при бесповторном отборе оказывается меньше, чем при повторном. В тех случаях, когда доля выборки незначительна и множитель ( 1 n / N ) близок к единице, поправкой можно пренебречь. Для решения практических задач кроме средней пользуются предельной ошибкой выборки, которая связана с гарантирующим её уровнем вероятности. Уровень вероятности определяет величина нормированного отклонения t , и наоборот. Значение t даются в таблицах нормального распределения вероятностей. Чаще всего используют следующие сочетания: t 1,0 1,5 2,0 2,5 3,0 3,5 P 0,683 0,866 0,954 0,988 0,997 0,999 Предельные ошибки выборки ( ) определяются по формулам Метод отбора Повторный Для средней t Для доли 2 n t 2 Бесповторный t n 1 n N t W 1 W n W 1 W n 1 n N 17 После исчисления предельных ошибок выборки находят доверительные интервалы для генеральных показателей. Для X это ( X x ), для P это ( W w ). Разрабатывая программу выборочного наблюдения, сразу задают величину допустимой ошибки выборки и доверительную вероятность. Неизвестным остаётся тот минимальный объём выборки, который должен обеспечить требуемую точность. Формулы для определения численности выборки ( n ) следует из формул предельных ошибок выборки. Метод отбора Для средней Для доли Повторный t 2 2 n 2 t 2W 1 W n 2 Бесповторный t 2 2 N n N 2 t 2 2 t 2W 1 W N n N 2 t 2W 1 W Значения и t определяются как задачами, стоящими перед исследователем, так и природой изучаемого явления. Чем более достоверные результаты требуется получить, тем большую вероятность необходимо задать. Вариация ( 2 ) признака существует объективно, независимо от исследователя, но к началу выборочного наблюдения она неизвестна. Обычно 2 определяют из предыдущих исследований. Пример 1. При проверке веса импортируемого груза на таможне методом случайной повторной выборке было отобрано 200 изделий. В результате был установлен средний вес изделия 30 г при среднем квадратическом отклонении 4 г. С вероятностью 0,997 определите пределы, в которых находится средний вес изделий в генеральной совокупности. Решение. Рассчитываем сначала предельную ошибку выборки. Так, при p 0,997 , t 3 x t x n 3 4 0,84 . 200 Определим пределы генеральной средней: 30 0,84 x 30 0,84 . 18 ТЕМА 7. ЭКОНОМИЧЕСКИЕ ИНДЕКСЫ Индекс – это относительный показатель, который выражает соотношение величин какого-либо явления во времени, в пространстве или сравнивает фактические данные с эталонным значением. Индивидуальные индексы – служат для характеристики изменения отдельных элементов сложного явления. Индивидуальный индекс физического объема показывает, на сколько процентов возрос (уменьшился) выпуск продукции в отчетном периоде по q сравнению с базисным. iq 1 . q0 Индексы других показателей строятся аналогично. p1 p0 Индивидуальный индекс цен i p Индивидуальный индекс себестоимости единицы продукции iz Индивидуальный индекс производительности труда iw z1 z0 w1 w0 Общие (сводные) индексы – характеризуют изменение показателей во всей совокупности в целом. Существуют две формы построения общих индексов: агрегатная и средневзвешенная. Числитель и знаменатель агрегатного индекса представляют собой сумму произведений двух величин, одна из которых меняется (индексируемая величина), а другая остается неизменной в числителе и знаменателе (вес индекса). При выборе веса индекса руководствуются правилами: 1. Произведение индексируемого показателя на вес индекса должно образовывать определенную экономическую категорию. В индексах цен индексируются цены (p), в качестве весов берутся количества произведенной продукции (q); в индексах производительности труда индексируется производительность (w), в качестве весов берутся затраты труда (Т). 2. Если строится индекс количественного показателя (индекс физического объема, численности), то веса берутся за базисный 19 период. При построении индекса качественного показателя (индекс цены, себестоимости единицы продукции, производительности труда, средней заработной платы и т.д.) используются веса отчетного периода. Агрегатные индексы: Средний индекс – это индекс, вычисленный как средняя величина из индивидуальных индексов. Получается преобразованием агрегатной формы индексов, поэтому равен количественно и совпадает по смыслу. Используются две формы средних индексов: среднеарифметический и среднегармонический. Среднеарифметический индекс физического объема I q q q 1j p0 j 0j p0 j ( j) ( j) z z q 1j 1j Среднегармонический индекс себестоимости I z ( j) q 0 j 1j ( j) Изменение средней величины индексируемого показателя обусловлено взаимодействием двух факторов – изменением значения индексируемого показателя и изменением структуры явления. Степень влияния каждого из факторов определяется с помощью индексного метода, т.е. путем построения системы индексов, в которую включаются три индекса: переменного состава, фиксированного состава, влияния структурных сдвигов. Индекс переменного состава (I пс) - выражает соотношение средних уровней изучаемого явления за разные периоды времени. Отражает влияние на динамику средней не только индексируемой величины, но и структуры совокупности (весов): I ПС z Z 1 Z0 z q z q : q q 1j 1j ( j) 0j 0j ( j) 1j ( j) 0j ( j) Индекс фиксированного состава ( I фс) - показывает влияние только индексируемой величины. Определяется как агрегатный индекс. 20 z q z q : q q 1j 1j I ФС z ( j) 0 j 1j ( j) 1j ( j) 1j ( j) Индекс влияния структурных сдвигов (I сс) z q z q : q q 0 j 1j I СС z ( j) 0j 0j ( j) 1j ( j) 0j ( j) Между этими индексами существует взаимосвязь: I ПС I ФС I СС Список литературы 1. Елисеева И. И. Общая теория статистики : учебник для вузов по направлению и спец. "Статистика"" / И. И. Елисеева, М. М. Юзбашев ; под ред. И. И. Елисеевой.-М.: Финансы и статистика, 2004.- 655 с. 2. Теория статистики: Учебник / под ред. Громыко Г.Л. – М.: Инфра-М, 2000. 3. Теория статистики: Учебник / под ред. Шмойловой Р.А., 2001. 4. Ефимова М.Р., Рябцев В.М. Общая теория статистики. – М.: Финансы и статистика, 1991. 5. Ефимова М.Р., Петрова Е.В., Румянцев В.Н. Общая теория статистики. – М.: Инфра-М, 1996. 6. Кильдишев Г.Е., Овсиенко В.Е. и др. Общая теория статистики. – М.: Статистика, 1980. 7. Кожухарь Л.И. Основы общей теории статистики. М.: Финансы и статистика, 2001. 8. Гусаров В.М. Статистика: учебное пособие для ВУЗов. М.: ЮНИТИДАНА, 2001 21