Курс лекций по дисциплине «Социология» Токарев В.В. Лекция 04 Методы выборочного исследования и их использование в социологии План лекции и логика изложения Цель лекции: Дать представление об особенностях применения выборочного метода в социологии. Дать представление о типологии техник формирования выборки, использующихся в прикладных исследованиях, и способах минимизации ошибки выборки. План лекции: Выборочный метод в социологическом исследовании. Основные виды выборки, области применения и особенности. Случайные (вероятностные) и неслучайные выборки. Источники ошибок в выборочном исследовании. Случайная (вероятностная) и систематическая ошибка выборки. Источники возникновения и способы нейтрализации ошибок. Количественная оценка погрешности случайной выборки. Факторы, влияющие на статистическую (вероятностную) погрешность выборки. Понятия «доверительный уровень» и «уровень значимости». Зависимость погрешности выборки от ее объема. 2 Программа прикладного исследования Программа прикладного социологического исследования Методологическая часть программы Цель и задачи исследования Процедурная часть программы Обоснование методов сбора информации Объект и предмет исследования Основные понятия исследования Разработанная система гипотез Проект выборки и ее обоснование Выбор методов анализа информации Инструментарий, план, бюджет проекта 3 Понятия выборочного исследования Генеральная совокупность – вся социальная группа, про которую необходимо собрать информацию. В большинстве случаев «генеральная совокупность» и «объект исследования» - синонимы (состоят из одних и тех же элементов). Выборка (выборочная совокупность). Часть генеральной совокупности, которая непосредственно подвергается исследованию. Единица выборки (единицы отбора). Элементы генеральной совокупности, из которых формируется выборочная совокупность. Ошибка выборки. Степень рассогласования (невязки) между оценками важных с точки зрения исследования признаков, полученными на выборке, и теми значениями, которые могли бы быть получены при проведении сплошного исследования (на всей генеральной совокупности). 4 Ошибки в выборочном исследовании Генеральная совокупность (объект исследования) «Достижимая» совокупность (контур выборки) Социологическое исследование – это измерение. Измерение (всегда!!!) содержит ошибки: Ошибки методики измерения. Ошибки инструмента (прибора). Ошибка включает в себя два компонента: Ошибка модели Ошибка модели Выборка Систематическая ошибка. Случайная ошибка (статистическая). 5 Систематическая и случайная ошибка Систематическая ошибка. Источники ошибки – методика измерений и инструментарий. Может быть (хотя бы теоретически) компенсирована в процессе обработки. Не снижается с увеличением объема выборки. «Функциональная» система Определение границ контура выборки Целевая группа Ошибка модели Демографическая группа Статистическая погрешность. Зависит от типа выборки и ее объема. Снижается (в некоторых случаях) с увеличением объема выборки. Извлечение выборки Интерпретация полученных результатов Ошибка модели Выборка 6 Репрезентативность выборки Репрезентативность выборки. Свойство выборки достаточно полно и точно представлять наиболее важные для исследователя и коррелирующие с ними признаки генеральной совокупности. Результаты, полученные на нерепрезентативных выборках, всегда содержат систематическую ошибку. Ограничения понятия «репрезентативность». Не бывает «репрезентативности вообще». Репрезентативность возможна только по каким-либо определенным (важным для исследователя) признакам. Репрезентативность не обязательно обеспечивает «надежность» или «точность» получаемых данных. Для контроля репрезентативности необходимо привлечение «внешних» источников информации. Репрезентативными могут быть (а могут и не быть) как «собственно случайные», так и направленные выборки. 7 Обеспечение репрезентативности Для репрезентативной выборки выборочное распределение должно соответствовать генеральной совокупности по основным контролируемым признакам (в данном случае – район проживания, пол и возраст) 8 Обеспечение репрезентативности Доля женщин в возрасте 60 лет и старше, проживающих в Тракторозаводском районе Волгограда (17.81 тыс. чел.), составляет 1.5% в общем объеме объекта исследования (1227 тыс. чел.) Для репрезентативной выборки выборочное распределение должно соответствовать генеральной совокупности по основным контролируемым признакам (в данном случае – район проживания, пол и возраст) 9 Обеспечение репрезентативности В репрезентативной выборке доля данной демографической категории в выборке должна быть такой же, как и в генеральной совокупности (1.5%, 15 человек на выборку в 1000 человек) Для репрезентативной выборки выборочное распределение должно соответствовать генеральной совокупности по основным контролируемым признакам (в данном случае – район проживания, пол и возраст) 10 Методы формирования выборки Методы отбора единиц наблюдения при формировании выборки Случайный отбор Собственно случайный (вероятностный) отбор Стратифицированный отбор Систематический отбор Сплошной отбор «Отбор первого встречного» Отбор «себе подобного» («снежный ком») Прессовый отбор Неслучайный (направленный) отбор Квотный отбор «Стихийная» выборка Метод основного массива 11 Вероятностный отбор Вероятностный отбор - это способ формирования выборки, при котором каждая единица генеральной совокупности имеет равную вероятность быть включенной в выборку. При вероятностном отборе имеется возможность количественной оценки статистической погрешности выборки. Является единственным приемлемым методом формирования выборки в тех случаях, когда отсутствуют или недостаточны предварительные данные о распределении объектов, входящих в генеральную совокупность, по интересующим исследователя характеристикам. Фрагмент таблицы равномерно Вероятностные выборки строятся с использованием таблиц или генераторов случайных чисел. распределенных случайных чисел 12 Вероятностный отбор Номер телефонной станции (в пределах города) Диапазон разрешенных номеров) Телефонные номера, сгенерированные случайным образом Телефонные номера с учетом кода города Вероятностный отбор практически всегда используется в телефонных опросах, когда стоимость контакта совершенно не зависит от местонахождения респондента 13 Систематический отбор Систематический отбор - способ формирования выборочной совокупности, при котором выбор первого объекта репрезентации (как правило, случайный) полностью определяет набор объектов репрезентации, включаемых в выборку. Отбор единиц осуществляется через один и тот же интервал (шаг) в исходном списке. Номер первого объекта в списке, включаемого в выборку, определяется случайным образом или принимается равным половине шага. Требование строгой случайности нарушается. Выбор первого объекта и шага отбора полностью определяет выборку 14 Систематический отбор На территории области расположено «N» объектов. Объекты упорядочиваются в списке «раскручивающейся спиралью», вычерченной на карте. В выборку включается «n» объектов. Объем выборки определяется целями исследования, его бюджетом и сроками проведения Объекты, включаемые в выборку, отбираются с шагом Step=ОКРУГЛВНИЗ(N/n). Номер первого объекта, включаемого в выборку, определяется случайным образом. 15 Стратифицированный отбор Процедура районированного (стратифицированного, расслоенного) отбора. До извлечения выборки производится разделение генеральной совокупности на «страты», различающиеся по контролируемым (важным с точки зрения цели исследования) признакам. Выборка (случайная или направленная) извлекается независимо из отдельных страт. Объем выборки из каждой страты определяется исследователем исходя из специфики исследования (как правило, из соображений минимизации статистической погрешности выборки). На этапе обработки результатов исследования проводится перевзвешивание полученных данных (различным стратам присваиваются различные «весовые коэффициенты»). Стратифицированный отбор – единственный вид отбора, который при определенных условиях может обеспечить ошибку выборки ниже, чем при вероятностном отборе. 16 Пример стратифицированного отбора Распределение населения Волгограда в возрасте 16 лет и старше по районам города (статистические данные) 17 Пример стратифицированного отбора Распределение выборки объемом 1600 респондентов по районам города при пропорциональном отборе Максимальная статистическая погрешность – 8.7% Максимальная статистическая погрешность – 5.9% 18 Пример стратифицированного отбора Распределение выборки объемом 1600 респондентов по районам города при стратифицированном отборе (стратификация по районам города) В совокупности – 17.5%. В выборке – 12.5%. Весовой коэффициент W=17.5/12.5=1.40 Максимальная статистическая погрешность – 6.9% Максимальная статистическая погрешность – 6.9% 19 Направленный отбор «Направленным отбором» называют такой способ отбора, при котором при формировании выборки не соблюдаются условия случайности. Случайный отбор возможен лишь в том случае, если имеется «основа выборки» - полный список единиц отбора, входящих в генеральную совокупность. В противном случае использование направленного отбора неизбежно. Часто в исследованиях используется «функциональная выборка» («целевая выборка»), которая формируется из объектов, удовлетворяющих некоторым критериям («молодежь», «студенчество»). Такой вид отбора также является направленным. Оценка погрешности при направленном отборе. Для направленных выборок принципиально невозможно оценить случайную погрешность оценки. На практике для оценки погрешности используются те же формулы, что и для одноступенчатой вероятностной выборки. 20 Квотный отбор Формирование квотной выборки. До начала опроса на основании статистических данных рассчитывается распределение объектов в выборке, различающихся по контролируемым признакам (пол, возраст, образование и т.д.). Общая выборка делится на «квотные планы» (по 10-15 респондентов), которые и выдаются интервьюерам в качестве задания. После «объединения» индивидуальных заданий, выполненных различными интервьюерами, получается выборка, репрезентативная по контролируемым признакам. Достоинства и недостатки. Является, по сути, единственным методом отбора, который позволяет контролировать репрезентативность. Правильность отбора зависит от правильности «внешних» статистических данных, которые используются для расчета выборки. 21 Генератор квотных планов Распределение объектов в генеральной совокупности по контролируемым признакам Задание на генерацию выборки Квотные планы (индивидуальные задания интервьюерам) 22 Стихийный отбор Отбор «кого попало» - это не «случайный», а «стихийный отбор» - худший способ формирования выборки. Используется, как правило, в разведывательных исследованиях, а также в случаях, когда данных для того, чтобы сформировать квотную или вероятностную выборку, недостаточно. Виды стихийного отбора. «Отбор первого встречного» - включение в выборку тех элементов, которые легче всего достижимы для интервьюера / исследователя. Используется в экспресс-исследованиях и пилотажных исследованиях. «Снежный ком» - отбор «знакомых знакомых». Используется в тех случаях, когда объект исследования мал по объему и сложнодостижим, а также в качественных исследованиях с направленной выборкой. «Прессовый отбор» - «дистанционный анкетный опрос», когда решение об участии в исследовании принимает сам респондент. 23 Источники ошибок в исследовании Общая ошибка Случайная ошибка (погрешность выборки) Систематическая ошибка Ошибка наблюдения Ошибка ненаблюдения Ошибка исследователя Ошибка интервьюера Ошибка респондента Ошибка замены информации Ошибка измерения Ошибка контура выборки Ошибка обработки Ошибка выбора респондента Ошибка вопроса Ошибка записи Ошибка обмана Ошибка неспособности Ошибка нежелания 24 Источники ошибок в исследовании Ошибка выборки (random sampling error) Возникает вследствие того, что выборочная совокупность отличается от генеральной. Неизбежна в выборочных исследованиях. Систематическая (невыборочная) ошибка (nonsampling error) Не связаны с природой выборочного исследования. Могут быть случайными и неслучайными. Возникают вследствие ошибок исследователя, интервьюера и респондента. Ошибка ненаблюдения (nonresponse error) Возникает, когда от некоторых респондентов, включенных в выборку, нельзя получить ответ (вследствие отказов, недостижимости, а также ошибок в основе выборки). Ошибка наблюдения (response error) Возникает вследствие того, что респонденты дают «неточные» ответы, эти ответы оказываются «неправильно записаны» и «неправильно проанализированы». 25 «Ошибка исследователя / методики» Проект «Финансовое поведение и финансовая грамотность жителей Волгограда», июль 2009 года. Объект исследования – население Волгограда в возрасте 16+ Полученная оценка общего объема сбережений в несколько раз (!!!) отличается в меньшую сторону от информации об объеме вкладов по данным в ЦБ РФ. 26 «Ошибка интервьюера / организатора» В январе 2009 года разность процентных показателей ответов «Р.Гребенников работает хорошо или удовлетворительно» и «Р.Гребенников работает плохо или не работает совсем» составила 19% (работает лучше всех). А в марте тот же показатель составил -7% (тех, кто сказал, что Р.Гребенников работает плохо или не работает вообще, оказалось заметно больше). Почему? 27 «Ошибка интервьюера / организатора» Проект «Волгоградский Омнибус». Баланс положительных и отрицательных оценок деятельности органов власти различного уровня жителями Волгограда. Январь 2009 - декабрь 2010 года. В марте-апреле 2009 года в сборе информации в рамках социологического практикума принимали участие студенты ВолгГТУ. В ответах респондентов нашло отражение их (студентов) отношение к органам власти. 28 «Ошибка обмана» и контроль работы Контроль работы интервьюера (телефонный и личный, путем повторного посещения) является обязательным требованием к организации полевого этапа исследования По результатам контроля, включавшего в себя несколько ступеней, было отбраковано 90% интервью (в том числе в ряде регионов были обракованы все интервью до единого) 29 «Ошибка респондента» В ходе прикладных исследований с использованием метода опроса предметом нашего анализа всегда (!!!) являются не факты, а мнения Количество «замужних» женщин среди жителей Волгограда в возрасте от 16 лет и старше, на 22 тыс. больше, чем количество «женатых» мужчин 30 «Ошибка респондента» Уровень среднедушевого дохода на члена семьи, рассчитанный по ответам мужчин, всегда оказывается выше, чем результаты расчета, полученные по ответам женщин Этот эффект не связан с объективными различиями в уровне дохода между мужчинами и женщинами и, в значительной степени, определяется различиями между «декларируемым» и «фактическим» поведением 31 Статистическая погрешность выборки Статистическая погрешность выборочной оценки Зависит от объема выборки, принятого «уровня значимости» и значения оценки параметра, полученного по выборке. Наибольшая погрешность (максимальная статистическая погрешность выборки заданного объема) наблюдается при получении на выборке оценок, близких к 50%. Максимальная статистическая погрешность снижается с увеличением объема выборки. Снижение максимальной погрешности выборки является нелинейным. Выборка вдвое большего объема на обеспечивает снижение погрешности в два раза. Формула определения статистической погрешности: Формула для Zкр – заданное (при принятом уровне значимости) значение критерия определения корней квадратного уравнения 32 Статистическая погрешность выборки Обозначения в формуле: Pmax и Pmin – максимальное и минимальное возможное значение доли (процента) в генеральной совокупности (границы доверительного интервала) при значении в выборке, равном p. p – значение доли (процента), полученное по выборке (выборочная оценка параметра). n – объем выборки (число единиц отбора в выборке). zкр – значение статистического критерия, зависящее от принятого уровня значимости (доверительного уровня). При доверительном уровне 0.9 (уровне значимости – 0.1) zкр=1.64; При доверительном уровне 0.95 (уровне значимости – 0.05) zкр =1.96; При доверительном уровне 0.99 (уровне значимости – 0.01) zкр =2.58. 33 Уровень значимости Доверительный уровень и уровень значимости – это мера «ответственности решения», «цена ошибки». «Доверительный уровень» и «уровень значимости» - это противоположные понятия. При доверительном уровне 0.95 уровень значимости равен 0.05, при доверительном уровне 0.99 – уровень значимости 0.01 и т.д. Чем ниже доверительный уровень, тем «уже» рассчитанный доверительный интервал («меньше» рассчитанная статистическая погрешность выборки). В то же время чем «уже» доверительный интервал, тем чаще «фактическое» имеющееся в генеральной совокупности среднее будет выходить за его границы (при доверительном уровне 0.9 – в 10% случаев, при уровне 0.95 – в 5% случаев и т.д.). Величина уровня значимости. В большинстве исследований принимают доверительный уровень равным 0.95 (уровень значимости – 0.05). 34 Статистическая погрешность выборки Возможное отклонение выборочного значения от значения в генеральной совокупности (%) при уровне значимости 0.05 Погрешность оценки по выборке зависит не только от ее объема и уровня значимости, но и от самой величины выборочного значения оценки (%) Объем выборки (число) Полученное по выборке значение оценки (%) 35 Статистическая погрешность выборки Если в газетной публикации вы видите слова «Объем выборки составляет 300 респондентов. Максимальная погрешность выборки – 3%» - не верьте всей публикации. Погрешность выборки в реальных исследованиях никогда не может быть меньше значения, рассчитанного для случайной одноступенчатой выборки. 36 Статистическая погрешность выборки Этот факт отражается в отчетах по результатам исследования, но на него редко обращают внимание. При проведении практически любых исследований с любыми (в том числе направленными) выборками социологи пользуются формулами определения погрешности для: а) вероятностной; б) одноступенчатой выборки 37 Калькулятор погрешности выборки Объем выборки (число единиц) Уровень значимости Оценка, полученная по выборке (%) Максимальная статистическая погрешность выборки такого объема при заданном доверительном уровне Программа предназначена для расчета статистической погрешности оценки по вероятностной одноступенчатой выборке Погрешности оценки конкретного полученного по выборке значения при выбранном уровне значимости 38 Контрольные вопросы Что означает понятие «репрезентативность»? В чем основные особенности репрезентативных и нерепрезентативных выборок? Какие виды выборки вы знаете? В чем их достоинства и недостатки? В чем основные достоинства и недостатки случайной (вероятностной) выборки? Какие ошибки и каким образом влияют на результаты прикладного социологического исследования? В чем различия между систематической и случайной ошибкой выборочного исследования? Какие способы нейтрализации систематической ошибки вам известны? Какие факторы и каким образом влияют на погрешность выборки? Что такое «доверительный уровень» и как он связан с «уровнем значимости»? Как определяется уровень значимости при проведении выборочных исследований? Какие программные средства могут использоваться при разработке выборочных исследований? 39 Литература по теме занятия Дулина Н. В., Токарев В. В. Элементы прикладной социологии. Часть I: Учебное пособие / ВолгГТУ - Волгоград, 1996. – 142 с. Дулина, Н. В. Основы прикладной социологии: учеб. пособие / Н. В. Дулина, И. А. Небыков, В. В. Токарев / ВолгГТУ. – Волгоград, 2006. –155 с. Дулина Н. В., Небыков И. А., Ситникова О. И. Практикум по социологии: Учебное пособие / ВолгГТУ. – Волгоград, 2004. – 132 с. Крыштановский А. Анализ социологических данных с помощью пакета SPSS: учеб. пособие для вузов / А.О.Крыштановский. - М: Изд. дом ГУ-ВШЭ. 2006. – 283 с. Малхотра, Нэреш К. Маркетинговые исследования. Практическое руководство, 3-е издание.: пер. с англ. – М.: Издательский дом «Вильямс», 2003. – 960 с. Рабочая книга социолога / отв. ред. Г. В. Осипов. – М.: КомКнига, 2006. – 480 с. Чурилов Н.Н. Проектирование выборочного социологического исследования: Некоторые методологические и методические проблемы / АН УССР, Ин-т философии. – К.: Наукова думка, 1986. – 183 с. Ядов, В. А. Социологическое исследование: методология, программа, методы / В. А. Ядов; изд. 2-е, перераб и доп. – М.: Наука, 1987. – 248 с. Ядов, В. А. Стратегия социологического исследования. Описание, объяснение, понимание социальной реальности / В. А. Ядов – М.: «Добросвет», Книжный дом «Университет», 1998. – 596 с. 40