Качественные и количественные стратегии контент-анализа в социальных исследованиях: анализ случаев д.э.н., PhD Антон Олейник (ЦЭМИ РАН) д.с.н. Светлана Кирдина (ИЭ РАН) к.с.н. Ирина Попова (ИС РАН) 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 1 Основные положения доклада 1. Контент-анализ как методология исследования 2. Случай 1: исследование российской властвующей элиты 3. Случай 2: подготовка обзора литературы по возрастающей отдаче в экономике 4. Случай 3: анализ интервью ученых 5. Случай 4: пилотный проект по исследованию академического чтения 6. Основные выводы 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 2 Контент-анализ • Cлово, текст, а не цифра является основным источником информации в социальных и гуманитарных науках [Библер, 1991: 72; Lotman, 1990: 2]. Но, в отличие от цифры, слово труднее поддается агрегированию («сжатию») и манипулированию ввиду своей более контекстуальной и многозначной природы • Контент-анализ как «исследовательская техника, позволяющая делать надежные и достоверные выводы из текстов (или других наделенных смыслов явлений) в зависимости от конкретного контекста их прочтения» [Krippendorff, 2004: 18] 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 3 Разновидности контент-анализа Контент-анализ Качественный Количественный Использование словаря, основанного на замещении Корреляционный подход 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 4 Разновидности контент-анализа • Качественный контент-анализ (кодирование вручную) предназначен для определения фрагментов текста, которые соответствуют идеям автора и читателя и отражают ключевые понятия через качественные коды. • Количественный контент-анализ (совместная встречаемость слов) значительно облегчает семантический анализ предложений. • Словарь, основанный на замещении - гибридная форма качественного и количественного контент-анализа. После разработки словаря (списка слов и словосочетаний, которые относятся к каждому из качественных кодов) участие человека уже не требуется. 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 5 Сравнительные характеристики качественного и количественного контент-анализа Качественный Количественный Кодирование in vivo (в живую) Использование книги кодов Акцент на понимании и интерпретации закодированных фрагментов Акцент на частотности кодов Теоретические и «удобные» выборки Случайные выборки Акцент на латентном контенте Акцент на явном контенте. Например, любое упоминание «матрицы» кодируется как «теория институциональных матриц» 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 6 Компьютерные программы для контент-анализа • QSR International, Australia http://www.qsrinternational.com/: NVivo, N6 (NUD*IST), XSight • Provalis Research, Canada (Montreal) http://www.provalisresearch.com/: QDA Miner (module for qualitative content analysis) and WordStat (module for the analysis of co-occurrences and the use of dictionaries based on substitution) 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 7 8 27 мая 2013 9 Примеры некоторых операций 1. Поиск информации по ключевым словам, в т.ч. KWIC: Key Word In Context 2. Индексирование: Качественное кодирование представляет собой частный случай индексирования: после прочтения текста кодировщик присваивает особые маркеры, соответствующие конкретным кодам, его фрагментам. В результате индексирования текст превращается в вектор кодов 3. Лексический анализ совместно встречающихся слов и их кластеров и так далее 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 10 11 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 12 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 13 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 14 Примеры некоторых операций 4. Анализ сходства текстов по критерию совместной встречаемости категорий и кодов 5. Анализ сходства кодов в зависимости от того, как часто они встречаются в одном и том же тексте 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 15 Карта сходства текстов президентских посланий по критерию совместной встречаемости категорий и кодов (на русском и английском языках) Легенда: Stress=0.321031, R?=0.6507 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 16 Надежность и достоверность • Аспекты надежности: надежность как стабильность (многократное использование схемы кодирования текста одним и тем же исследователем дает одинаковый результат), надежность как возможность воспроизвести полученный результат двумя и более исследователями (коэффициент согласия между кодировщиками, inter-coder agreement) и надежность как точность (соответствие итогов кодирования некоему заданному стандарту) • Достоверность – это особое качество исследования, которое позволяет говорить об его истинности [Krippendorff, 2004: 313], вне зависимости от того что под ней подразумевается в конкретном случае – соответствие авторскому замыслу или исследовательским задачам вторичного интерпретатора 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 17 Соотношение надежности и достоверности Ненадежный и недостоверный результат 27 мая 2013 Надежный, но недостоверный результат Междисциплинарный методологический семинар ИС РАН Надежный и достоверный результат 18 Измерение надежности и достоверности • Коэффициенты согласия между кодировщиками: π Скотта, κ Коэна, S Бенетта, α Криппендорфа и др. • Если в качестве точки отсчета принять авторский замысел, то для оценки достоверности конкретной интерпретации (кодирования) требуется расчет коэффициента корреляции между сочетаниями качественных кодов и совместной встречаемостью слов в текстах [Олейник 2009] • Если же в качестве точки отсчета принимать интенции вторичного интерпретатора, то требуется расчет корреляции между векторами качественного кодирования и результатами количественного контент-анализа с использованием основанного на замещении словаря 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 19 Случай 1: исследование российской властвующей элиты Объект Объектом исследования были властные отношения в России на макро-уровне (государство и его представители) 27 мая 2013 Предмет Предметом исследования служат различные характеристики власти, в том числе техники навязывания воли, - как они отражены в проанализированных с помощью компьютерных программ для контент-анализа QDA Miner и WordStat транскриптах 116 интервью Междисциплинарный методологический семинар ИС РАН 20 Вопрос исследования • Насколько превалирующие в России на макро-уровне властные отношения близки к власти в ее чистом виде? • Идеальный тип власти в ее чистом виде характеризуется: – Самодостаточностью (она находит обоснование в себе самой) – Самоценностью (она является самой целью, а не средством для достижения других целей) – Преобладанием насильственных техник навязывания воли (силы, угроз, манипулирования и так далее) – Крайней асимметричностью в распределении прав и обязанностей – Отсутствием обратных связей 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 21 Измерение надежности: Триангуляция результатов трех разновидностей контент-анализа 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 22 Случай 2: Контент-анализ в подготовке обзора литературы Для изучения возрастающей отдачи в экономической литературе была создана база данных англо- и русскоязычных источников, пригодная для обработки текстов с помощью автоматизированных и программных процедур качественного и количественного контент-анализа 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 23 Источники формирования базы данных по ключевым терминам • Google и Яндекс • База данных ресурса ideas.repec.org. Библиотека RePEc (Исследовательские работы по экономике) • Сформированная в ходе проекта База Данных по Возрастающей Отдаче (БД ВО) включала в себя на конец 2011 г. 203 источника, из них 156 – на английском языке и 47 – на русском языке. 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 24 Атрибуты документов • • • • • • • • • Автор и название Год опубликования Страна опубликования Язык публикации Экономическая школа Уровень анализа Метод исследования Тип математической модели Тип текста 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 25 Распределение источников по году опубликования Количество текстов Доля текстов в БД ВО, % До 1970 9 4.43 1971-1980 4 1.97 1981-1990 17 8.37 1991-2000 51 25.12 2001 – 2011 122 60.10 Год опубликования 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 26 Страна опубликования США Великобритания Россия Китай Австралия Италия Испания Германия Франция Япония Другие страны 27 мая 2013 Количество текстов 74 34 26 12 8 8 8 7 4 4 18 Междисциплинарный методологический семинар ИС РАН Доля текстов, % 36.4 16.7 12.8 5.9 3.9 3.9 3.9 3.4 2.0 2.0 8.9 27 Школа 27 мая 2013 Количество Доля текстов текстов, % Неоклассическая 177 87.2 Марксистская 11 5.4 Австрийская 8 3.9 Несколько школ 7 3.5 Междисциплинарный методологический семинар ИС РАН 28 Категории анализа • Сферы возрастающей отдачи: инфраструктура, сфера услуг, внешняя торговля, отрасли высоких технологий, информационная сфера • Факторы возрастающей отдачи: экономия от масштаба, образование и человеческий капитал, инновации, институты и менеджмент, сетевые эффекты и инфрамаржинальная экономика, path dependence 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 29 Случай 2: основные выводы • Качественный анализ англо- и русскоязычных текстов показал связи между факторами возрастающей отдачи, но не выявил значимых связей между факторами и сферами возрастающей отдачи. • Количественный анализ был проведен раздельно для русскоязычной и англоязычной литературы: выявлена ключевая роль фактора экономии от масштаба. • Для русскоязычной литературы была выявлена связь между сферой высоких технологий и внедрением инноваций + ростом образования и качества человеческого капитала. • В англоязычной литературе выявлена аналогичная связь. Кроме того, выделен кластер факторов возрастающей отдачи (кроме эффекта от масштаба): внедрение инноваций, сетевые эффекты и создания поддерживающих институтов с развитием менеджмента. 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 30 Случай 3: Изменения в статусе российских ученых в 2000-е годы • Лонгитюдное исследование, два этапа, 5 волн опросов • 1999-2001 (1-4 волны), грант INTAS-97: 20 280, INTAS-97: 20 280, • 2010 (5 волна), грант RCSF, LSE, (рук. С. Ашвин). • Общая выборка 1999 – 250 респондентов, объединенных в 4 группы, основанные на специфичных стратегиях на рынке труда в 4 российских городах • Подвыборка – ученые института РАН естественнонаучного профиля – 23 респондента в 1999, 18 респондентов в 2010. • Метод опроса – полуструктурированные интервью (трудовые биографии) 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 31 • Качественный анализ в программе контент-анализа QDA Miner • Основная исследовательская задача – характеристики изменений в социально-профессиональном статусе ученых • Изменения в статусе: Статус 6 человек повысился (защита диссертации, продвижение, получение больших грантов, премий, квартир для молодых ученых через программу РАН) • Статус 5 человек практически не изменился (изменился незначительно) • Статус 7 человек изменился (ушли в коммерческие фирмы, другие сферы деятельности). • Из 7 молодых ученых до 35 лет в 1999 г. Только 4 остались работать в институте. • Задача – выявить основные проблемы (ограничения) в профессиональном развитии (оценке своего положения). 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 32 Количественное распределение кодов во всех интервью 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 33 Оценки состояния науки в интервью 34 Случай 3: основные выводы • Один из выводов исследования: • Важный аспект изменения и перспектив статуса профессиональной группы ученых зависит от их собственной оценки перспектив науки в обществе, объединения внешних и внутренних условий для развития российской науки. • Качественный анализ позволил выделить структуру факторов, определяющих положение ученых. • Количественный анализ позволил определить, какие из них особенно важны для респондентов.. 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 35 Случай 3: основные выводы • Один из выводов исследования: • Важный аспект изменения и перспектив статуса профессиональной группы ученых зависит от их собственной оценки перспектив науки в обществе, объединения внешних и внутренних условий для развития российской науки. • Качественный анализ позволил выделить структуру факторов, определяющих положение ученых. • Количественный анализ позволил определить, какие из них особенно важны для респондентов.. 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 36 Случай 4: исследование академического чтения Объект Объектом исследования послужило чтение научных текстов (статей, эссе, глав в коллективных монографиях и рецензий на книги), написанных тремя ученымиобществоведами 27 мая 2013 Предмет Предметом исследования служат различия в восприятии 57 текстов автором и читателями-коллегами, изученные с помощью компьютерных программ для контентанализа QDA Miner и WordStat Междисциплинарный методологический семинар ИС РАН 37 Этапы контент-анализа Этап Содержание 1 Участники прочли все тексты и разработали свои книги кодов (списки качественных кодов) независимо друг от друга. Для оценки надежности своего качественного кодирования каждый участник создал словарь, основанный на замещении, структура которого соответствовала его книге кодов. После выполнения трех видов контент-анализа, расстояния между текстами в трех случаях, измеренные косинускоэффициентами, были кросс-коррелированы с помощью оригинального метода триангуляции – для проверки надежности качественного кодирования 2 Участники после серии совместных обсуждений создали общую книгу кодов. Общая книга содержит 37 кодов (15 - для текстов А, 9 - для текстов B, 13 - для текстов С). Коды для текстов А были применены только к текстам А, и т.д. Затем участники перекодировали тексты по согласованным качественным кодам, но независимо друг от друга. Результаты трех типов контент-анализа – для каждого участника в отдельности и для всех четырех в целом – были кросс-коррелированы. Рассчитаны коэффициенты согласия между кодировщиками 3 37 кодов были применены ко всем текстам. Например, коды для текстов А были использованы для контент-анализа не только текстов А, но и B и C. Могут ли коды, соответствующие идеям одного автора, служить основой для интерпретации идей других авторов? Результаты трех типов контент-анализа были кросс38 коррелированы и были рассчитаны коэффициенты согласия между кодировщиками Основные вопросы пилотного исследования-1 1. Если представленные в тексте авторские идеи хорошо известны читателю, кто различает их лучше – автор текста или читатель? 2. Кто точнее интерпретирует текст автора- он сам или читатели? 3. Кто способен увидеть больше смыслов в тексте - его автор или читатели? 4. Является ли бесконечным число интерпретаций авторского текста читателями и насколько они искажают авторский замысел? 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 39 Основные вопросы пилотного исследования -2 5. В каком случае замысел автора более понятен читателям – при написании им статьи стандартного формата или в более свободном тексте? 6. Есть ли разница результатов поверхностного и глубокого чтения и в чем она выражается? 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 40 Глубина чтения Автор А (N=20 [8*]) B (N=17 [13]) Читатель (Кодировщик) Коды Сегменты Коды Сегменты 1-й этап A 8 1863 17 1082 B 57 1123 35 540 C 30 1089 16 712 D 19 593 11 681 Среднее (читатели) 35 935 14,7 825 2-й этап A 15 433 9 244 B 15 616. 9 301 C 15 580 9 384 D 15 527 9 399 Среднее (читатели) 15 574,3 9 342,3 eLibrary 6 10 [16**] 6 22 [29] C (N=20 [11]) Коды Сегменты 18 1509 55 836 24 712 14 688 29 1011 13 283 13 376 13 333 13 366 13 341,7 5 14 [34] Количество кодов автора и читателя в их отдельных книгах кодов, а также количество фрагментов, закодированных на 1-м этапе (использование индивидуальных книг кодов), систематически превышали соответствующие показатели на 2-м этапе (общая книга кодов). Судя по количеству содержательных ссылок на работы авторов А, B и C, цитирующие их российские читатели интерпретировали эти тексты еще более узко 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 41 Двухмерный график совместной встречаемости кодов, тексты С.Г. Кирдиной Легенда: Stress=0.16656, R?=0.8913 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 42 Два подхода к измерению надежности Показатели 2-й этап 3-й этап α (N=37) S (N=37) r (N=57) α (N=37) S (N=37) r (N=37) r (N=57) A+C 0.575 0.820 0.908 0.412 0.640 0.818 0.774 C+B 0.535 0.802 0.949 0.436 0.679 0.934 0.909 C+D 0.555 0.812 0.869 0.434 0.698 0.957 0.674 A+B 0.544 0.813 0.833 0.423 0.653 0.848 0.656 A+D 0.519 0.811 0.755 0.404 0.666 0.873 0.534 B+D 0.496 0.797 0.831 0.399 0.687 0.937 0.721 0.537 0.809 0.858 0.418 0.671 0.895 0.711 C+A+B 0.465 0.590 - 0.289 0.365 - - C+A+D 0.465 0.590 - 0.286 0.375 - - A+D+B 0.432 0.574 - 0.278 0.371 - - C+B+D 0.440 0.570 - 0.299 0.398 - - 0.4505 0.581 - 0.288 0.377 - - 0.367 0.420 - 0.208 0.245 - Кодировщики Среднее Cреднее A+B+C+D 43 - Дополнительные источники Олейник А.Н. «Триангуляция в контент-анализе: пример углубленных интервью с представителями российской элиты», Вестник общественного мнения: данные, анализ, дискуссии, №3 (95), 2008, с. 62-75 Олейник А.Н. «Триангуляция в контент анализе: вопросы методологии и эмпирийная проверка», СОЦИС – Социологические Исследования, 2, 2009, c. 65-79 Олейник А.Н., Кирдина С.Г., Попова И.П., Шаталова Т.В. «Как ученые читают друг друга: основы теории академического чтения и ее эмпирическая проверка», СОЦИС, 8, 2013 27 мая 2013 Междисциплинарный методологический семинар ИС РАН 44