Сбор, агрегирование и обработка качественных данных для

реклама
Название: Сбор, агрегирование и обработка качественных данных для исследований
экономической культуры
Data making and mining in the study of economic culture
Автор: Антон Олейник, д.э.н., PhD, ведущий научный сотрудник ЦЭМИ РАН и Associate professor
Университета Мемориал, Канада. [email protected]
Anton Oleinik, Memorial University of Newfoundland, Canada, and Central Economics and Mathematics
Institute of the Russian Academy of Sciences
Резюме: В статье обсуждаются методологические и практические аспекты создания
централизованных баз качественных данных. В частности, рассматриваются возможности
агрегирования качественных данных и сопоставления различных вариантов их интерпретации с
помощью компьютерных программ для контент-анализа. Основные положения подвергнуты
эмпирической проверке с использованием результатов контент-анализа пяти массивов текстовых
документов: транскриптов 64 и 43 углубленных интервью, а также выборок из 20, 20 и 17 научных
эссе и статей. Показано, что создание централизованных банков качественных данных, с одной
стороны, методологически допустимо и даже необходимо и, с другой стороны, технически и
практически возможно. В заключении предложен ряд практических шагов по организации
централизованной базы качественных данных.
The article discusses methodological and practical issues related to the creation of centralized databases
for qualitative data. Namely, it addresses the problem of aggregating qualitative data and comparing
their alternative interpretations with the help of specialized computer programs for content analysis.
Key assumptions are then empirically tested using outcomes of the content analysis of 5 sets of
documents: transcripts of 64 and 43 qualitative interviews, sets of 20, 20 and 17 scholarly essays and
articles. The proposed study suggests that the creation of centralized depositories of qualitative data is,
on one hand, methodologically possible and even desirable and, on the other hand, technically and
practically feasible. Some practical steps toward creation of a centralized database are proposed.
Введение
Ориентированные на использование количественных методов исследователи имеют доступ к
широкому спектру баз данных как на национальном (например, Федеральной Службы
Государственной Статистики), так и на международном (например, Мирового Банка) уровнях.
Причем даже частные исследовательские компании все чаще открывают доступ к базам своих
количественных данных, как в случае российского Единого Архива Экономических и
Социологических Данных. Поэтому множатся публикации, подготовленные с использованием
данных Мировых Индикаторов Развития [World Development Indicators] или, скажем, Мирового
Исследования Ценностей [World Values Survey].
Ситуация исследователей-«качественников» существенно отличается. Чаще всего им приходится
работать с «первичными» данными (транскриптами углубленных интервью или фокус-групп,
полевыми заметками и сделанными в «поле» фотографиями, текстовыми материалами для
анализа случая материалами и так далее), собранными собственноручно. Эти данные затем
хранятся крайне децентрализованным образом: в проводящих качественные исследования
институтах (таких как Аналитический Центр Юрия Левады, Левада-Центр), лабораториях (таких как
Амурская лаборатория экономики и социологии Института Экономических Исследований ДВО
РАН) или просто у конкретных исследователей. Только в исключительных случаях, существование
которых лишь подтверждает правило, у «качественников» есть возможность работать со
«вторичными» данными.
К таким исключениям относятся Региональные Файлы Человеческих Отношений, HRAF [Human
Relations Area Files], созданные и регулярно пополняемые на базе Йельского Университета. В эту
базу включены источники преимущественно антропологических данных. Но даже базе HRAF,
несмотря на ее многолетнюю историю (она была основана в 1949 году), далеко от лучших
образцов количественных баз данных. Во-первых, абсолютное большинство включенных в нее
документов представляют собой ранее опубликованные материалы (статьи, монографии,
энциклопедии). Во-вторых, ее покрытие, как географическое, так и предментое, весьма
избирательно. Так, HRAF содержит информацию только о восьми культурах России: саамов,
якутов, коряков, монголов, нивхов, самоедов и ненцев. В-третьих, доступ к HRAF имеют только
сотрудники аффилированных университетов.
В данной статье обсуждается ряд проблем, без решения которых перспективы создания баз
качественных данных остаются неопределенными. В ее первой части затронуты проблема
агрегирования качественных данных и вопросы сопоставимости различных вариантов их
1
использования. В частности, ставится вопрос о возможности вторичного использования
качественных данных для решения задач, отличных от стоявших перед собравших их
исследователем. Во второй части статьи приводятся несколько примеров вторичного
использования качественных данных. Показано, что качественные данные отнюдь не исключают
варианта их многократного использования даже при условии несовпадения задач, стоящих перед
«первичным» и «вторичными» пользователями.
В заключении предложена идея создания депозитария первичных качественных данных и
оговорен ряд практических шагов по ее реализации. На первом этапе банк качественных данных
может иметь достаточно узкий профиль (например, первичные и вторичные матриалы,
относящиеся к изучению экономической культуры в России и других постсоветских странах). Если
идея окажется плодотворной, то область географического и тематического покрытия базы данных
может быть расширена.
Методология вторичного использования качественных данных
Отстутствие общедоступных баз качественных данных не является результатом недальновидности
или злого умысла конкретных людей. Нерешенность ряда методологических и организационных
задач препятствует широкому вторичному использованию качественных данных. Среди
требующих решения методологических задач выделим две: агрегирование качественных данных
и сопоставление различных вариантов их интерпретации.
Агрегирование качественных данных
В качестве одного из ключевых факторов прогресса естественных наук называют используемые в
них процедуры создания и агрегирования данных. Цифровой формат, который является
стандартом в естественных науках, имеет ряд преимуществ. Во-первых, он позволяет
«механизировать» или даже автоматизировать процесс получения данных [Krippendorff, 2004: 83].
Во-вторых, с его помощью данные приводятся к стандартному виду. Исследователи, работающие
с количественными данными, избегают необходимости выбора между яблоками и апельсинами.
Вместо этого они применяют операции, которые делают эквивалентными разнородные явления –
математические и статистические действия с числами [Collins, 1998: 868].
Количественные данные используются и в социальных и гуманитарных науках. Однако в этих
сферах они не могут полностью заменить данные в альтернативном, текстовом формате. Более
того, влиятельна точка зрения, согласно которой именно слово, текст, а не цифра является
основным источником информации в социальных и гуманитарных науках [Библер, 1991: 72;
2
Lotman, 1990: 2]. Но, в отличие от цифры, слово труднее поддается агрегированию («сжатию») и
манипулированию ввиду своей более контекстуальной и многозначной природы.
Поиски способов совмещения преимуществ количественных и качественных данных
предполагают отказ от однозначного противопоставления двух форматов данных и,
соответственно, методов работы с ними. Сближения двух форматов данных, в частности, можно
достичь с помощью придания количественного выражения, «квантификации», качественным
мерам. Техники шкалирования (scaling) представляют собой простейшую иллюстрацию данной
идеи [Jick, 1979: 603].
Контент-анализ являет собой более сложный вариант придания количественного выражения
содержащимся в текстовой форме информации, ее агрегирования и манипулирования с нею
[Krippendorff, 2004; Neuendorf, 2002]. Криппендорф определяет контент-анализ как
«исследовательскую технику, позволяющую делать надежные и достоверные выводы из текстов
(или других наделенных смыслов явлений) в зависимости от конкретного контекста их прочтения»
[Krippendorff, 2004: 18]. Контент-анализ имеет несколько разновидностей, от преимущественно
количественных (лексический анализ с присущим ему акцентом на совместную встречаемость
слов и выражений), до преимущественно качественных (качественное кодирование), а также
гибридных (создание словарей, соответствующих качественным кодам). В данной статье основное
внимание будет сконцентрировано на контент-анализе текстовой информации (транскриптов
интервью, научных статей и монографий, рекламных объявлений, художественных произведений
и т.д.), хотя он применим и для работы с изображениями и видео-материалами.
Наличие специализированных компьютерных программ (например, QDA Miner с модулем
WordStat) позволяет подвергать контент-анализу значительные объемы текстовой информации.
Простейшие виды количественного контент-анализа можно осуществлять даже в автоматическом
режиме, классифицируя в зависимости от совместной встречаемости слов и выражений самые
разнообразные тексты: от президентских посланий [Олейник, 2012; Олейник, 2010] до
документов, опубликованных в рамках проекта WikiLeaks [Олейник, 2011b].
Компьютерные программы для контент-анализа работают на основе принципов и алгоритмов,
которые сходны с используемыми в интернет-поисковиках (Google или Яндекс). Они
трансформируют текстовую информацию в матрично-векторную форму, с документами по
строкам и словами или качественными кодами – по столбцам и частотностью слов/кодов – в
ячейках матрицы. Затем, в зависимости от конкретной исследовательской задачи тексты
3
сравниваются либо между собой, либо с поисковым запросом по критерию наибольшей схожести
и близости [Salton, McGill, 1983; Grossman, Frieder, 2004].
Алгоритмы и программы, облегчающие работу с большими массивам текстовой информации,
могут быть приспособлены к управлению базами качественных данных. Перечислим лишь
некоторые из обсуждаемых в литературе операций по поиску информации в базах качественных
данных. Для оценки результатов таких операций используются следующие критерии: отдача
(yield, число найденных по запросу документов), чувствительность (sensitivity, процент
релевантных документов среди всех найденных по запросу), специфичность (specificity, процент
нерелевантных документов среди тех, которые не были найдены по запросу), точность (precision,
процент найденых документов среди всех релевантных) и корректность (accuracy, процент
документов, правильно относенных к числу либо релевантных, либо нерелевантных) [Gorecki et al,
2010: 648].
Во-первых, это команды поиска информации по ключевым словам. Их использование не требует
какой-либо предварительной обработки качественных данных. В дополнение к хорошо
известному по обычным текстовым редакторам варианту, программы для контент-анализа
предлагают опцию контекстуального поиска по ключевым словам, KWIC: Key Word In Context
[Bernard, 2013: 526-527]. Данные поиска выводятся в виде таблицы, в каждой строке которой
воспроизводится фраза (или больший фрагмент текста), содержащая ключевое слово.
Примечательно, что по приведенным выше критериям поиск информации по ключевым словам
зачастую как минимум не уступает более сложным алгоритмам извлечения информации [Gorecki
et al, 2010: 650].
Во-вторых, качественные данные могут быть подвергнуты индексированию. Качественное
кодирование представляет собой частный случай индексирования: после прочтения текста
кодировщик присваивает особые маркеры, соответствующие конкретным кодам, его фрагментам
(предложениям или параграфам). В результате индексирования текст превращается в вектор
кодов, а база данных – в пространство векторов, VSM: Vector Space Model [Huang et al 2006]. Поиск
информации затем осуществляется с учетом индексов, присвоенным текстам или их фрагментам
(например, выводятся все фрагменты, соответствующие определенному коду).
В-третьих, качество поиска информации можно увеличить, применив иерархическую структуру
индексов [Levachkine, Guzmán-Arenas, 2007; Cheng et al, 2005]. В этом случае коды (индексы) не
однопорядковы, а расположены на ветвях классификации, построенных по принципу от общего к
частному. Трехуровневая иерархическая структура индексов использована, например, в HRAF:
4
категория «Экономика, пища и использование ресурсов» включает в себя категорию
«Собственность», которая в свою очередь включает в себя категорию «Наследование». Степень
серьезности ошибки в кодировании и извлечении информации тогда зависит от того, находится ли
неправильно использованный код на той же ветви иерархии, что и правильный код, или нет.
В-четвертых, поиск может быть осуществлен не только по четко определенным индексам, но и с
учетом сходных с ними. Такой подход нацелен на выявление «приблизительно определенных
совокупностей», rough-set-based approach [Huang et al 2006]. Например, если относящаяся к
заданной командой поиска категории информация в конкретном документе отсутствует, но в нем
есть информация, релевантная для сходных категорий, то документ признается относительно
релевантным.
В-пятых, документы могут быть индексированы с минимальным участием кодировщика. Для этого
требуется предварительно проанализировать совместную встречаемость слов с помощью
количественного лексического анализа [Bolden, Moscarola, 2000]. Выявленные кластеры затем
рассматриваются на предмет их соответствия латентным категориям [Larsen, Monarchi, 2004].
Список операций по поиску информации в базах качественных данных можно продолжить.
Однако даже в заведомо неполном виде он позволяет сделать вывод о технической возможности
агрегирования качественных данных и манипулирования их большими объемами.
Сопоставление различных вариантов интерпретации качественных данных
Среди типов исследований принято выделять описательные (нацеленные на построение
классификаций явлений), аналитические (нацеленные на выявление причинно-следственных
связей) и интерпретативные (нацеленные на выявление субъективых смыслов, вкладываемых
людьми в то или иное действие). Аналитические исследования чаще всего предполагают
использование количественных данных, а интерпретативные – качественных. Согласно Веберу,
главная отличительная черта социологических исследований заключается в их нацеленности на
интерпретацию [Weber, 1968: 8].
Приоритет, отдаваемый интерпретации, является источником неопределенности в контентанализе качественных данных. Текст может быть истолкован не единственным, а множественным
образом. При этом необходимо учесть как интепретацию его автора, так и интерпретации
читателей, потенциальное число которых не ограничено [Norris, Philips, 1994].
В случае использования качественных данных только исследователем, непосредственно
собравшим их, проблема неопределенности в интерпретации данных упрощается. Действительно,
качественные данные тогда интерпретируются лишь одним способом, заданным исследователем.
5
В терминах Лумана [Luhmann, 1979] сложившаяся практика полностью децентрализованного
хранения и использования качественных данных позволяет снизить степень социальной
сложности. Однако это происходит искусственным образом, за счет ограничения доступа к
первичным данным потенциальных интерпретаторов.
Если создание централизованных баз качественных данных технически возможно, то тогда
требуется решить задачу сопоставления различных вариантов их интерпретации. Ведь
включенный в базу документ будет интерпретирован и потенциально использован для
достижения широкого круга исследовательских целей, а не только тех, которые стояли перед
изначально собравшим данные исследователем.
Можно условно выделить следующие варианты вторичного использования качественных данных.
Во-первых, качественные данные могут быть использованы в качестве дополнительного
источника общей информации об интересующей исследователя проблеме или явлении,
например, для получения общего представления о практике заключения договоров о социальноэкономическом сотрудничестве между представителями государства и частного бизнеса. Поиск по
ключевым словам, в частности, KWIC, может оказаться вполне достаточным [Gorecki et al, 2010:
650]. Сопоставление различных вариантов интерпретации в данном случае не представляется
абсолютно необходимым.
Однако даже при условии простейшего варианта использования базы качественных данных
открывается ряд интересных сопутствующих возможностей. Задавая параметры поиска (ключевые
слова), исследователь тем самым указывает на интересующий его аспект явления (скажем,
экономической культуры). Сопоставление запросов различных пользователей позволяет выявить
набор тем, наиболее релевантных для исследования конкретного явления. В случае исследования
культуры это означает возможность формулировки на основе этих тем списка вопросов для
тестирования модели культурного консенсуса, Cultural Consensus Model [Bernard, 2013: 434-445;
Weller, 2007]. Консенсус между представителями культуры существует, если они одинаково
отвечают на вопросы о знании ее отдельных аспектов (например, Согласны ли Вы, что
беспроблемная работа в регионе возможна только в случае заключения между собстванниками
бизнеса и представителями региональных властей договора о социально-экономическом
сотрудничестве?).
Во-вторых, вторичное использование качественных данных может предполагать повторение
исследования, в рамках которого эти данные были собраны. Новый пользователь тогда стремится
ответить на те же исследовательские вопросы, которые были сформулированы в ходе первичного
6
исследования. Иными словами, схема интерпретации (книга кодов) при этом остается
неизменной, но ее применяет не один, а несколько действующих независимо друг от друга
исследователей.
В этом случае появляется возможность оценки надежности интерпретации качественных данных
собравшим их исследователем. Под надежностью здесь понимается достижение сходных
результатов действующими независимо друг от друга исследователями, если они применяют
одинаковые процедуры интерпретации. Вопрос о надежности представляется ключевым при
обсуждении качественных данных и методов исследования, основным направлением критики
которых со стороны «количественников» как раз и является их предположительно низкая
надежность.
Криппендорф [Krippendorff, 2005: 313] выделяет несколько аспектов надежности: надежность как
стабильность (многократное использование схемы кодирования текста одним и тем же
исследователем дает одинаковый результат), надежность как возможность воспроизвести
полученный результат двумя и более исследователями (коэффициент согласия между
кодировщиками, inter-coder agreement) и надежность как точность (соответствие итогов
кодирования некоему заданному стандарту). Второй аспект, а именно коэффицент согласия
между кодировщиками, особо значим в контексте обсуждаемого варианта вторичного
использования качественных данных.
Известно несколько вариантов его рассчета, в зависимости от оценки степени согласия,
достижимой случайным образом: пи (π) Скотта [Scott, 1955], каппа (κ) Коэна [Siegel, Castellan, 1988:
284-291], S Бенетта [Bennett et al, 1954], альфа (α) Криппендорфа [Krippendorff, 2004: 221-238] и
ряд других. Также предложено несколько вариантов рассчета коэффициента согласия без учета
фактора случайности. Они основаны на корреляции оценок кодировщиков либо между собой, как
в случае альфы Кронбаха, Cronbach’s α [Weller, 2007: 343], либо с результатами количественного
контент-анализа с использованием основанного на замещении словаря [Олейник 2009].
В-третьих, вторичное использование качественных данных может иметь своей точкой отсчета не
первичное исследование, а новые, совершенно с ним не связанные исследовательские задачи.
Так, HRAF были адаптированы для решения задач, о которых при создании этой базы в 1949 году и
не подозревали, например, для исследования распространенности гомосексуализма среди
мужчин в зависимости от преобладающего в обществе вида деятельности, охоты и
собирательства или сельского хозяйства [Barber, 1998].
7
В данном случае на первый план выходит задача сопоставления различных вариантов
кодирования текста, то есть различных вариантов интерпретации качественных данных. Ведь как
уже отмечалось, у текста может быть потенциально неограниченное число интерпретаторов
(кодировщиков). Причем каждый интерпретатор рассматривает текст со своей точки зрения,
которая отражает его интересы, ценности, исследовательские задачи, уровень профессиональной
подготовки и знаний наконец. Можно ли среди всего множества интерпретаций выделить
наиболее предпочтительную, лучше всего отражающую «истину»?
Слово «истина» взято в кавычки отнюдь не случайно. «Истинность» интерпретации всегда
относительна: она зависит от точки отсчета. Ею может быть либо интересы вторичного
интерпретатора, либо сам текст как выражение интенций его автора. В данном варианте
вторичного использования качественных данных помимо вопроса о надежности конкретной
интерпретации возникает вопрос о ее достоверности. Достоверность – это особое качество
исследования, которое позволяет говорить об его истинности [Krippendorff, 2004: 313], вне
зависимости от того что под ней подразумевается в конкретном случае – соответствие авторскому
замыслу или исследовательским задачам вторичного интерпретатора.
При обсуждении соотношения надежности и достоверности в литературе есть консенсус
относительно того, что первое является необходимым, но недостаточным условием второго.
Ненадежная интерпретация не может претендовать на достоверность. Графически данную идею
выражают с помощью образа мишени в тире [Jackson, Verberg, 2007: 361]. Центр мишени
соответствует точке отсчета (авторский замысел или интенции вторичного интерпретатора), а
выстрелы – различным вариантам интерпретации (Рисунок 1).
Рисунок 1
Говоря более практическим языком, если в качестве точки отсчета принять авторский замысел, то
для оценки достоверности конкретной интерпретации (кодирования) требуется расчет
коэффициента корреляции между сочетаниями качественных кодов и совместной встречаемостью
слов в текстах [Олейник 2009]. Обоснованием здесь служит тезис Скиннера [Skinner, 2002: 3] о том,
что подбор автором конкретных слов и выражений задает «область возможного» при
интерпретации текста. Выбирая конкретные слова, автор тем самым ставит пределы возможным
интерпретациям своих интенций, ведь большинство слов может быть использовано лишь в
конкретных контекстах. К примеру, слово «габитус» однозначно указывает на критическую
социологию как теоретические рамки дискуссии. Если же в качестве точки отсчета принимать
интенции вторичного интерпретатора, то требуется расчет корреляции между векторами
8
качественного кодирования и результатами количественного контент-анализа с использованием
основанного на замещении словаря.
Формат текста является фактором, который необходимо обязательно учитывать при выборе точки
отсчета [Lotman, 1990: 45-51]. Согласно требованиям жанра, чем меньше интерпретаций вызвают
стилистические тексты (научные статьи или учебники, например), тем лучше. Поэтому в контентанализе таких текстов уместна ссылка на авторский замысел. А вот риторические тексты (эссе или
художественные произведения) как раз призваны стимулировать множество интерпретаций, что
делает уместной ссылку на интенции вторичного интерпретатора.
Примеры вторичного использования транскриптов углубленных интервью
Помимо теоретического решения, задачи, во-первых, агрегирования качественных данных и
манипулирования ими с помощью компьютерной программы и, во-вторых, сопоставления
вариантов первичного (отражающего исходную схему исследования) и вторичного использования
качественных данных были решены на практике. Далее обсуждаются результаты контент-анализа,
как количественного, так и качественного, пяти совокупностей текстов.
Первая совокупность представляет собой транскрипты 64 углубленных полуструктурированных
интервью, проведенных в 2005-2006 годах с российскими государственными служащими на
региональном и федеральном уровнях. Все они были проведены с использованием одного и тоже
гайда, разработанного автором настоящей статьи [Олейник, 2011a: 372-402]. Во вторую
совокупность были включены транскрипты 43 углубленных слабоструктурированных интервью,
проведенных сотрудниками Левада-Центра в 2005 году с представителями российской
властвующей элиты [Гудков, Дубин, Левада, 2007]. Транскрипты этих интервью были любезно
представлены автору для вторичной интерпретации сотрудниками Левада-Центра. Контент
первых двух совокупностей был проанализирован силами автора настоящей статьи. Третью
совокупность составили 20 текстов (научных эссе и статей), опубликованные автором в 1999-2011
годах. В их контент-анализе принимал участие как сам автор, так и трое его коллег: д.с.н. С.Г.
Кирдина (ИЭ РАН), к.с.н. И.П. Попова (ИС РАН) и Т.Ю. Шаталова (ИЭ РАН). Четвертую совокупность
составили 20 текстов (научных эссе и статей), опубликованных в тот же период С.Г. Кирдиной. Их
контент был тоже проанализирован четырьмя вышеназванными исследователями. Наконец,
пятую совокупность составили 17 текстов (научных статей), опубликованных за аналогичный
период И.П. Поповой, которые тоже были подвергнуты контент-анализу силами все тех же
четырех исследователей.
9
Во всех пяти случаях для контент-анализа была использована специализированная программа
QDA Miner версия 4.0.4 с модулем WordStat версия 6.1.4. Ни эта компьютерная программа, ни
другие известные автору программы не позволяют принимать во внимание при рассчете
коэффициентов сходства между текстами и коэффициентов согласия между кодировщиками то,
как именно выделяются единицы анализа (кодируемые фрагменты текста). Криппендорф
[Krippendorff, 2004: 219] называет процесс выделения единиц анализа unitizing и признает его
проблематичный характер в контент-анализе качественных данных за исключением случая, когда
единица анализа задается естественным образом (например, слово в случае ответов на открытые
вопросы, предполагающие перечисление чего-либо). В базе HRAF проблема решена несколько
искусственным образом: в качестве единицы анализа везде используется параграф вне
зависимости от того, содержит ли он одну или несколько законченных мыслей. В большинстве же
случаев законченная мысль может содержаться либо в предложении, либо в параграфе, либо в
нескольких параграфах подряд. Невозможность учесть и оценить разногласия интерпретаторов
(кодировщиков) в выборе единиц анализа является существенным ограничением описанных
выше подходов к контент-анализу текстовых данных.
В контент-анализе первой совокупности текстов были использованы три схемы интерпретации
(книги кодов): «оригинальная» (B), то есть производная от программы исследования, в рамках
которой и были проведены интервью, и две «вторичные» (C и P), то есть производные от других,
хотя и близких по своей тематике исследований. Аналогичная ситуация и со всеми остальными
совокупностями текстовых документов: в их контент-анализе использовалась одна
«оригинальная» и две «вторичные» схемы интерпретации. Для второй совокупности
«оригинальной» схемой была C (эта книга кодов производна от программы исследования ЛевадаЦентра), она же – одна из «вторичных» схем в первом случае, а «вторичными» – B
(«оригинальная» схема в первом случае) и P. Книга кодов В включает в себя 41 позицию, С – 13
позиций и Р – 15 позиций.
На выделении «оригинальных» и «вторичных» схем для контент-анализа научных публикаций
стоит остановиться специально. При кодировании перед исследователями стояла задача
предложить схемы интерпретации, которые бы наиболее полно соответствовали авторскому
замыслу. Вначале они предложили свои собственные варианты книги кодов для контент анализа
как своих работ, так и работ коллег. А потом на этой основе были выработы согласованные
варианты книг кодов, адаптированных для интерпретации работ всех трех авторов (Кирдиной,
Поповой и Олейника). Примечательно, что все три книги кодов были использованы при работе
10
всех трех авторов. Поэтому «оригинальной» схемой для интерпретации работ Кирдиной следует
признать книгу кодов К (включает в себя 15 позиций), для интерпретации работ Поповой – книгу П
(9 позиций), а для интерпретации работ автора данной статьи – книгу О (13 позиций).
Соответственно, «вторичными» схемами для интерпретации работ Кирдиной стали книги П и О,
Поповой – К и О и автора данной статьи – П и К.
Для оценки надежности и достоверности контент-анализа были рассчитаны коэффициенты
корреляции между с одной стороны, матрицами качественных кодов и, с другой стороны,
матрицей совместной встречаемости слов и матрицей результатов контент-анализа с
использованием основанного на замещении словаря. В каждом из случаев основанный на
замещении словать имеет структуру, аналочную книге кодов.1 Использование двух вариантов
корреляции объясняется спецификой интерпретируемых текстов: научные статьи и
полуструктурированные интервью ближе к формату стилистических текстов, а вот эссе и
слабоструктурированные интервью можно признать риторическими текстами. Когда в
кодировании принимали участие не один, а четыре исследователя (три последних совокупности),
приводятся данные как для четырех исследователей (матрица качественных кодов, расставленных
всеми четырьмя кодировщиками), так и для одного – автора данной статьи, для большей
сопоставимости с результатами анализа первых двух совокупностей (Таблица 1).
Таблица 1
Кроме того, были рассчитаны коэффициенты согласия между кодировщиками для трех последних
совокупностей. Для всех пар кодировщиков значение альфы Криппендорфа равно или превышает
0.5. При оценке этого значения необходимо учитывать нерешенность проблемы измерения
согласия между кодировщиками при выборе единицы анализа (там, где один исследователь
выделял один соответствующий коду фрагмент, другой мог выделить два расположенных рядом
фрагмента).
При сопоставлении различных вариантов контент-анализа можно заметить следущие
закономерности. Во-первых, корреляционная связь между матрицей качественных кодов и
матрицей совместной встречаемости слов, как правило, сильнее корреляционной связи между
матрицей качественных кодов и матрицей результатов контент-анализа с использованием
основанного на замещении словаря. Это вполне соответствует предположению, что первый
1
Например, категория «Дефицит идей» словаря основанного на замещении словаря С, включает в себя
следующие словосочетания: кризис*_иде*, дефиц*_иде*, нет_иде* и иде*_отсутств*.
11
вариант корреляционной связи лучше соответствует специфике стилистических текстов. Вторая и
третья совокупности оказываются исключением из этого правила. Возможное объяснение кроется
в присутствии элементов риторических текстов в транскриптах слабоструктурированных интервью
и научных эссе (в отличие от научных статей, которые составляют большинство в совокупности П, к
примеру).
Во-вторых, оригинальная схема интерпретации, как правило, характеризуется более сильной
корреляционной связью, чем вторичные. Рассмотрим совокупности 1, 4a, 4b и 5b. Здесь
сильнейшая корреляционная связь наблюдается между матрицей качественных кодов и матрицей
совместной встречаемости слов в случае применения оригинальной схемы интерпретации.
Совокупности 3a и 3b дают немного иную картину: здесь самая сильная корреляционная связь
присутствует между матрицей качественных кодов и матрицей результатов контент-анализа с
использованием основанного на замещении словаря, но тоже при условии применения
оригинальной схемы интерпретации. Исключениями оказываются совокупности 2 и 5а: здесь
сильнее всего связаны матрица качественных кодов и матрица совместной встречаемости слов, но
при применении одной из вторичных схем (применение оригинальной схемы в обоих случаях
дает второй результат).
В-третьих, в нескольких случаях применение вторичной схемы интерпретации обусловливает
очень слабую или даже отрицательную корреляцию. Данный факт свидетельствует о
неприспособленности конкретной схемы для интерпретации некоторых текстов (например, схемы
О для интерпретации текстов К и схемы К для интерпретации текстов П). Однако этот результат не
опровергает основного вывода данного исследования о принципиальной методологической и
практической возможности применения вторичных интерпретационных схем в контент-анализе
текстовых документов. Просто область возможных интерпретаций текста, вероятно, все же
ограничена.
Заключение: организационные аспекты создания банка качественных данных
Проведенное исследование убеждает, что создание централизованных банков качественных
данных, с одной стороны, методологически допустимо и даже необходимо и, с другой стороны,
технически и практически возможно. В заключение можно обсудить некоторые организационные
вопросы, без решения которых методологическая и практическая возможность останется
нереализованной.
Одно из препятствий на пути к созданию централизованных банков качественных данных
заключается в необходимости защиты конфиденциальности источников. Даже количественные
12
данные, будучи доступными в максимально детализированном виде, иногда позволяют
идентифицировать респондента (например, в случае данных переписи населения в небольших
населенных пунктах). Качественные же данные обычно содержат либо упоминания конкретных
имен, либо информацию, на основе которой эти лица можно идентифицировать. Поэтому
необходим достаточно трудоемкий просмотр и редактирование качественных данных перед их
возможным размещением в открытом или даже ограниченном доступе.
Отсутствие у исследователей стимулов размещать первичные данные в централизованных
депозитариях представляет собой другое серьезное препятствие. С одной стороны, такое
размещение позволяет проверить себя и свой инструмент, получая возможность знакомиться с
усилиями по кодированию собранных собственными руками данных со стороны других, иногда
совершенно посторонних исследователей. С другой стороны, депонирование первичных
документов в централизованных базах данных предполагает риск выявления каких-то нарушений
в их сборе, обработке и интерпретации.
Исследователи, решившие депонировать свои материалы, должны получать какие-то привилегии,
особенно на первых этапах развития централизованных баз качественных данных. Это может
принимать форму получения дополнительных опций при работе с включенными в базу данными,
приглашения на специализированные семинары, распространения информации о списке
депозиторов в профессиональной среде (как это делается в случае Единого Архива
Экономических и Социологических Данных) и так далее.
Перспективным направлением представляется и индексация вторичных источников, то есть уже
опубликованных материалов. Обычные базы данных о публикациях, такие как англоязычная Web
of Knowledge или русскоязычная eLibrary, включают опции поиска по имени автора, названию
публикации, ключевым словам, названию издательства или периодического издания и тому
подобным критериям. Известные автору базы библиографических данных, за исключением HRAF,
не позволяют осуществлять поиск по ключевым словам или темам (кодам) внутри текстов.
Предложенные в статье подходы позволяют по новому организовать библиографический поиск,
распространив его на все содержание опубликованных текстов. Конечно, это потребует
совместных усилий значительного числа исследователей. Однако, как показывает опыт Wikipedia
и других аналогичных ресурсов, стимулирующих мобилизацию усилий заинтересованных лиц,
заведомо неосуществимыми такие проекты считать не стоит.
13
Источники:
Библер В.С. Михаил Михайлович Бахтин, или Поэтика культуры. М.: Прогресс, 1991.
Гудков Л., Дубин Б., Левада Ю. Проблема элиты в сегодняшней России: размышления над
результатами социологического исследования. 2007. М.: Фонд «Либеральная Миссия»
Олейник А.Н. Азбука власти: Русско-англо-американский словарь президентских посланий. Незав.
газета. 2012. 7 февраля.
Олейник А.Н. Власть и рынок: Система социально-экономического господства в России «нулевых»
годов. М.: РОССПЭН, 2011a.
Олейник А.Н. При свете WikiLeaks. Незав. газета. 2011b. 7 февраля.
Олейник А.Н. Азбука власти: Посылка от президента. Ведомости. 2010. 3 декабря.
Олейник А.Н. Триангуляция в контент анализе: вопросы методологии и эмпирическая проверка //
Социол. исслед. 2009. №2.
Barber N. Ecological and Psychosocial Correlates of Male Homosexuality: A Cross-Cultural Investigation
// Journal of Cross-Cultural Psychology. 1998. Vol. 29(3).
Bennett E., Alpert R., Goldstein A.C. Communications through Limited-Response Questioning // Public
Opinion Quarterly. 1954. Vol. 18(3).
Bernard H.R. Social Research Methods. Thousand Oaks: SAGE, 2013.
Bolden R., Moscarola J. Bridging the Quantitative-Qualitative Divide: The Lexical Approach to Textual
Data Analysis // Social Science Computer Review. 2000. Vol. 18(4).
Cheng S.-C., Chou T.-C., Yang C.-L., Chang H.-Y. A semantic learning for content-based image retrieval
using analytical hierarchy process // Expert Systems and Applications. 2005. Vol. 28.
Collins R. The Sociology of Philosophies: A Global Theory of Intellectual Change. Cambridge: The Belknap
Press of Harvard University Press, 1998.
Gorecki C., Brown J.M., Briggs M., Nixon J. Evaluation of five search strategies in retrieving qualitative
patient-reported electronic data on the impact of pressure ulcers on quality of life // Journal of
Advanced Nursing. 2010. Vol. 66(3).
Grossman D.A., Frieder O. Information Retrieval: Algorithms and Heuristics. Dordrecht: Springer, 2004.
Huang C.-C., Tseng T.-L., Chuang H.-F., Liang H.-F. Rough-set-based approach to manufacturing process
document retrieval // International Journal of Production Research. 2006. Vol. 44(14).
Human Relations Area Files. URL: http://www.yale.edu/hraf/ (дата обращения: 21.02.2013).
14
Jackson W., Verberg N. Methods: Doing Social Research. Toronto: Pearson, 2007.
Jick T. Mixing Qualitative and Quantitative Methods: Triangulation in Action // Administrative Science
Quarterly. 1979. Vol. 24(4).
Krippendorff K. Content Analysis: An Introduction to Its Methodology. Thousand Oaks: SAGE, 2004.
Larsen K.R., Monarchi D.E. A mathematical approach to categorization and labeling of qualitative data:
the latent categorization data // Sociological methodology. 2004. Vol. 34(1).
Levachkine S., Guzmán-Arenas A. Hierarchy as a new data type for qualitative variables // Expert
Systems with Applications. 2007. Vol. 32.
Lotman Y. Universe of the Mind: A Semiotic Theory of Culture. Bloomington: Indiana University Press,
1990.
Luhmann N. Trust and Power. N.Y.: John Wiley & Sons, 1979.
Neuendorf K.A. The Content Analysis Guidebook. Thousand Oaks: SAGE, 2002.
Norris S.P., Philips L.M. The Relevance of a Reader’s Knowledge within a Perspectival View of Reading //
Journal of Reading Behavior. 1994. Vol. 26(4).
Salton G., McGill M.J. Introduction to Modern Information Retrieval. N.Y.: McGraw-Hill, 1983.
Scott W.A. Reliability of Content Analysis: The Case of Nominal Scale Coding // Public Opinion Quarterly.
1955. Vol. 19(3).
Siegel S., Castellan N.J. Nonparametric Statistics for the Behavioural Sciences. N.Y.: McGraw Hill, 1988.
Skinner Q. Visions of Politics. Cambridge: Cambridge University Press, 2002. Vol. 1.
Weber M. Economy and Society: An Outline of Interpretative Sociology. N.Y.: Bedminster Press, 1968
[1922].
Weller S.C. Cultural Consensus Theory: Applications and Frequently Asked Questions // Field Methods.
2007. Vol. 19(4).
World Development Indicators. URL: http://data.worldbank.org/indicator (дата обращения:
21.02.2013).
World Values Survey. URL: http://www.worldvaluessurvey.org/index_html (дата обращения:
21.02.2013).
15
Рисунки и таблицы:
Рисунок 1 «Варианты соотношения надежности и достоверности»
Ненадежный и
недостоверный результат
Надежный, но
недостоверный результат
Надежный и достоверный
результат
Источник: [Jackson, Verberg, 2007: 361]
16
Таблица 1 «Коэффициенты корреляции Пирсона r в контент-анализе трех совокупностей текстовых
документов»
совокупность
схема
r между матрицей
r матрицей качественных кодов
текстов
интерпретации
качественных кодов
и матрицей результатов
и матрицей
контент-анализа с
совместной
использованием основанного
встречаемости слов
на замещении словаря
1. Транскрипты В
Оригинальная B
.483**
.404**
(N=64), один
Вторичная C
.295*
.250*
кодировщик
Вторичная P
.405**
.334**
2. Транскрипты С
Оригинальная C
.403**
.501**
(N=43), один
Вторичная B
.544**
.319*
кодировщик
Вторичная P
.343*
.340*
3a. Научные
Оригинальная О
.481*
.652**
тексты О (N=20),
Вторичная К
.290
.397
один кодировщик
Вторичная П
.438
.351
3b. Научные
Оригинальная О
.640**
.775**
тексты О (N=20),
Вторичная К
.688**
.474*
четыре
Вторичная П
.365
.433
.861**
.621**
кодировщика
4a. Научные
Оригинальная К
тексты К (N=20),
Вторичная О
-.313
-.362
один кодировщик
Вторичная П
.356
.186
4b. Научные
Оригинальная К
.713**
.507*
тексты К (N=20),
Вторичная О
-.064
.151
четыре
Вторичная П
.341
.207
5a. Научные
Оригинальная П
.379
.373
тексты П (N=17),
Вторичная К
.027
-.274
один кодировщик
Вторичная О
.671*
-.087
5b. Научные
Оригинальная П
.468
.196
кодировщика
17
тексты П (N=17),
Вторичная К
-.383
-.402
четыре
Вторичная О
.415
-.075
кодировщика
Примечание: уровень статистической значимости (* 0.05, ** 0.001) приведен исключительно в
целях оценки силы корреляционной связи, так как выборка не носит случайного характера.
Жирным шрифтом выделена сильнейшая корреляционная связь (между между матрицей
качественных кодов и матрицей совместной встречаемости слов или между матрицей
качественных кодов и матрицей результатов контент-анализа с использованием основанного на
замещении словаря). В качестве центроидов (точек отсчета для рассчета расстояний и,
соответственно, коэффицентов сходства между документами) во всех случаях были использованы
тексты, находящиеся ближе всего к центру двухмерного пространства, отражающего взаимное
расположение текстов по критерию совместной встречаемости качественных кодов.
18
Скачать