Метод контент-анализа

advertisement
Метод контент-анализа
Баранов, А.Н. Введение в прикладную лингвистику: Учеб.
пособие. М., 2001.
Компьютерная лингвистика и интеллектуальные
технологии: Тр. междунар. конференции "Диалог 2003". М.,
2003.
Пешё М. Контент-анализ и теория дискурса // Квадратура
смысла. М., 1999. С. 302-336.
Тернер Р. Контент-анализ биографий // Сравнительная
социология. Избранные переводы. М., 1995.
Федотова Л.Н. Анализ содержания - социологический
метод изучения средств массовой коммуникации. - М.,
2001.
Шалак В.И. Современный контент-анализ. М., 2004.
Шалак В.И. О понятии логического следования. М., 2007.
взаимосвязь гипотезы и метода
Язык как средство доступа к знанию о
нелингвистических феноменах.
Смена цели исследования
смена
используемых методов.
Характер научной гипотезы влияет на выбор
методов, используемых для ее
доказательства.
Метод контент-анализа не нов, однако
концепций и определений контент-анализа
много - это обычная ситуация в гуманитарных
науках.
дефиниции метода
Контент-анализ (англ. content analysis; от
content — содержание) —
формализованный метод изучения
текстовой и графической
информации, заключающийся в
переводе изучаемой информации в
количественные показатели и ее
статистической обработке.
Дмитриев И. Контент-анализ: сущность, задачи, процедуры.
дефиниции метода
Контент-анализ - это методика
выявления частоты использования в
тексте определенных интересующих
исследователя характеристик, которая
позволяет ему делать выводы
относительно намерений создателя
текста или возможных реакций
адресата
Федотова Л.Н. Анализ содержания - социологический метод
изучения средств массовой коммуникации. - М., 2001.
достоинства метода
Характеризуется систематичностью.
Результаты не зависят
ни от личности исследователя,
ни от того, где и когда исследования
проводятся.
Результаты могут быть воспроизведены.
достоинства метода
Контент-аналитическими можно
называть только те методики
исследования текста, которые
основываются на строгой
последовательности процедурных шагов.
достоинства метода
Основные идеи –
восхождение от текста к внетекстовой
реальности, под которой понимается
социальная (или интеллектуальная)
действительность во всем ее
многообразии и
строгость исследования.
достоинства метода
Если количество привлекаемых текстов
и авторов достаточно велико, то
сделанные выводы могут быть
распространены на большую социально
значимую группу людей и даже на
общественное сознание в целом.
сущность контент-анализа
По количественным характеристикам
текста на уровне слов и словосочетаний сделать правдоподобные предположения
о его содержании и, как следствие,
выводы об особенностях мышления
автора текста - его намерениях,
установках, желаниях, ценностных
ориентациях и т.д.
лингвистический vs контент-анализ
В отличие от лингвистического анализа
текста с опорой на семантические сети,
тематическую сетку или с помощью
ключевых слов в контент-анализе
поверхностные темы должны быть
сведены до одной глубинной,
инвариантами которой они являются.
Для такого сведения необходим тонкий
компонентный анализ семантики слов и
система логического вывода с
привлечением экстралингвистических
данных.
Кобозева Р.М, Реконструкция внутреннего мира коммуникантов по
данным диалога // Исследования по когнитивным аспектам языка. Тарту,
1990.
три направления применения контент-анализа
а) выявление того, что существовало до текста и
что тем или иным образом получило в нем
отражение (текст как индикатор определенных
сторон изучаемого объекта — окружающей
действительности, автора или адресата);
б) определение того, что существует только в
тексте (различные характеристики формы —
язык, структура и жанр сообщения, ритм и тон
речи);
в) выявление того, что будет существовать после
текста, т.е. после его восприятия адресатом
(оценка различных эффектов воздействия).
история метода
Г.Г. Почепцов относит появление контент-
анализа к XYIII веку, когда в Швеции
частота появления тем, связанных с
Христом, использовалась для принятия
решения о еретичности книги.
история метода
А.Н.Баранов: Первые опыты
использования количественных
методов, близких к контентаналитическим, относятся к концу XIX
в., когда стали понимать влияние газет
на общество. Исследовали тематику
газетных статей. Тематику определяли на
основе количественного анализа
лексики. Общий вывод заключался в том,
что пресса отдает предпочтение
уголовной хронике, скандалам, сплетням
и спорту, практически игнорируя сферу
религии, науки и искусства.
история метода
В 20-30-х гг. XX в. отрабатывали техники
изучения общественного мнения по
текстам прессы.
В контент-аналитических исследованиях
появились более сложные категории:
установки, стереотипы, ценности.
история метода
П. Лазарсфельд применил контент-анализ к
исследованию зависимости поведения от
предвыборной агитации в СМИ.
В штате Огайо в течение полугода 1940 г.
проводили опрос группы в 600 человек с целью
выявить эффективность агитационного
воздействия текстов СМИ на граждан.
Только 54 участника эксперимента поменяли за
полгода свои предпочтения в пользу другого
кандидата в президенты,
еще меньшее количество респондентов
сделало это под прямым воздействием газет,
журналов и радиопередач.
история метода
Во время Второй мировой войны
эксперты лондонского радио проводили
мониторинг текстов нацистской
пропаганды. Они выявили типичные
последовательности действий
министерств Германии, связанные с
обоснованием политических и военных
акций. Британские аналитики сумели
предсказать некоторые важные
события.
история метода
Г. Лассуэл (Лассвелл) в начале 50-х гг. XX
столетия предложил использовать для
анализа массовой коммуникации
статистический учет языковых единиц символов («слов»).
С помощью контент-анализа он показал
связь между стилем политического языка
американцев и политическим режимом, в
котором этот язык используется.
история метода
Г. Лассуэл:
Дискурс политиков-демократов близок
дискурсу избирателей, к которым они
обращаются, в то время как
недемократические элиты стремятся к
дистанцированию от рядовых членов
общества, что отражается в
стилистических особенностях языка
власти.
история метода
Г. Лассуэл:
Языковые инновации предшествуют
общественным преобразованиям, поэтому
изменения в стиле политического языка
служат индикатором приближающейся
демократизации общества или кризиса
демократии.
история метода
В начале 60-х гг. Ж. Клейзер
разработал систему изучения больших
текстовых массивов, основанную на
анализе статистических данных.
Суть методики - учет внешних форм
организации текстового материала: его
расположения, оглавления,
оформления…
история метода
Э.Морен ввела понятия
единицы информации - элементы, включающие
ответ на вопрос: О чем говорится?,
смысловые группы -совокупности единиц
информации, формирующиеся на основе их
взаимного смыслового соответствия,
эмоциональный тон повествования - этот тон
определялся по специальной порядковом
шкале с делениями «положительная»,
«отрицательная», «нейтральная»
информация.
использование метода
Контент-анализ пресс-релизов РАО
ЕЭС обнаружил закономерности,
связывающие характеристики текстов с
последующими биржевыми изменениями
курса акций компании.
использование метода
Анализ пресс-релизов компании
ENRON показал ее неблагополучие
задолго до банкротства.
использование метода
В политологии контент-анализ обычно
используется для изучения когнитивных
установок автора текста - его отношения
к тем или иным событиям, понятиям,
ценностным категориям и т.д.
понятие концептуальной переменной
Важнейшей категорией контент-анализа
является концептуальная переменная понятие, которое стоит в центре
проводимого исследования.
Например, концептуальной переменной
(К-переменной) могут быть такие
категории, как «СВОЙ-ЧУЖОЙ»,
«ДЕМОКРАТИЯ», «ПРАВА ЧЕЛОВЕКА»,
«МАТЕРИАЛЬНОЕ БЛАГОПОЛУЧИЕ».
Успех автоматического контент-анализа
зависит от набора используемых
категорий.
языковые представители К-переменной
В конкретном тексте концептуальная
переменная представлена своими значениями
- языковыми представителями.
Так, концептуальную категорию
«СВОЙ-ЧУЖОЙ»
в текстах могут представлять языковые
корреляты:
мой, наш, мы, я, привычный, знакомый, близкий
vs. их, его, ее, он, она, оно, они, их, ее, его,
непривычный, дальний, незнакомый.
языковые представители К-переменной
Концептуальная переменная
«ДЕМОКРАТИЯ»
может быть представлена в текстах
языковыми коррелятами:
демократия, демократический,
демократично, демократический
выбор, власть народа, народовластие,
выборность, возможность выбора,
разделение властей.
языковые представители К-переменной
Для правильности контент-анализа
очень важно определить весь список
значений, иначе будут пропущены
некоторые вхождения концептуальной
переменной и результаты исследования
будут неточными.
языковые представители К-переменной
Единицы счета
могут совпадать либо
не совпадать с единицами анализа.
языковые представители К-переменной
Единицы счета совпадают с единицами
анализа:
подсчет частоты упоминания выделенной
смысловой единицы.
языковые представители К-переменной
Единицы счета не совпадают с единицами
анализа: исследователь на основе
анализируемого материала и здравого смысла
сам выдвигает единицы счета, которыми могут
быть
а) протяженность текстов;
б) площадь текста, заполненная смысловыми
единицами;
количество строк (абзацев, знаков, колонок
текста);
г) длительность трансляции по радио или ТВ;
д)количество рисунков с определенным
содержанием, сюжетом.
абсолютная частота к-переменной
Абсолютная частота к-переменной
определяется как совокупность
абсолютных частот ее значений –
языковых репрезентантов.
Абсолютные частоты не являются
точными оценками концептуальной
переменной, если нужно сравнивать
разные по длине тексты.
необъективность абсолютной частоты
к-переменной
Например, пусть в
тексте t 1 длиной в 1000 слов категория
НЕГАТИВ встречается с частотой 20,
а в тексте t 2 длиной в 10000 слов - с частотой
100.
Является ли пятикратная разница частот
достаточным основанием для утверждения,
что текст t 2 окрашен более негативно, чем
текст t 1?
Очевидно, что нет. Для вынесения такого
утверждения необходимо сравнивать не
абсолютные частоты, а относительные.
Они более информативны.
относительная частота к-переменной
Относительные частоты вычисляются как
отношение абсолютной частоты к длине
анализируемого текста.
Если исследуемая единица - отдельное слово
или категория слов, то в качестве длины текста
берется количество слов в нем.
В примере
(НЕГАТИВ, t 1) = 20/ 1000 =0,02 больше, чем
(НЕГАТИВ, t 2) = 100/10000 =0,01.
Более негативно окрашенным является не
второй, а первый текст.
Мы можем сравнивать разные по длине статьи,
разные по объему издания…
представители К-переменной
К середине 50-х годов исследователи
стали больше уделять внимания не
простому наличию или отсутствию
категорий в тексте, а связям между
категориями.
представители К-переменной
связи между категориями
Обращают внимание на совместную
встречаемость слов различных категорий.
Например, для каждого предложения текста
выясняем, слова каких категорий в нем
встречаются. После этого подсчитываем
коэффициент корреляции, который даст нам
силу связи между категориями и знак этой
связи.
Может оказаться, что для некоторых категорий
наблюдается тенденция их совместного
употребления, а для других - наоборот.
этапы подготовки и проведения эксперимента
Первый этап - выбор материала - корпуса
языковых данных.
Второй этап - выбор концептуальной
переменной и определение ее значений.
Третий этап - выбор единицы кодирования.
Четвертый этап - отбор кодировщиков и
формулировка инструкций по кодированию.
Пятый этап - кодировка данных.
Шестой этап - подсчет данных и интерпретация
результатов.
первый этап эксперимента
выбор материала - корпуса языковых данных.
Классические примеры корпуса данных
газетные публикации за определенный период
времени;
программы политических партий в разные
периоды существования партий;
произведения определенного жанра…
структура корпуса данных
и отбор материала связаны с
постановкой задачи исследования.
Если предметом исследования являются
языковые и стилистические особенности
русского рассказа XIX в., то и создаваемый
корпус должен охватывать соответствующие
литературные тексты того времени.
Если исследуются отражение в СМИ правовых
аспектов заключения человека под стражу и
его содержания в тюрьме, то создаваемый
корпус должен включать все публикации по
данной проблеме в официальных и
оппозиционных СМИ за определенный период
времени.
структура корпуса данных
Если интересует, как освещалась в газетах
определенная избирательная кампания,
искомая совокупность может включать
все предвыборные газетные публикации (тип
сообщений)
размером от одного газетного столбца (размер
сообщений),
опубликованные в ежедневных газетах (частота
появления сообщений),
которые были доставлены подписчикам (способ
распространения сообщений)
данного города или округа (место
распространения сообщений)
в течение месяца до начала выборов (время
появления сообщений).
второй этап эксперимента
выбор концептуальной переменной и
определение ее значений - языковых
репрезентантов выбранного понятия в
тексте.
В практике российских и белорусских
контент-аналитических исследований
наиболее, употребительными единицами
анализа являются
слово, простое предложение, суждение,
тема, автор, герой, социальная
ситуация, сообщение в целом.
выбор концептуальной переменной
Если значения К-переменной можно
выявить в предварительном
эксперименте на незначительном
количестве материала, то выбор самой
К-переменной остается проблемой.
Наиболее частые затруднения при
выборе К-переменной –
корреляция между частотой и
значимостью,
постулат о равнозначности вхождения
значений К-переменной.
выбор концептуальной переменной
смысловыми единицами контент-анализа могут
быть:
а) понятия, выраженные в отдельных терминах;
б) темы, выраженные в целых смысловых
абзацах, частях текстов, статьях, телерадиопередачах …;
в) имена, фамилии людей;
г) события, факты ...;
д) смысл апелляций к потенциальному адресату.
Единицы контент-анализа выделяются в
зависимости от содержания, целей, задач и
гипотез конкретного исследования.
третий этап эксперимента
выбор единицы кодирования.
Значения К-переменной могут
приписываться текстам, их фрагментам,
абзацам, предложениям и отдельным
словам и словосочетаниям.
выбор единицы кодирования
Для ручного контент-анализа зависимость
единицы кодирования от объема корпуса
очевидна.
Если корпус насчитывает тысячи статей, а
кодировщиков - два-три человека, то выбор в
качестве единицы кодирования одной статьи
вполне оправдан.
Если корпус состоит из относительно небольших
заметок, то они могут стать единицами
кодирования.
выбор единицы кодирования
Единицами кодирования могут стать
слова или словосочетания, частота
которых интересует исследователя.
Например, частота упоминания фамилии
конкретного политика в конкретном СМИ.
Если речь идет о частоте упоминания в
отдельном номере газеты, то выводов
делать нельзя.
выбор единицы кодирования
Если исследовать частоту на
протяжении определенного отрезка
времени и сопоставить частоту
упоминания в газете с поступками этого
политика, можно сделать вывод о том,
что в поведении данного политика
привлекает внимание журналистов
анализируемого издания.
выбор единицы кодирования
Можно подсчитывать частоту
упоминания политика не в отдельных
номерах газеты, а помесячно, и
сопоставлять ее не с поступками, а с
публикуемыми рейтингами политических
деятелей.
Это материал исследования на тему,
как влияет и влияет ли частота
упоминания политика в СМИ на его
рейтинг.
выбор единицы кодирования
Больше информации даст
одновременный подсчет частот
упоминания не одного, а нескольких
политиков.
Появляется возможность сравнивать их
между собой. В этом случае, например,
корреляция частот может послужить
основанием для изучения общего в
поведении анализируемых политиков.
выбор единицы кодирования
Более крупными элементами являются
целые тексты - статьи и книги.
Например, подсчет частоты статей
различной тематики позволяет делать
выводы о редакционной политике
издания.
Подсчет тематики книг, поступающих в
научную библиотеку, позволяет судить о
тенденциях в развитии науки,
перспективных направлениях
исследований и т.д.
четвертый этап эксперимента
отбор кодировщиков и формулировка
инструкций по кодированию.
Ручной контент-анализ требует
точной формулировки инструкций.
Кодировщиков может быть несколько,
они должны руководствоваться едиными
принципами обработки материала.
При компьютерном контент-анализе
подготовка инструкций заменяется
перечислением языковых форм
выбранных значений
К-переменной.
принцип кодировки
Принцип кодировки – сложная и
нетривиальная задача.
Если попросить экспертов подсчитать
количество в тексте слов с негативной
окраской, то результаты будут отличаться.
Более того, один и тот же эксперт на
одном и том же материале в разные
моменты времени даст разные ответы.
Причина - в неоднозначности критериев.
принцип кодировки
Общие принципы кодировки
задают два вида контент-анализа
жесткий
мягкий
жесткий и мягкий варианты анализа
При мягком варианте контентанализа инструкции позволяют
кодировщику кодировать не только
явные, но и имплицитные вхождения Кпеременной в текст. Это допустимо в тех
случаях, когда трудно исчислить все
значения К-переменной.
Например, К-переменная «ПРАВА
ЧЕЛОВЕКА» может реализоваться и в
тексте о правилах техники безопасности
на производстве. Предсказать такие
значения К-переменной трудно.
жесткий и мягкий варианты анализа
При жестком варианте кодируются
только явные вхождения К-переменной в
текст –
в тексте эксплицитно представлено одно
из значений К-переменной.
пятый и шестой этапы эксперимента
Пятый этап - кодировка данных.
Шестой этап - подсчет данных и
интерпретация результатов.
Для обработки результатов используются
сложные статистические методы анализа,
в том числе факторный и кластерный
анализы.
Мандель, И.Д. Кластерный анализ. М., 1988.
Окунь, Я. Факторный анализ. М., 1974.
факторы контроля качества эксперимента
Как обеспечить адекватность и точность
проведения эксперимента?
Для подготовки экспериментов и оценки
их результатов учитываются факторы
надежности и
достоверности / обоснованности.
фактор надежности
Фактор надежности проявляется в
трех основных формах –
стабильности,
повторяемости и
тщательности.
фактор надежности
Стабильность - самая слабая форма
надежности.
Она определяется тем, насколько
один и тот же кодировщик через
некоторое время после первой
кодировки так же сможет обработать
данные.
Для компьютерной версии контентанализа эта характеристика надежности
выполняется, поскольку не меняется
программа кодировки.
фактор надежности
Повторяемость является более сильной
формой надежности возможность получения тех же
результатов разными кодировщиками в
разное время и в разных ситуациях по
тем же инструкциям.
Если разные кодировщики в разное
время похожим образом кодируют одни
и те же данные, используя одинаковые
инструкции, то повторяемость
эксперимента достаточно велика.
фактор надежности
Самой сильной формой надежности
является тщательность, под которой
понимается соответствие норме
кодирования, выработанной
экспертами.
фактор достоверности / обоснованности
Фактор достоверности / обоснованности
проявляется в разнообразных формах:
семантическая достоверность,
достоверность отбора данных,
прагматическая достоверность, или
достоверность предсказания…
семантическая достоверность
Семантическая достоверность
определяется тем, насколько
инструкции кодировщику учитывают
многозначность языковых выражений,
являющихся значениями К-переменной.
семантическая достоверность
При проведении контент-анализа на
К-переменную «война-мир» (по
отношению к межгосударственным
связям) инструкция кодирования должна
делать различие между значениями слова
война, отсеивая употребления :
После этого тихо тлевшая война
перешла в открытые боевые действия:
«Мослифт» полностью перестал
обращаться на тот завод, чьи
технологии существенно улучшают
качество ремонта.
семантическая достоверность
Для достижения семантической
достоверности в компьютерном
контент-анализе используется
построение конкордансов на каждое из
значений К-переменной.
Эксперт отбрасывает контексты, в
которых языковой репрезентант
К-переменной употребляется не в том
значении, которое нужно.
семантическая достоверность
может быть усилена, если в качестве
концептуальной переменной выступает не
слово, а словосочетание, более точно
указывающее на сферу поиска.
комплекс методов анализа
Контент-анализ может быть самостоятельным
методом исследования, но может входить в
группу используемых методов:
А) первичный сбор информации, определение
круга релевантных источников (газеты,
журналы, циклы телевизионных программ,
интервью, публичные выступления, мемуары
и т.д.); оптимизация массива источников
посредством выборки текстов приемлемого
для анализа объема;
комплекс методов анализа
Б) контент-анализ выбранного массива текстов;
В) риторический анализ тематической
структуры текста с точки зрения "общих мест"
и характерной мотивики дискурса;
Г) анализ системы тропов текста;
Д) жанровая дифференциация текстов в
рамках определенного дискурса;
Е) семиотический анализ семантики, синтактики
и прагматики текста и его коммуникативно
значимых элементов;
комплекс методов анализа
Ж) дискурсный анализ:
изучение смысловой и интенциональной
соотнесенности субъекта, объекта и адресата
текста;
анализ интенциональной структуры текста как
высказывания в рамках определенного
дискурса (включая заглавие и другие
коммуникативно значимые элементы);
анализ социокультурных контекстов текста как
реализации дискурса
Благодарю
ЗА
БЛАГОСКЛОННОСТЬ!
Download