Лекция - Контент анализ

advertisement
Контент-анализ ресурсов Интернет
Сегодня весьма актуальной является задача мониторинга ресурсов
Internet, которая тесно связана с достаточно популярным в последние
десятилетия контент-анализом. Это перспективное направление
развития систем сетевой интеграции рассматривается сегодня многими
экспертами как контент-мониторинг, появление которого вызвано,
прежде всего, задачей систематического отслеживания тенденций и
процессов в постоянно обновляемой сетевой информационной среде.
Контент-мониторинг — это содержательный анализ информационных
потоков с целью получения необходимых качественных и
количественных срезов, который производится постоянно, т.е. на
протяжении не определяемого заранее промежутка времени.
Важнейшей теоретической основой контент-мониторинга является
контент-анализ, — понятие, достаточно "заезженное" социологами.
Контент-анализ начинался как количественно-ориентированный
метод анализа текстов для изучения массовых коммуникаций. Впервые
этот метод был применен в 1910 году социологом Максом Вебером
(Max Weber), чтобы проанализировать охват прессой политических
акций в Германии (рис. 5.2). Американский исследователь средств
коммуникации Гарольд Лассвелл (Harold Lasswell) в 30-40-е годы
использовал подобную методику для изучения содержимого
пропагандистских сообщений военного времени. В 1943 году Абрахам
Каплан (Abraham Kaplan) увеличил фокус контент-анализа от
статистической семантики (/значения текстов) политических дискуссий
до анализа значений символов (семиотики). Во время Второй мировой
войны
растущая
популярность
семиотики
способствовала
использованию качественно-ориентированного контент-анализа для
изучения "идеологических" аспектов в таких жанрах, как
телевизионные шоу и коммерческая реклама. Ряд современных
исследований с применением методологии контент-анализа включает,
наряду с анализом текста, и анализ изображений.
Начиная с 60-х годов, с появлением средств авто
матизации и текстов в электронном виде, получил на
чальное
развитие
контент-анализ
информации
боль
ших объемов — баз данных и интерактивных медиасредств.
Традиционное
"политическое"
использование
современных
технологий
контент-анализа
дополнено
неограниченным
перечнем
рубрик
и
тем,
охватываю
щих производственную и социальную сферы, бизнес и
финансы,
культуру
и
науку,
что
сопровождается
большим
количеством
разнородных
программных
комплексов.
При
этом
выделилось
направление,
полу
чившее
самостоятельное
развитие
—
Data
Mining,
все
еще
не
имеющее
устойчивого
русского
терминаэквивалента. Так, даже выше в этой главе использова
лись сразу два перевода этого термина: "добыча дан- Рис. 5.2. Макс
Вебер
ных" и "глубинный анализ данных".
(1864-1920)
Под Data Mining понимается механизм обнаружения в потоке
данных интересных новых знаний, таких как модели, конструкции, ассоциации, изменения, аномалии и структурные новообразования.
Большой вклад в развитие контент-анализа внесли психологические
исследования в области феноменологии, ведущая идея которой
заключается в обращении к каждодневному миру через различные
явления (phenomena) в фактических ситуациях. С феноменологией
неразрывно связаны имена ее основателя Эдмунда Хассерла (Edmund
Husserl) и нашего современника Амадео Джиорджи (Amadeo Giorgi).
Однозначная трактовка понятий необходима, прежде всего, в
технических системах. Развитие технологических систем невозможно
без стандартизации. В качестве примера можно привести
операционную систему UNIX, определение стандартов на которую в
рамках ISO (POSIX) привело к преобладанию клонов этой системы на
серверных платформах. Понятие же контент-анализа, имеющее корни в
психологии и социологии, сегодня пока не имеет однозначного определения. Это порождает ряд проблем, важнейшая из которых заключается
в том, что программные системы, построенные на основе различных
подходов к контент-анализу, будут несовместимы. Приведем лишь
некоторые существующие определения контент-анализа.
• Контент-анализ — это методика объективного качественного и
систематического изучения содержания средств коммуникации (Д.
Джери, Дж. Джери).
• Контент-анализ — это систематическая числовая обработка,
оценка и интерпретация формы и содержания информационного
источника (Д. Мангейм, Р. Рич).
• Контент-анализ — это качественно-количественный метод
изучения документов, который характеризуется объективностью
выводов и строгостью процедуры и состоит в квантификационной
обработке текста с дальнейшей интерпретацией результатов (В.
Иванов).
• Контент-анализ состоит в нахождении в тексте определенных
содержательных понятий (единиц анализа), выявлении частоты их
встречаемости и соотношения с содержанием всего документа (Б.
Краснов).
• Контент-анализ — это исследовательская техника для получения
результатов путем анализа содержания текста о состоянии и свойствах
социальной действительности (Е. Таршис). Р
Большинство из приведенных определений конструктивны, т.е.
являются процедурными. Из-за разных начальных подходов они
порождают различные, а порой и противоречащие друг другу
алгоритмы. Принятые в современной литературе различные подходы к
пониманию контент-анализа поддаются полностью оправданной
критике. Так, высказываются сомнения в информационной
насыщенности частотных характеристик в плане определения
элементов, весомых с точки зрения содержания. Также подчеркивается
игнорирование роли контекста. Однако, несмотря на многообразие
трактовок контент-анализа, большое прикладное значение методологии
все же позволяет избежать многих противоречий. Объединение средств
и методов, их естественный отбор путем многократной оценки
полученных результатов позволяют выделять и подтверждать знания,
выявлять фактическую силу и полезность инструментария.
Диапазон методов и процедур, касающихся самого процесса
контент-анализа, весьма широк. К примеру, при подготовке
исследования выполняются следующие действия:
• описание проблемной ситуации, поиск цели исследования;
• уточнение объекта и предмета исследования;
• смысловое уточнение понятий;
• эмпирическая интерпретация понятий;
• описание процедур регистрации свойств и явлений;
• предварительный целостный анализ объекта;
• определение общего плана исследования;
• определение типа выборки и т.д. Методы
сбора данных также многообразны:
• наблюдение;
• анкетный опрос;
• интервью;
• телефонный опрос;
• накопление совокупности писем;
• получение потока документов Сети.
Для отбора информации применяются такие методы:
• гнездовой;
• квотная выборка;
• неслучайная выборка;
f»
метод нетипичных представителей;
• метод "снежного кома";
• стихийная выборка;
• случайная выборка;
• одно- и многоступенчатая выборка;
• районированная (расслоение) выборка;
• систематическая выборка и т.д.
В контент-анализе применяются такие математические методы,
как:
• дисперсионный анализ для выявления влияния отдельных,
независимых факторов на наблюдаемый признак;
• кластерный анализ для классификации объектов и описывающих
их признаков;
• логлинейный анализ для статистической проверки гипотезы о
системе одновременных парных и множественных взаимосвязей в
группе признаков;
• причинный анализ для моделирования причинных отношений
между признаками с помощью систем статистических уравнений;
• регрессионный анализ для исследования регрессионной
зависимости между зависимыми и независимыми признаками;
• факторный анализ для получения обобщенной информации о
структуре связи между наблюдаемыми признаками изучаемого объекта
на основе выделения скрытых факторов;
• корреляционный анализ для выявления зависимости между
числовыми случайными величинами, одна из которых зависит и от ряда
других случайных факторов.
Download