Прагматический фильтр

advertisement
Измерение информации
Кононова О.В.
29.4.10
Информация - новые сведения, позволяющие
улучшить процессы, связанные с
преобразованием вещества, энергии и самой
информации.
Информация не отделима от процесса
информирования, поэтому необходимо
рассматривать источник информации и
потребителей информации.
Информация – новые сведения, принятые,
понятые и оцененные конечным потребителем
как полезные.
29.4.10
Экономическая информация
Оценивается количественно, когда изменяются ее
объемы и качественно, когда нужно определить ее
ценность
Это необходимо для грамотного расчета потребности
ресурсов АСУ, расчета потребности в кадровой
обеспеченности и принятия управленческого
решения
Методика расчета объемов информации и
установление ее ценности зависят в первую очередь
от подхода к понятию ЭИ.
29.4.10
С кибернетической позиции ЭИ – это мера, соотношение
между данными и их получателем
мерой является приобретение новых знаний, данных, то
есть степень новизны и полезности.
Только полезные данные являются информацией. В
кибернетике это связано с устранением
неопределенности, поскольку информация вносит ясность
информация считается мерой определенности
организованности
29.4.10
Кибернетический подход:
единицей количества информации явл. объем,
содержащийся в соотношении поступления двух
равновероятных событий
Поступление денежных средств на счет в
обусловленное время или их не поступление
равновероятны
Если логарифмирование вероятностей
ведется по двоичному основанию, то такая
единица называется битом. Здесь бит связан
с формулой Хартли-Шеннона
29.4.10
I –
II –
Чем значительнее изменяется величина с наступлением
события по сравнению с ожидавшейся ее величиной, тем
сообщение содержит большее количество информации
Например, вероятность своевременного получения от
покупателей средств различна, для первого – 1/8, для
второго –15/16. Сообщение об оплате несет в себе следующее
количество информации:
29.4.10
Одним из наиболее важных прагматических свойств
информации является ценность (полезность)
Ценность информации вначале была определена с
помощью теоретико-вероятностного подхода (А. А.
Харкевич) –
если до получения сообщения вероятность достижения
цели субъектом была, а после его получения стала, то
ценность полученной информации (или
прагматическое количество информации)
определяется через приращение этой вероятности
29.4.10
Ценность ЭИ
Предположим набор некоторых исходных данных:
P1=S при этом вероятность: P0=j
Путем сопоставления изменение величины логарифмов
вероятности этих вариантов можно посчитать относительную
ценность информационной совокупности
Здесь ценность данных составляет 1 бит, отражая
приращение вероятности, достигает цели при
использовании этого набора данных. Для решения
задачи величину ценности других данных можно
определить в битах. Для этого необходимо их
вероятности сопоставить с вероятностью первой
информационной совокупности. Таким образом,
устанавливается ценность вариантов
29.4.10
Связь между объектом любой практической
проблемы и компьютером может быть представлена
следующей схемой:
ОБЪЕКТ - МОДЕЛЬ - ЗАДАЧА - ФУНКЦИЯ -
АЛГОРИТМ - ВЫЧИСЛЕНИЕ
29.4.10
Выделяются три фазы существования
информации
1. Ассимилированная информация - представление
сообщений в сознании человека, наложенное на
систему его понятий и оценок
2. Документированная информация - сведения,
зафиксированные в знаковой форме на каком-то
физическом носителе
3.
Передаваемая
информация-сведения,
рассматриваемые в момент передачи информации
от источника к приемнику.
29.4.10
Информация используется для управления, но и сама
она подвержена управляющим воздействиям
Основная цель этих воздействий - поддержка
информационных потоков и магистралей,
способствующих достижению поставленных целей при
ограниченных материально-энергетических,
информационно-организационных, пространственновременных ресурсах
29.4.10
Пример маркетингового информационного
управления
Маркетинговое информационное управление
-
планирование
системы,
и
прогнозирование
корпорации,
информации,
на
основе
информационных
поведения
рыночной
процессов
и
информационных технологий на рынке, в сфере
бизнеса с учетом поведения и привычек покупателя и
продавца, их интерактивного контакта, оперативной
реакции
29.4.10
технология проведения маркетингового исследования
и интерпретации полученной информации
состоит из следующих процедур:
1.
определение проблемы, целей и расстановки их
приоритетов
2.
сбор и анализ первичной информации
3.
анализ вторичной информации
4.
рекомендации и использование результатов
29.4.10
Пример: информационные преобразования в системе
проведения экономического анализа.
Качество преобразования информации зависит от
качества информационного обеспечения и от приема
преобразования
Одним
из
критериев
качества
правильное восприятие приемщиком
информации
Правильное восприятие информации конечным
потребителем может быть затруднено из-за наличия
различных помех, называемых информационным
шумом
29.4.10
Различаются три разновидности шума и
соответственно три информационных фильтра,
блокирующих этот шум
1. Синтаксический фильтр
1. Семантический фильтр
1. Прагматический фильтр
29.4.10
Синтаксический фильтр
В последовательности знаков, хранимых на носителе
или передаваемых, могут быть обнаружены участки,
относительно
придании
им
синтаксический
которых
отсутствует
смысла.
Эти
шум,
и
соглашение
участки
они
о
составляют
распознаются
синтаксическим фильтром
Фильтр
содержит
набор
решающих
правил,
позволяющих различать правильные (осмысленные) и
неправильные (бессмысленные)
последовательности
знаков
29.4.10
Семантический фильтр
Первый аспект - отсутствие новизны в получаемом
сообщении
(сообщение
не
расширяет
знаний
потребителя)
Второй аспект - прохождение ложного сообщения, через
синтаксический фильтр (он проверяет соответствие
контролируемого
сообщения
с
уже
имеющейся
информацией)
Третий аспект - существенные для семантического
фильтра
взаимосвязи
устанавливаются
также
предметными науками, например бухгалтерским учетом,
экономической статистикой и др.
29.4.10
Прагматический фильтр
устанавливает степень ценности информации для
потребителя.
Элементы
прагматической
обычно охватывают полноту информации
29.4.10
оценки
ФОМЕНКО А. Т.
академик Российской Академии Наук
доктор физико-математических наук, профессор,
заведующий кафедрой дифференциальной геометрии и
приложений механико-математического факультета Московского
государственного университета
Click to edit Master subtitle style
Носовский Г. В.
канд. физ-мат наук,
специалист в области теории вероятностей,
математической статистики, теории случайных
процессов, теории оптимизации, стохастических
дифференциальных уравнений,
ст. научный сотрудник на механико-математическом
факультете МГУ, каф. дифференциальной геометрии и
приложений, в лаборатории компьютерных методов
29.4.10
Математико-статистический анализ числовых
характеристик текстов: общ. подход
 1. формулируется статистическая гипотеза для
моделирования какого-либо процесса - например,
утери информации с течением времени.
 2. вводятся числовые коэффициенты, позволяющие
количественно измерять отклонения
экспериментальных кривых от предсказанных
теоретически
 3. математико-статистическая модель проверяется на
заведомо достоверном историческом материале
 4. если она подтверждается, то методику можно
использовать для датировки событий
29.4.10
ПРИНЦИП КОРРЕЛЯЦИИ
МАКСИМУМОВ
 Пусть исторический период от года A до года B в
истории региона P описан в летописи X , разбитой на
куски (главы) X(T) , каждый из которых посвящен
событиям одного года T Подсчитаем объем всех кусков
X(T) , т. е. число страниц или строк в каждом X(T)
 Полученные числа изобразим в виде графика объемов,
отложив по горизонтали годы T , а по вертикали объемы глав
 функция объема данной летописи X
vol X(T)
29.4.10
Для другой летописи Y , описывающей те же события,
график объемов будет иметь иной вид
(скажутся интересы и склонности летописцев X и Y одно и то же событие может быть описано разным
количеством слов и разными словами)
Насколько существенны эти различия? Есть ли что-то
общее в графиках объемов текстов, рассказывающих об
одних и тех же событиях?
29.4.10
Существенная характеристика всякого графика его ПИКИ, экстремальные точки
Обозначим через C(T) объем всех текстов, написанных
о годе T его современниками
Это – «первоначальный фонд» информации
Его график точно неизвестен, поскольку тексты
постепенно утрачиваются, гибнут
29.4.10
Сформулируем модель потери информации
ОТ ТЕХ ЛЕТ, КОТОРЫМ ПЕРВОНАЧАЛЬНО
БЫЛО ПОСВЯЩЕНО БОЛЬШЕ ТЕКСТОВ, БОЛЬШЕ
ТЕКСТОВ И ОСТАНЕТСЯ
29.4.10
Фиксируя какой-то момент времени M (справа от точки B) можем выстроить
график
CM (T), показывающий объем текстов, которые "дожили" до момента времени
M и описывают события года T
CM (T) - это остаточный (сохранившийся) фонд информации, который дошел
от эпохи (A,B) до года M
Модель может быть переформулирована:
график CM(T) должен иметь всплески примерно в те же годы (на интервале
(A,B)), что и исходный график C(T)
Разумеется, проверить модель в таком ее виде трудно, поскольку график C(T)
первоначального фонда информации нам сегодня не известен, но одно из
следствий проверить можно
29.4.10
Более поздние хронисты X и Y, описывая один и тот же
период (A,B) (и не будучи его современниками),
вынуждены опираться на сохранившийся до их времени
фонд информации (текстов) от эпохи (A,B)
Если хронист X живет в эпоху M, то он будет опираться
на фонд CM(T)
Если хронист Y живет в эпоху N (отличную от M), то он
опирается на сохранившийся фонд CN(T)
29.4.10
Ожидается что "в среднем" хронисты работают более или менее
добросовестно, а потому они должны более подробно описать те
годы (из эпохи (A,B)), от которых до них дошло больше
информации (текстов)
График объемов vol X(T) будет иметь всплески примерно в те
годы, где имеет всплески график CM(T)
График vol Y(T) будет иметь всплески примерно в те годы, где
делает всплески график C(T)
Точки всплесков графиков CM(T), CN(T) близки к точкам
всплесков исходного графика C(T)
Следовательно, графики vol X(T) и vol Y(T) должны
делать всплески примерно одновременно, т.е. точки их
локальных максимумов должны коррелировать
(при этом, конечно, амплитуды графиков могут быть
существенно различными)
29.4.10
Окончательно наш принцип корреляции
максимумов звучит следующим образом:
Если тексты (хроники) X и Y зависимы (т.е. описывают примерно одни
и те же события на одном и том же интервале времени (A,B) в истории
одного и того же региона), то точки локальных максимумов их функций
объемов должны коррелировать (рис. а)
Если тексты (хроники) X и Y независимы (т.е. описывают существенно
разные исторические периоды или разные регионы), то точки
локальных максимумов их функций объемов не коррелируют (рис. б)
29.4.10
графики объемов глав для зависимых текстов должны
делать всплески одновременно (т.е. годы, подробно
описанные в X и подробно описанные в Y, должны
совпадать или быть близкими)
если тексты независимы, то графики объемов достигают
локальных максимумов в разных точках (после
совмещения двух описываемых в них периодов
времени)
29.4.10
Выводы:
Например, если при сравнении двух династий царей
будет обнаружена зависимость времен их правлений
(т.е. соответствующие графики периодов правлений
чрезвычайно близки), то это можно интерпретировать:
1.
намеренное подражание летописца некоему
авторитетному образцу
2.
дубликаты, которые в свое время не были распознаны
(хронологами) как тождественные, об одном и том же
говорящие тексты и были отнесены к разным
историческим периодам
Методика применима не только для датирования
событий. Она позволяет обнаруживать в
сравниваемых текстах разнообразные
заимствования, повторы, литературные штампы,
цитирования, параллели
29.4.10
Download