Глава 1. Понятие информации.

advertisement
ГЛАВА 1 ПОНЯТИЯ ИНФОРМАЦИИ
Термин “информация” стал настолько широко употребим в наше
время, что естественно возникает ощущение очевидности этого понятия.
Подавляющее большинство людей, использующих этот термин, понимает
под ним получение или передачу каких-либо сведений. Но даже при таком
представлении мало кто связывает понятие количества информации с
длительностью речи или объемом текста. На интуитивном уровне всем
хорошо известно, что далеко не все сведения на самом деле несут в себе
информацию.
Понимание информации как передачи сведений сохранялось на
протяжении двух тысячелетий вплоть до середины ХХ века. К этому времени
был достигнут значительный прогресс технических средств массовых
коммуникаций (телеграф, телефон, радио, телевидение и т.д.), что привело к
значительному росту объема передаваемых сведений. В связи с этим
появилась необходимость их измерения, которая привела к созданию нового
раздела науки “Теории информации”. Датой рождения этой науки можно
считать 1948 год, когда была опубликована основополагающая статья
К.Э.Шеннона “Математическая теория связи”. В этой статье было дано
вероятностно-статистическое
определение
количества
информации,
рассмотрена абстрактная схема связи, сформулированы теоремы о
пропускной способности, кодировании, помехоустойчивости и т.д. Тем
самым была положена основа статистической теории информации.
1.1. Измерение количества информации
Понятие количества информации в статистической теории
информации определяется на основе понятия вероятности, которое
применяется для описания систем с неопределенностью. Если, скажем, в
наших знаниях о каком-либо предмете существует неясность,
неопределенность, а получив новые сведения об этом предмете, мы можем
более определенно судить о нем, то это значит, что сообщение содержало в
себе информацию. А это, в свою очередь, означает, что получение сообщения
можно рассматривать как получение дополнительного знания, которое
меняет существующую ранее картину. Если сообщение не даст ничего
нового, не снимает неопределенности, то с позиций статистической теории в
нем не содержится информации. Таким образом, в статистической теории
под информацией понимаются сведения или сообщения, которые снимают
существовавшую до их получения неопределенность.
Степень неопределенности измеряется величиной, которую в теории
информации называют энтропией (Н). Энтропия является функцией
вероятности (р):
Н=- lоg2 p.
При р = 1 энтропия равна нулю, неопределенность полностью
отсутствует. Количество информации определяется как разность между
начальной энтропией (до получения сообщения) и конечной энтропией
(после получения сообщения). В том случае, если в результате получения
какого-то сообщения неопределенность полностью исчезает, количество
информации (I) в этом сообщении равно энтропии:
I=H .
Количество информации, равное единице Н=1, принято называть
битом.
Рассмотрим, например, какое количество информации содержит
сообщение: “Не высовывайтесь из окна” (“Do not lean of the window”). Будем
измерять количество информации, принимая, что каждая из 29 позиций в
этом сообщении (английский вариант) должна быть заполнена одним из
двадцати семи символов (26 букв латинского алфавита плюс пробел).
Следует отметить, что вероятность появления каждого символа на каждой
позиции, вообще говоря, не равна 1/27. Это связано с тем, что различные
буквы латинского алфавита имеют различную частоту повторяемости в
английском языке, а следовательно, и вероятность появления на каждой
позиции. Кроме того, вероятность появления данной буквы на позиции
зависит от сочетания букв на предшествующих позициях. Однако для
простоты мы будем считать вероятность появления каждого символа равной
1/27.
Количество информации, которое несет каждый символ на каждой
позиции, равно
H = - log2
1
27
= - log2 1 + log2 27=log2 27 = 4,75 бита (на позицию).
Общее количество информации, содержащееся в сообщении, можно
определить как
Н = 25 log2 27 = 119 бит (всего).
Применим эту формулу для определения количества информации в
этом же сообщении на других языках.
Немецкий язык: Nicht hinaus lehnen - 90,4 бит,
Французский язык: Ne penchez pas au dehors - 114 бит.
Из этого примера видно, что для передачи одной и той же мысли
используется различное количество информации. Все естественные языки
обладают определенной информационной избыточностью, величина которой
зависит от того, какой язык мы выберем в качестве эталона. Из 3-х языков,
сообщение на которых мы рассмотрели, избыточность двух из них можно
выразить относительно немецкого языка, считая его эталоном с точки зрения
лаконичности. Но, допустим, было бы выработано международное
соглашение о том, что все окна маркируются 0 или Х в зависимости от того,
безопасно или нет высовываться из соответствующего окна, при этом
вероятности выбора окон обоих типов были бы примерно равными. Тогда
информация, содержащаяся в сообщении из символов 0 и Х, была бы равна
всего 1 биту. В сравнении с этим сообщением даже немецкий вариант
сообщения был бы весьма избыточным.
Приведенный пример хорошо иллюстрирует тот факт, что рассмотренные
сообщения на разных языках представляли по сути своей лишь
информационный сигнал. Этот информационный сигнал требует различных
ресурсов для своего отображения в разных языковых системах. Тем не менее
длина сообщения может служить мерой количества информации, если нас
интересуют затраты ресурсов на его передачу и имеется эталон для измерения
информационного сигнала. Отсюда понятно стремление свести "алфавит
технического языка" к двум знакам: "да" и "нет"; точка и тире; красный и
зеленый; открыто и закрыто; "1" и "0".
Однако, при всей привлекательности статистической теории
информации, она не может служить универсальным инструментом изучения
информационных процессов. Так, при рассмотрении процессов управления
мы очень часто встречаемся с такими системами, в которых поведение
объекта управления не является случайным. При управлении
производственными
процессами
весьма
желательно
строго
последовательное, а не случайное, выполнение технологических операций. В
связи с этим чисто вероятностное понимание информации и ее количества не
отражает существа многих процессов. Подавляющее большинство реальных
информационных процессов выступает как единство случайного и
необходимого. В силу этих причин существуют и нестатистические подходы
к измерению количества информации. Один из них носит название
“динамического” подхода. В отличие от статистического подхода он
рассматривает такие системы, в которых причина и следствие носят
однозначный характер. Кроме того, в настоящее время широкое
распространение получил комбинаторный подход к определению понятия
количества информации. Комбинаторное количество информации одинаково
хорошо описывает и статистические, и динамические системы, ибо основное
внимание здесь обращается на количество элементов и их отношения в
конечной совокупности, а не на специфику причинно-следственных связей.
В 1965 году академик А.Н.Колмогоров ввел принципиально новое
алгоритмическое определение понятия количества информации. Алгоритмом
обычно называют некоторую систему правил, предписаний, определяющих
процесс или программу решения задачи. Идея, введенная Колмогоровым,
заключается в том, что количество информации определяется как длина
минимальной программы, позволяющей однозначно преобразовать один
объект (множество исходных данных) в другой объект (множество
результатов). Так, если имеется один объект (например, последовательность
букв а,а,а,а) и второй объект - эта же последовательность, то длина программы,
которую необходимо выполнить, чтобы преобразовать один объект во второй,
оказывается равной нулю. Таким образом, программа измеряет степень
тождества или степень различия двух объектов, выражая эту степень
количеством команд, инструкций, которые необходимо реализовать, выполнив
их в определенном порядке, чтобы перевести один объект в другой.
Пусть исходный объект – А, конечный объект – В, тогда программу мы
можем изобразить как функцию отображения Ф исходного объекта на
конечный объект, или множество В, как это показано на рис.1.1.
Рис.1.1. Функция отображения
В этом случае множество А можно рассматривать как множество
исходных данных, а В – как множество результатов. Чем больше
различаются эти два множества, тем более длинной или сложной оказывается
программа перехода от одного объекта к другому. Очевидно, если два
множества состоят из одних и тех же элементов, например А={а, в, с} и В=
{а, в, с}, то мощность множества ⏐Ф⏐=∅, т.е. длина программы, а
следовательно, и количество информации равны нулю.
Первоначальные представления об информации связаны с общением
людей. Возникновение и развитие кибернетики внесло коррективы в это
представление. Вот как определил информацию "отец" кибернетики Норберт
Винер в своей книге "Кибернетика или управление и связь в животном и
машине": "Информация – это обозначение содержания, полученного из
внешнего мира в процессе нашего приспособления к нему и приспособления
к нему наших чувств. Процесс получения и использования информации
является процессом нашего приспособления к случайностям внешней среды
и нашей жизнедеятельности в этой среде". Сейчас кибернетика является
комплексной наукой, в которую теория информации в определенном аспекте
входит как самостоятельная часть. Причем саму кибернетику иногда даже
определяют как науку о способах восприятия, хранения, передачи и
использования информации в машинах, живых организмах и в обществе.
В кибернетике информация выступает как синоним разнообразия,
которое получает и использует кибернетическая система. Согласно этой
концепции, информация существует там, где имеется разнообразие,
различие. Простейшей единицей измерения информации является
элементарное различие, т.е. различие двух объектов. Например, если в ящике
имеется два шара, отличающихся только цветом, то их совокупность
обладает разнообразием с количеством информации в один бит. Здесь, как и
в статистической теории, бит – это единица измерения количества
информации. Если же шары в нашем примере не различаются по цвету, то
говорят, что в этом отношении совокупность не содержит информации. Чем
больше в совокупности отличных друг от друга элементов, тем больше, с
точки зрения кибернетики, эта совокупность содержит информации. Можно
сказать, что информация появляется, когда два объекта различаются, и
исчезает, когда они становятся тождественными.
Кибернетика прежде всего связана с проблемой управления. Поэтому
кибернетику больше всего интересует преобразование, переработка
информации, предназначенной для достижения определенной цели,
связанной с управлением. Управление невозможно без восприятия, передачи,
а самое главное – без переработки и преобразования информации.
Информация, которой пользуются люди, обладает не только
количественными характеристиками, но и содержанием, или значением.
Причем для человека важно прежде всего значение информации, понимание
того, что передается в сообщении. Однако, чтобы воспринять сообщение,
принимающая информацию сторона должна обладать определенным запасом
знаний. В экономических системах этот запас знаний может быть
представлен в виде тезауруса – систематизированного словаря понятий с
указанием смысловых связей между ними. Тогда вновь полученное
сообщение будет по определенным критериям сопоставляться с тезаурусным,
в результате чего принимается решение о наличии в нем значения или
содержания для данной системы. Однако, если таковая даже не имеется, то
может иметь место развитие или обогащение системы за счет добавления
новых понятий и связей.
Исследователи семантической теории информации пытаются
количественно оценивать содержание информации, несомой знаками
человеческой речи, измерять сами суждения, понятия. Следует отметить, что
эта теория делает лишь свои первые шаги, и они, в основном, касаются
измерения содержания довольно простых искусственных языков.
1.2. Свойства экономической информации
Изучение информации показало, что для человека, кроме количества и
значения, информация обладает ценностью (или полезностью), которая
отражает прагматическую сторону информации. Однако здесь не может
быть однозначной оценки. Для разных людей одна и та же информация
может представлять различную ценность. Даже одна и та же информация в
разное время для конкретного человека может обладать различной
полезностью. С течением времени, как правило, большинство видов
информационных сообщений теряют свою полезность. Тем не менее в
экономических системах ценность информации можно определить через
вероятности достижения цели. Под полезностью информации может также
пониматься мера развития тезауруса экономической системы при приеме и
интерпретации того или иного сообщения.
Кибернетики считают, что в первоначальном состоянии любая система
при отсутствии управления полна неопределенности, ее поведение хаотично.
Но как только в системе появляется управление, в ней появляется
упорядоченность, начинает уменьшаться царящая в ней неопределенность.
Рассматривая управление как машину для переработки информации, мы
можем считать, что информация уменьшает разнообразие, а уменьшение
разнообразия повышает регулируемость системы. Это происходит не потому,
что упрощается управляемая система, а потому, что поведение системы
становится более предсказуемым. При этом следует учитывать, что
менеджеры имеют дело с организационными системами, обладающими
большим разнообразием, а следовательно, большой неопределенностью.
Причем с увеличением разнообразия увеличивается число возможных
состояний системы и усложняется ее математическое описание.
Информация, с которой, в основном, имеют дело экономисты,
маркетологи и менеджеры, носит название экономической информации. Она
является отражением всех экономических процессов как в самой организационной системе, так и во внешнем деловом мире, в котором функционирует
система. Экономическая информация представляет собой специфический
вид социальной знаковой информации. В аспекте знаковой структурной природы информация исследуется наукой о знаках и знаковых системах – семиотикой. С точки зрения ее основоположника Ч.Морриса, естественный язык
лишь одна из знаковых систем, используемых для обмена информацией в человеческом обществе. В таком представлении экономическая информация
выражается на языке, который представляет собой сложнейший конгломерат
знаковых подсистем, таких, как различные классификаторы и номенклатура,
элементы символического языка − языка математики, специфические структуры управленческих документов, специальная терминология и слова национального языка.
Анализ сообщений в языке экономического управления имеет три основных аспекта: синтаксический, смысловой и прагматический. С точки зрения семиотики язык − это определенная совокупность знаков и правил их
употребления, используемых для коммуникации. При синтаксическом анализе
исследуются дистрибуции знаков одного уровня (сочетаемость слов в показателе, показателей в документе) или различных уровней (образование показателей из слов, документов из показателей). Рассмотрение знаков экономического языка в смысловом аспекте означает исследование закрепленных за каждым из знаков значений (в частности, понятия классификации объектов) и
уточнение смысловых вариантов каждого из знаков в различных контекстах.
При анализе на прагматическом уровне измеряется "полезность" сообщений.
Характерной особенностью экономической информации является то,
что она существует, в основном, в документированном виде. Документ является основным носителем информации в организационных экономических
системах, т.е. системах, в которых имеет место организованное взаимодействие людей. В экономике документ служит основным средством регистрации
различных событий в деятельности хозяйственного объекта. В нем
отражается влияние многочисленных факторов, характеризующих
экономическое явление или экономический объект. Поэтому документ
представляет собой достаточно сложное информационное образование,
требующее отдельного детального изучения при анализе информационных
систем. Подход к изучению таких сложных объектов хорошо известен в
науке. Он состоит в отыскании элементарной составляющей сложных
образований или структур и всестороннего их изучения.
Любой объект или явление в экономике обладает рядом
характеризующих его свойств, выражающихся в параметрах, признаках или
характеристиках. Например, свойствами такого объекта, как продукция,
являются: наименование, класс, гарантия, предприятие-производитель, цена
и т.д. А такой экономический объект, как торговая фирма, может
характеризоваться следующими свойствами: наименование, адрес, номер
банковского счета. Состав параметров, характеризующих конкретный
объект, может меняться в зависимости от конкретной задачи. Так,
приведенный в предыдущем примере перечень свойств фирмы может вполне
удовлетворить среднего покупателя, но окажется недостаточным для
налоговых органов. Кроме того, большинство свойств экономических
сущностей могут изменяться, а следовательно, параметры, их описывающие,
должны быть величинами переменными.
Параметры, описывающие экономический объект или явление,
целесообразно выбрать в качестве элементарных составляющих, из которых
образуются более сложные структурные информационные образования, в
том числе и документы. В экономических информационных системах эти
параметры носят названия реквизитов или атрибутов. Причем, термин
реквизит
чаще
применяется
в
документальных
немашинных
информационных системах (ИС), а термин атрибут используется в
компьютерных ИС, связанных с базами данных. Другими синонимами
атрибута и реквизита, часто встречающимися в литературе, являются такие
термины, как элемент, терм и признак. Мы чаще будем пользоваться
термином атрибут, понимая, что атрибуты – это элементарные единицы
информации, из которых образуются более сложные составные единицы
информации (СЕИ). Единицу информации любой сложности или СЕИ можно
представить состоящей из атрибутов как из элементарных компонентов.
Взаимосвязь и взаимообусловленность экономических объектов и
явлений проявляется и в информации, т.к. одно и то же свойство может наблюдаться у разных экономических сущностей. Так, например, признак "дата" необходим для фиксации процесса труда, при отображении поступления
материальных ценностей и во многих других случаях. Признак "шифр цеха"
может фигурировать в сообщениях о поступлении сырья и материалов, в плановых документах и документах о премировании работников. Это говорит о
том, что отдельный атрибут обладает определенной самостоятельностью и
имеет характерные только для него свойства, и он может фигурировать в самых разнообразных СЕИ, относящихся к различным экономическим
объектам и явлениям.
Всесторонняя характеристика атрибута вне зависимости от его вхождения в различные СЕИ достигается с помощью свойства, которое называется
формой атрибута. Форма атрибута определяет его полное наименование,
другие имена-синонимы, включая сокращенные идентификаторы, типы и
классы значений, ограничения, накладываемые на конкретные значения, признаки редактирования и т.д.
Наименование, или имя атрибута используется для однозначной его
идентификации. Обычно это слово или группа слов, например "шифр цеха".
При разработке информационных систем для компактного написания вместо
полного наименования атрибута применяют часто имена-идентификаторы,
которые закрепляются за атрибутами при использовании в различных задачах.
Классом значений атрибута называется некоторое конечное множество значений, которое он может принимать. Например, атрибуты "гарантия"
и "класс изделия" имеют вполне определенные конечные множества значений. Используя это понятие можно сказать, что значение атрибута есть в каждый заданный момент времени одна из позиций класса значений данного
атрибута.
Таким образом, каждый атрибут можно рассматривать с двух сторон:
со стороны его формы (наименование) и со стороны содержания (класс
значений). Т.е. со стороны наименования строки или столбца документа и наличия определенного числа или текста, записанного в данную строку или
столбец.
Таким же образом можно говорить о форме и содержании любого
документа, понимая под формой документа строго закрепленный за этим
документом перечень форм атрибутов, а под содержанием – конкретные
значения этих атрибутов. В качестве примера рассмотрим фрагмент
документа "Ведомость на зарплату", представленный на рис. 1.2.
Рис. 1.2. Фрагмент документа "Ведомость на зарплату"
На этом рисунке наименование атрибутов представляют
наименования столбцов. Каждая строка данного документа или таблицы
представляет описания одного объекта, в данном случае работника, и
носит название кортежа или записи.
В конкретных организационных системах отдельные формы
документов не очень часто подвергаются изменениям. В связи с этим любая
организация изготавливает и использует в своей деятельности бланки документов, отпечатанных типографским способом в достаточно больших количествах. Что касается содержания или значения атрибутов, то для некоторых
из них оно остается неизменным в течение длительного времени, например
нормы, нормативы, тарифы и т.п. Они относятся к так называемым постоянным атрибутам. Остальные, содержание которых остается неизменным
лишь ограниченное время, называются переменными, например выработка
рабочего, бригады, цеха и т.д.
В экономических системах наибольшее распространение получили числовой и текстовой типы атрибутов. Атрибуты численного типа характеризуют количественные свойства сущностей и носят название оснований.
Атрибуты текстового типа выражают, как правило, качественные свойства сущностей и характеризуют обстоятельства, при которых имел место изучаемый процесс и были получены те или иные числовые значения, они
носят название признаков. Признаки, в свою очередь, подразделяются на индивидуальные и общие. Индивидуальные признаки указывают на те особенности, которыми одно явление отличается от других, т.е. с их помощью производится индивидуализация сообщения. Обобщающие признаки служат
для представления таких свойств, которые могут послужить основой для
обобщения.
Несмотря на то, что признаки относятся к атрибутам текстового типа,
их значениями могут являться не только последовательности букв и специальных знаков, но и последовательности цифр, например дата или табельный
номер работающего. Все эти последовательности называются строками или
текстом. Можно сказать, что полный набор попарно различимых символов
данной информационной системы составляет ее алфавит.
Частным случаем сообщения является показатель – составная единица информации, состоящая из одного атрибута-основания и ряда характеризующих его и связанных с ним логическими отношениями атрибутов-признаков. Таким образом, если продолжить сравнение атрибута с атомом
вещества, то можно утверждать, что показатель подобен молекуле, которая
является мельчайшей частицей вещества, отражающей его свойства.
В зависимости от того, отражает ли данный показатель достигнутые результаты или те, которые нужно получить в будущем, показатели подразделяются на фактические и намеченные или плановые и нормативные. Часть
признаков показателя отражается при его фиксации (отражаемые признаки),
а другая часть существует в скрытом виде и может быть при случае включена
в отображаемый состав элементов показателя (скрытые признаки). Например, очень часто такие признаки как "декада", "год" существуют в большинстве показателей в скрытом виде. С другой стороны, не все из отображающихся в документах признаков, имеют право на существование. При продуманном составлении документов многие из них могут быть переведены в разряд скрытых. На этом основано разделение всех признаков на обязательные и
необязательные. Множество обязательных признаков образует минимум
призначной части.
По отношению к основанию показателя признаки подразделяются на
признаки-ограничители, или группировочные признаки, и справочные признаки. Первые названы так потому, что они как бы ограничивают основание, т.е.
не дают его значениям выйти за рамки группировочного признака. Так, признак "номер цеха" ограничивает содержание основания пределами определенного структурного подразделения.
Общий вид показателя следующий:
P={p1, p2,..., pn, q},
где pi, i=1,2,...n - атрибуты-признаки, q – атрибут-основание.
Одной из причин выделения показателей в особую разновидность СЕИ
является то, что показатель, по существу, минимальная информационная совокупность, сохраняющая информативность, и поэтому достаточная для
образования самостоятельного документа. Например, такой широко
распространенный документ, как пластиковая кредитная карточка, содержит
всего одно основание – величину средств на расчетном счете владельца.
Фрагмент "Ведомости на зарплату", приведенный на рис.1.2, тоже
представляет собой показатель, поскольку здесь всего один реквизитоснование – зарплата. Общий вид этого показателя
P=(p1, p2, q).
Здесь мы используем круглые скобки для того, чтобы подчеркнуть
порядок следования реквизитов в конкретном документе.
Атрибут и показатель – это атомы и молекулы, из которых строятся более сложные информационные совокупности. Таким образом, показатели, с
одной стороны – простейшие СЕИ, способные к документообразованию, а с
другой – сложное образование информации, охватывающее описание многообразных качественных свойств и количественных характеристик сущности.
С появлением технических средств, обеспечивающих массовое централизованное хранение данных при возможности быстрого обращения к ним,
показатель становится основной единицей хранения информации, обладающей информативностью.
Кроме того, показатель с успехом применяется как обобщающая единица измерения объема данных. Это связано с тем, что применение в качестве
измерителей информации таких единиц как "слово", "знак", "символ" позволяет довольно точно определить физические объемы данных. Но эти единицы не обладают информативностью, а следовательно, не позволяют судить о
содержании хранимого объема информации.
Можно выделить семь классов признаков, входящих в экономический
показатель и описывающих объект и свойства экономического показателя:
• формальная характеристика объекта показателя;
• характеристика процесса производства;
• характеристика объекта производства;
• единицы измерения объектов;
• взаимодействие "объект - субъект";
• время взаимодействия объектов;
• функции управления.
Эти признаки образуют, соответственно, семь классов признаков экономического показателя: К1 - К7. Каждый из этих классов может включать
подклассы со свойствами предметов. Например, класс признаков "формальная характеристика объекта" К1 образует два подмножества: М1 – абсолютные показатели и М2 – относительные показатели. В классе "единицы измерения" К4 можно выделить следующие подклассы:
• натуральные – М9;
• трудовые – М10;
• стоимостные – М11;
• временные – М12.
Общая схема классификации экономических показателей представлена
на рис.1.3.
Рис.1.3. Схема классификации показателей
По способу возникновения показатели можно подразделить на две
группы. Одни это те, которые возникают в результате фиксации изучаемого
явления путем измерения и счета или принятия заранее обусловленных норм,
нормативов, цен, тарифов и т.п. Это так называемые первичные показатели.
Другие возникают в результате обработки уже известных первичных показателей. Это так называемые производные или сводные показатели.
1.3. Формы представления информации
В информатике информация, представленная в формализованном виде,
пригодном для автоматизированной обработки, носит название данных. Под
автоматизированной обработкой понимается обработка информации на ЭВМ
при возможном участии человека. Можно сказать, что данные – это
компьютерное представление информации. Превращение информации в
данные происходит в процессе кодирования информации, при котором
любая информация превращается в совокупность "0" и "1". Для
компьютерных систем можно считать, что информация – это смысл,
который приписывается двоичным кодам.
Данные являются исходным материалом
для процессов обработки данных. В начале эти
процессы обеспечивали только обработку
текстов, а затем – изображений и звука.
Развитие аппаратных и программных средств
позволяет представлять в мультимедийной
среде различные типы данных, проводить их
интеграцию в единой технологии обработки
данных. Это стало возможным благодаря
Рис.1.4.Формы представления представлению текста, речи и звука в виде
изображений. Таким образом различные формы
данных
представления
данных
образовали
пересекающиеся множества (рис.1.4.).
Данные в информатике формируются в
группы, образуя компоненты баз данных и баз
знаний.
Формы
представления
данных
определяют
и
характер
пользовательского интерфейса. Можно сказать, что формой обмена
информацией, или пользовательским интерфейсом является язык устного
(звукового) и текстового взаимодействия, а также язык изображения.
Технический прогресс в области вычислительной техники, а именно,
возросшая внутренняя и внешняя память компьютеров, расширение их
графических возможностей, появление лазерных дисков, повышение
качества видеотехники и многое другое, позволили реализовать
принципиально новый подход к традиционным формам представления
информации.
Обычно любая экономическая информация имеет форму плана, отчета,
проекта. Как правило, эти документы содержат тексты, таблицы, графики.
Информация, содержащаяся в них, при восприятии ее человеком
представляется как одна длинная строка символов, читаемая лишь в одном
направлении.
Как ни парадоксально, но такое, привычное нам представление
информации является малоэффективным с точки зрения ассоциативной
психологии. Ассоциативная психология – это теория, сводящая
психологические процессы, прежде всего мышление, к ассоциации
представлений. С позиций этой теории более эффективным является такое
представление, при котором текст представляется как многомерная структура
фрагментов, имеющих многочисленные связи друг с другом. Переходя по
этим связям от одного фрагмента к другому можно уточнять информацию об
изучаемом объекте. Таким образом, информация, содержащаяся в каждом
фрагменте, дополняется за счет связей с другими объектами. Такой способ
размещения информации, основанный на принципах ассоциативного
мышления, называется гипертекстом.
Гипертекст – это такая форма организации, при которой весь
информационный материал разделяется на фрагменты, в каждом из
которых указываются связи с другими фрагментами. Связи между
фрагментами устанавливаются на основе семантической, смысловой
близости фрагментов. Переходя по указанным во фрагменте связям можно
просматривать текстовой материал не только в одном направлении, а в
любом
выбираемом
пользователем
порядке.
Следовательно,
гипертекстовая технология заключается в многомерном представлении
текста иерархической структурой типа сети.
У гипертекста нет жестко заданной структуры. При таком
представлении текст теряет свою одномерность и замкнутость. Он
становится открытым для включения новых фрагментов с указанием в них
связей с имеющимися. Это включение не разрушает существовавшей ранее
структуры текста, а только дополняет ее. В отличии от других моделей
представления информации гипертекстовая технология – это технология
неструктурированного свободно наращиваемого знания.
Использование гипертекста позволяет фиксировать отдельные мысли,
факты, знания, а затем связывать их друг с другом в любых направлениях,
определяемых ассоциативными связями, образуя нелинейный текст.
Применение гипертекстовых технологий в немашинном варианте имеет
достаточно давнюю историю. Это справочники, энциклопедии, словари,
различные картотеки, снабженные развитыми системами ссылок. Термин
гипертекст ввел Т. Нельсон. Он же впервые реализовал на ЭВМ способ
размещения информации по принципу ассоциативного мышления еще во
второй половине шестидесятых годов. Однако по-настоящему массовое
применение гипертекстовых технологий началось всего несколько лет назад.
Оно связано с широким использованием экрана дисплея в качестве средства
отображения информации и разработкой различных программных сред,
облегчающих работу пользователей с ЭВМ.
Большинство программных средств построено таким образом, что в
самом начале работы пользователю на экран дисплея выводится
информационная панель, по которой он может выбрать тот или иной
информационный объект, ассоциативно указав соответствующую связь на
экране. Информационный объект может быть текстовым, графическим,
музыкальным, с использованием средств анимации и т.д. В зависимости от
способа представления информация будет выдана на экран дисплея, принтер,
плоттер, аудио- или видеотехнику.
Гипертекстовые
технологии
предоставляют
пользователю
принципиально новые возможности освоения информации. Они
ориентированы на обработку информации человеком совместно с машиной, а
не на автоматический поиск по соответствующим ключам. Гипертекстовая
технология предполагает перемещение от общих информационных объектов
к другим с учетом их семантической (смысловой) связности. При этом
происходит автоматическое запоминание пути перемещения по
гипертекстовой сети.
Структурно гипертекст состоит из информационных статей с
заголовками, списка главных тем, алфавитного словаря и тезауруса.
Информационная статья содержит текст, который может
сопровождаться примерами, пояснениями, ссылками. Текст статьи должен
быть представлен так, чтобы упростить его визуальный беглый просмотр.
Для этого основная информация должна быть соответствующим образом
выделена другим шрифтом или подсветкой. Информационная статья по
объему информации должна занимать одну панель экрана и быть легко
обозримой. Все должно быть представлено так, чтобы пользователь очень
быстро мог понять, стоит ли ему внимательно читать статью или лучше
обратиться к другим информационным объектам.
Заголовок содержит тему или наименование объекта.
Список главных тем содержит заголовки всех справочных статей.
Алфавитный словарь включает в себя перечень наименований всех
информационных статей в алфавитном порядке.
Тезаурус – это автоматизированный словарь, отображающий
семантические отношения между лексическими единицами дескрипторного
информационно-поискового языка, предназначенный для поиска слов по их
смысловому содержанию. Впервые термин “тезаурус” был использован для
названия энциклопедии в XIII в. Он состоит из тезаурусных статей, каждая из
которых имеет заголовок и список заголовков родственных тезаурусных
статей, где указан тип родства по всем заголовкам. Существуют следующие
типы родства или отношений: вид-род, род-вид, предмет-процесс, процесспредмет, целое-часть, часть-целое, причина-следствие, следствие-причина и
т.д. Заголовок тезаурусной статьи совпадает с наименованием
информационной статьи и является наименованием объекта, описание
которого приводится в информационной статье. Надо сказать, что тезаурус
гипертекста в отличие от тезаурусов-дескриптеров, используемых в
информационно-поисковых системах, может содержать не только простые,
но и составные наименования объекта.
К полноте указанных в тезаурусной статье связей и точности их
установления выдвигаются особые требования, поскольку они во многом
определяют качество поиска.
Вообще говоря, формирование тезаурусной статьи гипертекста
означает индексирование текста. Глубина индексирования текста зависит от
родовых и видовых отношений. По родовому типу связей пользователь
получает более общую информацию, а по видовому – специфическую
информацию без повторения общих положений из родовых тем. В
гипертексте весь поисковый аппарат реализуется как тезаурус гипертекста, а
не делится, как в информационно-поисковых системах, на массив поисковых
образов-документов и тезаурус.
Гипертекст можно представить в виде ориентированного графа, в узлах
которого находятся текстовые описания объектов (информационные статьи),
а дуги указывают на существование связи между объектами и на тип родства.
В настоящее время область применения гипертекстовых технологий
достаточно широка. Это обучающие системы, библиотечная работа,
разработка
документации,
издательская
деятельность,
разработка
справочных руководств и нормативных актов, баз данных и знаний и многое
другое. В большинстве современных программных продуктов вся помощь
(help) основана на использовании гипертекстовой технологии на базе меню.
В основу наиболее популярного сервиса WWW (World Wide Web) также
положена гипертекстовая технология. Там множества отдельных текстов,
имеющих ссылки друг на друга, называются документами, статьями или
страницами, и слова, находящиеся в одном документе, как бы привязаны к
другим документам.
Создание гипертекста, как правило, производится в три этапа: идеи (их
сбор), план (связь целей) и реализация ветвящейся структуры гипертекста.
Уже созданный гипертекст может служить основой базы знаний и
дальнейшего ее развития путем выполнения последующих циклов.
Гипертекстовая технология дает возможность структурированного
представления любого текста, в котором автор может выделить несколько
уровней детализации информации. Если к блокам текста добавляется
большое количество изображений и записи звука, гипертекст превращается в
гиперсреду.
1.4 Информация и информатика
Рассмотрев понятие информация, мы можем перейти к понятию
информатика.
Под термином информатика понимают науку о вычислениях,
хранении и обработке информации. Она включает так или иначе
относящиеся к вычислительным машинам дисциплины, которые изучают
свойства информации, способы ее представления, накопления, обработки и
передачи с помощью технических средств. Среди них есть абстрактные и
конкретные дисциплины. Примером абстрактной дисциплины может быть
анализ алгоритмов, а конкретной – разработка языков программирования.
Самостоятельной наукой информатика была признана лишь в 1970-х;
до этого ее развитие шло в рамках математики, электроники и других
технических наук. Некоторые основы информатики можно обнаружить даже
в лингвистике.
Теоретическую основу информатики образуют фундаментальные
науки, которые в равной степени можно отнести как к математике, так и к
кибернетике: теория информации, теория алгоритмов, математическая
логика, теория формальных языков и грамматик, комбинаторный анализ и
т.д. Кроме них информатика включает разделы, непосредственно
относящиеся к вычислительным машинам: архитектура ЭВМ, операционные
системы, теория баз данных, технология программирования и многие другие.
Многообразие отраслей, затрагиваемых информатикой, подчеркивают
слова выдающегося нидерландского ученого Эдсгера Дейкстра, идеи
которого оказали огромное влияние на развитие компьютерной индустрии.
Он говорил, что: “Информатика не более наука о компьютерах, чем
астрономия – наука о телескопах”.
Согласно тезису Черча – Тьюринга, высказанному в 1930-х годах, все
известные типы вычислительных машин качественно эквивалентны в своих
возможностях: любое действие, выполнимое на одной вычислительной
машине, также выполнимо и на другой. Этот тезис часто преподносят как
фундаментальный принцип информатики, подчеркивая явное сходство
большинства ныне действующих компьютеров с машиной Тьюринга и
машиной фон-неймановской архитектуры.
Среди основных тем исследований в информатике можно выделить
следующие вопросы:
•
что можно, а что нельзя реализовать в программах (теория
вычислимости и искусственный интеллект);
•
каким образом можно решать специфические задачи с
максимальной эффективностью (алгоритмы);
•
в каком виде следует хранить и восстанавливать информацию
специфического вида (структуры данных);
•
как программы и люди должны взаимодействовать друг с другом
(пользовательский интерфейс и языки программирования).
Под
информационными
технологиями
принято
понимать
совокупность конкретных технических и программных средств, с помощью
которых выполняются разнообразные операции по обработке информации во
всех сферах жизнедеятельности человека.
В настоящее время, под информационными технологиями, чаще всего,
понимают компьютерные технологии, так как информационные
технологии имеют дело с использованием компьютеров и программного
обеспечения для хранения, преобразования, защиты, обработки, передачи и
получения информации.
Под получением информации подразумевается получение фактов,
сведений и данных о свойствах, структуре или взаимодействии объектов и
явлений окружающего нас мира.
Предметное содержание информации позволяет уяснить ее основные
свойства:
•
Достоверность.
Под достоверной понимают информацию не искажающую истинное
положение дел. Очевидно, что недостоверная информация может привести
к принятию неправильных решений.
•
Полнота.
Полнота информации определяется ее достаточностью для понимания
и принятия решений. Неполнота информации сдерживает принятие
решений или может повлечь ошибки.
•
Ценность.
Ценность информации зависит от того, какие задачи мы можем решить
с ее помощью.
•
Актуальность.
При работе в постоянно изменяющихся условиях важно иметь
актуальную, т.е. соответствующую действительности, информацию.
•
Понятность.
Информация становится понятной, если она выражена языком,
доступным людям, для которых она предназначена.
Download