2. КЛАССИФИКАЦИЯ ИНФОРМАЦИИ 2.1. ПРЕДСТАВЛЕНИЕ И ИЗМЕРЕНИЕ ИНФОРМАЦИИ Основной формой представления информации являются данные (зарегистрированные сигналы). Физический метод регистрации может быть любым: механическое перемещение физических тел, изменение их формы или параметров качества поверхности, изменение электрических, магнитных, оптических характеристик, химического состава и (или) характера химических связей, состояния электронной системы и т.п. В соответствии с методом регистрации данные могут храниться и транспортироваться на носителях различных видов. Любой носитель можно характеризовать параметром разрешающей способности (количеством данных, записанных в принятой для носителя единице измерения) и динамическим диапазоном (логарифмическим отношением интенсивности амплитуд максимального и минимального регистрируемого сигналов). От этих свойств носителя нередко зависят такие свойства информации, как полнота, доступность и достоверность. В ходе информационного процесса данные преобразуются из одного вида в другой с помощью методов. В структуре возможных операций с данными можно выделить следующие методы: сбор данных - накопление информации с целью обеспечения достаточной полноты для принятия решений; формализация данных - приведение данных, поступающих из разных источников, к одинаковой форме, чтобы сделать их сопоставимыми между собой, т.е. повысить уровень их доступности; фильтрация данных - отсеивание "лишних" данных, в которых нет необходимости для принятия решений, при этом должен уменьшаться уровень "шума", а достоверность и адекватность данных должны возрастать; сортировка данных - упорядочение данных по заданному признаку с целью удобства использования, что повышает доступность информации; архивация данных - организация хранения данных в удобной и легкодоступной форме, служащая для снижения экономических затрат на хранение данных и повышающая общую надежность информационного процесса в целом; защита данных - комплекс мер, направленных на предотвращение утраты, воспроизведения и модификации данных; транспортировка данных - прием и передача данных между удаленными участниками информационного процесса; в этом случае источник данных в информатике принято называть сервером, а потребителя - клиентом; преобразование данных - перевод данных из одной формы в другую или из одной структуры в другую. Преобразование данных часто связано с изменением типа носителя. Необходимость в многократном преобразовании данных возникает также при их транспортировке, особенно если она осуществляется средствами, не предназначенными для транспортировки данного вида данных. Логической формой представления информации (в экономической информационной сфере) является документ - информационная совокупность, имеющая самостоятельное смысловое значение и состоящая из логически связанных реквизитов. Информационная совокупность должна быть зафиксирована на материальном носителе в соответствии с существующими правилами и иметь юридическую силу. Реквизит - логически неделимый элемент информационной совокупности (минимальная единица информации), он отражает определенные свойства объекта или процесса и имеет законченное смысловое содержание и потребительскую значимость. Реквизит нельзя разделить на более мелкие единицы без разрушения его смысла. Логически связанные реквизиты формируют информационную совокупность называемую показателем - составной единицей информации (СЕИ). Каждый показатель состоит из одного реквизита-основания и одного или нескольких реквизитов-признаков. Реквизит-основание характеризует, как правило, количественное значение показателя, реквизит-признак - смысловое значение показателя и опреде- ляет его наименование. Информацию можно измерить. На синтаксическом уровне, где принято употреблять термин данные, для измерения информации часто используется понятие объема данных (число экземпляров документов, количество документострок, записей файлов, символов, байтов, битов и т.п.). Объем данных сообщения измеряется количеством элементов (разрядов) в этом сообщении. В различных системах счисления один разряд имеет различный вес и в соответствии с ним меняется единица измерения данных: в двоичной системе счисления единица измерения - бит (bit - binary digit - двоичный разряд); в десятичной системе счисления единица измерения - дит (десятичный разряд). Данные - это "сырье" для получения информации. Термин информация, как было показано выше, означает устранение неопределенности путем преобразования данных. Противоположный по смыслу термин - энтропия, является мерой этой неопределенности. Информативность сообщений (количество передаваемой информации) тем выше, чем более определенным становится для получателя информации состояние системы. Энтропия системы, имеющей N возможных состояний, согласно формуле Шеннона, H(a) = -∑РilоgaPi, где Pi - вероятность того, что система находится в i-м состоянии; а - основание логарифма, определяющее систему единиц измерения количества информации - бит для двоичной и дит для десятичной систем. Энтропия H равна нулю только тогда, когда все вероятности Pi, кроме одной, равны нулю, а эта единственная вероятность равна единице (полная определенность состояния системы). При заданном числе состояний системы N величина H максимальна и равна logaN, в случае, когда все Pi равны. Семантическая мера информации - "содержательность" -основана на наличии тезауруса системы. Тезаурус включает взаимоувязанные понятия, термины, определения, согласованные структуры данных логического уровня представления (базы данных, формы документов, технико-экономические показатели). Тезаурус выражает "знания" о системе. Новая информация воспринимается через тезаурус, который может пополняться новыми элементами. Информативность сообщений (количество содержательной информации Ic) зависит во многом от получателя, способного расширить свой тезаурус. Прагматическая мера информации определяет полезность информации (ценность) для достижения пользователем поставленной цели. Ценность информации целесообразно измерять в тех же самых единицах (или близких к ним), в которых измеряется целевая функция. Структурная мера информации с увеличением объемов накапливаемой в компьютерах информации приобретает все большее значение, так как связана с проблемами хранения, реорганизации и извлечения информации. При структурном подходе абстрагируются от субъективности, относительной ценности информации и рассматривают лишь логические и физические структуры организации информации. При машинном хранении (физическая организация информации) единицей информации является байт, содержащий восемь бит (двоичных единиц информации). Менее определенной, но также переводимой в байты является неделимая единица экономической информации - реквизит. Реквизиты объединяются в показатели, показатели - в записи, записи - в массивы (документы), из массивов создаются комплексы массивов, а из комплексов - информационные базы (ИБ). Структурная теория позволяет на логическом уровне построить оптимальную структуру информационной базы, которая затем с помощью определенных средств реализуется на физическом уровне -уровне технических средств хранения информации. От выбранной структуры хранения зависит такой важный параметр, как время доступа к данным, так как структура влияет на время записи и считывания информации, а значит, и на время создания и реорганизации информационной базы. Информационная база совместно с системой управления базой данных (СУБД) формирует банк данных (БД). После преобразования информации в машинную форму ее аналитический и прагматический аспекты как бы уходят в тень, и дальнейшая обработка информации происходит по "машинным законам", одинаковым для информации любого смыслового содержания. 2.2. КЛАССИФИКАЦИЯ И КОДИРОВАНИЕ ИНФОРМАЦИИ С увеличением объема данных Vд растет и объем работы по преобразованию информации (данных) в информационной системе. Понятно поэтому стремление к повышению информативности данных, для чего применяют специальные методы кодирования информации. Основу экономической информационной системы составляют классификаторы и кодификаторы технико-экономической информации. Система классификации - совокупность правил и результат распределения заданного множества объектов M на подмножества Мij в соответствии с признаками сходства или различия. Различают два метода классификации (рис. 1). Согласно иерархическому методу между классификационными группировками устанавливаются отношения Рис. 1. Классификация объектов: а - иерархическая (∩Mij = Mi, ∀i); б - фасетная (∩Mij = Mi, ∀i) подчинения на основе последовательной детализации свойств (например, класс - подкласс - группа - подгруппа - вид и т.д.). В иерархической классификации каждый объект попадает только в одну классификационную группировку, объединение группировок одного иерархического уровня дает исходное множество объектов. Глубина иерархии определяется классификационными признаками. При фасетном методе исходное множество объектов разбивается на подмножества в соответствии со значениями отдельных фасетов. Фасет - набор значений одного признака классификации. Фасеты взаимно независимы и каждый объект может одновременно входить в различные классификационные группировки. Кодирование предназначено для присвоения объектам или классификационным группировкам условных обозначений - кодов. Коды характеризуют по следующим признакам: используемый алфавит (цифры, буквы, штрихи, цвета); длина и структура обозначений кода; метод кодирования: классификационный и регистрационный (идентификационный). Как правило, при кодировании экономической информации используются цифровые и буквенно-цифровые коды, штрих-коды, что обусловлено их большей точностью и строгостью системы обозначений. Структура кода описывает состав и назначение отдельных разрядов кода. Если выполнена предварительная классификация объектов, применяются классификационные методы кодирования: последовательное кодирование, основанное на иерархической системе классификации; параллельное кодирование согласно фасетной системе классификации объектов. Регистрационный метод кодирования для идентификации объектов состоит в последовательной нумерации объектов либо присвоении номеров выделенной серии объектов. Для некоторых множеств код объекта содержит классификационную часть, раскрываю- щую признаки объекта, и идентификационную часть, обеспечивающую однозначную идентификацию объекта. Эти части кода могут использоваться независимо друг от друга (метод раздельной идентификации и кодирования - РИК). Идентификация объектов может также осуществляется внутри классификационных группировок (метод совместной классификации и идентификации - СКИ). К кодам экономической информации предъявляются следующие требования: минимально необходимая структура кода с учетом возможного расширения множества кодируемых объектов; учет специфики программных и технических средств обработки данных; помехозащищенность кода. Классификаторы и кодификаторы имеют различные сферы действия: локальные (внутрисистемные) - только в рамках отдельной (локальной) информационной системы (ИС); отраслевые - для всех ИС одной отрасли народного хозяйства; региональные (республиканские, городские, областные) -для всех ИС одного региона; общероссийские - для ИС, принадлежащих субъектам Российской Федерации; международные. Чем выше уровень действия классификатора, тем более общими являются заложенные в нем признаки объектов, и тем шире номенклатура объектов. Информационный обмен в ИС осуществляется с использованием единых классификаторов более высокого иерархического уровня. Помехозащищенность кода обеспечивается включением в код избыточных контрольных чисел, которые вычисляются по определенному алгоритму. Наиболее традиционным является метод остатка по модулю простого числа и использование весовых коэффициентов разрядов кода. k = (∑aj • bj)modq, где k - контрольное число; a - весовой коэффициент разряда; b - значение разряда кода; q "простое" число. Например, исходный код 48005, в качестве весовых коэффициентов разрядов кода выбраны числа 3, 5, 7, 11, 13, "простое" число - 11. Вычисляют сумму произведений значений разрядов кода на их "веса": 4 ∙ 3 + 8 ∙ 5 + 0 ∙ 7 + 0 ∙ 11 + 5 ∙ 13. Находят остаток по модулю 11 для вычисленной суммы: (117)mod11 = 7. Строится помехозащищенный код - 48005 7. Для обнаружения ошибок выполняется повторное вычисление контрольного разряда. Если рассчитанное значение отличается от контрольного разряда, значит, есть ошибка. Как правило, однократные ошибки имеют наибольший удельный вес, и они хорошо обнаруживаются; ошибки большей кратности, хотя и маловероятны, могут не обнаруживаться. Классификаторы и кодификаторы являются наиболее представительной частью нормативно-справочной информации экономических информационных систем, поэтому большое значение уделяется обеспечению высокого качества информации классификаторов. Качество информации определяется следующими факторами: полнотой номенклатуры классификаторов и кодификаторов; правильностью (безошибочностью) кодов и наименований классификационных группировок; актуальностью информации классификаторов и кодификаторов. Информационные технологии создания и ведения классификаторов и кодификаторов должны обеспечивать удобство ввода и корректировки больших объемов информации, контроль достоверности и формата значений кодов. Редактирование классификаторов и кодификаторов должно быть санкционированным.