СПРАВКА Анализ форматов файлов электронных документов XML – eXtensible Markup Language, формат данных, используемый для описания содержимого документов (подобно SGML – Standard Generalized Markup Language). Данный формат получил широкое распространение вследствие своей расширяемости и легкой интеграции с базами данных. XML является средством описания документа. В большинстве веб-браузеров в случае неиспользования CSS (Cascading Style Sheets) или XSL (eXtensible Stylesheet Language) XMLдокумент представляется в виде простого текста. Ряд браузеров (Internet Explorer, Mozilla Firefox и Opera (встроенный инструмент Opera Dragonfly)) отображают структуру документа в виде дерева, позволяя сворачивать и разворачивать узлы с помощью нажатий клавиши мыши. Таким образом, XML-документ представляет собой текстовый файл, в котором при помощи специальных маркеров создаются элементы данных, последовательность и вложенность которых определяет структуру документа и его содержание. Главными преимуществами XML-документов являются: 1) относительно простой способ создания и обработки (возможность редактирования и обработки текста любым текстовым процессором и стандартными XML-анализаторами) 2) возможность создания структурированной информации, которую результативно распознают компьютеры. Вместе с тем, передача данных исключительно в формате XML не позволяет корректно визуализировать передаваемый документ, так как в результате значительной гибкости языка, отсутствия строгих ограничений и общепринятой методологии для моделирования данных в XML, одна и та же структура может быть представлена множеством способов (различными разработчиками). В связи с этим, в качестве содержимого контейнера XML предлагается передавать визуальное отображение документа. Для этого необходимо определить формат файла передаваемого документа. С целью выбора единого формата файла Минкомсвязью России проведен анализ стандартов файлов. Для этого выбраны наиболее распространенные стандарты, используемые органами исполнительной власти в своей деятельности. Полный список параметров для анализа приведен в Таблице 1. Таблица 1. Сравнительная характеристика основных форматов документов Doc Пропиетарный PDF ISO 32000 Открытый PDF/A ISO 19005-1:2005 Открытый Межплатформенн ый формат файлов документов Межплатформенн ый формат файлов документов Стандарт для долгосрочного архивного хранения электронных документов Наличие бесплатного программного обеспечения Нет Да Самодостаточность документа (сам документ содержит все необходимое для его корректного отображения) Возможность полнотекстового поиска Не содержит шрифтов Наличие «опасных» возможностей (встроенного кода, шифрования, средств управления правами доступа и т.д. Сжатие графических объектов с потерями Возможность конвертации из других форматов Стандартизация Открытость формата Назначение формата DjVu Проприетарный ODF ISO/IEC 26300. Открытый Tiff JPEG Открытый формат файлов документов для хранения и обмена редактируемыми офисными документами Да Формат хранения растровых графических изображений Графический формат для хранения фотоизображени й и подобных им изображений Да Технология сжатия изображений с потерями, разработанная специально для хранения сканированных документов Да Да Да Не содержит шрифтов Да Нет Нет Да Да Да Да (при наличии текстового слоя) Да (при наличии текстового слоя) Да (при наличии текстового слоя) Да Да (при наличии текстового слоя) Да (при наличии текстового слоя) Могут использоваться Могут использоваться Запрещены Не поддерживаются встраиваемые объекты Могут использоваться Не поддерживаются встраиваемые объекты Нет Нет Нет Нет Нет Нет Ограничена (в связи с закрытостью стандарта) Да Да Да (может привести к “нечитаемости” графических объектов) Ограничена Да Ограничена Да Пропиетарный На основе приведенной таблицы можно сделать вывод, что формат PDF/A является наиболее приемлемым форматом для визуализации передаваемых документов. Основное преимущество данного формата перед остальными заключается в высоком уровне автономности документов формата PDF/A. Вся информация, необходимая для многократного отображения документа в неизменном виде, содержится в файле документа и состоит из: - содержимого документа (текст, растровые изображения и векторная графика); - шрифтов и информации о цвете. Документы формата PDF/A, в отличие от XML, не могут использовать информацию из внешних источников (как шрифтовые программы или гиперссылки), а следовательно имеет больший уровень защищенности. Стоит отметить, что целью внедрения формата PDF/A является обеспечение растущей потребности электронного архивирования документов средствами, позволяющими гарантировать сохранность содержимого документов в течение продолжительного периода времени и обеспечивать возможность корректного отображения информации, содержащейся в документах. Таким образом, PDF/A и XML выполняют две различные, но взаимодополняющие функции: XML описывает содержимое документа, PDF/A описывает его внешний вид. Возможности формата XML и PDF/A приведены в Таблице 2. Таблица 2. Возможности XML и PDF № Возможности XML п/п 1 Простой формальный синтаксис, удобный для создания и обработки документов Возможности PDF Визуализация документа 2 Удобен для чтения и создания документов Цельное отображение документа 3 Избыточность разметки Стандартизированный формат