Таблица 2 - Visual2000.ru

advertisement
СПРАВКА
Анализ форматов файлов электронных документов
XML – eXtensible Markup Language, формат данных, используемый для
описания содержимого документов (подобно SGML – Standard Generalized
Markup Language). Данный формат получил широкое распространение
вследствие своей расширяемости и легкой интеграции с базами данных. XML
является средством описания документа.
В большинстве веб-браузеров в случае неиспользования CSS
(Cascading Style Sheets) или XSL (eXtensible Stylesheet Language) XMLдокумент представляется в виде простого текста. Ряд браузеров (Internet
Explorer, Mozilla Firefox и Opera (встроенный инструмент Opera Dragonfly))
отображают структуру документа в виде дерева, позволяя сворачивать и
разворачивать узлы с помощью нажатий клавиши мыши. Таким образом,
XML-документ представляет собой текстовый файл, в котором при помощи
специальных маркеров создаются элементы данных, последовательность и
вложенность которых определяет структуру документа и его содержание.
Главными преимуществами XML-документов являются:
1) относительно простой способ создания и обработки (возможность
редактирования и обработки текста любым текстовым процессором и
стандартными XML-анализаторами)
2) возможность создания структурированной информации, которую
результативно распознают компьютеры.
Вместе с тем, передача данных исключительно в формате XML не
позволяет корректно визуализировать передаваемый документ, так как в
результате значительной гибкости языка, отсутствия строгих ограничений и
общепринятой методологии для моделирования данных в XML, одна и та же
структура может быть представлена множеством способов (различными
разработчиками).
В связи с этим, в качестве содержимого контейнера XML предлагается
передавать визуальное отображение документа. Для этого необходимо
определить формат файла передаваемого документа. С целью выбора
единого формата файла Минкомсвязью России проведен анализ стандартов
файлов. Для этого выбраны наиболее распространенные стандарты,
используемые органами исполнительной власти в своей деятельности.
Полный список параметров для анализа приведен в Таблице 1.
Таблица 1. Сравнительная характеристика основных форматов документов
Doc
Пропиетарный
PDF
ISO 32000
Открытый
PDF/A
ISO 19005-1:2005
Открытый
Межплатформенн
ый формат файлов
документов
Межплатформенн
ый формат файлов
документов
Стандарт для
долгосрочного
архивного
хранения
электронных
документов
Наличие
бесплатного
программного
обеспечения
Нет
Да
Самодостаточность
документа (сам
документ содержит
все необходимое для
его корректного
отображения)
Возможность
полнотекстового
поиска
Не содержит
шрифтов
Наличие «опасных»
возможностей
(встроенного кода,
шифрования,
средств управления
правами доступа и
т.д.
Сжатие
графических
объектов с
потерями
Возможность
конвертации из
других форматов
Стандартизация
Открытость
формата
Назначение
формата
DjVu
Проприетарный
ODF
ISO/IEC 26300.
Открытый
Tiff
JPEG
Открытый
формат файлов
документов для
хранения и
обмена
редактируемыми
офисными
документами
Да
Формат хранения
растровых
графических
изображений
Графический
формат для
хранения
фотоизображени
й и подобных им
изображений
Да
Технология сжатия
изображений с
потерями,
разработанная
специально для
хранения
сканированных
документов
Да
Да
Да
Не содержит
шрифтов
Да
Нет
Нет
Да
Да
Да
Да (при наличии
текстового слоя)
Да (при наличии
текстового слоя)
Да (при наличии
текстового слоя)
Да
Да (при наличии
текстового слоя)
Да (при наличии
текстового слоя)
Могут
использоваться
Могут
использоваться
Запрещены
Не поддерживаются
встраиваемые
объекты
Могут
использоваться
Не
поддерживаются
встраиваемые
объекты
Нет
Нет
Нет
Нет
Нет
Нет
Ограничена (в
связи с
закрытостью
стандарта)
Да
Да
Да (может привести к
“нечитаемости”
графических
объектов)
Ограничена
Да
Ограничена
Да
Пропиетарный
На основе приведенной таблицы можно сделать вывод, что формат PDF/A является
наиболее приемлемым форматом для визуализации передаваемых документов.
Основное преимущество данного формата перед остальными заключается в
высоком уровне автономности документов формата PDF/A. Вся информация,
необходимая для многократного отображения документа в неизменном виде, содержится
в файле документа и состоит из:
- содержимого документа (текст, растровые изображения и векторная графика);
- шрифтов и информации о цвете.
Документы формата PDF/A, в отличие от XML, не могут использовать информацию
из внешних источников (как шрифтовые программы или гиперссылки), а следовательно
имеет больший уровень защищенности.
Стоит отметить, что целью внедрения формата PDF/A является обеспечение
растущей потребности электронного архивирования документов средствами,
позволяющими гарантировать сохранность содержимого документов в течение
продолжительного периода времени и обеспечивать возможность корректного
отображения информации, содержащейся в документах.
Таким образом, PDF/A и XML выполняют две различные, но взаимодополняющие
функции: XML описывает содержимое документа, PDF/A описывает его внешний вид.
Возможности формата XML и PDF/A приведены в Таблице 2.
Таблица 2. Возможности XML и PDF
№
Возможности XML
п/п
1
Простой формальный синтаксис, удобный для
создания и обработки документов
Возможности PDF
Визуализация документа
2
Удобен для чтения и создания документов
Цельное отображение документа
3
Избыточность разметки
Стандартизированный формат
Download