Извлечение данных при обработке архивов документов».

реклама
Извлечение данных при обработке
архивов документов
DocFlow 2009
Цели обработки архивов
документов

Сохранение изображений
– Для удаленного принятия решений
– Для повторного использования (кросс продажи)
– Для аудита решений

Проверка изображений документов в процессе
наполнения
– Проверка полноты документа или дела
– Проверка корректности данных в документе

Повышение качества информации в
корпоративных системах
– Извлечение данных из документа для более гибкого поиска
Наиболее актуально для:

Финансовые учреждения
- Кредитные дела
- Пакет документов на открытие счета
- Страховые дела

Телекоммуникационные и «билинговые»
компании
- Договора на подключение
- Квитанции об оплате

Государственные архивы, библиотеки
Наиболее трудоемкий процесс – наполнение электронного
архива накопившимися и текущими бумажными
документами
Типы бумажных документов

Структурированные
– Типовые договора
– Заявления на стандартном бланке заполненные от руки
– Персональные государственные документы

Неструктурированные
– Нестандартные договора
– Нестандартные заявления, письма
– Документы связанные с имуществом
Этапы ввода бумажных документов

Сканирование или фотографирование

Разделение на документы и классификация

Атрибутирование и извлечение данных
 Автоматическое извлечение нужных атрибутов
 Ввод нужных атрибутов вручную
 Полнотекстовое распознавание неструктурированных
документов с последующим индексированием

Проверка корректности данных

Экспорт документов в систему хранения
Сканирование
Требования к сканеру


«Обычные» документы – автоподатчик
Сшитые документы – планшет

Рекомендуемая нагрузочная способность

Скорость сканирования

Специальные функции (отсечения цвета, автоподбор
яркости, удаление пустых страниц).
Разделение на документы и
классификация
Автоматически
на основании атрибута документа

Разделение на документы и
классификация
• Полуавтоматически
Формирование документов по разделительным листам с
штрих-кодами
Договор №1
Договор №2
Сканирование
ABBYY Recognition Server 2.0
Распознавание
Проверка структуры дела
 Необходима возможность визуальной проверки
отсканированного
 Перемещения/удаления страниц
Атрибутирование и извлечение
данных

Автоматическое извлечение нужных атрибутов –
структурированные документы
Атрибутирование и извлечение
данных

Ввод нужных атрибутов вручную – для
«нераспознаваемых» полей
Атрибутирование и извлечение
данных

Полнотекстовое
распознавание – для
неструктурированных документов
Проверка корректности данных
Проверка формата распознанных данных
 Проверка данных по справочникам и базам
 Перекрестная проверка данных на разных страницах

Экспорт изображений и данных во
внешнюю систему хранения

Экспорт изображений
- В файл, любой графический формат
- В файл pdf-searchable
- В базу данных в бинарном формате
- Экспорт участка изображения документа

Экспорт данных
- Через промежуточный файл
- В ODBC совместимую базу данных
- Вызов хранимой процедуры
14
Автоматизированная обработка, что
необходимо?

Программное обеспечение для потоковой обработки
документов

Скоростной сканер

Разработка конфигурации ПО для обработки документов
заказчика, обучение специалистов заказчика
Архитектура

Архитектура системы обработки бумажных документов
зависит от:
– «Распределенния» хранения и обработки документов в
организации
– Количества документов
– Доступности каналов связи
– Требований безопасности
– Необходимой скорости обработки

В построении системы помогут системные
интеграторы и ABBYY Украина
ABBYY Group
ABBYY Europe UK
Fremont
ABBYY USA
ABBYY Europe GmbH
Munich, Germany
Headquarters
ABBYY Software House
(Russia, Moscow)
ABBYY USA
(USA, Fremont, CA)
ABBYY Europe
(Germany, Munich)
ABBYY Headquarters/ ABBYY Russia
Moscow
ABBYY Ukraine
Kiev
ABBYY Japan
Tokyo
ABBYY Europe UK
(UK, Bishops Stortford)
ABBYY Ukraine
(Ukraine, Kiev)
ABBYY Russia
(Moscow)
ABBYY Japan
(Tokyo)
17
Спасибо за внимание!
Презентацию для Вас подготовил Доможиров Илья
менеджер отдела корпоративных проектов ABBYY
Украина
+ 38 044 490-9999
e-mail: [email protected]
Скачать