САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ Математико-механический факультет Кафедра Системного Программирования Автоматизированная система учета расходования личных средств Фомин Алексей Дмитриевич 545 группа Научный руководитель: к. ф.-м. н. Д.С. Шалымов Идея проекта • Учет расходов – актуальная задача • Проблема ввода данных – Решение – использование кассовых чеков Необходимо распознавание информации o Со стороны сервера o На клиентской стороне Архитектура системы учета расходов Распознаватель Данные Сервер Данные Задача • Проверка применимости схемы • Проектирование системы извлечения данных из чеков • Разработка алгоритма распознавания на основе SPSA • Реализация прототипа под платформу iOS Распознавание текста Требования: Существующие решения: • Мобильность • Доступность • Tesseract-ocr • ABBYY • … Общая схема Обработка изображения Фрагментация Распознаватель Извлечение данных • Итоговая сумма 100.00 рублей • ... Обработка изображения Обработка изображения Фрагментация Распознаватель Извлечение данных Фрагментация Обработка изображения Фрагментация Распознаватель Извлечение данных Распознаватель Обработка изображения Фрагментация Распознаватель Извлечение данных • Построение вектора признаков (1, 2, 2, 0.3, 0,5, …) Распознаватель Обработка изображения Фрагментация Распознаватель Извлечение данных • Классификация - SPSA Особенности метода: • Помехоустойчивый • Адаптивный • Устойчивый к увеличению размерности пространства Извлечение данных Обработка изображения Фрагментация Распознаватель • Использование словаря • Корректировка стоимости: • «лишние» символы: *, =, ≡ • Наименование валюты: «100.00РУБ» Извлечение данных Архитектура приложения Image Provider Prior Modifier Segmentator Engine Data Grabber Character Recognizer Numeric Recognizer … Vocabulary Provider Результаты • Реализован алгоритм распознавания на основе SPSA • Построена схема извлечения данных • Создан прототип под iOS