Система распознавания древнеегипетских иероглифов на базе

advertisement
УДК 001(06) Телекоммуникации и новые информационные технологии…
А.В. КУГАЕВСКИХ
Филиал ОАО АКБ «ЮГРА», Тюмень
СИСТЕМА РАСПОЗНАВАНИЯ ДРЕВНЕЕГИПЕТСКИХ ИЕРОГЛИФОВ НА БАЗЕ ИНС
«НЕОКОГНИТРОН»
В работе рассмотрена возможность применения аппарата искусственных нейронных сетей на примере
«неокогнитрона» для задачи распознавания древнеегипетских иероглифов. Предложен, реализован и
исследуется соответствующий механизм распознавания.
Хрупкость материальных носителей иероглифических текстов и графическая сложность самих
иероглифов ставят перед специалистами проблему эффективного копирования текстов для их дальнейшего
изучения. Решением данной проблемы стало создание иероглифических текстовых процессоров и
разработка стандарта хранения иероглифических текстов MdC (Manuel de Codage) [1]. В работах [2,3] была
предложена концепция представления символов как элементов шрифта и описана соответствующая
архитектура иероглифического процессора. Дальнейшей ступенью автоматизации является OCR (Optical
Character Recognition)-система, состоящая из трех подсистем: сегментации текста, предобработки
выделенных символов и подсистемы распознавания символов. В настоящий момент подобной OCR-системы
для древнеегипетского языка не существует ввиду графической сложности иероглифов и многообразии
символов.
В работе [4] описана искусственная нейронная сеть «неокогнитрон», которая, по словам автора, на
латинских символах дает качество распознавания в 98%. В рамках настоящей работы рассматривается
возможность применения «неокогнитрона» в распознавании иероглифов.
На изображение символа, поступающее на вход сети, налагается ряд ограничений. Во-первых,
изображение должно быть строго определенного размера (51х51 пиксель), во-вторых, контур символа
должен быть минимально возможной толщины (1 пиксель), в-третьих, изображение должно быть
монохромным.
Подробно «неокогнитрон» описан в [7], здесь же ограничимся только параметрами построенной
архитектуры:
1. Размер плоскости слоя US1: 62х62 ячейки, количество плоскостей 47915
2. Размер плоскости слоя UC1: 34х34 ячейки, количество плоскостей 47915
3. Размер плоскости слоя US2: 34х34 ячейки, количество плоскостей 95850
4. Размер плоскости слоя UC2: 14х14 ячеек, количество плоскостей 95850
5. Размер плоскости слоя US3: 14х14 ячеек, количество плоскостей 143725
6. Размер плоскости слоя UC3: 10х10 ячеек, количество плоскостей 143725
7. Размер плоскости слоя US4: 62х62 ячейки, количество плоскостей 142785
8. Размер плоскости слоя UC4: 1х1 ячейку, количество плоскостей 6845
При реализации «неокогнитрона» встает проблема большого объема используемой оперативной памяти.
В качестве мер по оптимизации использования памяти были применены следующие: использование
динамических массивов и, по возможности, типов памяти с минимальным объемом, хранение только
массивов выходов ячеек активного слоя, удаление из памяти неиспользуемых данных.
Тестовая выборка для проведения экспериментов по качеству распознавания формировалась из символов
обучающей выборки с повреждениями образа в каждой из четвертей.
На обучающей выборке из 6845 символов сеть показала качество распознавания в 99%, на тестовой
выборке из 34225 символов сеть показала результат в 86%. Проведенные эксперименты доказывают
возможность применения «неокогнитрона» для распознавания иероглифов. Дальнейшее увеличение
качества распознавания возможно только в случае применения лингвистического анализа, если семантика
древнеегипетского языка станет исследована в должном объеме.
Список литературы
1. Baurman J., Grimal N. Manuel de Codage des textes hiroglyphiques en vue de leur saisie sur ordinateur. Paris, 1988.
2. Кугаевских А.В. // Реализация иероглифического текстового процессора как инструмент
автоматизации деятельности египтолога: Тез. докл. Дистанционные образовательные технологии: опыт
применения и перспективы развития. ТюмГУ. Тюмень, 2008. С. 186-191.
3. Кугаевских А.В. Свидетельство об официальной регистрации программы для ЭВМ № 2007614348.
Иероглифический текстовый процессор Thoth, 12.10.2007.
4. K. Fukushima. Neocognitron for handwritten digit recognition // Neurocomputing.- Vol. 51.- 2003.- Pp. 161180.
_______________________________________________________________________
ISBN 978-5-7262-1230-2. XIV выставка-конференция
1
Download