"Системы оптического распознавания в исторических

advertisement
СИСТЕМЫ ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ
В ИСТОРИЧЕСКИХ ПРИЛОЖЕНИЯХ
Международный семинар
Этот семинар, организованный в июне 1993 г. в рамках подготовки к
VIII Международной конференции "History and Computing" Голландским
архивом машиночитаемых данных по истории (г. Лейден) и Голландским
институтом когнитивных и информационных наук (г. Неймеген), проходил в
Лейденском университете.
Актуальность проблем, рассматривавшихся на семинаре, определяется
возрастанием внимания к вводу данных при создании коллекций
машиночитаемых данных (МЧД). С этими проблемами сталкиваются
разработчики больших баз данных, банков и архивов МЧД в разных странах
мира. Действительно, ввод информа-
10
ции массовых исторических источников обычным путем, с клавиатуры
компьютера, становится "узким местом" в технологической цепочке создания
архивов МЧД. Единственной альтернативой является оптическое
сканирование текста документа, "электронный образ" которого переносится
на дисковую память компьютера. Сканер стал весьма доступным по цене (и в
силу этого широко распространенным) периферийным устройством
персонального компьютера. Проблема, однако, заключается в том, что этот
образ, изображение страницы документа ничем не отличается, в принципе, от
фотографии; введенное со сканера изображение требуется расшифровать,
преобразовать его в текстовый файл компьютера. Это значит, что необходимы
программы, умеющие распознавать изображения букв и других символов.
Тексты исторических документов имеют свои специфические черты, и в ряде
европейских архивов МЧД ведется работа по апробации возможностей
различных программ распознавания символов, вводимых путем оптического
сканирования исторических документов. Ведущие позиции здесь занимает,
на наш взгляд, Голландский архив МЧД (NHDA), функционирующий при
Лейденском университете и возглавляемый д-ром Питером Доорном, хорошо
известным членам нашей ассоциации "История и компьютер". NHDA
обладает целой комплекцией OCR - программ (OCR - Optical Character Recognition, т.е. оптическое распознавание символов). Два года назад в рамках
NHDA начала действовать лаборатория по сканированию и распознаванию
текстов исторических документов; полученные в лаборатории результаты
были опубликованы в монографии: R.van Horik. Van beeldpunt tot betekenis.
Scaning en optische tekenherkenning van gebrukt historisch bronnenmaterial.
Amsterdam: Amsterdam University Press, 1992. (См. также недавнюю статью
Рене ван Хорика: R.van Horik. Optical character recognition and historical
documents: Some programs reviewed in: History and Computing, 3 (1992),
pp.211-220).
Оргкомитет, возглавляемый д-ром Питером Доорном, предложил 4
темы в структуре научной программы семинара, а в рамках каждой темы - 4
доклада; таким образом, программа включала 16 докладов специалистов из
семи стран.
Вступительное слово было сделано д-ром Леном Брере (Утрехтский унт), генеральным секретарем Международной ассоциации "History and
Computing", который отметил, в частности, что результаты работы семинара
будут представлены на отдельной
11
секции очередной, VIII международной конференции АНС в августе 1993 г.
Определенное представление о тематике семинара дают названия докладов (в
виду их количества трудно дать здесь даже краткое их изложение).
Первая секция называлась "Применение OCR - программ при
обработке исторических источников" и включала следующие доклады:
1. Gunnar Thorwaldsen (Норвегия). OCR - проекты в норвежских
исторических исследованиях.
2. Bernedine Bos, Anke van der Moer (Голландия) "Бакунинский проект"
Международного института социальной истории и возможности OCR программ.
3. Jogchum Reitsma (Голландия). Распознавание символов фризского
языка.
4. Ann McVeigh (Ирландия). Ирландский проект создания исторических
баз данных: возможности и ограничения OCR-программ.
Вторая секция была посвящена проблемам распознавания рукописных
источников. Здесь были представлены следующие доклады:
1. Eric Helsper, Lambert Schomaker. (Голландия). Распознавание
рукописных текстов в режимах "on line" и "off-line".
2. Susan
Laflin
(Великобритания).
Интерактивная
система
распознавания рукописей.
3. Andrew Senior (Великобритания). Методы рекуррентных сетей в
автоматическом распознавании рукописного текста.
4. John Friedman (США). Компьютер в задачах анализа рукописных
(средневековых) шрифтов и классификации: некоторые направления
исследований.
На третьей секции рассматривались вопросы пред- и постобработки
текстов при их оптическом распознавании:
1. Harold Ogg (США). Пред- и постобработка в процессе
преобразования текста источника на основе оптического распознавания.
2. Mark Olsen (США). Сканирование, ввод текста с клавиатуры и
верификация данных: факторы отбора технологии создания баз данных.
3. Vincente Concepcion, Donald D'Amato (США). Соответствие символов
при использовании нескольких OCR - систем.
12
4. Truus Kruyt, John van der Voort van der Kleij (Голландия).
Преобразование исторического словаря голландского языка в электронную
форму.
Четвертая секция ("Распознавание нелатинских шрифтов") включала 4
доклада:
1. Л.И.Бородкин, В.В.Лазарев, Е.В.Злобин. О применении оптического
распознавания при работе с источниками по истории России: сравнение
различных программ.
2. William MсGee, Paul Merkley (США). Оптическое распознавание
музыкальной нотации.
3. Ronald Zweig (Израиль). Оптическое распознавание источников на
иврите.
4. Rene van Horik (Голландия). Распознавание готических шрифтов.
***
В целом семинар в Лейдене показал, что историки ряда стран всерьез
занялись проблемами перевода исторических источников в машиночитаемую
форму на основе новых информационных технологий, включающих
сканирование документов и распознавание из текстов. Доклады,
представленные на секциях семинара, отразили достижения в применении
OCR - программ при работе с источниками различных видов - от текстов до
статистических таблиц; типографских и рукописных; написанных как
латинским шрифтом, так и другими. Даже в такой, казалось бы, безнадежной
области, как распознавание рукописного текста, идет явное продвижение, и,
судя, по всему, лет через 10 историки смогут работать с надежными OCR программами, способными распознавать рукописные документы. На данном
же этапе весьма эффективными являются OCR - программы,
ориентированные на работу с печатными материалами. Наиболее часто
упоминались известные OCR - системы и программы Kurzweil 5200,
ProLector, Omnipage. Надо отметить, что интерес участников семинара
вызвала и демонстрация OCR - программ российского производства - АльфаБит и Cript.
Думается, что семинар в Лейдене дал импульс дальнейшему развитию
новых информационных технологий перевода исторических источников в
машиночитаемую форму.
д.и.н. Л.И.Бородкин (МГУ)
13
Download