Министерство науки и высшего образования Российской Федерации Федеральное государственное бюджетное образовательное учреждение выс-шего образования «Уфимский государственный нефтяной технический университет» Кафедра «Вычислительная техника и инженерная кибернетика» КОНСПЕКТ ЛЕКЦИЙ по дисциплине «Информационные технологии в научно-исследовательской и практической деятельности» на тему «Использование системы оптического сканирования FineReader в сборе НТИ» Вариант №11 Студент группы ММТ-51-20-01 Д.Т. _____________Гизатуллина (подпись, дата) Доцент кафедры ВТИК Каданцев М.Н. (подпись, дата) ______________ Уфа – 2020 Содержание 1. Общая часть ................................................................................................................................ 3 1.1 Информационные технологии ........................................................................................... 3 1.2 Научно-исследовательская деятельность ......................................................................... 3 1.3 Практическая деятельность ............................................................................................... 4 2. Специальная часть ..................................................................................................................... 5 2.1 Использование системы оптического сканирования FineReader в сборе НТИ ............ 5 Заключение ....................................................................................................................................... 12 Список литературы .......................................................................................................................... 14 1. Общая часть 1.1 Информационные технологии Информационные технологии – совокупность методов, производственных и програм-мно-технологических средств, объединенных в технологическую цепочку, обеспечивающую сбор, хранение, обработку, вывод и распространение информации. Информационные технологии предназначены для снижения трудоемкости процессов использования информационных ресурсов. Основу современных ИТ составляют: компьютерная обработка информации по заданным алгоритмам; хранение больших объемов информации на машинных носителях; передача информации на любое расстояние в ограниченное время. Информационные технологии состоят из таких компонентов, как: программные средства (прикладные и системные); организационно-методическое обеспечение; технические средства ИТ. Средства информационных технологий бывают трех видов: вычислительные – автоматизированные устройства для сбора и обработки информации; организационные – разные виды оборудования для выполнения технических задач; коммуникационные – техника: ноутбуки, компьютеры, смартфоны, планшеты и прочие приборы. 1.2 Научно-исследовательская деятельность Научно-исследовательская деятельность: 1. Индивидуальное и коллективное взаимодействие ученых по обогащению и развитию культуры и цивилизации с помощью точного, объективного и системного знания о мире, человеке и его деятельности. 2. Работа педагогов-ученых (теоретиков и методистов), занимающихся обоснованием (про-ектированием, конструированием) оптимально функционирующих учебно-воспитатель-ных систем на каждом уровне образования и педагогической системы в целом, создающих необходимые предпосылки для последующей оптимальной организации учебно-воспита-тельного процесса. Наука – это непрерывно развивающаяся система знаний объективных законов природы, общества и мышления, получаемых и превращаемых в непосредственную производительную силу общества в результате социально-экономической деятельности. Основная цель науки – познание объективного мира (теоретическое отражение дей-ствительности) и воздействие на окружающую среду с целью получения полезных обществу результатов. Наука поддерживается и развивается в результате исследовательской деятельности об-щества. Научное исследование – это форма существования и развития науки. Структуру орга-низации научных исследований целесообразно представить в виде четырех компонентов: первый – общие вопросы научных исследований (теория, методология и методы); второй – процессы научных исследований (формы, методы и средства познания); третий – методика научных исследований (выбор конкретных форм, методов и средств, эффективных для соответствующей области науки или отрасли профессиональной дея-тельности); четвертый – технология научных исследований (совокупность знаний о процессах науч-ных исследований и методике их выполнения); Цель научного исследования – всестороннее, достоверное изучение объекта, процесса или явления; их структуры, связей и отношений на основе разработанных в науке принципов и методов познания, а также получение и внедрение в производство (практику) полезных для человека результатов. 1.3 Практическая деятельность Деятельность – это форма активности человека, направленная на преобразование им окружающего мира. Практическая деятельность направлена на преобразование реальных объектов природы и общества. На практике наиболее часто используются такие прикладные программы, как: Программа MS WORD (Документ. Правила оформления документа. Форматирование тек-ста и абзацев. Правила работы с шаблонами, электронными формами. Работа с таблицами. Формирование графических изображений в программе). Программа MS Excel (Структура программы. Ссылки. Использование электронных таб-лиц для автоматизации расчетов. Анализ и распределение данных. Использований функ-ций «Поиск решения» и Подбор параметра». Численное моделирование). Программа MS Access (Базы данных. Объекты баз данных. Создание таблиц, форм, фор-мирование запросов и отчетов. Связи. Понятие ключевого поля). Человек должен знать: файловую технологию организации данных и современных ПК; правила оформления документов; основные приемы работы в электронными таблицами; правила работы с базами данных. Человек должен уметь: создавать, редактировать, архивировать, копировать, хранить, пересылать, объединять, удалять, восстанавливать, защищать файлы; форматировать, редактировать, оформлять документы; рассчитывать данные по заданным критериям, графически оформлять данные; использовать в работе технологию работы с базами данных. 2. Специальная часть 2.1 Использование системы оптического сканирования FineReader в сборе НТИ ABBYY FineReader — это система оптического распознавания текстов (OCR — Optical Character Recognition). Она предназначена для конвертирования в редактируемые фор-маты отсканированных документов, PDF–документов и файлов изображений, включая циф-ровые фотографии. Преимущества программы ABBYY FineReader: а) Скорость и высокая точность распознавания Используемая в ABBYY FineReader система оптического распознавания быстро и точно распознает и максимально полно сохраняет исходное оформление документа (в том числе с текстом на фоне картинок, с цветным текстом на цветном фоне, с обтеканием картинок текстом и т.д.). Благодаря технологии адаптивного распознавания документов ADRT® (Adaptive Document Recognition Technology) ABBYY FineReader позволяет анализировать и обраба-тывать документ целиком, а не постранично. В результате восстанавливается исходная структура документа, включая форматирование, гиперссылки, адреса электронной почты, а также колонтитулы, подписи к картинкам и диаграммам, номера страниц и сноски. ABBYY FineReader распознает документы, написанные на одном или нескольких из 189 языков, включая арабский, вьетнамский, корейский, китайский, японский, тайский и иврит. В программу встроена функция автоматического определения языка документа. Еще одной особенностью программы ABBYY FineReader является малая чувствитель-ность к дефектам печати и способность распознавать тексты, набранные практически лю-быми шрифтами. Программа включает широкий спектр работы с результатами распознавания — доку-менты можно сохранять в различных форматах, отправлять по электронной почте, а также передавать в другие приложения для дальнейшей обработки. б) Простота и удобство использования: ABBYY FineReader имеет простой и интуитивно понятный интерфейс, который позволяет работать с программой без дополнительной подготовки, освоив основные операции в са-мые короткие сроки. Поддерживаемые программой языки интерфейса можно переклю-чать непосредственно из программы. Встроенные задачи программы охватывают список наиболее часто используемых задач по конвертированию отсканированных документов, PDF и файлов изображений в редактиру-емые форматы и позволяют получить электронный документ одним нажатием кнопки. Благодаря интеграции ABBYY FineReader с Microsoft Office и Проводником Windows, вы можете распознать документ непосредственно при работе с Microsoft Outlook, Microsoft Word, Microsoft Excel и Проводником Windows. Программа имеет встроенную справку, содержащую примеры использования ABBYY FineReader для решения сложных задач конвертирования. Область применения: Оптическое распознавание символов (англ. Optical Character Recognition – OCR) – это технология, которая позволяет преобразовывать различные типы документов, такие как отска-нированные документы, PDF-файлы или фото с цифровой камеры, в редактируемые форматы с возможностью поиска. Предположим, у вас есть бумажный документ, например, статья в журнале, брошюра или договор в формате PDF, присланный вам партнером по электронной почте. Очевидно, для того чтобы получить возможность редактировать документ, его недостаточно просто отскани-ровать. Единственное, что может сделать сканер, – это создать изображение документа, пред-ставляющее собой всего лишь совокупность черно-белых или цветных точек, то есть растро-вое изображение. Для того чтобы копировать, извлекать и редактировать данные, вам понадобится про-грамма для распознавания символов, которая сможет выделить в изображении буквы, соста-вить их в слова, а затем объединить слова в предложения, что в дальнейшем позволит работать с содержимым исходного документа. Принцип работы: С помощью сканера несложно получить изображение страницы текста в графическом файле. Однако для получения документа в формате текстового файла необходимо провести распознавание текста, т. е. преобразовать элементы графического изображения в последова-тельности текстовых символов. Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и т. д. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст. Распознавание символов: 1. Деление строки на слова и слов на буквы в программном ядре OCR-системы выполняется так называемой процедурой линейного деления; 2. Процедура завершается по достижении конца строки и передаёт для дальнейшей обра-ботки список гипотез, выдвинутых относительно возможных вариантов деления; 3. При этом каждой гипотезе приписывается определённый вес; по смыслу эта величина со-ответствует численному выражению уверенности; 4. Соответствующий каждой из гипотез набор графических объектов уровня «символ» по-ступает на вход механизма распознавания символов. Этапы преобразование документа в электронный вид OCR-системами: 1. Сканирование и предварительная обработка изображения; 2. Анализ структуры документа; 3. Распознавание; 4. Проверка результатов; 5. Реконструкция документа (воссоздание его исходного вида); 6. Экспорт. 1. Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача распознавания решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы разделяется на изображения отдельных сим-волов. Затем каждый из них последовательно накладывается на шаблоны символов, имею-щихся в памяти системы, и выбирается шаблон с наименьшим количеством точек, отличных от входного изображения. Методика распознавания изображена на рисунке 1. Рис. 1. Растровый метод распознавания текста. Растровое изображение каждого символа последовательно накладывается на растровые шаблоны символов, хранящиеся в памяти системы оптического распознавания. Результатом распознавания является символ, шаблон которого в наибольшей степени совпадает с изобра-жением. Например, распознаваемый символ "Б", изображенный на рисунке 2, накладывается на растровые шаблоны символов (А, Б, В и т. д.) Рис. 2. Распознаваемый символ "Б" накладывается на растровые шаблоны символов. Механизм работы: Принцип действия основан на прямом сравнении изображения символа с эталоном; Степень несходства при этом вычисляется как количество несовпадающих пикселей; Для обеспечения приемлемой точности растрового классификатора требуется предвари-тельная обработка изображения: нормализация размера, наклона и толщины штриха; Эталон для каждого класса обычно получают, усредняя изображения символов обучаю-щей выборки. Преимущества растрового классификатора: Простота реализации; Высокое быстродействие; Хорошая устойчивость к случайным дефектам изображения. Недостатки растрового классификатора: Невысокая точность распознавания. 2. При распознавании документов с низким качеством печати (машинописный текст, факс и т.д.) используется метод распознавания структурных элементов (отрезков, колец, дуг и др.) символов. В искаженном символьном изображении выделяются характерные детали и сравнива-ются со структурными шаблонами символов. Любой символ можно описать через набор пара-метров, определяющих взаимное расположение eгo элементов. Например, буква «Н» и буква «И» состоят из трех отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различие между буквами в величине улов, которые составляет третий отрезок с двумя другими. При распознавании структурным методом в искаженном символьном изображении вы-деляются характерные детали и сравниваются со структурными шаблонами символов. Блок схема структурного классификатора изображена на рисунке 3. Структурный классификатор: Входными данными для структурного классификатора являются изображение символа и ранжированный список гипотез, сформированный по результатам работы остальных рас-познавателей. Собственных гипотез классификатор не выдвигает, подтверждая либо опровергая ранее выдвинутые гипотезы. Используется в тех случаях, когда в списке присутствуют две или более гипотез, веса ко-торых не только превышают заданный уровень уверенности, но и сравнимы между собой Рис. 3. Обобщённая блок-схема алгоритма распознавания (структурный уровень). В результате выбирается тот символ, для которого совокупность всех структурных эле-ментов и их расположение больше всего соответствуют распознаваемому символу. Например, распознаваемый символ "Б", изображенный на рисунке 4, накладывается на векторные шаб-лоны символов (А, Б, В и т.д.) Рис. 4. Распознаваемый символ "Б" накладывается на векторные шаблоны символов. При проведении Единого государственного экзамена, при заполнении налоговых де-клараций и т. д. используются различного вида бланки с полями. Рукописные тексты (данные вводятся в поля печатными буквами от руки) распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных. Сложность состоит в том, что необходимо распознавать символы, написанные от руки, а они довольно сильно различаются у разных людей. Кроме того, система должна определить, к какому полю относится распознаваемый текст Преимуществом структурного метода является очень высокая точность распознавания, недостатком является низкое быстродействие. Словарная проверка: Зачастую точность распознавания практически не зависит от полноты словарной базы проверочных словарей; Ведь, как известно, не существует словарей, содержащих все словоформы живого языка; Например в системах ABBYY для решения проблемы словарной проверки предусмотрен особый тип модели не словарное слово. При встрече с не словарным словом система рас-познает его в точности так, как оно было написано; Во -вторых для всех поддерживаемых языков распознавания были созданы морфологиче-ски структурированные словари. Каждый из них способен моделировать различные сло-воформы, в том числе и композиты, за счёт чего охватывает более 98% реального словар-ного объёма соответствующего языка. Синтез электронного документа: По окончании «сборки» слов, объединения их в строки, а строк – в объекты высших уровней, OCR система, выводит на экран полученный электронный документ. Пользователь видит точную электронную копию страницы, в особом окне доступен для сравнения отскани-рованный образ документа; при необходимости результаты распознавания можно отредакти-ровать средствами встроенного WYSIWYG редактора. Ввод текста с помощью OCR-систем: Обобщенная схема технологического процесса ввода текста с помощью OCR-систем изображена на рисунке 5. Рис. 5. Обобщенная схема технологического процесса ввода текста с помощью OCR-систем. Бланком называется стандартный лист бумаги, на котором размещается постоянная информация и отведено место для переменной. Сложность состоит в том, что необходимо рас-познать написанные от руки символы, довольно сильно различающиеся у разных людей. При-мер такого бланка изображен на рисунке 6. Рис. 6. Бланк Единого государственного экзамена. Кроме того система должна определить, к какому полю относится распознаваемый текст FineReader Forms. Системы оптического распознавания форм Для обработки бланков предназначено специальное приложение FineReader Forms. Для распознавания содержимого бланка необходимо предварительно создать шаблон формы. Заключение Мы рассмотрели базовые аспекты функционирования OCR-систем компании ABBYY – приведенное описание технологий распознавания не претендует на всеобъемлющий обзор. Тем не менее даже перечисленных особенностей архитектуры FineReader достаточно, чтобы оценить потенциал заложенных в основу российской разработки инновационных подходов, совершенствуемых от версии к версии программы. FineReader развивается, однако фундаментальные принципы целостности, целенаправ-ленности и адаптивности, которым разработчики следуют с первой редакции продукта, по сей день остаются неизменными. Именно они позволяют решениям ABBYY приближаться к ло-гике мышления, свойственной человеку, и справляться с гораздо более сложными задачами, чем распознавание текста. Список литературы 1. Бурда А.Г. Учебное пособие (курс лекций)// Основы научно-исследовательской деятельности. 2015. С145. 2. Курс лекций// Организации научных исследований. С 81. 3. Курс лекций// Информационные технологии в научной деятельности. С 8. 4. Насибуллов Р.Р. Краткий конспект лекций// информационные технологии в профессиональной деятельно-сти. 2013. С49. 5. Что такое информационные технологии — понятие, классификация и этапы развития. https://ktonanovenkogo.ru/voprosy-i-otvety/informacionnye-tekhnologii-chto-ehto-takoe.html 6. Что такое OCR. https://www.abbyy.com/ru/finereader/what-is-ocr/ 7. Распознавание текста. https://www.abbyy.com/ru/finereader/what-is-ocr/ https://www.it-claim.ru/Education/Course/Lingvistika/Lecture/Lecture11.pdf. 8. Системы оптического распознавания текста. https://infourok.ru/prezentaciya-po-teme-sistemi-opticheskogo-raspoznavaniya-teksta-3049264.html.