Ю.Н.Филиппович, А.Ю.Филиппович, ИНТЕГРИРОВАННЫЕ СИСТЕМЫ И ТЕХНОЛОГИИ В МЕДИАИНДУСТРИИ Слайд-лекции для студентов специальности 230204 «Информационные технологии в медиаиндустрии» Модуль 1. Интегрированные издательские технологии Тема. Технологии корректуры. Москва, 2012 г. Корректура • Корректура – совокупность процессов, назначением которых является исправление ошибок и нарушений технических правил в наборе. • В «традиционном классическом описании» корректура состоит из двух основных процессов: чтения корректурных оттисков и правки набора. Корректурные знаки • При чтении оттисков ошибки отмечаются специальными корректурными знаками, повторяемыми на полях оттисков, причем рядом с этими знаками указываются правильные буквы, слова и т.п. Примеры корректурных знаков Фрагмент корректурной правки Факторы, влияющие на процесс корректуры • особенности издания (первое издание или какое-либо его переиздание); • индивидуальные особенности текста (тема, предмет, язык, авторские цели, назначение и т.п.); • профессионализм корректора (культурный уровень, знания, навыки, умения, психологические установки, социально-экономические факторы и др.); • технологические факторы (форма рабочего материала, инструментальные аппаратные и программные средства поддержки корректорской деятельности, временные и стоймостные ресурсные ограничения, методика и др.) Инструментарий корректора • Печатные словари. • Электронные лексикографические ресурсы, в числе которых: – локальные электронные словари; – интернет-порталы; – словарные базы данных; – встроенные в текстовые редакторы и издательские системы орфо- и грамматические редакторы; – программы спеллеры. Два основных типа словарей • Лингвистические словари – Объектом описания лингвистических словарей являются языковые единицы: слова, устойчивые словосочетания, словоформы, морфемы и др. • Энциклопедические словари – Энциклопедические словари – научные или научнопопулярные справочные издания, представляющие собой систематизированный свод знаний в каких-либо областях. – Объектом их описания служат научные (реже обиходные) понятия, термины, исторические события, персоналии, географические реалии и т.д. Два основных типа словарей • Пример словарной статьи из лингвистического словаря: – СУРОК, -р к а, м. Небольшой грызун сем. бельчьих, живущий в норах и зимой впадающий в спячку. • Пример словарной статьи из энциклопедического словаря: – СУРКИ, род млекопитающих сем. бельчьих. Длина тела до 60 см, хвоста менее 1/2 длины тела. 13 видов, в Сев. полушарии (исключая пустыни и тундры); в России неск. видов. Объект промысла (мех, жир, мясо). Могут быть носителями возбудителя чумы. Нек-рые виды редки, охраняются. Грамматические словари • Грамматические словари – это словари, которые содержат сведения о морфологических и синтаксических свойствах слова. • Расположение − в прямом или обратном алфавитном порядке. • Принципы отбора и объем сведений о слове различны в зависимости от назначения и адресата каждого грамматического словаря. • Печатные словари: – Зализняк А. А. Грамматический словарь русского языка. Словоизменение. М., 1977; 3-е изд. М., 1987. – Дискурсивные слова русского языка: Опыт конкретно-семантического описания / Под ред. К. Киселевой и Д. Пайара. М., 1998. – Панов Б. Т., Текучев А. В. Грамматико-орфографический словарь русского языка. М., 1976. Пример словарной статьи • АВОСЬ, част., разг. Употребляется для выражения такого предположения, которое свидетельствует, с одной стороны, о желательности для говорящего наступления какого-л. события, а с другой — о ясном осознании говорящим того, что если предшествующее событие и наступит, то только из-за особенного стечения обстоятельств, т. е. независимо от его воли. * С и н. может быть, <глядишь разг., чем черт не шутит разг. Пойду выйду на воздух, авось голова пройдет. Возьми с собой сумку, авось пригодится. Попробуем, авось удастся. О На авось разг. — в надежде на случайную удачу. Лучше предварительно заказать номер, а не ехать на авось. Авось да небось; авось, небось да как-нибудь разг. — о беспечном отношении к порученному и т. п. ... Запомни, авось, небось да как-нибудь до добра не доведут / / сущ. авоська — ж., разг. Морфемные и словообразовательные словари • Словари, показывающие членение слов на составляющие их морфемы, словообразовательную структуру слова, а также совокупность слов с данной морфемой – корневой или аффиксальной. Слова в словообразовательных словарях приводятся с расчленением на морфемы и с ударением. • Морфема (от греч.morphe – форма) – минимальная значимая часть слова. • Существует 4 основных типа морфемных словообразовательных словарей: – словари-корнесловы; – словари морфемной членимости слов; – толковые словари аффиксальных морфем; – частотные словообразовательные словари. Морфемные и словообразовательные словари • Печатные словари: – Тихонов А. Н. Словообразовательный словарь русского языка: В 2 т. М., 1985; 2-е изд., стер. М., 1990. – Кузнецова А. И., Ефремова Т. Ф. Словарь морфем русского языка. М., 1986. – Ефремова Т. Ф. Толковый словарь словообразовательных единиц русского языка. М., 1996. • Электронные ресурсы: – Морфемно-орфографический словарь на http://slovari.yandex.ru/ Орфографические словари • Словари, содержащие алфавитный перечень слов в их нормативном написании. • Печатные словари: – Зелинский В. Подробный орфографический словарь. Для учащихся. Изд. 2-е, испр. и значительно увеличенное. М., 1914. – Букчина Б. З. Русский орфографический словарь. М., 1999. – Орфографический словарь русского языка / Под ред. С. Г. Бархударова, С. И. Ожегова, А. Б. Шапиро. М., 1956. • Электронные ресурсы: Пример словарной статьи: шаблоìнный; кр. ф. -оìнен, – http://slovari.yandex.ru/ оìнна – http://www.slovari.ru/ филлопоìд, -а Электронные словари • Проект «РУССКИЕ СЛОВАРИ» предназначен для всех, кто интересуется русским языком - как родным или как иностранным, для учащихся средней и высшей школы, а также для специалистов, профессионально занимающихся лингвистикой или преподаванием русского языка. Он содержит общедоступную лингвистическую информацию разного типа. • Словарная база сайта содержит 21 том основных интерактивных лингвистических словарей, многие из которых входят в золотой фонд отечественной лексикографии. • Режим доступа: http://www.slovari.ru/ Электронные словари • Яндекс-словари содержат 11 словарей русского языка, 86 энциклопедий и переводной словарь (7 языков). – http://slovari.yandex.ru/ • Словари и энциклопедии на Академике – http://dic.academic.ru/ • «Кругосвет» – универсальная энциклопедия – http://www.krugosvet.ru/ • Википедия – свободная энциклопедия – http://ru.wikipedia.org/ • Словари на «Рубриконе» – река информации – http://www.rubricon.com/ • «Мир словарей» – коллекция словарей и энциклопедий – http://mirslovarei.com/ • Мир энциклопедий – http://www.encyclopedia.ru/index.html Электронные переводные словари • Система электронных словарей Lingvo – http://www.lingvo.ru/ • Онлайновый переводчик компании ПРОМТ – http://www.translate.ru/Rus/ • Электронные словари компании Мультилекс – http://www.multilex.ru/ • Переводной словарь Google – http://www.google.ru/dictionary?hl=ru Корректура • Сегодня для подготовки текстов используются различные программы верстки и текстовые редакторы. • А в качестве средств автоматизации корректурных процессов выступают различные встроенные функции проверки текста на наличие орфографических, синтаксических и стилистических ошибок. • Одна из таких функций – функция спеллер (speller – сокращение от spelling checker – программа поиска опечаток, корректор). • Особенность современных программ проверки текстов является их ориентация на современную общеупотребительную лексику, что затрудняет их использование для специфических, старинных текстов. Традиционная технология корректуры t к i ni tср no i tи Начало где: tср – время сравнения слова, tи – время исправления ошибки; ni – общее количество слов на i-ой странице, nоi – количество ошибок на i-ой странице. m m m Tkt t к i ni tср no i tи i 1 i 1 i 1 где m – количество страниц всего текста. да конец страницы? нет ni Сравнение слова tср Ошибка? да Исправление слова t и Конец нет noi Автоматизированная технология корректуры Начало да nнов _ i конец страницы? Занесение слова в словарь спеллера нет Сравнение неизвестного tср слова нет Ошибка? да Исправление слова Конец nсл nнов i 1 nнов _ i n нов _ i n p i n p i 1 i noi tи Автоматизированная технология корректуры t к i nнов _ i tср no i tи где nнов_i – количество новых слов на i-ой странице, nоi – количество ошибок на i-ой странице. Количество новых слов – занесенных в словарь: nсл nновi1 nновi nновi n p i n p i1i где nрi – количество разных слов на i-ой странице (неповторяющихся на странице), n p i 1i - количество общих разных слов i-ой и предыдущей (i-1) странице. Эффективность технологии корректуры • Эффективность той или иной технологии корректуры будем определять исходя их времени, затрачиваемом на корректуру текста. • В формальной модели корректуры фигурируют два вида параметров: время, затрачиваемое, на ту или иную деятельность и количественные характеристики. • Проанализируем количественные характеристики на примере корректуры Словаря Академии Российской 1789-1794 гг. Исследование количества ошибок Результаты сравнения ошибок в «Показании» САР 1-го тома Характеристики сравнения (кол-во) Введенный текст Вычитанный текст Всего записей 6092 6103 Всего неповторяющихся записей 6078 6094 Всего неповторяющихся слов 6031 6049 Одинаковых записей 5499 Одинаковых неповторяющихся записей 5477 Одинаковых неповторяющихся слов 5571 Ошибок в неповторяющихся записях 601 Ошибок в неповторяющихся словах 460 Ошибок в номерах колонок 108 Отсутствующих записей 11 Отсутствующих номеров колонок 33 Исследование количества ошибок • Общее количество несоответствий (ошибок) в тексте Показания составляет 612 ошибок. Общий объем текста Показания составляет 46 страниц. • Таким образом, среднее количество ошибок на странице составляет 13,3. • Если считать, что ошибки распределены равномерно по всему тексту словаря, тогда на одной странице будет встречаться 13-14 ошибок. Анализ систематических ошибок Ошибки, связанные со старинной лексикой и грамматикой Анализ систематических ошибок Ошибки, обусловленные особенностями графем шрифта Анализ систематических ошибок Другие систематические ошибки (технические) Анализ систематических ошибок Другие систематические ошибки Анализ систематических ошибок Соотношение разных видов ошибок 27% Ошибки, связанные со старинной лексикой и грамматикой Ошибки, обусловленные особенностями графем шрифта 52% 21% Другие систематические ошибки •Характер некоторых систематических ошибок свидетельствует о том, что данный текст был сформирован с помощью ручного набора. На это указывают некоторые технические ошибки и опечатки, которые мог сделать только человек. •Некоторые систематические ошибки можно устранить автоматически с помощью замен, что уменьшит временные затраты на корректуру. Исследование частотных характеристик слов Графическая модель страниц Словаря 1 стр. 2 стр. - количество не повторяющихся слов - количество повторяющихся слов - количество новых не повторяющихся слов не входящих в словарь-спеллер 3 стр. 8 стр - количество слов входящих в словарь-спеллер - количество ранее встечавшихся слов Исследование частотных характеристик слов Рост количества ранее встречавшихся слов в выборках количество слов 3500 3000 с учетом регистра 2500 без учета регистра 2000 Логарифмический (без учета регистра) 1500 1000 2 3 4 5 6 выборки 7 8 9 10 Исследование частотных характеристик слов Характеристики страниц 1-8 Характеристики сравнения Общее количество слов на странице Количество разных слов Общее количество ранее встречавшихся на странице слов Количество разных слов ранее встречавшихся на странице Количество слов проверяемых корректором Страницы 1 2 3 4 5 6 7 8 228 256 279 268 265 294 276 288 188 201 227 211 215 233 222 226 51 86 103 101 130 107 125 24 41 58 56 83 69 78 188 177 186 153 159 150 153 148 Исследование частотных характеристик слов Соотношение количества ранее встречавшихся слов, известных и не известных Word 100% 90% 80% 70% 60% Не известных Word 50% Известных Word 40% 30% 20% 10% 0% 1 стр. 2 стр. 3 стр. 4 стр. 5 стр. 6 стр. 7 стр. 8 стр. Эффективность технологии корректуры Количество слов, проверяемых корректором для страниц 1-8. количество слов • Для оценки общего количества проверяемых слов при использовании автоматизированной технологии корректуры для 1-8 страниц была построена аппроксимирующая функция. 300 250 200 150 100 50 0 y = -20,942Ln(x) + 192,01 2 R = 0,7799 1 2 3 4 5 6 7 8 страницы количество слов проверяемых корректором логарифмическая аппроксимирующая кривая Эффективность технологии корректуры Для оценки общего количества слов на промежутке с 9 по 570 страницу построим аппроксимирующую кривую с учетом промежуточных значений. В качестве метода аппроксимации используем метод наименьших квадратов и линейную зависимость. Уравнение аппроксимирующей прямой имеет вид: y = -0,11 x + 10,84. Соотношение количества слов, проверяемых корректором для страниц 8-570 с учетом промежуточных значений Эффективность технологии корректуры • Количество слов, проверяемых корректором при использовании автоматизированной технологии корректуры определяется следующим выражением: x 8 Y -20,94 ln x 192,01dx x 570 x 1 -0,11 x 10,84dx 44015 x 9 Эта величина соответствует количеству новых слов: m n i 1 нов i 44015 Эффективность технологии корректуры • Будем считать, что время исправления ошибки в K раз больше времени сравнения слова, тогда, обозначив время сравнения как t, получим: tср = t, tи = Kt. Эффективность технологии корректуры • Традиционная технологий корректуры: m m m i 1 i 1 i 1 Tkt t kt i ni t no i Kt Tkt 153330t 7581Kt • Автоматизированная технологий корректуры: m m m i 1 i 1 i 1 Tka t ka i nнов i t no i Kt Tka 44015t 7581Kt Эффективность технологии корректуры • Сравнение технологий корректуры: Tk 1 Tka / Tkt При K=1 , суммарный выигрыш времени корректуры может достигнуть 68%, а при К=10 и выигрыш времени корректуры 47,7%. Эффективность технологии корректуры • Оценивая полученные показатели, следует отметить ряд допущений, которые были приняты в формальной модели корректуры. • Во-первых, было принято, что ошибки распределены по тексту равномерно, поэтому количество ошибок на каждой странице постоянно. • Во-вторых, рассматривались только орфографические ошибки, не рассматривались ошибки пунктуации и связанные с нарушением правил верстки. В данную модель не входят также ошибки в словах, входящих в состав словаря спеллера.