ТЕХНОЛОГИИ АВТОМАТИЗИРОВАННОГО ПЕРЕВОДА СПЕЦИАЛИЗИРОВАННЫХ ТЕКСТОВ И.Г. Тихонова ООО «ПРОМТ» Санкт-Петербург Технология автоматизированного перевода текста хорошо известна и, на первый взгляд, довольно проста. Существующие программы перевода вполне пригодны для использования, они переводят моментально и очень дешево, или вовсе бесплатно. Web-страница или небольшой текст могут быть переведены за считанные секунды, возможны различные комбинации языков. Программа берет исходный текст и автоматически генерирует соответствующий ему на желаемом языке, используя особые правила перевода грамматических структур. Технология автоматизированного перевода специализированного текста в целом аналогична, но при выполнении тех же шагов без настройки системы машинного перевода полученный перевод может быть неудовлетворительным и потребует значительного времени на редактирование. Под специализированным текстом здесь подразумеваются, например, тексты научных публикаций различных дисциплинарных направлений, юридических документов, искусствоведческих исследований, административного делопроизводства и переписки и т.д. Особенности таких текстов с точки зрения систем машинного перевода могут быть сведены к следующему: – незнакомые слова, употребляемые только в данной узкой области (термины); – слова стандартной лексики, имеющие специализированный перевод в данном дисциплинарном направлении; – конструкции и словосочетания, характерные для данной области знания и использования. Система машинного перевода PROMT позволяет учесть указанные особенности, предлагая пользователю целый ряд дополнительных настроек, позволяющих улучшить качество перевода. При переводе текста анализируется не только содержательная часть документа, но и форматная информация, что дает возможность полностью сохранить структуру документа (стили форматирования, заголовки, разделение на части и т.д.). Это особенно важно при переводе документов сложной структуры, т.к. существенно сокращает время редактирования выходного текста. При первичном переводе специализированного текста система самостоятельно выявляет незнакомые слова, отсутствующие в генеральном словаре. Эти слова по усмотрению пользователя могут быть сразу или позже занесены в пользовательский словарь. Возможность создания и использования пользовательских словарей существенно влияет на качество перевода. Вы можете создать собственный пользовательский словарь и ориентировать его на определенную предметную область. Система позволяет добавлять в словарь новые слова и словосочетания, изменять их переводы, имеющиеся в других словарях, и вводить дополнительную грамматическую информацию. Для модификации словаря необходимы базовые знания о грамматике входного и выходного языков (представление о частях речи, правилах изменения слов и т.д.). К системе могут быть подключено одновременно несколько пользовательских словарей, кроме того, их можно создавать прямо в процессе работы над переводом. Объем пользовательского словаря не лимитирован (кроме аппаратных ограничений — недостаток памяти). Для быстрого создания пользовательского словаря удобно использовать предварительно подготовленный текстовый файл, состоящий из столбца слов (словосочетаний) и их переводов. Редактор словарей позволяет перенести информацию из этого файла в требуемый словарь. Для нескольких подключенных словарей устанавливается приоритет, т.е. указывается словарь, в котором перевод слова будет главным, и в дальнейшем система будет сразу использовать именно это значение для перевода вашего текста. Этот способ в некоторых случаях является наиболее удобным для настройки системы на более качественный перевод. Для любого текста могут быть указаны слова, не требующие перевода, — зарезервированные слова. Чаще всего к ним относятся имена собственные, иноязычные вкрапления и сочетания, специальные наименования и т.п. Резервирование имен собственных особенно важно в тех случаях, когда они совпадают со значимыми словами (например, при отсутствии резервирования фамилия «Smith» будет переведена на русский как «Кузнец»). Для зарезервированных слов существует возможность транслитерации — записи Опубликовано: Тихонова И.Г. Технологии автоматизированного перевода специализированных текстов // Технологии информационного общества — Интернет и современное общество: труды VII Всероссийской объединенной конференции. Санкт-Петербург, 10 – 12 ноября 2004 г. — СПб.: Изд-во Филологического ф-та СПбГУ, 2004. С. 72 – 74. ISBN 5-8465-0294-6 слов одного языка буквами другого языка (фамилия ‘Smith’ после транслитерации выглядит как «Смит»). Предварительная подготовка списка зарезервированных слов позволяет существенно сократить процесс редактирования перевода. В настоящее время производители систем автоматизированного перевода все большее внимание уделяют интеграции двух основных технологий — системы машинного перевода (MT) и системы класса Translation Memory (ТМ), такая интеграция реализована и в системе перевода PROMT. Перевод в системе класса Translation Memory опирается не на словари, а на базы переводов. В отличие от словарей, которые содержат перевод слов или словосочетаний, база переводов содержит отдельные сегменты текста (предложения, конструкции) вместе с их переводами. В процессе автоматического перевода программа сравнивает сегмент исходного текста с сегментами из подключенных баз переводов. В случае заданного процента совпадения (включая знаки препинания и стили форматирования текста) перевод фрагмента текста (сегмента) подставляется из базы переводов, а не отправляется на машинный перевод. Базы переводов создаются в специальной программе, переводы сегментов могут быть введены вручную, с использованием машинного перевода, а также на основе параллельных текстов — текстах одного содержания на двух языках. К системе автоматизированного перевода может быть подключено несколько баз переводов. Согласно алгоритму перевода, система сначала анализирует базы перевода и только при отсутствии вариантов использует машинный перевод. Использование такого рода интегрированной технологии особенно эффективно в областях, связанных с переводом большого числа однотипных документов. Компания PROMT предлагает интеграцию машинного перевода с собственной технологией Translation Memory и с технологий наиболее известного производителя систем Translation Memory — TRADOS. Совокупность настроек системы сохраняется и может быть неоднократно использована для работы с текущим документом и с другими, загружаясь автоматически. Система автоматизированного перевода легко интегрируется и может эффективно использоваться в процессах электронного документооборота и On-line перевода в Intranet сети организации или глобальной сети Интернет. Настройка системы автоматизированного перевода на определенную предметную область требует некоторых усилий, но в конечном итоге пользователь получает мощный инструмент лингвистической поддержки профессиональной деятельности. Опубликовано: Тихонова И.Г. Технологии автоматизированного перевода специализированных текстов // Технологии информационного общества — Интернет и современное общество: труды VII Всероссийской объединенной конференции. Санкт-Петербург, 10 – 12 ноября 2004 г. — СПб.: Изд-во Филологического ф-та СПбГУ, 2004. С. 72 – 74. ISBN 5-8465-0294-6