1. Анализ состояния вопроса представления информации

advertisement
Министерство образования и науки Российской Федерации
АРМАВИРСКАЯ ГОСУДАРСТВЕННАЯ ПЕДАГОГИЧЕСКАЯ АКАДЕМИЯ
УДК 681.5.01
№ госрегистрации
ГРНТИ _______________________
Утверждаю
И.о. ректора АГПА
_______________________ Дендеберя Н.Г.
«_____________________________ » 2010г.
ОТЧЕТ
О НАУЧНО-ИССЛЕДОВАТЕЛЬСКОЙ РАБОТЕ
(промежуточный)
по теме:
“Совершенствование систем мониторинга технического состояния энергетических
объектов”
Научный руководитель
____________________к.т.н. доцент А.Н. Давиденко
подпись, дата
Нормоконтролер
____________________
подпись, дата
Армавир 2010
1
Реферат
Совершенствование
систем мониторинга технического состояния энергетических
объектов
Отчет 66 с., 2 ч., 1 рис., 4 табл., 56 источников, 1 прил.
Ключевые слова и словосочетания: дизельная электростанция, мониторинг,
энергетические объекты, модернизация, надёжность, математическая модель,
прогнозирование.
Идея работы заключается в уменьшении количества ошибок операторов,
связанных с ошибками восприятия и неправильным переводом информации с
панели управления энергетическим объектом, за счёт использования программноаппаратного комплекса для русификации системной информации о неисправностях.
Объектом исследования является информационная система русификации
сигналов контроллера управления ДЭС импортного производства.
Предметом исследования являются визуализация, трансформация и анализ
информации на основе компьютерных методов обработки информации.
Для решения поставленных задач исследования были использованы методы
системного анализа, математической статистики, теория информации, теория
вероятностей, основы машинного перевода, теория реляционных баз данных,
объектно-ориентированного проектирования и программирования.
Научная новизна работы.
 Методика работы с панелями управления и считывания информации с
использованием их встроенных интерфейсов.
 Алгоритмы
перевода
информационных
сообщений
с
использованием
статистического машинного перевода.
 Методика создания информационного графического интерфейса.
 Имитационная модель деятельности оператора с учётом разработанной
информационной системы.
Практическая значимость результатов исследования предполагает следующее:
применение блоков русификации позволит сократить время на обслуживание
2
энергоустановки, уменьшить количество ошибок оператора при обслуживании и
обеспечить безаварийную эксплуатацию.
3
Содержание
ВВЕДЕНИЕ………………………………………………………………..8
1. АНАЛИЗ СОСТОЯНИЯ ВОПРОСА ПРЕДСТАВЛЕНИЯ ИНФОРМАЦИИ
ПАНЕЛЕЙ УПРАВЛЕНИЯ ЗАРУБЕЖНЫХ ЭНЕРГЕТИЧЕСКИХ СИСТЕМ,
ПОСТАНОВКА ЗАДАЧ ИССЛЕДОВАНИЯ ................................................. 13
1.1.
Анализ применения резервных ДЭС импортного производства в
отечественных системах электроснабжения ................................................... 13
1.2.
Анализ панелей ДЭС импортного производства ................................. 20
1.3.
Анализ программных комплексов, поставляемых с панелями управления
ДЭС 26
1.4.
Анализ протоколов обмена данными различных панелей управления
импортных систем и постановка задач на исследование .............................. 29
Выводы ................................................................................................................ 32
2. РАЗРАБОТКА МЕТОДИКИ
ИНФОРМАЦИОННОГО ОБЕСПЕЧЕНИЯ
КОНТРОЛЛЕРОВ ТЕХНИЧЕСКИХ СИСТЕМ С ОБУЧЕНИЕМ ........... 33
2.1.
Методы разработки информационных панелей и программного обеспечения
контроллеров зарубежных энергетических систем ........................................ 33
2.2.
Разработка алгоритмов перевода информационных сообщений контроллеров
ДЭС с обучением ............................................................................................... 36
Список использованных источников………………………………………..56
Приложения……………………………………………………………………..62
4
Нормативные ссылки
В настоящем стандарте использованы ссылки на следующие стандарты:
ГОСТ 1.5—93 Государственная система стандартизации РФ. Общие требования
к построению, изложению, оформлению и содержанию стандартов
ГОСТ 2.105—95 Единая система конструкторской документации. Общие
требования к текстовым документам
ГОСТ
2.111—68
Единая
система
конструкторской
документации.
Нормоконтроль
ГОСТ
6.38—90
Унифицированные
системы
документации.
Система
организационно-распорядительной документации. Требования к оформлению
документов
ГОСТ 7.1—84 Система стандартов по информации, библиотечному и
издательскому делу. Библиографическое описание документа. Общие требования и
правила составления
ГОСТ
7.9—95
(ИСО
214—76)
Система
стандартов
по
информации,
библиотечному и издательскому делу. Реферат и аннотация. Общие требования
ГОСТ 7.12—93 Система стандартов по информации, библиотечному и
издательскому делу. Библиографическая запись. Сокращение слов на русском
языке. Общие требования и правила
ГОСТ 7.54—88 Система стандартов по информации, библиотечному и
издательскому делу.
5
Определения
В
настоящем
отчете
о
НИР
применяют
следующие
термины
с
соответствующими определениями:
(Transformation-Based Learning, TBL).
TBL — это метод управляемого
обучения с использованием заранее размеченного обучающего корпуса.
Deep Sea Electronics DSE 5510 и Lovato 31 RGAM 12. Это типовые панели,
которые оснащаются датчиками контроля двигателя (к примеру: уровень масла,
датчики температуры, топливный датчик, датчик частоты, оборотов).
Дословный перевод-это перевод, в котором порядок слов на языке оригинала
сохраняется и слова переводятся только в широком значении, не принимая во
внимание контекст.
Буквальный перевод-это перевод, в котором грамматические структуры на
языке оригинала преобразуются в ближайшие эквиваленты грамматических
структур на языке перевода, но лексические слова переводятся так же отдельно, без
контекста.
Точный перевод-попытка воспроизвести точный контекстный смысл текста
оригинала в ограниченных рамках грамматических структур на языке перевода.
Заглавное слово – это левое (первое) слово, связанное с определенным словом
оригинала, незаглавное слово – это остальные слова, связанные с тем же словом
оригинала (появляются только у слов с коэффициентом деления >1).
6
Обозначения и сокращения
В настоящем отчете о НИР применяют следующие сокращения:
(ДЭС)-дизельные электростанции
(HMI Human-Machine Interface) -эффективного человеко-машинного
интерфейса
(MI – mutual information)- формула взаимозависимости
(ОП) - ответственные потребители
(АВР) - автоматического ввода резерва
(SMT)- статистический машинный перевод
(ДГ)- дизель генератор
7
Введение
Актуальность работы.
Дизельные
неотъемлемой
электростанции
частью
(ДЭС)
отечественных
импортного
систем
производства
резервного
стали
электроснабжения,
используемых там, где электроснабжение от государственной сети должно быть
резервировано. В современных условиях рыночной конкуренции и экономического
кризиса необходимо качественное и бесперебойное электроснабжение предприятий
и
организаций.
При
построении
систем
гарантированного
бесперебойного
энергоснабжения на отечественных объектах, особенно со сложной топологией,
система автоматизации, мониторинга и дистанционного управления становится
необходимым условием для повышения надежности функционирования всей
системы в целом [5]. Автоматизация системы позволяет уменьшить численность
персонала, обслуживающего оборудование, повысить надежность и долговечность
ДЭС,
обеспечить
безопасность
производства.
При
автоматизации
электрооборудования в отечественных системах электроснабжения необходимо
учитывать, что панели управления и программное обеспечение, поставляемые в
Россию, не имеют русифицированного интерфейса, что существенно затрудняет их
эксплуатацию, и это, в свою очередь, приводит к простою оборудования и
невосполнимым убыткам. Задача русификации панели управления и программного
обеспечения зарубежных энергетических объектов не решалась по настоящее время.
Поставляемое
в
Россию
оборудование
имеет
панели
управления
с
предустановленными языковыми наборами: английский, французский, итальянский,
немецкий, испанский.
Вместе с тем растёт доля ошибочных действий операторов при неправильном
переводе системной информации [38]. Большой процент ошибок связан с
неправильной интерпретацией поступившей информации.
Ошибки оператора
составляют один из важнейших разделов эксплуатации технических систем. Этому
посвящено множество отечественных и зарубежных работ [22,40].
Примеры
ошибок операторов, связанных с неправильной интерпретацией или переводом:
8
 В крупнейшей авиакатастрофе за всю историю авиации 27 марта 1977 года в
аэропорту Тенерифе (Канарские острова) погибли 583 человека. "Самолет
KLM взлетал без разрешения на взлет, в полной уверенности, что такое
разрешение было получено. Это стало результатом недопонимания между
диспетчером и экипажем KLM. Такое недопонимание возникло в результате
обоюдного использования обычной терминологии, которая, однако, привела к
неправильной ее интерпретации", – было сказано в официальном заключении
комиссии по расследованию причин катастрофы [45].
 25 января 1990 года слабое знание английского языка сыграло ключевую роль
в катастрофе, происшедшей в США. Аварию потерпел самолет "Боинг-707"
колумбийской
авиакомпании
Avianca.
Погибли
73
человека
из
158
находившихся на борту, остальные были серьезно покалечены. Одной из
причин
комиссия
по
расследованию
назвала неспособность
экипажа
языковыми средствами сообщить диспетчеру о малом остатке топлива [45].
 12 ноября 1996 года ошибка в переводе с английского языка информации
диспетчера привела к гибели 349 человек в результате столкновения "Боинга747" авиакомпании Саудовской Аравии и Ил-76Т авиакомпании Казахстана
[45].
Часто оператор совершает ошибки при нехватке времени для перевода,
умственного сопоставления, анализа и решения. Оператор должен полагаться,
прежде всего, на показания приборов и информационной панели, а не на
собственные восприятия и перевод информации. При составлении грамотного
перевода, даже у профессионала, может уйти довольно много времени, которое
критично при возникновении неисправности.
Развитие информационных технологий, высокая степень автоматизации
используемого оборудования и перераспределение функций между человеком и
аппаратурой обострило проблему взаимодействия человека-оператора с системой
управления. Стремление повысить степень автоматизации и функциональные
возможности системы приводят к уменьшению внимания при разработке
9
эффективного человеко-машинного интерфейса (HMI Human-Machine Interface) [74],
т.е. интерфейса, ориентированного на пользователя (оператора).
Для решения вопроса русификации интерфейса предлагается создание
собственного информационного контроллера с графическим интерфейсом, который
позволит дублировать информацию с панели управления на русском языке и
сохранить алгоритм управления контроля применяемой системы управления. Такой
подход даёт возможность оператору достоверно осуществлять контроль параметров
и неисправностей ДЭС и, следовательно, своевременно принимать правильные
решения. В связи с этим разработка информационных блоков русификации является
актуальной задачей.
Цели и задачи исследования.
Целью настоящей работы является разработка информационной системы
русификации информационных сигналов контроля и управления энергетическими
объектами для блоков импортного производства.
Для практической реализации поставленной цели необходимо решить
следующие задачи:
 разработать информационную базу данных переводных соответствий;
 разработать
модель
«сущность-связь»
для
информационных
панелей
управления;
 разработать программное обеспечение для перевода сообщений панели
управления и обучения информационных контроллеров с графическим
интерфейсом;
 разработать методику выбора контроллера с графическим интерфейсом для
русификации информации поступающей с панели управления;
 разработать имитационную модель деятельности оператора с учётом
разработанной информационной системы;
 оценить технико-экономическую эффективность разработки.
Идея работы заключается в уменьшении количества ошибок операторов,
связанных с ошибками восприятия и неправильным переводом информации с
10
панели управления энергетическим объектом, за счёт использования программноаппаратного комплекса для русификации системной информации о неисправностях.
Практическая значимость результатов исследования предполагает следующее:
применение блоков русификации позволит сократить время на обслуживание
энергоустановки, уменьшить количество ошибок оператора при обслуживании и
обеспечить безаварийную эксплуатацию.
В первой главе «Анализ состояния вопроса русификации информации с
панелей управления зарубежных энергетических систем, постановка задач
исследования» рассмотрены вопросы автоматизации электрооборудования в
отечественных системах электроснабжения. Проведён анализ энергетического
оборудования, применяемого в России, и выявлены проблемы, связанные с
отсутствием русифицированного интерфейса в панелях управления и программного
обеспечения.
Обосновано,
что
отсутствие
русифицированного
интерфейса
существенно осложняет работу с оборудованием, увеличивает время для устранения
неисправностей и вероятность ошибки оператора. Для решения задачи русификации
предложено создание базы переводных соответствий под конкретную панель
управления с последующим обучением контроллера имеющего графический
интерфейс. База переводных соответствий составляется с помощью ПК, а затем
переносится на контроллер. Информация для обучения конкретному контроллеру
может быть получена путём сканирования интерфейсов (RS-232, RS-485) панели
управления в режиме мониторинга. Дублирование информации на русском языке
позволяет оперативно контролировать все параметры работы и неисправности ДЭС.
Во второй главе «Разработка методики машинного перевода контроллеров
технических систем с обучением» рассмотрены вопросы, связанные с методами и
подходами, применяемыми для решения задач русификации панелей управления
зарубежных энергетических систем. Обосновано, что наиболее предпочтительный
принцип перевода сообщений панелей управления и программного обеспечения
энергетических систем – точный перевод. Для реализации этого принципа
целесообразно использовать статистический метод перевода. Такой подход
позволяет выполнить качественный технический перевод и обеспечить смысловое
11
наполнение предложения, надёжную и расширяемую информационную систему для
создания систем межъязыкового перевода и может быть применён к большому
количеству языков. Приводится анализ языковых средств
для создания
программного обеспечения и применяемой СУБД, так как необходимо учитывать
особенности построения систем машинного перевода.
Реализация выводов и рекомендаций работы.
Методика моделирования реакции оператора на воздействие производственной
среды использована в ООО ПКФ «МИКА» при расчёте данных прогноза
эффективности и значений дневной загрузки оператора котельной, использующей в
качестве
топлива
природный
газ.
Методика
позволяет
статистическую
характеристику реакции индивидуума на воздействие производственной среды в
координатах:
интенсивность
производственной
загрузки
–
эффективность
выполнения заданий инвариантом. Предложенная методика позволила оперативно и
качественно управлять персоналом, отвечающим за безопасность и безаварийную
эксплуатацию котельных теплопроизводительностью свыше 10.0 Гкал/час.
Методика создания программного обеспечения русификации контроллеров
технических
систем
импортного
производства
использована
в
ДАО
«ЭЛЕКТРОГАЗ» при разработке блочно-комплектных устройств электроснабжения
вдоль трассовых потребителей газопроводов. Предложенные модели позволяют
обеспечивать оперативное и качественное управление техническими системами.
Апробация работы.
Основные положения и результаты работы докладывались на региональных,
Российских
и
международных
конференциях
КУБГАУ,
АГПУ,
МСНТ,
заседаниях кафедры информатики КУБГТУ, научно-практических семинарах
кафедры информатики и информационных технологий обучения АГПУ,
опубликованы в сборниках трудов КУБГАУ, материалах научно-практической
конференции АГПУ, научно-информационном сборнике работ МСНТ, научном
журнале
«Промышленная
энергетика»,
научном
журнале
«Современные
проблемы науки и образования» и получили положительную оценку.
12
Основная часть
1.
АНАЛИЗ
СОСТОЯНИЯ
ИНФОРМАЦИИ
ВОПРОСА
ПАНЕЛЕЙ
ПРЕДСТАВЛЕНИЯ
УПРАВЛЕНИЯ
ЗАРУБЕЖНЫХ
ЭНЕРГЕТИЧЕСКИХ СИСТЕМ, ПОСТАНОВКА ЗАДАЧ ИССЛЕДОВАНИЯ
1.1.
Анализ применения резервных ДЭС импортного производства в
отечественных системах электроснабжения
В настоящее время во всём мире интенсивно развиваются компьютерные
системы
обработки
информации
и
принятия
управленческих
решений,
автоматические системы управления технологическими процессами и целыми
производственными комплексами и т.п. Все это «ответственные потребители» (ОП)
электрической энергии, которые в структуре энергопотребления любого развитого
государства играют большую роль. Причём, в настоящее время на таких
энергопотребляющих
объектах, как центры телекоммуникации и связи, банки,
бизнес-центры, диспетчерские пункты транспортных узлов и т.п., мощность ОП
составляет до 70% [5]. Для них цена сбоев в электроснабжении чрезвычайно высока,
и поэтому электроснабжение должно быть
бесперебойным
и
абсолютно
не просто первой категории, а
соответствующим
требованиям
к
качеству
электроэнергии, которое необходимо таким потребителям. Одним из видов
выработки электроэнергии являются дизельные электростанции. Всё чаще это
генераторы
зарубежного
производства.
Дизельные
электростанции
(ДЭС)
импортного производства стали неотъемлемой частью отечественных систем
резервного электроснабжения, используемых там, где электроснабжение от
государственной сети должно быть продублировано. В современных условиях
рыночной конкуренции и экономического кризиса необходимо качественное и
бесперебойное электроснабжение предприятий и организаций. ДЭС применяются в
качестве резервных или аварийных источников электроэнергии в производствах, где
длительный перерыв в питании приводит к авариям или убыткам. Большое
количество ДЭС используются в качестве резервных источников электроэнергии на
объектах министерства обороны или других административных ведомств.
13
Необходимо отметить, что в Россию поставляются ДЭС следующих
зарубежных
производителей:
FG
Wilson
(Великобритания),
Cummins
(Великобритания), SDMO (Франция), Caterpillar (США), Gesan (Испания), Denyo
(Япония), Geko (Германия), Olympian (США) [5].
Дизельные агрегаты резервного электропитания предназначены для выработки
электроэнергии при перебоях (исчезновении, снижении ниже допустимого уровня и
т.п.) сетевого напряжения (основной источник питания) и снабжения ею
потребителей в течение времени, необходимого для устранения неполадок с сетью
или перевода потребителей в безопасное состояние с последующей их остановкой
[54]. Наиболее часто потребителями энергии таких агрегатов являются системы
жизнеобеспечения,
различное
коммуникационное
оборудование
и
другие
устройства, чувствительные к наличию и качеству сетевого напряжения. Учитывая,
что даже кратковременные перерывы питания в ряде случаев приводят к тяжелым
последствиям, устранение которых обходится очень дорого (при потере «памяти» в
электронных устройствах, сбоях и потере обрабатываемой и передаваемой
информации), а иногда и вообще невозможно (при отключении аппаратов
жизнеобеспечения), использование агрегатов резервного электропитания является
технически и экономически оправданным.
Панели управления импортного производства, поставляемые в Россию, имеют
расширенный контроль параметров и высокую степень автоматизации.
При внедрении систем гарантированного бесперебойного энергоснабжения на
отечественных объектах, особенно со сложной топологией, система автоматизации,
мониторинга и дистанционного управления является необходимым условием для
повышения надежности функционирования всей системы в целом. Внедрение
системы автоматизации и мониторинга дает возможность дежурной службе
своевременно получать информацию о возникших нештатных ситуациях и
оперативно предпринять действия к их устранению, при этом все основные функции
по предотвращению негативных последствий от проблем с электропитанием
система выполняет автоматически, без вмешательства оператора.
14
Необходимость автоматизации системы гарантированного бесперебойного
энергоснабжения связана с тем, что отключение электросети происходит внезапно.
Ручной ввод оператором резервного источника электропитания может быть
осложнен из-за трудности доступа к нему в условиях отключенной электроэнергии,
а также ограниченности навыков запуска оборудования, к примеру, дизельгенераторной
установки.
Автоматизированная
система
всегда
готова
к
резервированию без привлечения обслуживающего персонала, а все ее узлы
находятся под непрерывным техническим контролем как аппаратных, так и
программных средств. При этом программное обеспечение является незаменимым
и
полностью
интегрированным
элементом
системы,
повышающим
её
работоспособность и обеспечивающим защиту процессов. При отказе внешних
электросетей программное обеспечение предпринимает ряд действий: уведомляет
пользователей о случившейся проблеме, переводит технологические процессы в
определенный статус, закрывает открытые файлы и каналы связи, корректно
останавливает необслуживаемые системы, а при восстановлении работоспособности
городских электросетей происходит автоматический запуск всех систем и
возвращение их к нормальной работе.
Автоматизация системы позволяет уменьшить численность обслуживающего
оборудование персонала, повысить надежность и долговечность ДЭС, обеспечить
безопасность производства.
При
автоматизации
электрооборудования
в
отечественных
системах
электроснабжения необходимо учитывать, что панели управления и программное
обеспечение, поставляемые в Россию, не имеют русифицированного интерфейса,
что существенно затрудняет контроль параметров и неисправностей, а это, в свою
очередь, приводит к простою оборудования и невосполнимым убыткам.
Кроме требований к автоматизации системы, к агрегатам резервного
электропитания импортного производства предъявляются требования, выполнение
которых определяет возможность их применения, и могут быть разделены на две
группы.
15
К первой относятся общие требования, которым должны удовлетворять все
электроагрегаты и электростанции с двигателями внутреннего сгорания, вне
зависимости от вида обеспечиваемого ими электропитания (основное, резервное или
аварийное).
Эти
требования
определены
действующими
нормативными
документами (руководящими материалами, стандартами: ГОСТ10150-88 [11], ГОСТ
Р 50761-95 [17], ГОСТ Р 51249-99 [18], ГОСТ Р 51250-99 [19]) и определяют
характеристики, которыми должны обладать, в частности, агрегаты резервного
электропитания. Основными из них являются следующие:
 по назначению (номинальные мощность, напряжение, частота, коэффициент
мощности);
 определяющие условия эксплуатации (температура окружающей среды,
влажность, запыленность, высота над уровнем моря и т. п.);
 по стойкости при внешних воздействиях (перевозке автомобильным,
железнодорожным и другими видами транспорта);
 конструкция (способы охлаждения первичного двигателя, защиты от
атмосферных воздействий);
 качество электроэнергии;
 условия хранения.
Ко
второй
группе
относятся
требования,
учитывающие
особенности
эксплуатации агрегатов резервного электропитания, в том числе возможность их
работы на конкретную нагрузку [2]. К их числу относятся:
1.
Время пуска дизеля, его выхода на номинальный скоростной режим, а
также тепловой, допускающий нагрузку дизеля, не должно превышать 10 сек. (при
мощности до 100 кВт) и 20 сек. (при мощности до 500 кВт). Выполнение этого
требования позволяет сократить время питания потребителей электроэнергией от
аккумуляторных батарей и, в свою очередь, определяет необходимость:
 поддержания дизеля в состоянии горячего резерва, не допуская выхода
(снижения или повышения) температур охлаждающей среды и смазочного
масла за предельные значения. Для этого должны быть установлены
16
специальные подогреватели, устанавливаемые непосредственно на дизельэлектрических установках или вне их;
 прогрева помещения или применения «термостарта». Термостарт заключается
в подогреве при пуске поступающего на горение воздуха, что позволяет
осуществлять автоматический пуск дизель-генератора, установленного в
обычном неотапливаемом кожухе, при температуре окружающего воздуха до
– 20 °С;
 пуска двигателя на максимально допустимую (желательно номинальную)
частоту вращения.
Необходимо отметить, что предварительный подогрев дизеля повышает
вероятность его безотказного пуска.
2.
Величина нагрузки, которая может быть приложена к агрегату сразу
после его выхода на номинальный скоростной режим (при нахождении дизеля перед
пуском в состоянии горячего резерва или после пуска и достижения теплового
режима, допускающего нагрузку), должна быть максимальной. Это требование
вызвано стремлением с первого момента возникновения нагрузки максимально
использовать возможности двигателя. Последнее позволяет уменьшить его
установочную мощность.
3.
Время с момента подачи команды на пуск агрегата (исчезновения или
недопустимого изменения напряжения в сети) до принятия им номинальной
нагрузки должно быть минимальным. Выполнение этого требования позволяет не
только сократить время питания потребителей от аккумуляторных батарей и,
соответственно, их емкость и стоимость, но при времени, равном нулю,
использовать агрегат в качестве источника бесперебойного питания. В этом случае
применение аккумуляторных батарей не требуется.
4.
Надежная,
без
ограничения
времени,
работа
агрегата
должна
обеспечиваться при минимальной нагрузке не более 25...40% номинальной. При
меньшей нагрузке (до холостого хода включительно) должна обеспечиваться работа
в течение не менее 1...2 часов с последующим возможно коротким прожигом или
без него. Это требование объясняется тем, что прикладываемая к агрегату нагрузка
17
является, как правило, переменной и может изменяться в широких пределах (в
отдельных случаях от 10 до 100% номинальной). Выполнение этого требования
позволяет отказаться от установки вместо одного нескольких агрегатов меньшей
мощности, существенно упростить систему управления и за счет всего этого снизить
стоимость агрегата. Что же касается прожига, то он проводится при нагрузке не
менее 70...75% номинальной, которой на объекте может не быть, и требует
присутствия обслуживающего персонала, что не всегда возможно и допустимо.
5.
Количество отказов в запуске на один состоявшийся не должно
превышать 0,001...0,002 (в зависимости от типа дизеля). Выполнение этого
требования
при
оборудовании
электроагрегата
стартером
обеспечивается
проведением трех попыток пуска, каждая длительностью до 8 сек. с интервалом
между ними порядка 10 сек. В то же время при пуске сжатым воздухом
продолжительность его подачи должна составлять до 8 сек. при одной попытке.
Увеличение числа попыток при воздушном пуске нецелесообразно, т. к. при этом
охлаждаются цилиндры дизеля и ухудшаются условия воспламенения топлива.
Большинство агрегатов резервного питания оснащают электрическим (стартерным)
пусковым устройством. Пневматические пусковые устройства устанавливают, как
правило, только на агрегатах большой мощности, где необходимый для их
раскрутки до пусковой скорости вращающий момент электростартером создать
трудно.
В России безопасность зарубежных дизель-генераторов обеспечивается путем
проведения их обязательной сертификации при выпуске в обращение. Дизельгенераторы включены в «Номенклатуру продукции, в отношении которой
законодательными актами Российской Федерации предусмотрена обязательная
сертификация». В этом же документе установлено, что сертификация проводится на
соответствие требованиям безопасности, содержащимся в стандартах:
 ГОСТ 10150-88 [11];
 ГОСТ 10511-83 [12];
 ГОСТ Р 50761-95 [17];
 ГОСТ Р 51249-99 [18];
18
 ГОСТ Р 51250-99 [19].
После проведения сертификации выдается
сертификат соответствия
с
указанием срока его действия. Только после этого разрешается продажа и
эксплуатация ДЭС на территории РФ.
Все
изложенное
свидетельствует
о
том,
что
при
автоматизации
электрооборудования, поставляемого в Россию, необходимо учитывать, что панели
управления и программное обеспечение не имеют русифицированного интерфейса,
что, в свою очередь, может затруднить контроль параметров и неисправностей ДЭС.
Также требования, предъявляемые к ДЭС импортного производства, зависят от
характеристик
аппаратуры
конкретного
потребителя,
и
возможность
удовлетворения части требований, перечисленных выше, оказывается решающей
для выбора агрегата резервного питания. Выполнение остальных является только
желательным, а сами требования могут быть упрощены или смягчены.
19
Анализ панелей ДЭС импортного производства
1.2.
В состав
ДЭС входит панель управления электрогенератором — цифровое
микропроцессорное устройство, предназначенное для автоматического управления,
контроля, защиты электрогенератора с двигателем внутреннего сгорания в режимах
одиночной работы и резервирования сети. Контроллеры позволяют осуществлять
автоматический пуск/остановку двигателя и управление генераторным и сетевым
контакторами либо с лицевой панели, либо дистанционно, либо автоматически по
сигналу исчезновения/восстановления тока в сети.
Система автоматизации электрогенератора по международным стандартам
ГОСТ Р50783-95 [20], Межгосударственный стандарту ГОСТ 28690-90 [15] должна
обеспечивать выполнение задач, предусмотренных объемом автоматизации.
Степень автоматизации электрогенератора
Таблица 1.1
Решаемые задачи
Степень
автоматизации
1.
Стабилизация выходных электрических параметров
2.
Защита электрических цепей
1.
Стабилизация выходных электрических параметров
2.
Аварийно-предупредительная
сигнализация
0
и
аварийная защита
3.
после
Автоматическое поддержание нормальной работы
пуска
и
включение
нагрузки,
в
т.ч.
1
без
обслуживания в течение 4 или 8 часов
1.
Стабилизация выходных электрических параметров
2.
Аварийно-предупредительная
сигнализация
и
аварийная защита
3.
Дистанционное и (или) автоматическое управление
при пуске, работе и остановке со сроком необслуживаемой
работы в течение 16 или 24 часов
20
2
1.
Стабилизация выходных электрических параметров
2.
Аварийно-предупредительная
сигнализация
и
аварийная защита
3.
Дистанционное и (или) автоматическое управление
всеми
технологическими
процессами,
в
т.ч.
3
при
параллельной работе, со сроком необслуживаемой работы
в течение 150 или 200 часов (для электрогенераторов с
тракторными двигателями – 90 и 120 часов)
В электроагрегатах и электростанциях, автоматизированных по 1, 2, 3 степеням
автоматизации, защита электрических цепей входит в объем автоматизации
аварийно-предупредительной сигнализации и защиты.
Панель
управления
электрогенератором
по
0
степени
автоматизации
обеспечивает:
1. Ручной запуск электрогенератора с лицевой панели.
2. Подключение и отключение нагрузок в ручном режиме.
3. Измерение основных параметров двигателя: давления масла, температуры
охлаждающей жидкости, уровня топлива, напряжения батареи и зарядного
генератора, частоты вращения вала двигателя, времени наработки генератора.
4. Измерение основных параметров генератора: напряжения, частоты тока по
каждой фазе, активной, реактивной и полной мощности.
Панель
управления
электрогенератором
по
1
степени
автоматизации
обеспечивает:
1.
Автоматический запуск электрогенератора и подключение нагрузки к
генератору при исчезновении напряжения основной питающей сети или выходе ее
параметров за заданные установки.
2.
Автоматический останов электрогенератора и выдачу команды на возврат к
питанию нагрузки от основной сети при восстановлении ее параметров.
3.
Выполнение вышеперечисленных операций в ручном режиме с лицевой
панели блока управления.
21
4.
Измерение
основных
параметров
сети
и
генератора:
напряжения
сети/генератора, тока генератора, частоты генератора/оборотов, напряжения
батареи, напряжения зарядного генератора, реактивной и полной мощности
генератора.
5.
Измерение основных параметров двигателя: давления масла, температуры
охлаждающей жидкости, уровня топлива, времени наработки генератора.
6.
Аварийную защиту и сигнализацию по следующим параметрам:

перегрев охлаждающей жидкости;

низкое давление масла;

превышение оборотов двигателя выше номинальных (разнос);

низкий уровень топлива;

неисправность зарядного генератора;

выход параметров генератора за заданные установки.
При пропадании питающего напряжения в основной сети (хотя бы одной фазы)
или при выходе электрических параметров за пределы допустимых значений панель
управления ДЭС 1 степени автоматизации производит автоматический запуск
электрогенератора. При достижении номинальных электрических параметров
панель управления отключает нагрузку от основной питающей сети и подключает ее
к резервному электрогенератору.
В условиях восстановленного электропитания панель управления 1 степени
автоматизации
переходит
в
режимы:
контроля
электрических
параметров
генераторной установки, контроля технических параметров работы двигателя,
отслеживания параметров основной питающей сети.
При восстановлении номинальных параметров основной питающей сети панель
управления ДЭС 1 степени автоматизации в течение запрограммированного
интервала времени проверяет стабильность параметров основной электросети, после
чего производит переключение нагрузки.
После отключения нагрузки от электрогенератора панель управления ДЭС
останавливает электрогенератор, предварительно обеспечив непродолжительную
работу агрегата в режиме охлаждения.
22
В аварийной ситуации (при падении уровня масла и давления, повышении
температуры охлаждающей жидкости, изменении числа оборотов двигателя) блок
управления производит немедленный автоматический останов электрогенератора с
индикацией соответствующей неисправности на лицевой панели.
В состав панели входят: контроллер, два контактора АВР (автоматического
ввода резерва) с электрической и механической блокировкой от одновременного
срабатывания, зарядное устройство аккумулятора, автоматы защиты.
Дополнительно панель включает в себя систему управления подогревателем
масла и охлаждающей жидкостью, счетчик моточасов, таймер, систему удаленного
мониторинга, управления и оповещения по каналу GSM.
Панели управления импортного производства, поставляемые в Россию, имеют
расширенный контроль параметров и высокую степень автоматизации.
К примеру, панель Deep Sea Electronics [115] контролирует следующие
параметры:
1. Сетевое напряжение.
2. Частота сети (Гц).
3. Активная мощность сети (кВт).
4. Полная мощность сети (кВт).
5. Сетевой коэффициент мощности.
6. Напряжение генератора.
7. Поток генератора.
8. Частота генератора (Гц).
9. Активная мощность генератора (кВт).
10.Полная мощность генератора (кВт).
11.Коэффициент мощности генератора.
12.Система подсчета времени.
13.Кумулирующая энергия генератора (кВт).
14.Температура генератора.
15.Давление генератора.
16.Уровень топлива.
23
17.Напряжение батареи пуска.
Кроме этого, панель автоматизирует следующие функции:
 автоматический пуск/стоп, переключение нагрузки и оповещение оператора;
 изменение параметров и сохранение их во внутренней флэш-памяти
(параметры не могут быть утрачены даже при отключении электропитания);
 управление устройством и контроль параметров по RS-232;
 создание системы мониторинга для выполнения функций "дистанционного
управления", "дистанционного обзора" и "дистанционного сообщения" через
сеть Интернет.
В своём составе панель имеет графический жидкокристаллический дисплей с
подсветкой, отображающий информацию на английском, французском, испанском и
других языках, а также панель с сенсорными кнопками для выполнения операций.
Аналогичные устройства, поставляемые в Россию с ДЭС, – InteliLite [116] и
InteliGen. Обе панели имеют возможность автоматически запускать двигатель
генераторной установки, включать генераторный контактор, когда все условия
соблюдены, останавливать двигатель по внешнему сигналу либо от нажатия кнопки.
Контроллеры различаются по исполнению, но имеют общие характеристики:
 поддержка двигателей с электронным блоком управления (J1939 интерфейс);
 AMF
функция
(автоматически
включает/выключает
генератор
при
исчезновении/появлении напряжения в основном источнике питания);
 измерение параметров генератора: U, I, Hz, kW, kVAr, kVA, PF, kWh, kVAhr;
 измерение параметров сети: U, I, Hz, kW, kVAr, cosφ;
 входы и выходы, конфигурируемые для различных потребностей клиента;
 RS232/ModBus интерфейс поддерживает аналоговый/GSM/ISDN модем,
возможность посылки SMS-сообщений при отказах генераторной установки;
 сохранение событий в файл истории (~ 120 записей).
 панели имеют графический дисплей без поддержки русского языка.
Следующий
контроллер,
который
имеет
иное
исполнение,
но
также
поставляется с ДЭС в Россию, – Lovato RGAM [117]. Он позволяет осуществлять
дистанционное измерение напряжения внешней электрической сети и генератора и
24
управлять генераторной установкой. Имеется возможность программировать и
управлять панелью через RS-232 порт. Панель контролирует те же параметры, что и
предыдущие панели, однако не имеет собственного текстового дисплея, а только
выводит на панель код неисправности на 8-ми разрядный индикатор. На панели
имеется расшифровка кодов неисправностей, однако они представлены на
английском языке.
Необходимо отметить, что все панели контролируют большое количество
параметров работы дизеля и генератора, различны по степени автоматизации,
однако ни одна из представленных панелей не имеет русифицированного
интерфейса, что может привести к неправильному толкованию сообщений о
неисправности или информационных сообщений.
25
Анализ программных комплексов, поставляемых с панелями управления
1.3.
ДЭС
Программное обеспечение, поставляемое с панелями управления ДЭС,
предназначено для мониторинга и конфигурирования параметров модуля на основе
ПК. Необходимость удалённого мониторинга обусловлена сложностью доступа к
дизель-генератору либо к панели в условиях отключенной электроэнергии, либо по
причине удалённости объекта. При этом программное обеспечение является
незаменимым и полностью интегрированным элементом системы, повышающим её
работоспособность и обеспечивающим защиту процессов. Интерфейсы, которые
используют для подключения к ПК панели, чаще всего RS232 либо RS485, хотя в
последнее время все больше устройств поставляется с USB либо Ethernet шиной.
Это связано с тем, что большинство ПК уже не имеют RS232 портов, либо
необходима работа панелей на большом удалении рабочих станций.
В первую очередь необходимо отметить, что все поставляемое ПО работает под
управлением операционной системы Windows, что накладывает ограничение на
использование этих приложений на иных операционных системах: Linux, Unix,
MacOS.
Анализируя
программное
обеспечение
по
функциональности
и
информативности, следует отметить, что производители панелей стараются
полностью скопировать интерфейс панели в ПО. Это позволяет оператору,
знакомому с панелью, не изучать дополнительно работу с ПО.
При использовании программного обеспечения оператор имеет возможность
вмешаться в работу устройства и задать установки сигнализации при отклонении
контролируемых величин. Кроме того, в программном обеспечении задаются
режимы удалённого мониторинга, и в случае обнаружения модулем аварийного
состояния он устанавливает связь модема с главным ПК, информируя оператора на
расстоянии о возникшей проблеме, передавая при этом идентификацию модуля, а
затем сообщая о произошедшей неисправности, о её времени и дате возникновения.
После этого оператор может просмотреть показания приборов, сведения об
аварийных ситуациях, журнал событий, а также состояние реле и входов.
26
Рис. 1.1 – Схема подключения нескольких панелей управления ДГУ
Все
данные
анализироваться
экспортируются
последующего
о работе
двигателей
в непрерывном
в прикладное
архивирования.
и генераторов
режиме.
программное
Также
обрабатываться
Получаемые
системой
обеспечение
для
возможно
производить
ПК,
данные
анализа
или
комплексный
мониторинг состояния электросетей, параметров окружающей среды (температуры
и влажности в контейнере), видео- и аудионаблюдения. На рис. 1.1 изображена
схема подключения нескольких панелей управлении ДГУ с объединённой системой
мониторинга.
Программное обеспечение, поставляемое с панелями управления ДЭС, не имеет
русифицированного интерфейса и возможности русификации. Как отмечалось
27
ранее, это может привести к затруднению эксплуатации резервных источников
электроэнергии.
Все программное обеспечение АСУ, используемое в России, проходит
обязательную стандартизацию: ГОСТ 24.104-85 [14]. Согласно ГОСТу программное
обеспечение ДЭС должно быть достаточным для выполнения всех функций ДЭС,
реализуемых с применением средств вычислительной техники, а также иметь
средства организации всех требуемых процессов обработки данных, позволяющие
своевременно
выполнять
все
автоматизированные
функции
во
всех
регламентированных режимах функционирования ДЭС.
Следует отметить, что программное обеспечение, поставляемое вместе с ДЭС,
выполняет полный перечень автоматизирующих функций и предоставляет
возможность мониторинга, однако не имеется возможности использовать его в
полном объёме за счёт отсутствия русифицированного интерфейса.
28
1.4.
Анализ протоколов обмена данными различных панелей управления
импортных систем и постановка задач на исследование
В настоящее время существует проблема неоднородности систем управления
дизель-генераторами. Большой выбор панелей управления приводит к тому, что нет
единой схемы работы и реакции системы на аварийную ситуацию. При этом одной
из важнейших проблем является создание национального графического интерфейса.
Одним из предложенных решений может быть создание собственного графического
интерфейса, который позволит параллельно с существующим дисплеем выводить
дублирующую информацию, к примеру, на русском языке. Однако неизвестен
протокол обмена между панелью управления и дублирующим графическим
интерфейсом, тем более он различен для всех производителей.
Порты для управления через компьютер на панелях управления различны,
однако
не
составляет
труда
преобразовать
данные
для
приёма
через
последовательный порт RS-232. Предлагаемый метод изучения передачи данных
состоит в сканировании передаваемых данных между устройством и программой,
предлагаемой производителем, и на основе полученной информации построении
базы данных обмена устройства [6]. Принцип сканирования состоит в определении
передаваемых данных через RS-232 (Com-порт) путём подключения к драйверу
порта и записывании полученных данных в файл для последующего анализа.
Полученные данные передаются в шестнадцатеричном виде и могут быть
переведены путём преобразования кодов ASCII в символьный код для дальнейшего
изучения. При сканировании также можно узнать, как устанавливается соединение:
скорость, чётность, количество передаваемых бит, стоповый бит и контроль
передаваемых данных.
Подобным образом были изучены панели управления: Deep Sea Electronics DSE
5510 и Lovato 31 RGAM 12. Это типовые панели, которые оснащаются датчиками
контроля двигателя (к примеру: уровень масла, датчики температуры, топливный
датчик, датчик частоты, оборотов). Однако они существенно различаются по типу
подключения, внешнему исполнению, возможностям управления и подключению к
29
ПК. Эти обе панели управления не могут выводить информацию о текущем
состоянии на русском языке.
Панель Deep Sea Electronics DSE 5510 [118] имеет интерфейс RS-485, который
необходимо преобразовать через гальванические развязки в RS-232. При
сканировании передаваемых данных, после подключения, панель передала
следующую строку: Copyright (C) 2000 Deep Sea Electronics Plc. All rights reserved.
Далее при поиске текущего состоянии по запросу: .....@BY панель возвращает
текущее состояние, к примеру: F.a.i.l.e.d. .t.o. .s.t.o.p, что говорит об ошибке
остановки. Так же были выяснены коды, которые управляют настройками панели,
тем самым возможно настраивать режимы работы ДГ, не имея полного описания
контроллера. Проверкой правильности принимаемых команд является подключение
в терминальном режиме и посылкой уже известных кодов, и проверкой выдаваемых
данных панелью.
Следующая для изучения панель Lovato 31 rgam 12. Порт для подключения –
RS-232. После сканирования было выяснено, что возможно по запросу (01ID?)
узнавать
текущую
версию
панели:
(01ID=LOVATO
5B1
RGAM
REV.25
DATE:31.03.05 CKS:E188 - 12V), а по запросу (01PS?) – (PS- Panel Station) – текущее
состояние
ДГ.
Формат
(01PS=O..N.....A04).
Коды
данных,
который
ошибок
указаны
выдает
на
панель,
лицевой
имеет
стороне
вид:
панели,
следовательно, не составляет труда составить базу данных всех возможных
состояний ДГ. Так же возможно переключить панель в различные режимы, к
примеру тест: (01KT:).
Описанные способы изучения работы применимы к любой панели управления
ДГ, что позволяет составить единую базу и панель русификации, применимую к
множеству устройств импортного производства. Так же решается проблема
управления ДГ: возможно создание схемы поведения при каждой аварийной
ситуации, даже если она не заложена изготовителем панели, но обеспечивается
системой команд используемого микропроцессора.
Для
русификации
неисправностей
для
полученных
конкретной
данных
панели
30
необходимо
управления
и
создание
базы
базы
переводных
соответствий, которая может быть получена путём создания автоматизированной
системы
машинного
перевода.
После
создания
базы
возможно
обучение
контроллера с графическим интерфейсом [3], который подключается к панели
управления и дублирует информацию с основного дисплея на русском языке.
Универсальность этого метода заключается в едином техническом комплексе с
возможностью обучения под конкретную панель управления.
Необходимость создания подобных систем русификации и управления
подтверждается тем, что появляется возможность оперативного управления
оборудованием
зарубежного
производства,
используемым
в
отечественных
системах электроснабжения.
В результате анализа проблем связанных с отсутствием русифицированных
панелей управления и программного обеспечения, можно сформулировать задачи
исследования:
1. Разработать методику машинного перевода контроллеров технических систем
с обучением.
2. Разработать
информационную
руссифицированную
систему
панели
управления ДЭС.
3. Смоделировать действия оператора, работающего с русифицированной
панелью управления АСУ.
4. Оценить экономическую эффективность использования блоков русификации.
31
Выводы
В главе даётся полное представление о состоянии вопроса использования
зарубежного
энергетического
оборудования
в
отечественных
системах
электроснабжения. В связи с этим можно сделать выводы:
1. При автоматизации электрооборудования в отечественных системах
электроснабжения необходимо учитывать, что панели управления и программное
обеспечение, поставляемые в Россию, не имеют русифицированного интерфейса,
что существенно затрудняет контроль параметров и неисправностей ДЭС.
2. Программное обеспечение, поставляемое с ДЭС, позволяет производить
локальный и удалённый мониторинг состояния оборудования, контролировать
все технические процессы, конфигурировать параметры, сохранять историю
неисправностей для последующего анализа.
3. Отсутствие русифицированного интерфейса существенно осложняет
работу с оборудованием, увеличивает время для устранения неисправностей,
увеличивает
вероятность
ошибки
оператора.
Простой
оборудования,
используемого в качестве резервного источника питания, может привести к
невосполнимым убыткам.
4. Русификация возможна при создании базы переводных соответствий
под конкретную панель управления с последующим обучением контроллера с
графическим интерфейсом.
5. Дублирование информации на русском языке позволяет оперативно
контролировать все параметры работы и неисправности ДЭС.
32
РАЗРАБОТКА МЕТОДИКИ ИНФОРМАЦИОННОГО ОБЕСПЕЧЕНИЯ
2.
КОНТРОЛЛЕРОВ ТЕХНИЧЕСКИХ СИСТЕМ С ОБУЧЕНИЕМ
2.1.
Методы
разработки
информационных
панелей
и
программного
обеспечения контроллеров зарубежных энергетических систем
Задача русификации панели управления и программного обеспечения
зарубежных
Поставляемое
энергетических
в
Россию
объектов
не
оборудование
решалась
имеет
по
настоящее
панели
время.
управления
с
предустановленными языковыми наборами: английский, французский, итальянский,
немецкий, испанский. Задача выбора методики русификации заключается в выборе
метода, который даст наиболее точный и правильный перевод за наименьшее время,
с наименьшими усилиями по созданию базы переводных соответствий.
Методы перевода, доступные для данной задачи:
1. Дословный перевод: это перевод, в котором порядок слов на языке оригинала
сохраняется и слова переводятся только в широком значении, не принимая во
внимание контекст. Дословный перевод, при правильной передаче мысли
переводимого текста, стремится к максимально близкому воспроизведению
синтаксической конструкции и лексического состава подлинника. В тех
случаях, когда синтаксическая структура переводимого предложения в
переводе выражена аналогичными средствами, дословный перевод может
рассматриваться как окончательный вариант перевода без дальнейшей
литературной обработки. Однако такое совпадение синтаксических средств в
двух языках встречается сравнительно редко, чаще всего при дословном
переводе возникает то или иное нарушение синтаксических норм языка
перевода. Несмотря на то, что дословный перевод часто нарушает
синтаксические нормы русского языка, он может применяться при черновом
переводе текста.
2. Буквальный перевод: это перевод, в котором грамматические структуры на
языке оригинала преобразуются в ближайшие эквиваленты грамматических
33
структур на языке перевода, но лексические слова переводятся так же
отдельно, без контекста.
3. Точный перевод: попытка воспроизвести точный контекстный смысл текста
оригинала в ограниченных рамках грамматических структур на языке
перевода.
При переводе с панелей управления более предпочтителен «Точный перевод».
Только он может предоставить качественный технический перевод и обеспечить
смысловое наполнение предложения [37].
Для машинного перевода наиболее сложной проблемой является реализация
языковых трансформаций, которые необходимо производить при переводе с одного
языка
на
другой.
Текущий
этап
развития
систем
машинного
перевода
характеризуется исследованиями в области когнитивной семантики, вероятностных
языковых моделей и разработкой семантико-синтаксических представлений,
учитывающих многозначность и неоднозначность синтаксических структур.
Для машинного перевода применяют два основных подхода: классический и
статистический.
Классический подход для перевода опирается на лингвистический и
семантический анализ текста. Этот подход требует большого труда лингвистов,
которые создают модель языка, после чего создается компьютерная модель
перевода. Основной недостаток – каждый язык обладает своей моделью, и для
перевода с разных языков требуется добавлять новые модели.
Статистический подход основан на том, что система обучается самостоятельно
на основе данных. Задача обучения сводится к предоставлению новых данных.
Преимущество этого подхода – нет ограничений при переводе с различных языков.
Достаточно предоставить тексты необходимого языка для самообучения. К примеру,
такими данными может являться техническая документация, поставляемая с
панелью управления, как правило, документация переводится экспертами в области
технического перевода.
В
результате
предпочтительный
анализа
принцип
методов
можно
перевода
34
сделать
сообщений
вывод,
панелей
что
наиболее
управления
и
программного обеспечения энергетических систем – точный перевод. Для
реализации этого принципа целесообразно использовать статистический метод
перевода. Такой подход позволяет выполнить качественный технический перевод и
обеспечить смысловое наполнение предложения, надёжную и расширяемую
информационную систему для создания систем межъязыкового перевода и может
быть применён к большому количеству языков.
35
2.2.
Разработка
алгоритмов
перевода
информационных
сообщений
контроллеров ДЭС с обучением
Обосновано, что для перевода информационных сообщений с панелей
управления
целесообразно
использовать
статистический
метод
перевода.
Статистический машинный перевод (SMT) основывается на модели, в которой
вычисляется вероятность появления в переводе каждого слова из имеющегося
набора переведенных предложений, и выбирается вариант с наибольшими
вероятностями [1,104]. Для перевода требуется наличие комплекта двуязычных
текстов. И чем база параллельных текстов больше, тем более качественно
осуществлён перевод [82].
Данные, поступающие с панели управления, представляют собой набор
символов одного из выбранных языков (системный язык панели). Анализируя
поступающую информацию e, можно сделать вывод, что она представляет собой
русское r предложение, искажённое некоторым шумом. Для того чтобы текст был
восстановлен до нормального русского, необходимо рассмотреть, как он был
искажён [65].
Присвоим каждой паре предложений (r , e) ряд P(e | r), для которых
справедливо следующее выражение:
P ( r | e) 
P ( r ) P (e | r )
,
P ( e)
(2.1)
где: P€ – априорная вероятность r (вероятность появления русского предложения r),
P€ – априорная вероятность e (вероятность появления предложения оригинала e),
P(e | r) – условная вероятность перевода из r в e.
Нахождение максимума P(r|e) является задачей поиска максимальной
свёртки P(r ) * P(e | r ) , т.к.
max P(r|e)  max P(r)*P(e|r ) .
(2.2)
r
r
Таким образом, требуется модель источника и модель канала или модель языка
и модель перевода [55]. Модель языка должна присваивать оценку вероятности
любому предложению конечного языка (в данном случае русского), а модель
36
перевода должна присваивать оценку вероятности предложения оригинала при
условии определенного предложения на конечном языке.
В общем случае система машинного перевода работает в двух режимах:
1) обучение системы: берется тренировочный корпус параллельных текстов, и
ищутся
такие
максимизируют
значения
таблиц
вероятность
переводных
русской
части
соответствий,
корпуса
при
которые
имеющейся
английской согласно выбранной модели перевода. На русской части корпуса
строится модель русского языка;
2) эксплуатация: на основе полученных данных для незнакомого английского
предложения ищется русское, максимизирующее произведение вероятностей,
присваиваемых моделью языка и моделью перевода.
Программа, используемая для такого поиска, называется дешифратором. В
качестве модели языка в системах статистического перевода используются
преимущественно различные модификации n-граммной модели, утверждающей, что
грамматичность выбора очередного слова при формировании текста определяется
только тем, какие (n – 1) слова идут перед ним. Вероятность каждого n-грамма
определяется по его встречаемости в тренировочном корпусе. Например,
триграммная
модель
со
сглаживанием
оценивает
вероятность
b(z|xy)
грамматичности каждого слова z, следующего в тексте за словами x и y, по
следующей формуле:
b( z | xy)  0,95 * частота( xyz) / частота( xy) 
 0,04 * частота( yz ) / частота( z ) 
.
(2.3)
 0,04 * частота( z )общее _ число _ слов  0,002
Подход, основанный на статистическом машинном переводе, обеспечивает
надёжную и расширяемую платформу для создания систем межъязыкового перевода
и может быть применён к большому числу языков.
В данный момент качество перевода ограничивается только одним фактором:
мощностью контроллера. Недостаточный объем оперативной памяти накладывает
ограничение на максимально возможный объем статистической базы.
37
Для обучения системы машинного перевода необходимо иметь комплект
двуязычных текстов [69,56,102]. Но большая часть параллельных текстов не даёт
возможности извлечения информации о переводных соответствиях. Одна из причин
этого – между текстом оригинала и переводом не существует однозначного и
линейного соответствия на уровне слов – в любой паре языков существуют как
минимум различия грамматической структуры, различия в идиоматике, лексическая
неоднозначность. Другая проблема – переводчик не всегда выбирает наиболее
буквальный вариант перевода. В частности, одному предложению оригинала могут
соответствовать два (а иногда и более) предложений перевода, и наоборот. Так же
возможны неточности перевода, среди которых наиболее существенны пропуски.
Задача статистического анализа параллельных текстов состоит в выравнивании
параллельных
текстов.
Выделим
два
уровня
выравнивания:
выравнивание
предложений и лексическое выравнивание [70].
Выравнивание предложений в параллельных корпусах текстов дает основу для
дальнейших вычислений – схема распределения слов в предложениях используется
как основной источник информации при установлении лексических соответствий на
следующем этапе. От точности выравнивания предложений зависит правильность
дальнейших вычислений системы перевода [73].
Выбор алгоритма для обучения системы статистического перевода –достаточно
сложная задача, которая может повлиять на скорость и качество перевода.
Алгоритмы обучения могут быть двух типов: неуправляемые и управляемые.
Неуправляемый алгоритм должен вывести модель, пригодную для обобщения новых
данных, которые ему ранее не предъявлялись, и этот вывод должен быть основан
только на данных. Управляемый же алгоритм обучается на множестве правильных
ответов на данные из обучающей выборки таким образом, что выведенная модель
даст более точные решения. Целью машинного обучения является автоматический
вывод модели для некоторой области на основе данных из этой области, таким
образом, система, обучаемая, например, синтаксическим правилам, должна быть
обеспечена базовым набором правил фразовых структур [46].
38
Статистические методы обработки естественного языка расширяют схему
основных существующих подходов к машинному переводу — прямого перевода,
переноса (трансфера) и подхода на основе языка-посредника.
Значения вероятностей для каждого возможного варианта грамматического
разбора (т.е. развертывания нетерминального узла) вычисляются на основе частот
встречаемости таких вариантов разбора в существующих текстовых корпусах с синтаксической разметкой. Значения вероятностей для вариантов разбора могут быть
также получены и в виде лингвистических экспертных оценок.
Для
любой
системы
обработки
естественного
языка
необходимо
проектирование модуля определения и разметки частей речи (тэггера). Стохастические тэггеры появились в 1980-е годы. Их общая идея заключается в выборе
наиболее вероятного тэга (т.е. частеречной метки) для данного слова. Чаще всего
для вероятностных тэггеров используются Марковские модели. Так, например, для
некоторого данного предложения или последовательности слов выбирается
последовательность тэгов, которая максимизирует следующую формулу:
P(слово / тег) * P(тег / предыдущие _ n _ тегов) .
(2.4)
Еще один подход к машинному обучению, основанный на правилах и
стохастическом тэггировании (разметке частей речи), известен как обучение,
основанное на трансформациях (Transformation-Based Learning, TBL). TBL — это
метод управляемого обучения с использованием заранее размеченного обучающего
корпуса.
Для вероятностного грамматического разбора применяются стохастические
грамматики.
1. Вероятностная контекстно-свободная грамматика, ее определение:
G = (N,T,P,S,D),
(2.5)
где N — это множество нетерминальных символов; T — множество
терминальных символов; P — множество продукций вида A  b , где A — это
нетерминальный символ, b — это цепочка символов; S — специальный исходный
символ; D — функция, приписывающая значения вероятности каждому правилу из
множества P. Для получения данных вероятностной контекстно-свободной грамма39
тики используется из путей — использование корпуса синтаксически размеченных
предложений. Такой корпус называется банком синтаксических деревьев. Если
задан банк деревьев разбора, то вероятность каждой развертки некоторого нетерминального узла может быть вычислена путем подсчета числа раз, когда данная
развертка встречается, с последующей нормализацией:
P(   |  ) 
Count (   )
Count (   )

.
 Count(   ) Count( )
(2.6)

2. Вероятностная грамматика замещения деревьев: является обобщением
вероятностной контекстно-свободной грамматики, при этом более мощной
стохастически, поскольку можно приписывать значения вероятности фрагментам
или даже целым схемам разбора.
Статистические подходы к выравниванию параллельных текстов направлены
на то, чтобы найти наиболее вероятный вариант выравнивания A для двух заданных
параллельных текстов S и T:
arg max P( A | S ,T )  arg max P( A, S ,T ) .
(2.7)
Для того чтобы оценить значения вероятностей, которые указаны в этом
выражении, чаще всего применяются методы, которые представляют параллельные
тексты
в
виде
последовательности
выравниваемых
цепочек
предложений
( B i , .. . , B K ). При этом предполагается, что вероятность одной цепочки не зависит от
вероятностей других цепочек, а зависит только от предложений в данной цепочке.
Тогда:
P ( A, S , T ) 
K
 P( Bk )
k 1
.
(2.8)
Этот метод просто учитывает длину предложения на исходном языке и на
языке перевода, измеренную в символах. Предполагается, что более длинное
предложение одного языка соответствует более длинному предложению другого
40
языка. Такой подход дает вполне устойчивые результаты для сходных языков и
буквального перевода.
Более
тонкие
механизмы
сопоставления
обеспечиваются
методами
лексического выравнивания. Так, в работе [57] представлен метод выравнивания
посредством создания модели последовательного пословного перевода. Наилучшим
результатом выравнивания является тот, который максимизирует вероятность
порождения корпуса при заданной модели перевода. Для выравнивания двух
текстов S и T необходимо разбить их и представить в виде последовательности
цепочек предложений. Цепочка содержит ноль или более предложений на каждом
из языков, а последовательность цепочек покрывает весь корпус:
Bk  ( S ak ,..., Sbk ; tck ,..., tak ) .
Затем наиболее вероятное выравнивание
A  Bi ,..., Bm A
(2.9)
данного корпуса
определяется следующим выражением (при этом цепочки предложений не зависят
друг от друга):
mA
arg max P( S , T , A)  arg max P( L) P( Bk ) ,
A
A
k 1
(2.10)
где P(L) означает вероятность того, что порождается выравнивание L цепочек.
Модель перевода, используемая при этом подходе, предельно упрощена и не
учитывает фактор порядка слов в предложении и возможность того, что слову в
исходном тексте может соответствовать более чем одно слово в тексте перевода. В
этой модели используются цепочки слов, при этом они ограничены соответствиями
1:1, 0:1 и 1:0. Суть модели заключается в том, что, если некоторое слово обычно
переводится словом другого языка, то вероятность соответствия цепочек слов 1:1
высока — значительно выше, чем произведение вероятностей соответствий 1:0 и 0:1
цепочек слов, использующих это рассматриваемое слово. При этом программа
выбирает наиболее вероятный вариант выравнивания.
Указанные алгоритмы для выравнивания предложений используются при
статистическом машинном
переводе в различных вариациях, однако основа
остаётся неизменной [85,86]. Комплекты параллельных текстов для сложного
41
технического перевода могут быть получены из документаций, поставляемых с
оборудованием.
После того, как два параллельных корпуса выровнены на уровне предложений,
необходимо извлечь из них информацию о переводных соответствиях двух языков.
Характер информации сильно зависит от того, какой метод перевода принят за
основу. В системах машинного перевода необходимо извлечь некоторую
псевдограмматическую информацию [59].
Наиболее простым статистическим алгоритмом построения лексических
конкордансов является следующий быстрый («жадный») метод [95]:
 Выбирается мера сходства S между словами языка L1 и L2. Обычно в качестве
меры сходства используется частотность совместного присутствия слов в
связанных фрагментах параллельных текстов, хотя известны и другие
подходы.
 Вычисляется степень связи S(v, w) для набора пар слов (v, w) ∈ (L1 × L2).
 Пары сортируются в порядке убывания степени связи.
 Выбирается пороговое значение t. Пары слов со степенью связи выше t
включаются в конкорданс.
Классическая формула статистической меры сходства между двумя словами
параллельных текстов основывается на формуле взаимозависимости (MI – mutual
information) и имеет вид:
S  log 2
P(v, w)
,
P(v) P( w)
(2.11)
где вероятности P(v,w), P(v) и P(w) определяются на основе табл. 2.1 сопряженности
следующим образом:
Определение связанности фрагментов
Связанных
фрагментов
L2,
Таблица 2.1
Фрагментов L1,
Фрагментов L1,
включающих v
не включающих v
a
42
b
включающих w
Связанных
фрагментов
L2,
не
c
d
включающих w
P (v, w) 
a
,
abcd
(2.12)
P ( w) 
ab
,
abcd
(2.13)
P (v ) 
ac
.
abcd
(2.14)
Очевидный недостаток такого алгоритма заключается в том, что степень
связанности пар слов вычисляется независимо друг от друга. Это приводит к
появлению в конкордансе не только пар, соединенных непосредственной связью, но
и пар с косвенной связью. Представим себе, что в некотором корпусе политических
текстов часто встречается словосочетание «generator open» и его перевод «генератор
открыт». Слово «generator» обладает прямой связью со словом «генератор», но,
кроме того, слово «генератор» обладает связью со словом «открыт». В результате
алгоритм констатирует сильную (хотя и косвенную – но об этом алгоритм не знает)
связь слова «generator» со словом «открыт».
Более точные результаты достигаются путем построения модели перевода [97].
При таком подходе за основу берется некоторая модель, позволяющая оценить
правдоподобие конкретной гипотезы о схеме переводных соответствий в данных
параллельных
текстах.
Затем
методами
линейного
программирования
(максимизация ожидания в форме алгоритма Витерби, симплекс-метод, упрощение
классических
методов
под
конкретную
задачу)
подбирается
такая
схема
соответствий, которая обладает максимальной оценкой.
Одним из методов построения конкорданса, использующих максимизацию
оценки модели перевода, является Модель IBM №1, рассматриваемая ниже среди
систем статистического машинного перевода. Но прежде, чем перейти к системам
43
машинного перевода, следует обратить внимание на дополнение к описанному
выше алгоритму, существенно повышающее точность создаваемого конкорданса.
Д. Меламед [81,95] предлагает алгоритм очистки конкорданса, полученного
«жадным» методом, от косвенных связей. Он исходит из предположения, что:
 одному словоупотреблению в тексте
L1
соответствует только
одно
словоупотребление в тексте L2, т.е. слово не может переводиться
словосочетанием;
 в одном фрагменте не используются синонимы. При всей условности этих
предпосылок алгоритм обеспечивает следующие отношения точность/охват:
99,2% точности при 36% охвата, 99,0% точности при 46% охвата, 92,8%
точности при 90% охвата.
Для начала работы алгоритма требуется исходный конкорданс (составленный
«жадным» методом) с оценками надежности связей и параллельный корпус,
выровненный на уровне предложений (или аналогичных фрагментов). Алгоритм
циклически выполняет следующие шаги:
1. Составляется исходный конкорданс с оценками надежности связей.
2. Слова двух частей параллельного корпуса выравниваются на основе
конкорданса; при этом каждое слово связывается только с одним словом,
обладающим наибольшим весом.
3. Слова, не объединенные в пары, исключаются из корпуса.
4. Пересчитываются параметры модели перевода λправ и λложн.
5. На основе новых параметров модели пересчитывается надежность всех связей
в конкордансе.
6. Если конкорданс изменился за последнюю итерацию, алгоритм повторяется с
шага 2.
Надежность каждой связи E в конкордансе вычисляется на шаге 5 по
следующей формуле:
L( E ) 
44
B( K E , N E , прав )
B( K E , N E ,  ложн )
,
(2.15)
где NE – количество раз, которое данная пара слов v и w встречается в связанных
фрагментах, KE – количество раз, которое данная пара слов оказалась связанной,
B(K, N, P) – вероятность k связей при биномиальном распределении с параметрами
N и P, λправ – вероятность, что два слова, являющиеся переводами друг друга и
находящиеся в связанных фрагментах, будут связаны, λложн – вероятность, что два
слова, являющиеся переводами друг друга и находящиеся в связанных фрагментах,
не будут связаны.
Здесь
NE
и
подсчитываются
KE
непосредственно
по
выравниванию,
полученному на шаге 2, а λправ и λложн, представляющие собой параметры модели
перевода,
подбираются
с
помощью
симплекс-метода
путем
максимизации
вероятности модели с такими параметрами при данном выравнивании. С помощью
теоремы
Байеса
задача
сводится
к
максимизации
вероятности
данного
выравнивания при такой модели:
P(данные | модель)   P(k E | nE , прав ,  ложн ) ,
(2.16)
E
где
P(k E | n E , прав ,  ложн )  B(k , nE , прав )  (1   ) B(k , nE ,  ложн ) .
(2.17)
τ – вероятность, что два случайных слова v и w, встретившихся в связанных
фрагментах, являются переводами друг друга и вычисляются по формуле

K / N   ложн
,
прав   ложн
(2.18)
где K – общее число связей в корпусе
( K   k E ),
(2.19)
E
N – общее число пар конкорданса, встречающихся в связанных фрагментах:
( N   n E ).
(2.20)
E
Самой простой статистической моделью перевода является модель дословного
перевода. В этой модели, известной как Модель IBM №1 [84], предполагается, что
для перевода предложения с одного языка на другой достаточно перевести все слова
(создать «мешок слов»), а расстановку их в правильном порядке обеспечит модель
45
языка. Единственным массивом данных, которым оперирует Модель №1, является
таблица вероятностей попарных переводных соответствий слов двух языков [76].
Обучение Модели №1 производится на корпусе параллельных текстов,
выровненном на уровне предложений [79]. Математическая часть Модели №1
заключается в следующем. Вероятность предложения оригинала при данном
предложении перевода:
P (e | r )   P ( a, e | r ) ,
(2.21)
a
где P(a, e | r ) – вероятность появления предложения оригинала e, выровненного с
предложением перевода r на уровне слов способом a, при данном r.
m
P(a, e | r )   t (ei | ra j ) ,
j 1
(2.22)
где t – это вероятность слова оригинала в позиции j при соответствующем ему слове
перевода raj, определенном выравниванием a. Берется из таблицы вероятностей
попарных переводных соответствий.
Для приведения P(a, e | r ) к P(a | r , e) , т.е. вероятности данного выравнивания
при данной паре предложений, каждая вероятность P(a | r , e) нормализуется по
сумме вероятностей всех выравниваний данной пары предложений:
P ( a | r , e) 
P ( a, e | r )
.
 P ( a, e | r )
(23)
a
Имея набор выравниваний с определенными вероятностями, можно подсчитать
частоты каждой пары слов, взвешенные по вероятности выравниваний, в которых
они встречаются. Нормализовав эти взвешенные частоты по сумме вероятностей
всех возможных переводных соответствий e, возможно получить новые значения
вероятностей попарных переводных соответствий:
t (e | r ) 
tc(e | r )
,
 tc(e | r )
e
46
(24)
где tc(e | r ) – взвешенная частота.
Алгоритм, который может быть применён в этом случае, следующий:
1. Вся таблица вероятностей переводных соответствий заполняется
одинаковыми значениями.
2. Для всех возможных вариантов попарных связей слов вычисляется
вероятность P(a, e | r ) .
3. Значения P(a, e | r ) нормализуются для получения значений P (a | r , e) .
4. Подсчитывается частота каждой переводной пары, взвешенная по вероятности
каждого варианта выравнивания.
5. Полученные взвешенные частоты нормализуются и формируют новую
таблицу вероятностей переводных соответствий
6. Алгоритм повторяется с шага 2.
В качестве примера можно рассмотреть тренировку Модели №1 на корпусе из
двух пар предложений: Уровень топливо/Fuel level и Топливо/ Fuel.
Таблица 2.2
Итерация 1
Начальная таблица t:
fuel
0,5
0,5
топливо
уровень
Итерация 2
Начальная таблица t:
level
0,5
0,5
fuel
0,5
0,25
топливо
уровень
level
0,5
0,75
Шаг 1: заполняется таблица одинаковыми
значениями t
Шаг 2: Вычисляется P(a,e|r) для всех
вариантов выравнивания:
Шаг 2: Вычисляется P(a,e|r) для всех
вариантов выравнивания:
уровень топливо
уровень топливо
level
fuel
P(a,e|r)=0,5*0,5=0,25
level
fuel
P(a,e|r)=0,5*0,75=0,375
уровень топливо
уровень топливо
?
?
level
level
fuel
fuel
P(a,e|r)=0,5*0,25=0,175
47
P(a,e|r)=0,5*0,5=0,25
Топливо
Топливо
fuel
fuel
P(a,e|r)=0,75
P(a,e|r)=0,5
Шаг 3: Нормализуется P(a,e|r) и получаем
Шаг 3: Нормализуется P(a,e|r) и получаем P(a| r,e):
P(a| r,e):
уровень топливо
уровень топливо
level
fuel
level
fuel
P(a,e|r)=0,375/ (0,375*0,125)=0,75
P(a,e|r)=0,25/ (0,25*0,25)=0,5
уровень топливо
уровень топливо
?
?
level
fuel
level
fuel
P(a,e|r)= 0,175/ (0,375*0,125)=0,25
P(a,e|r)=0,25/ (0,25*0,25)=0,5
Топливо
Топливо
fuel
fuel
P(a,e|r)=0,5/0,5=1
P(a,e|r)=0,75/0,75=1
После большого числа итераций получена следующая таблица t:
Таблица вероятностей переводных соответствий.
Таблица 2.3
fuel
level
топливо
0,9999
0,0001
уровень
0,0001
0,9999
Слабость Модели №1 демонстрируется на простом примере: представим, что
модель перевода предоставила нам следующий «мешок» слов: падение, остановка,
оборотов, генератора. С точки зрения модели языка предложения «падение
оборотов, остановка генератора» и «падение генератора,
остановка оборотов»
будут, по-видимому, иметь примерно равную вероятность, однако один из
вариантов явно искажает смысл.
48
Чтобы сохранить при переводе информацию, заключенную в порядке слов,
была предложена Модель IBM №2. В этой модели помимо таблицы переводов
вводится таблица вероятностей обратных смещений, т.е. вероятностей, что при
определенной длине предложения в языке перевода l и длине предложения в языке
m оригинала слову перевода в позиции j соответствовует слово оригинала в позиции
i.
Модель №2 не допускает возможности, что одному слову оригинала
соответствует несколько слов перевода [95]. Этот недостаток устраняется в модели
№3, где вводится понятие коэффициента деления (fertility) слова оригинала и,
соответственно, таблица вероятностей каждого значения коэффициента деления для
каждого слова.
Помимо этого, в Модели №3 используется понятие нулевого слова, которое, в
соответствии с генеративной теорией Модели №3, с определенной вероятностью P
порождает
«необъяснимые»
слова
перевода.
«Необъяснимыми»
словами
заполняются позиции, незанятые «нормальными» словами.
Модель №3 является одной из наиболее активно разрабатываемых – повидимому, она достигает некоторого оптимального баланса между качеством
порождаемых переводов (и объяснения фактических соответствий в двуязычном
корпусе) и сложностью обучения. Однако эта модель не является последней в
списке классических статистических моделей перевода. Другие модели основаны на
разборе по классу слов.
Обучение Моделей №2 и №3 происходит аналогично Модели №1. Так как
каждая итерация обучения более сложных моделей занимает существенно больше
времени, чем для простых моделей, то обычно перед началом обучения сложных
моделей производится несколько итераций младших моделей (начиная с первой), а
потом их результаты преобразуются в формат более высоких моделей. Таким
образом, оптимизация в старших моделях начинается не со случайного решения, а с
некоторого решения, довольно близкого к оптимальному.
В Модели №4 и близкой к ней Модели №5 делается следующий шаг к
включению понятий грамматики в систему статистического машинного перевода. В
49
Модели №4 появляется понятие класса слов, определяемого автоматически для всех
слов языка оригинала и языка перевода. Если в Модели №3 смещение зависело от
позиции слова оригинала, длины исходного предложения и длины конечного
предложения (в практических реализациях Модели №3 последний аргумент не
используется в связи с проблематичностью его вычисления), то в Модели №4
смещение зависит от класса слов оригинала и перевода. В Модели №4 слова
перевода делятся на заглавные (heads), незаглавные (non-heads) и производные от
нулевого слова. Заглавное слово – это левое (первое) слово, связанное с
определенным словом оригинала, незаглавное слово – это остальные слова,
связанные с тем же словом оригинала (появляются только у слов с коэффициентом
деления >1). Смещение заглавных слов определяется исходя из класса предыдущего
слова оригинала и рассматриваемого слова перевода. Смещение незаглавных слов
определяется на основе класса предыдущего слова в цепочке, зависимой от слова
оригинала. Производные от нулевого слова, как и в Модели №3, расставляются
случайным образом.
Можно сделать вывод, что достаточный уровень перевода достигнут при
использовании первых трёх моделей перевода. Исследования 4 и 5 модели IBM
показали, что в данной задаче их применение не требуется. Проблема русификации
информации энергетических объектов является разрешимой, и полученная
информация с большой долей вероятности является свободно читаемой и лёгкой для
восприятия, однако при таком подходе необходимо создание большого словаря
параллельных текстов анализируемой области.
Наиболее распространенными критериями оценки результатов статистической
обработки текста являются точность (precision) и охват (recall). Измерение этих
величин предполагает сравнение результата работы оцениваемой системы с
эталоном. Для этого выбирается единица подсчета (например, предложение), и все
единицы оцениваемого результата сравниваются с эталоном. Точность определяется
как отношение числа правильных единиц результата к общему числу единиц в
оцениваемом результате. Охват определяется как отношение числа правильных
единиц результата к общему числу единиц эталона. Из понятий точности и охвата
50
выводятся понятия шума и молчания: шум = (1 – точность), молчание = (1 – охват).
В зависимости от того, является ли результат работы системы симметричным,
точность и охват могут измеряться как со стороны одного языка, так и с обеих
сторон. Основными проблемами, возникающими при измерении этих величин,
являются выбор принципа сегментации, выбор эталона, выбор критериев
правильности [75].
Влияние
принципа
сегментации
оцениваемого
материала
можно
продемонстрировать на следующем примере. Система машинного перевода
неправильно перевела по одному слову в предложении из трех слов и в
предложении из 20 слов. В качестве единицы оценки используются предложения,
оценки выставляются по двухбалльной системе. Оба предложения будут оценены
как неправильные, однако, по-видимому, первую ошибку следует признать более
серьезной, чем вторую. Если бы оценка производилась на уровне отдельных слов, а
не предложений, вес обеих ошибок был бы иным.
Выбор или создание эталона может оказаться одной из наиболее трудоемких
этапов работы над системой статистической обработки текста. В зависимости от
требований к точности оценки различается и подход к созданию эталона. Наиболее
простой способ можно назвать одноуровневым – судья, владеющий обоими
используемыми языками, непосредственно оценивает каждый сегмент результата. В
более масштабных экспериментах один и тот же фрагмент может оцениваться
несколькими судьями, после чего их оценки тем или иным образом усредняются
[58].
Если характер оцениваемой работы допускает формальное определение
правильности и неправильности, возможно предварительное составление эталона
человеком, владеющим обоими языками, и последующее автоматическое сравнение
результата работы системы. Следует отметить, что при такой организации
снижается зависимость суждения судьи от варианта, предложенного системой.
Наконец, в качестве наиболее иерархичной системы оценки можно привести пример
[70],
когда
эталонный
корпус,
созданный
51
основным
судьей,
сверялся
с
выборочными эталонами, созданными другими судьями, с целью установления
авторитетности первого.
Для систем, в рабочий цикл которых входит фаза обучения, принципиальным
моментом является оценка качества работы на корпусе, не использовавшемся при
обучении. С другой стороны, в силу значительных лексических, идиоматических и
грамматических различий между разнородными текстами статистические системы
могут оказаться не в состоянии правильно обработать корпус, далекий от
тренировочного. Поэтому для большинства оценок из тренировочного корпуса
предварительно извлекаются небольшие фрагменты, не использующиеся при
обучении.
Критерии правильности/ошибочности сильно зависят как от типа оцениваемой
системы, так и от масштаба эксперимента. Однозначной оценке лучше всего
поддаются
системы
выравнивания
предложений
–
если
система
связала
предложение не так, как судья, система сделала одну ошибку.
При оценке составления конкордансов известны несколько подходов. При
наименее формальном подходе судьям, знающим оба языка, дается наиболее
значимое переводное соответствие для каждого слова, а также фактические
контексты на обоих языках, и предлагается оценить правильность перевода по
двухбалльной шкале [75]. Для получения более полной картины для каждого слова
рассматриваются все пары с весом, превышающим некоторый порог. При этом в
качестве эталона используются как традиционные словари, так и метод экспертной
оценки [95]. Следует отметить, что в последней работе правильными признавались
не только переводы, буквально совпадающие с эталоном, но и переводы с
изменением
части
речи,
а
также
«неполные»
переводы
(например,
фр.
immédiatement – англ. right, при правильном переводе right away).
При оценке систем статистического машинного перевода чаще всего
применяются метод экспертной оценки и градуированная шкала характера ошибки.
Так, переводы, выполненные системой, могут оцениваться, как:
 идентичные выполненным вручную;
 отличные, но такого же качества;
52
 отличающиеся по смыслу;
 неправильные;
 неграмматичные.
Ошибки могут оцениваться по системной сущности («ошибка выбора слова»,
«ошибка склонения местоимения» и т.д.), после чего общая оценка формируется на
основе сложности устранения каждой категории ошибок и ее влияния на понимание.
В качестве альтернативы такому методу предлагается оценка понимания смысла
исходного текста читателями перевода [85].
Создание эталона и экспертная оценка результатов не всегда представляются
возможными, особенно при проведении больших серий экспериментов. В качестве
критерия, заменяющего экспертную оценку, в системах, использующих обучаемую
модель, может использоваться мера неуверенности (perplexity). Для вычисления
показателя неуверенности используется тестовый корпус (фрагмент, выделенный из
тренировочного и не использовавшийся при обучении). Оцениваемая модель
применяется к тестовому корпусу – результатом является вероятность, присвоенная
моделью
сочетания
половин
корпуса.
Неуверенность
вычисляется
как
отрицательный логарифм полученной вероятности, нормализованный по числу слов
(или иных минимальных единиц, используемых моделью) тестового корпуса:
неуверенность  log 2
( P(e))
.
N
(2.25)
Делая вывод, необходимо отметить: оценка правильности результатов
статистической обработки текста играет большую роль, так как конечный результат
– правильно переведённый текст, зависит от качественно выбранной модели и
методов оценки моделей.
53
Заключение
Развитие информационных технологий, высокая степень автоматизации
используемого оборудования и перераспределение функций между человеком и
аппаратурой обострили проблему взаимодействия человека-оператора с системой
управления. При работе с панелями управления и программным обеспечением,
поставляемыми с дизель-генераторами импортного производства, возникает
проблема, связанная с отсутствием русифицированного интерфейса. Обосновано,
что
проблема
является
информационной
разрешимой
системы
при
состоящей
использовании
из
дополнительной
русифицированного
дисплея,
навешиваемого на основную панель. Отсутствие русифицированного интерфейса
существенно осложняет работу с оборудованием, увеличивает время для устранения
неисправностей,
увеличивает
вероятность
ошибки
оператора.
Простой
оборудования, используемого в качестве резервного источника питания, может
привести к невосполнимым убыткам.
Для решения проблемы русификации панелей управления и программного
обеспечения целесообразно использовать статистический машинный перевод.
Обосновано, что именно этот подход позволит
выполнить качественный
технический перевод и обеспечить смысловое наполнение предложения и может
быть применён к большому числу языков.
Дублирование
информации
на
русском
языке
позволяет
оперативно
контролировать все параметры работы и неисправности ДЭС. Описанная методика
является универсальной для всех типов информационных панелей ДЭС, что
позволяет её интегрировать в существующие энергетические объекты с целью
уменьшения простоя оборудования.
Разработана типовая база данных для контроллера с использованием модели
«сущность-связь». Приведённая методика выбора контроллеров с графическим
интерфейсом
позволяет
провести
оценку
и
принять
решение
микроконтроллера с достаточно высокой степенью достоверности.
54
о
выборе
Приведённая методика русификации позволяет создать русифицированный
графический интерфейс, который является универсальным для всех панелей
управления, т.к. он не содержит конструктивных изменений и технического
вмешательства в панель управления.
Созданная имитационная модель реакции оператора является полигоном для
отработки методики объективной оценки деятельности оператора. Модель
позволяет оценить деятельность по следующим параметрам: адекватность, время
реакции, общее время решения задач по ликвидации аварийной ситуации.
Применение блоков русификации позволяет получить экономический эффект в
течение 1 года эксплуатации 4146870 рублей.
55
Список использованных источников
1.
Андрющенко, В.М. Концепция и архитектура машинного фонда русского
языка [Текст]// Машинный фонд русского языка: идеи и суждения, М. –
Наука, 1986. 196 с.
2.
Цыркин, М.И. Гольдинер, А.Я. Головко, В.В. Соколов, С.В. «Статические и
дизельные агрегаты резервного электропитания» [Текст]. — Изд-во «Чистый
лист», 2002. — 116 с.
3.
Атрощенко, В.А. Дьяченко Р.А. Разработка национального графического
интерфейса дисплея для системы управления дизель-генератором фирмы FG
Wilson / Коновалов Д.П. [Текст] // Журнал «Современные проблемы науки и
образования», г. Москва, ИД «Академия естествознания», 2007. - №.3. С.2628
4.
Атрощенко, В.А. К вопросу статистического машинного перевода сигналов,
поступающих с панели управления дизель-генератором [Текст] / Коновалов
Д.П.
//
Технические
и
технологические
систем:
T38
материалы
международной научной конференции. – Краснодар: КУБГАУ, 2009. С. 345348
5.
Атрощенко, В.А. Лысенко, М.П. Орлов, А.В. Петрушкин, В.Ф. Резервное и
гарантированное электроснабжение (Проблемы, методы и технические
средства) [Текст] / Атрощенко, В.А. Лысенко, М.П. Орлов, А.В. Петрушкин,
В.Ф.// Краснодар: Флер-1, 1998. 178 с.
6.
Атрощенко,
В.А.
Русификация
протоколов
обмена
данных
панелей
управления дизель-генераторов Deep Sea Electronics и Lovato / [Текст]
Коновалов Д.П. // Технические и технологические систем: T38 материалы
международной научной конференции. – Краснодар: КУБГАУ, 2009. М. 348350
7.
Бодров, В. А. Информационный стресс: Учеб. пособие для вузов. [Текст] М.:
ПЕР СЭ, 2000. 352 с.
56
8.
Большаков, И.А. Составляющие и принципы формирования программного
обеспечения для машинного фонда русского языка [Текст]// Машинный фонд
русского языка: идеи и суждения, М. – Наука, 1986.
9.
Бородина, М.А. Гак, В.Г. К типологии и методике историко-семантических
исследований [Текст] , Л., 1979. 232 с.
10. Бусленко, Н. П. Метод статистического моделирования [Текст] М.:
Статистика, 1970. 110 с.
11. ГОСТ 10150-88. Дизели судовые, тепловозные и промышленные. Общие
технические условия [Текст]. - Взамен ГОСТ 4393-82, ГОСТ 10150-82 ; Введ.
с 01-01-91. - М. : Издательство стандартов, 1989. - 32 с. - Б. ц.
12. ГОСТ 10511-83 Системы автоматического регулирования частоты вращения
(САРЧ) судовых, тепловозных и промышленных дизелей. Общие технические
требования [Текст]. Введ. 1983-12-06. - М.: Изд-во стандартов, 1984.-14 с.
13. ГОСТ 15467-79 Управление качеством продукции. Основные понятия.
Термины и определения [Текст]. – Введ. 1986-07-01. – М.: Изд-во стандартов,.
1988. – 13 с.
14. ГОСТ
24.104-85
Автоматизированные
системы
управления.
Общие
требования [Текст]. - Взамен ГОСТ 17195-76, ГОСТ 20912-75, ГОСТ 2420580; Введ. с 01.01.87. - М. : Изд-во стандартов, 1986. - 20 с. - (Единая система
стандартов
автоматизир.
систем
управления).
То
же.-
Переизд.
//Информационная технология. Автоматизированные системы. Основные
положения.- М., 2002.- 15с."
15. ГОСТ 28690-90 Электромагнитная совместимость [Текст]. . М.: Изд-во
стандартов. 1998. - 12 с.
16. ГОСТ 34.601-90 «Автоматизированные системы. Стадии создания» [Текст] . –
М.: Изд-во стандартов, 1990. – 12 с.
17. ГОСТ Р 50761-95 Дизели судовые, тепловозные и промышленные. Общие
требования безопасности [Текст]. – М.: Изд-во стандартов, 1989. – 20 с.
57
18. ГОСТ Р 51249-99 Двигатели внутреннего сгорания поршневые. Выбросы
вредных веществ с отработавшими газами. Нормы и методы определения
[Текст]. . – М.: Изд-во стандартов, 1980. – 24 с.
19. ГОСТ Р 51250-99 Двигатели внутреннего сгорания поршневые. Дымность
отработавших газов. Нормы и методы определения [Текст].
– М.: Изд-во
стандартов, 1957. – 24 с.
20. ГОСТ Р50783-95, МЭК 61010-1-90 Низковольтное оборудование [Текст]. М.:
Изд-во стандартов. – М.: Изд-во стандартов, 1980. – 25 с.
21. Диденко, С. М. Шапцев, В. А. Проблема утомляемости операторов пульта
управления [Текст] // Новые информационные технологии в нефтегазовой
промышленности и энергетике. Материалы междунар. науч.-техн. конф.
Тюмень, 7–8 окт. 2003 г. Тюмень: Изд-во ТГНГУ, 2003.
22. Душков, Б.А. Королев, А.В. Смирнов, Б.А. Основы инженерной психологии
[Текст]: Учебник для студентов вузов. М.: 576 с.
23. Дьяченко, Р.А. Автоматизированная система синтеза оптимальных структуры
систем гарантированного электроснабжения [Текст]/ Коновалов Д.П. // Новые
информационные технологии в учебно-воспитательном процессе высшей и
средней школы: Материалы II-ой Всероссийской научно-практической
конференции 27-28 марта 2008 г, Армавир. Из-во: Армавир, РИЦ АГПУ, 2008.
С.54-60
24. Дьяченко, Р.А. Интеллектуальный программный комплекс обработки и
анализа данных с портов ввода-вывода [Текст] / Коновалов Д.П. // Новые
информационные технологии в учебно-воспитательном процессе высшей и
средней школы: Материалы II-ой Всероссийской научно-практической
конференции 27-28 марта 2008 г, Армавир. Из-во: Армавир, РИЦ АГПУ, 2008.
С. 51-54
25. Дьяченко, Р.А. Литвинов, Ю.Н. Математическое моделирование как этап
исследования систем мониторинга энергетических объектов [Текст] /
Коновалов Д.П. // Вестник АГПУ №1. Ест естественные и технические науки.
– Армавир: Редакционно-издательский центр АГПУ, 2007.
58
26. Дьяченко,
Р.А.
О
возможности
применения
технологии
XML
в
автоматизированных системах контроля и учёта электроэнергии [Текст] /
Коновалов Д.П. // Наука и технологии. Секция 4. Динамика и управление. –
Краткие сообщения XXVII Российской школы, посвящённой 150-летию
К.Э.Циолковского, 100-летию С.П.Королёва и 60-летию Государственного
ракетного центра “КБ им. Академика В.П.Макеева”. – Екатеринбург: УрО
РАН, 2007. С.115-117
27. Егоров, А. А. Искусственный интеллект в промышленных АСУ и
контроллерах:
мифы
и
реальность,
дань
моде
или
объективная
необходимость? [Текст] // Промышленные АСУ и контроллеры. 2003. № 10. С.
62-65
28. Ивлева, Г.Г. Тенденции развития слова и словарного состава на материале
немецкого языка [Текст], М., 1986. 135 с.
29. Караулов, Ю.Н. Молчанов, В.И. Афанасьев, В.А. Михалев, Н.В. Анализ
метаязыка словаря с помощью ЭВМ [Текст]. М. – Наука, 1982. 96 с.
30. Каштанов, В.А. Медведев, А.И. Теория надежности сложных систем [Текст].
608 с.
31. Коновалов, Д.П. К вопросу нечётких запросов к реляционным базам данных
[Текст] // Перспективы развития информационных технологий. Сборник
материалов II Ежегодной Всероссийской научно-практической конференции с
международным участием / Под общ. ред. С.С. Чернова. – Новосибирск:
Издательство «СИБПРИНТ», 2010. 348 с.
32. Коновалов, Д.П. К вопросу развития систем машинного перевода [Текст] //
Инновационные технологии образования: инвестиции в успех. РИЦ АГПУ,
2009. - С. 111-114.
33. Коновалов, Д.П. К вопросу создания Web-интерфейса для русификации
панели управления дизель–генераторами импортного производства [Текст] //
Инновационные технологии в педагогическом образовании: Материалы
научно-практической конференции (г. Армавир, 6-24 апреля 2009 г.) Часть II.
РИЦ АГПУ, 2009.
59
34. Коновалов, Д.П. Логико-статистические методы представления языковых
структур в машинном переводе [Текст] // Инновационные технологии в
педагогическом образовании: Материалы научно-практической конференции
(г. Армавир, 6-24 апреля 2009 г.) Часть II. РИЦ АГПУ, 2009.
35. Коновалов, Д.П. Методика моделирования действий и реакции оператора,
работающих с АСУ, на примере систем резервного электроснабжения [Текст]
// Перспективы развития информационных технологий. Сборник материалов II
Ежегодной
Всероссийской
научно-практической
конференции
с
международным участием / Под общ. ред. С.С. Чернова. – Новосибирск:
Издательство «СИБПРИНТ», 2010.
36. Коновалов, Д.П. Состояние вопросов мониторинга дизель-генераторных
станций импортного производства. Постановка задач на исследование [Текст]
// Неделя науки АГПУ: Материалы научно-практической конференции. –
Армавир: Редакционно-издательский центр АГПУ, 2006.
37. Коновалов, Д.П. Трудности перевода [Текст] // Инновационные технологии в
педагогическом образовании: Материалы научно-практической конференции
(г. Армавир, 6-24 апреля 2009 г.) Часть II. РИЦ АГПУ, 2009.
38. Королев, А. В. Смирнов, Б. А. Душков, Б. А. Основы инженерной психологии
[Текст]. М. 576 с.
39. Костин, А. Н. Голиков, Ю. Я. Психология автоматизации управления
техникой [Текст]. М.: Изд-во Ин-та психологии РАН, 1996. 160 с.
40. Ломова Б.Ф. Основы инженерной психологии [Текст]. Учебник / Под ред. Б.Ф.
Ломова // М.: Высшая школа, 1986. 448 с.
41. Марчук, Ю.Н. Контекстологический словарь для машинного перевода
многозначных слов с английского языка на русский [Текст], М. – ВЦП, 1976.
264 с.
42. Марчук, Ю.Н. Основы компьютерной лингвистики [Текст], М., 2000. 226 с.
43. Моргунов, Е. Б. Человеческие факторы в компьютерных системах [Текст]. М.:
Тривола, 1994. 272 с.
60
44. Моргунов, Е.Б. Человеческие факторы в компьютерных системах [Текст] //
М.: Тривола, 1994. 272с.
45. Непомнящий, Н. Великая книга катастроф [Текст] // Olma Media Group, 2006.
701c.
46. Павлович,
Н.В.
Автоматизация
подготовки
словарей
[Текст]:
Учеб.-
метод.пособие / Под ред. Н.В.Павлович.- М.: Изд-во Моск. ун-та, 1988.- 170 с.
47. Парк, Дж. Маккей, С. Райт, Э. Передача данных в системах контроля и
управления [Текст]. Группа ИДТ. М. 2007. 480 с.
48. Перевод: традиции и современные технологии [Текст], М – ВЦП, 2002. 131 с.
49. Половко, А. М. Гуров, С. В. Основы теории надежности [Текст] : практикум /.
- СПб. : БХВ-Петербург, 2006. - 560 с.
50. Убин, И.И. ЭВМ и словарь (методическое пособие) [Текст], М., 1992. 180 с.
51. Уфимцева, А.А. К вопросу о так называемом дефиниционном методе
описания лексического значения слова [Текст] // Слово в грамматике и
словаре, М. – Наука, 1984. 223с.
52. Шапцев, В. А. Информационная экология человека. Постановка проблемы
[Текст] // Математические структуры и моделирование. 1999. Вып. 3. С. 125–
133
53. Шрайбер, Т. Дж. Моделирование на GPSS [Текст]: Пep. с англ. / Пер. В. И.
Гаргера, И. Л. Шмуйловича; Ред. М. А. Файнберг. М.: Машиностроение, 1980.
592 с.
54. Штерн, В. И. Эксплуатация дизельных электростанций [Текст]. М.: Энергия
1980. 121 с.
55. Brown P., Cocke J., Della Pietra S., Della Pietra V., Jenilek F., Lafferty J., Mercer
R., Roossin P. S. A Statistical Approach To Machine Translation, in Computational
Linguistics, 16(2), 1990.
56. Brown P., Lai J., Mercer R., Aligning Sentences in Parallel Corpora, in Proceedings
of the 29th Annual Meeting of the ACL, Berkeley, California, 1991.
61
Приложения
Functions.php
<?
function mysql_qq($sql)
{
$res = mysql_query($sql, GetMyConnection() ) or die("Query failed : " . mysql_error());
$a=mysql_fetch_array($res);
$r=$a[0];
return $r;
}
function fact($x) {
if ($x <= 1)
return 1;
else
return ($x * fact($x-1));
}
#Преобразование к нижнему регистру
function lowcase2($s)
{
$a=" abcdefghijklmnopqrstuvwxyzабвгдеёжзийклмнопрстуфхцчшщъыьэюя";
$b="
ABCDEFGHIJKLMNOPQRSTUVWXYZАБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ";
$e="";
for ($i=0;$i<strlen($s);$i++)
{
$q=substr($s,$i,1);
$k=strpos($b,$q);
if ($k>0)
{
$q=substr($a,$k,1);
}
$e.=$q;
}
return $e;
}
function asp($s)
{
$s=preg_replace("/\.\s/is"," . ",$s);
$s=preg_replace("/([\,\!\?\:\;])\s/is"," $1 ",$s);
return $s;
}
function rsp($s)
{
$s=preg_replace("/\s+\.\s/is",". ",$s);
62
$s=preg_replace("/\s+([\,\!\?\:\;])\s/is","$1 ",$s);
return $s;
}
function clear_sim($text) //очистка предложения от ненужных знаков
{
$text=preg_replace("/\s+/is"," ",$text);
$text=preg_replace("/[\,\;".'\"'."\^\:\-\*\\\\]/is"," ",$text);
$text=preg_replace("/^\s+/is","",$text);
$text=preg_replace("/\s+$/is","",$text);
return $text;
}
//частоты
function get_word_freq($eng,$rus) //возвращает частоту для данного перевода
{
global $min_count;
$eng=lowcase2($eng);
$rus=lowcase2($rus);
$res = mysql_query("SELECT * FROM dictionary WHERE eng='$eng';", GetMyConnection() ) or
die("Query failed : " . mysql_error());
$summ=0;
$found=0;
while ($a=mysql_fetch_array($res)) {
$num=$a[num];
$count=$a[wcount];
$summ+=$count;
if ($rus==lowcase2($a[rus])) {
$found+=$count;
}
}
//print "word:$eng,$rus = $found / $summ";
if ($summ==0) {
return 0;
} else {
if ($summ<$min_count) {$summ=$min_count;}
$freq=$found / $summ;
return $freq;
}
}
function get_max_freq($eng) //возвращает слово перевода для макс частоты
{
$eng=lowcase2($eng);
$res=mysql_query("SELECT eng,rus,sum(wcount) FROM dictionary WHERE eng='$eng' GROUP BY
eng,rus ORDER BY sum(wcount) DESC LIMIT 0,1;", GetMyConnection() ) or die("Query failed : " .
mysql_error());
if (mysql_num_rows($res)>0) {
$a=mysql_fetch_array($res);
print "$a[eng] - $a[rus] = ".$a{"sum(wcount)"}." <br>";
return $a[rus];
} else {
63
return '';
}
}
function get_words($eng) //возврашает хэш с ключами - словами перевода и значениями-частотами
{
$res = mysql_query("SELECT * FROM dictionary WHERE eng='$eng';", GetMyConnection() ) or
die("Query failed : " . mysql_error());
$summ=0;
while ($a=mysql_fetch_array($res)) {
$num=$a[num];
$eng=$a[eng];
$rus=$a[rus];
$count=$a[wcount];
$summ+=$count;
$counts{$rus}+=$count;
}
foreach ($counts as $k=>$v) {
$counts{$k}=$v / $summ;
}
return $counts;
}
function split_by_manywords($text)
{
$text=preg_replace("/[\\\\]/","",$text);
$text=preg_replace("/[\,\;\:\\\"\#\$\\\\]/"," ",$text);
$text=preg_replace("/\.+/",".",$text);
$text=preg_replace("/\s+/"," ",$text);
$inupcase="ABCDEFGHIJKLMNOPQRSTUVWXYZАБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪ
ЫЬЭЮЯ";
$tw=''; //это предложение
$r=array();
for ($i=0;$i<strlen($text);$i++) {
$ch=$text[$i];
$ch_1="^"; if ($i+1<strlen($text)) {$ch_1=$text[$i+1];}
$ch_2="^"; if ($i+2<strlen($text)) {$ch_2=$text[$i+2];}
if ((($ch==".")or($ch=="!")or($ch=="?")) && ($ch_1==" ") && ( (strpos($inupcase,$ch_2)>1)||($ch_2=='') )) {
//Предложение закончилось
$tw=preg_replace("/\s+/"," ",$tw);
$tw=preg_replace("/^\s+/","",$tw);
$tw=preg_replace("/\s+$/","",$tw);
$r[]=$tw;
$tw='';
} else {
$tw.=$ch;
}
}
$tw=preg_replace("/\s+/"," ",$tw);
$tw=preg_replace("/^\s+/","",$tw);
$tw=preg_replace("/\s+$/","",$tw);
64
$tw=preg_replace("/\.+$/","",$tw);
$tw=preg_replace("/[\.\-\?\!\,\;\:\\\"\#\$\\\\]/"," ",$tw);
if (strlen($tw)>1) {
$r[]=$tw;
$tw='';
}
return $r;
}
function alignment_by_length($eng,$rus)
{
$eng=clear_sim($eng); //Удаляем лишнее
$rus=clear_sim($rus); //Удаляем лишнее
$le=strlen($eng);
$lr=strlen($rus);
$coeff=$lr/$le;
$e=explode(" ",$eng); //разбиваем на слова
$st=0;
foreach($e as $k=>$v) {
$l=strlen($v);
$s=floor($l/2);
$sk=$st+$s;
$sr=floor($sk*$coeff);
echo "<br>$v ($sk , $s) = $sr ";
if ($sr==0) {
$f=0;
} else {
for ($i=$sr;$i>=0;$i--){
if ($i==0) {
$f=$i;
break;
}
elseif ($rus[$i-1]==" ") {
$f=$i;
break;
}
}
}
$t='';
for($i=$f;$i<$lr;$i++) {
$ch=$rus[$i];
if ($i==$lr-1) {
$en=$i;
$t.=$ch;
break;
}
elseif ($ch==" ") {
$en=$i-1;
break;
}
$t.=$ch;
}
65
$st=$st+1+$l;
$rw{$v}=$t; //хэш слов
$rs{$v}=$f; //хэш позиций слов в русском тексте
echo " = $t ($f)<br>";
}
$hash{"word"}=$rw;
$hash{"position"}=$rs;
return $hash;
66
Download