Концептуальная модель таджикско

реклама
ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН
2009, том 52, №2
ИНФОРМАТИКА
УДК 81:32+003.034
Л.А.Гращенко
КОНЦЕПТУАЛЬНАЯ МОДЕЛЬ ТАДЖИКСКО-ПЕРСИДСКОЙ КОНВЕРСИИ
ГРАФИЧЕСКИХ СИСТЕМ ПИСЬМА
(Представлено академиком АН Республики Таджикистан З.Д.Усмановым 30.12.2008 г.)
В ходе изучения закономерностей таджикско-персидской конверсии графических систем письма были систематизированы существующие представления предметной области [1],
выполнен анализ средств, методов и программных реализаций алгоритмов конверсии [2],
предложены частные модели отдельных сторон рассматриваемой проблематики [3]. В настоящей статье полученные результаты используются для описания концептуальной модели
перспективной автоматизированной конверсии графических систем письма указанной языковой пары.
В соответствии с [4] определим таджикско-персидскую конверсию графических систем письма как представление текстов, составленных на таджикском языке, средствами системы письма, принятой для персидского языка. При этом такая операция подразумевает:
- преобразование языковых знаков письма, то есть замену слов, записанных в системе
письма таджикского языка, на слова, записанные в системе письма персидского языка;
- преобразование алфавитных знаков таджикского алфавита Aтадж в алфавитные знаки
персидского алфавита Aперс (в том числе и служебные);
- преобразование свойств и атрибутов текста в соответствии с характеристиками исходной и принимающей систем письма [5] рассматриваемой языковой пары (табл. 1).
Таблица 1
Сравнительная характеристика систем письма таджикского и персидского языков
Язык
Свойство
Регистровость
Направленность
Наличие
символов
Наличие
n-графов
изменяющихся
Таджикский
Персидский
Двурегистровый
Однорегистровый
Однонаправленный
Двунаправленный
Нет
Да
Нет
Да
(цепочки гласных)
111
Доклады Академии наук Республики Таджикистан
2009, том 52, №2
Алгоритм преобразования таджикского текста в персидский содержит три основных
блока, независимо от используемой математической модели конверсии языковых знаков
письма: предобработки, конверсии и постобработки.
В блоке предобработки последовательно реализуются функции:
–
входного кодирования (преобразования Unicode-символов во внутренний формат
представления символов в системе);
–
нормализации (сокращения мощности алфавита входного потока символов, в частности приведения текста к одному регистру);
–
токенизации (разбиения текста на цепочки однотипных символов, в частности – разбивки текста на слова);
–
предварительный анализ входных цепочек символов (сопоставления входным цепочкам набора атрибутов, определяющих последовательность их дальнейшей обработки).
Блок постобработки реализует ряд функций, обратных приведенным в блоке пре-
добработки:
–
преобразование направленности обработанных цепочек символов в соответствии с их
типом;
–
сшивка обработанных цепочек символов;
–
выходное кодирование (преобразования символов из внутреннего формата представления в системе в Unicode-символы);
–
форматирование выходного текста в соответствии с наборами атрибутов, определенных для цепочек символов на этапе конверсии.
Результатом работы блока предобработки является последовательность цепочек сим-
волов, с каждой из которых сопоставлен набор атрибутов, определяющих их принадлежность
к тому или иному типу данных: текстовых, числовых, либо служебных.
В блоке конверсии решается основная задача – отображение словоформы X таджикского языка, получаемой на выходе блока предобработки в виде цепочки символов, в тождественную в фонетическом смысле персидскую словоформу Y, [3]:
X
Y|X
фонетич
Y.
Содержание блока конверсии определяется выбранной моделью конверсии и представлено информационными базами и средствами их обработки. Применительно к таджикско-персидской конверсии структура этого блока формируется на основе комплексного подхода, сочетающего отдельные стороны детерминированного (на основе словарей) и вероятностного (на основе учета статистических закономерностей) подходов и позволяющего сгладить недостатки и усилить достоинства каждого из указанных подходов. В блоке конверсии
учитываются наиболее общие закономерности отношений таджикских и персидских слово112
Информатика
Л.А.Гращенко
форм, а исключения из этих закономерностей перечисляются в отдельных словарях, значительно меньших по объему, чем словарь всех возможных пар таджикских и фонетически тождественных им персидских словоформ. В этом же блоке сочетаются операции поиска по
словарным базам, вычисления аналитических функций и преобразования символьных цепочек в соответствии с вычисленными значениями.
Обобщенная структура конвертера приведена на рисунке.
Рис. Схема системы таджикско-персидской конверсии систем письма
Приведенная схема отражает совокупность функциональных блоков (обозначены
прямоугольниками), информационных хранилищ (цилиндры) и связей между ними: информационных (непрерывные стрелки) и управляющих (пунктирные стрелки).
Функциональные блоки 1-2 реализуют этап предобработки, блоки 3-8 этап конверсии,
блоки 11-13 – этап постобработки. Блоки 9 и 10 представляют внешние по отношению к процессу конверсии функции, обеспечивающие сигнализацию исключительных ситуаций и процессы адаптации системы.
Рассмотрим последовательность шагов обработки некоторой символьной цепочки X,
выделенной из входного текста на этапе предобработки (блоки 1-2).
113
Доклады Академии наук Республики Таджикистан
2009, том 52, №2
1. Блок конверсии цепочки X определяется еѐ типом, устанавливаемым в блоке 2: цепочки чисел поступают в блок 3, символов-разделителей в блок 4, цепочки служебных символов или букв иных алфавитов не конвертируются. Если цепочка Х определена как таджикская словоформа, то в зависимости от установленных в блоке 2 признаков еѐ обработка переходит в блок 5 (для аббревиатур), 6 (для имен собственных) или блок 7 (для всех иных словоформ).
2. Если в блоках 5 и 6 установлено, что цепочка Х не содержится в базах аббревиатур
и номенов, то в зависимости от настроек системы и выбора пользователя либо генерируется
исключительная ситуация (производится обновление баз в блоке 10), либо цепочка признаѐтся обычной словоформой и поступает в блок 7.
3. Поступившие в блок 7 словоформы подвергаются автоматическому морфологическому анализу, на основе которого производится поиск основы слова в базе исключений, а
также определяется принадлежность словоформы к одному из трѐх классов слов: словам
персидского, арабского либо европейского происхождения. Расчленѐнная на аффиксы и основу слова словоформа Х, а также управляющая информация о классе словоформы и наличии
основы слова в базе исключений поступает на конверсию в блок 8.
4. В блоке 8 в соответствии с управляющей информацией производится конверсия основ слов, аффиксов и осуществляется их сшивка в цепочку Y. Основы таджикских слов, обнаруженные в базе исключений, заменяются на содержащиеся в той же базе основы персидских слов.
5. В зависимости от настроек системы и результатов конверсии в блоке 9 производится генерация предупреждений, реализуемых на этапе постобработки в блоке 13.
6. По завершению этапа конверсии цепочка Y подается на последовательность блоков
этапа постобработки (11 - 13).
Приведенное
содержательное
описание
концептуальной
модели
таджикско-
персидской конверсии систем письма позволяет перейти к установлению конкретных закономерностей на множестве отношений словоформ таджикско-персидской языковой пары [1,
3], проведению инфологического моделирования информационных хранилищ перспективной
автоматизированной системы конверсии и прототипированию.
Институт математики
Поступило 30.12.2008 г.
АН Республики Таджикистан
Л И Т Е РАТ У РА
1. Усманов З.Д., Гращенко Л.А., Фомин А.Ю. – Известия АН РТ. Отд. физ.-мат., хим., геол. и техн.
наук, 2008, №1(130), с. 20-26.
114
Информатика
Л.А.Гращенко
2. Гращенко Л.А., Фомин А.Ю. – ДАН РТ, 2008, т.51, №8, с. 580-583.
3. Гращенко Л.А. – ДАН РТ, 2008, т.51, №5, с. 339-345.
4. ГОСТ 7.79-2000 (ИСО 9-95) «Правила транслитерации кирилловского письма латинским алфавитом» – М.: Издательство стандартов, 2002, 19 с.
5. Информационные технологии. Термины Юникод. Проект отраслевого стандарта. [Электронный
ресурс]: http://gsnti-norms.ru/norms/common/doc.asp?0&/norms/dict/unicode.htm
Л.А.Грашенко
ШАКЛИ КОНСЕПСУАЛИИ КОНВЕРСИЯИ СИСТЕМАИ ХАТТЇ ДАР
СОХТОРИ КАЛИМАЊОИ ТОЉИКЇ-ФОРСЇ
Дар маќола шарњи мухтасари тањлили њамаљонибаи системаи конверсияи
тољикї-форсї бо дар назардошти ќонуниятњои хаттї дар забонњои мазкур бо баёни
муќадаррот ва ињтибосот дар чорчўбаи ќонунияти ин забонњо пешнињод карда шудааст.
L.A.Graschenko
CONCEPTUAL MODEL OF THE TAJIK-TO-PERSIAN CONVERSION OF
GRAPHICAL LETTER SYSTEMS
In article the informative exposition of the comprehensive approach to implementation of a
system of the Tajik-to-Persian letter systems conversion is offered on the basis of the registration of
regularities in written representation of word forms of the indicated language pair and the determined exposition of eliminations of the retrieved regularities.
115
Скачать