СТАТИСТИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ ЧАСТОТ БУКВ ОДНОГО

реклама
ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН
2013, том 56, №7
ИНФОРМАТИКА
УДК 410:31+414.7+491.592:002.6+221.32
А.Ш.Бахтоваршоев
СТАТИСТИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ ЧАСТОТ БУКВ ОДНОГО ВАРИАНТА
АЛФАВИТА ШУГНАНСКОГО ЯЗЫКА
Институт математики им. А.Джураева АН Республики Таджикистан
(Представлено академиком АН Республики Таджикистан З.Д.Усмановым 17.06.2013 г.)
В статье приведены частоты встречаемости букв шугнанского языка для одного варианта
шугнанского алфавита на расширенной кириллице, предложенного автором.
Ключевые слова: шугнанский язык – частоты букв – алфавит на расширенной кириллице.
Первые результаты исследования статистических закономерностей, свойственных распределениям частот появления букв в шугнанском языке, опубликованы в статье З.Д.Усманова и
А.Г.Гуломсафдарова [1]. Так как общепринятого алфавита шугнанского языка, полностью основанного на расширенной латинице или на расширенной кириллице, ещё нет, то в настоящей работе рассматривается один из вариантов такого алфавита и на его основе вычислены частоты встречаемости
букв шугнанского языка. Вариант алфавита выбран на основе работы [2].
Предложенный вариант алфавита отличается от применяемого специалистами в области языкознания алфавита [см. 1-3] тем, что а) он однороден, так как содержит только символы расширенной
кириллицы; б) буквы и символы расположены по возрастанию кода, следовательно, можно произвести сортировку; в) распознавание шугнанского текста вследствие однородности возможно; г) при
транслитерации большая часть текста легко переходит в латиницу; д) имеет привычный вид, то есть
психологически более приемлемый; е) легко встраивается в таджикскую или русскую раскладку клавиатуры.
Недостаток предложенного алфавита состоит в том, что нарушается основной принцип
алфавита – каждому знаку должен соответствовать один звук (фонема). Но в действительности этот
принцип в чистом виде нигде полностью не реализован, так как «…орфография большинства языков
является исторической орфографией, а не чисто фонетической записью.» ([4], стр. 24).
Алфавит имеет следующий вид:
Таблица 1
Алфавит на расширенной кириллице
Аа
Дз дз
Лл
Тъ тъ
Шш
Ӣӣ
Аа аа
Дъ дъ
Мм
Уу
ъ
Ӯӯ
Бб
Ее
Нн
Уу уу
ь
Вв
Жж
Оо
Фф
Ээ
Вь вь
Зз
Пп
Хх
Ээ ээ
Гг
Ии
Рр
Хь хь
Ғғ
Гь гь
Йй
Сс
Цц
Ққ
Дд
Кк
Тт
Чч
Ҷҷ
Адрес для корреспонденции: Бахтоваршоев Алигавхар Шохайдарович. 734063, Республика Таджикистан,
г. Душанбе, ул.Айни, 299/1, Институт математики АН РТ. Е-mail: [email protected]
531
Доклады Академии наук Республики Таджикистан
2013, том 56, №7
Символы ъ, ь служат только для создания диграфов. Буква э является аллофоном фонемы и в
конце некоторых слов. Правописание этих слов должно определяться более чётко орфографическим
словарем в будущем, так как, к сожалению, в настоящее время такой словарь ещё не создан. У
И.И.Зарубина [5] она имела обозначение ẹ. Другие символы имеют следующий смысл: аа = ā; вь = w;
гь = γ; дз = ʒ; дъ = δ; тъ = ϑ; хь = χ; ээ = ê. Приведённые здесь после знака равенства символы весьма разнородны и принадлежат трём различным алфавитам.
В настоящей работе мы опираемся на утверждения 1 и 2 статьи [1]. Согласно утверждению 1,
частоты букв являются статистическим инвариантом случайных выборок объёмом не менее 10 страниц, то есть текст должен содержать не менее 12300 знаков. Такие тексты объявляются репрезентативными (R – текстами). Исходя из этого факта, нами для исследования были выбраны тексты из трёх
различных источников общим объёмом 34 654 буквы, что примерно в три раза превосходит объём Rтекста [3,5,6].
Статистическая обработка выдала следующие частоты для букв:
Таблица 2
Частоты букв на расширенной кириллице
n
Буквы
ν, %
1
а
11.0088
2
д
6.6601
3
и
5.4770
4
т
5.4712
5
р
4.9634
6
н
4.9374
7
о
4.3631
8
ь
4.0977
9
у
3.9418
10
м
3.4888
11
аа
3.2464
12
с
3.2377
13
й
3.0848
14
э
2.7933
Примечание: ν – частота.
n
15
16
17
18
19
20
21
22
23
24
25
26
27
28
Буквы
вь
е
к
л
х
б
ъ
ў
ї
в
ч
з
љ
хь
ν, %
2.4788
2.1527
2.1469
2.0604
1.9623
1.9132
1.6073
1.5727
1.5438
1.4255
1.3707
1.3534
1.2322
1.1774
n
29
30
31
32
33
34
35
36
37
38
39
40
41
42
Буквы
дъ
уу
п
г
қ
ф
ш
ц
ғ
гь
тъ
ээ
ж
дз
ν, %
1.1745
1.0706
1.0100
0.9148
0.8772
0.7734
0.7387
0.6752
0.5223
0.4184
0.4126
0.3751
0.1414
0.1270
Сравнение этой таблицы с результатами работы [1] показывает следующее. Буквы а, д, и, т,
р, н, о, ь, у осуществляют 50.91% покрытия шугнанского текста. Здесь количество букв увеличилось
на единицу. 75- и 90-процентное покрытие обеспечивают соответственно 18 и 28 первые символы
табл. 2. Здесь также разность увеличилась на две единицы. Кроме того, из табл. 2 видно, что первые
шесть букв табл. 1 из [1] по существу почти остались на своих местах. Следовательно, если использовать утверждение 2 работы [1], то статистически оба алфавита почти одинаковы.
Чтобы сохранить тесную связь с таджикским алфавитом, для звука [v] выбрана буква в, хотя
частота символа вь в 1.7 раз больше частоты буквы в.
Диграфы составляют 22.5% алфавита. Из табл. 2 видно, что сумма их частот не превосходит
10.5%, следовательно, объём текста не растёт пропорционально их количеству, а почти в два раза
медленнее. Этот факт также показывает, что объём текста на данном алфавите по сравнению с объёмом текста на алфавите на фонетической основе может увеличиться в целом не более чем на 10.5%.
532
Информатика
А.Ш.Бахтоваршоев
Можно сделать следующий вывод. Так как большинство программ распознавания текстов
ориентировано на символы конкретного алфавита, например русского, то такая программа может
распознавать примерно 95% шугнанского текста, потому что доля букв, отличных от русских, составляет чуть больше 5%.
Поступило 17.06.2013 г.
Л И Т Е РАТ У РА
1. Усманов З.Д., Гуломсафдаров А.Г. – ДАН АН РТ, 2009, т. 52, № 3, с. 187-191.
2. Соколова В.С. – Языки народов СССР. – М.: Наука, 1966, т. I, с. 362-397.
3. Фолклори Помир. Ҷилди 3. Мураттиб Г. Ризвоншоева. – Душанбе: Дониш, 2012, 508 с.
4. Дирингер Д. Алфавит. Пер. с англ. – М.: Изд-во иностр. лит., 1963, 656с.
5. Зарубин И.И. Шугнанские тексты и словарь. – М. - Л.: Изд. АН СССР, 1960, 388 с.
6. Бахтоваршоев А.Ш. Икойатен маҷмууа’. – Киев: Частная инициатива, 2013, 44 с.
А.Ш.Бахтоваршоев
ТАЌСИМОТИ ОМОРИИ ЊУРУФ ДАР ЗАБОНИ ШУЃНОНЇ БО ЯК
НАМУНАИ АЛИФБО
Институти математикаи ба номи А.Љураеви Академияи илмњои Љумњурии Тољикистон
Дар маќола таќсимоти омории њуруф дар забони шуѓнонї ба воситаи алифбои
пешнињодшудаи муаллиф муайян шудааст.
Калимањои калидї: забони шуѓнонї – зудии њуруф – алифбо бо хатти кириллии комилшуда.
A.Sh.Bakhtovarshoev
A STATISTICAL DISTRIBUTION OF LETTERS IN SHUGHNAN TEXTS
WITH ONE NEW ALFABETS
A.Juraev Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan
In this article are established a statistical distribution of letters in Shughnan texts with one new alphabets.
Key words: Shughnan language – frequencies of letters – the alphabet on expanded Cyrillics.
533
Скачать