ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН 2013, том 56, №7 ИНФОРМАТИКА УДК 410:31+414.7+491.592:002.6+221.32 А.Ш.Бахтоваршоев СТАТИСТИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ ЧАСТОТ БУКВ ОДНОГО ВАРИАНТА АЛФАВИТА ШУГНАНСКОГО ЯЗЫКА Институт математики им. А.Джураева АН Республики Таджикистан (Представлено академиком АН Республики Таджикистан З.Д.Усмановым 17.06.2013 г.) В статье приведены частоты встречаемости букв шугнанского языка для одного варианта шугнанского алфавита на расширенной кириллице, предложенного автором. Ключевые слова: шугнанский язык – частоты букв – алфавит на расширенной кириллице. Первые результаты исследования статистических закономерностей, свойственных распределениям частот появления букв в шугнанском языке, опубликованы в статье З.Д.Усманова и А.Г.Гуломсафдарова [1]. Так как общепринятого алфавита шугнанского языка, полностью основанного на расширенной латинице или на расширенной кириллице, ещё нет, то в настоящей работе рассматривается один из вариантов такого алфавита и на его основе вычислены частоты встречаемости букв шугнанского языка. Вариант алфавита выбран на основе работы [2]. Предложенный вариант алфавита отличается от применяемого специалистами в области языкознания алфавита [см. 1-3] тем, что а) он однороден, так как содержит только символы расширенной кириллицы; б) буквы и символы расположены по возрастанию кода, следовательно, можно произвести сортировку; в) распознавание шугнанского текста вследствие однородности возможно; г) при транслитерации большая часть текста легко переходит в латиницу; д) имеет привычный вид, то есть психологически более приемлемый; е) легко встраивается в таджикскую или русскую раскладку клавиатуры. Недостаток предложенного алфавита состоит в том, что нарушается основной принцип алфавита – каждому знаку должен соответствовать один звук (фонема). Но в действительности этот принцип в чистом виде нигде полностью не реализован, так как «…орфография большинства языков является исторической орфографией, а не чисто фонетической записью.» ([4], стр. 24). Алфавит имеет следующий вид: Таблица 1 Алфавит на расширенной кириллице Аа Дз дз Лл Тъ тъ Шш Ӣӣ Аа аа Дъ дъ Мм Уу ъ Ӯӯ Бб Ее Нн Уу уу ь Вв Жж Оо Фф Ээ Вь вь Зз Пп Хх Ээ ээ Гг Ии Рр Хь хь Ғғ Гь гь Йй Сс Цц Ққ Дд Кк Тт Чч Ҷҷ Адрес для корреспонденции: Бахтоваршоев Алигавхар Шохайдарович. 734063, Республика Таджикистан, г. Душанбе, ул.Айни, 299/1, Институт математики АН РТ. Е-mail: [email protected] 531 Доклады Академии наук Республики Таджикистан 2013, том 56, №7 Символы ъ, ь служат только для создания диграфов. Буква э является аллофоном фонемы и в конце некоторых слов. Правописание этих слов должно определяться более чётко орфографическим словарем в будущем, так как, к сожалению, в настоящее время такой словарь ещё не создан. У И.И.Зарубина [5] она имела обозначение ẹ. Другие символы имеют следующий смысл: аа = ā; вь = w; гь = γ; дз = ʒ; дъ = δ; тъ = ϑ; хь = χ; ээ = ê. Приведённые здесь после знака равенства символы весьма разнородны и принадлежат трём различным алфавитам. В настоящей работе мы опираемся на утверждения 1 и 2 статьи [1]. Согласно утверждению 1, частоты букв являются статистическим инвариантом случайных выборок объёмом не менее 10 страниц, то есть текст должен содержать не менее 12300 знаков. Такие тексты объявляются репрезентативными (R – текстами). Исходя из этого факта, нами для исследования были выбраны тексты из трёх различных источников общим объёмом 34 654 буквы, что примерно в три раза превосходит объём Rтекста [3,5,6]. Статистическая обработка выдала следующие частоты для букв: Таблица 2 Частоты букв на расширенной кириллице n Буквы ν, % 1 а 11.0088 2 д 6.6601 3 и 5.4770 4 т 5.4712 5 р 4.9634 6 н 4.9374 7 о 4.3631 8 ь 4.0977 9 у 3.9418 10 м 3.4888 11 аа 3.2464 12 с 3.2377 13 й 3.0848 14 э 2.7933 Примечание: ν – частота. n 15 16 17 18 19 20 21 22 23 24 25 26 27 28 Буквы вь е к л х б ъ ў ї в ч з љ хь ν, % 2.4788 2.1527 2.1469 2.0604 1.9623 1.9132 1.6073 1.5727 1.5438 1.4255 1.3707 1.3534 1.2322 1.1774 n 29 30 31 32 33 34 35 36 37 38 39 40 41 42 Буквы дъ уу п г қ ф ш ц ғ гь тъ ээ ж дз ν, % 1.1745 1.0706 1.0100 0.9148 0.8772 0.7734 0.7387 0.6752 0.5223 0.4184 0.4126 0.3751 0.1414 0.1270 Сравнение этой таблицы с результатами работы [1] показывает следующее. Буквы а, д, и, т, р, н, о, ь, у осуществляют 50.91% покрытия шугнанского текста. Здесь количество букв увеличилось на единицу. 75- и 90-процентное покрытие обеспечивают соответственно 18 и 28 первые символы табл. 2. Здесь также разность увеличилась на две единицы. Кроме того, из табл. 2 видно, что первые шесть букв табл. 1 из [1] по существу почти остались на своих местах. Следовательно, если использовать утверждение 2 работы [1], то статистически оба алфавита почти одинаковы. Чтобы сохранить тесную связь с таджикским алфавитом, для звука [v] выбрана буква в, хотя частота символа вь в 1.7 раз больше частоты буквы в. Диграфы составляют 22.5% алфавита. Из табл. 2 видно, что сумма их частот не превосходит 10.5%, следовательно, объём текста не растёт пропорционально их количеству, а почти в два раза медленнее. Этот факт также показывает, что объём текста на данном алфавите по сравнению с объёмом текста на алфавите на фонетической основе может увеличиться в целом не более чем на 10.5%. 532 Информатика А.Ш.Бахтоваршоев Можно сделать следующий вывод. Так как большинство программ распознавания текстов ориентировано на символы конкретного алфавита, например русского, то такая программа может распознавать примерно 95% шугнанского текста, потому что доля букв, отличных от русских, составляет чуть больше 5%. Поступило 17.06.2013 г. Л И Т Е РАТ У РА 1. Усманов З.Д., Гуломсафдаров А.Г. – ДАН АН РТ, 2009, т. 52, № 3, с. 187-191. 2. Соколова В.С. – Языки народов СССР. – М.: Наука, 1966, т. I, с. 362-397. 3. Фолклори Помир. Ҷилди 3. Мураттиб Г. Ризвоншоева. – Душанбе: Дониш, 2012, 508 с. 4. Дирингер Д. Алфавит. Пер. с англ. – М.: Изд-во иностр. лит., 1963, 656с. 5. Зарубин И.И. Шугнанские тексты и словарь. – М. - Л.: Изд. АН СССР, 1960, 388 с. 6. Бахтоваршоев А.Ш. Икойатен маҷмууа’. – Киев: Частная инициатива, 2013, 44 с. А.Ш.Бахтоваршоев ТАЌСИМОТИ ОМОРИИ ЊУРУФ ДАР ЗАБОНИ ШУЃНОНЇ БО ЯК НАМУНАИ АЛИФБО Институти математикаи ба номи А.Љураеви Академияи илмњои Љумњурии Тољикистон Дар маќола таќсимоти омории њуруф дар забони шуѓнонї ба воситаи алифбои пешнињодшудаи муаллиф муайян шудааст. Калимањои калидї: забони шуѓнонї – зудии њуруф – алифбо бо хатти кириллии комилшуда. A.Sh.Bakhtovarshoev A STATISTICAL DISTRIBUTION OF LETTERS IN SHUGHNAN TEXTS WITH ONE NEW ALFABETS A.Juraev Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan In this article are established a statistical distribution of letters in Shughnan texts with one new alphabets. Key words: Shughnan language – frequencies of letters – the alphabet on expanded Cyrillics. 533