ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН 2014, том 57, №4 ИНФОРМАТИКА УДК 811.222.8::81’322 Академик АН Республики Таджикистан З.Д.Усманов, Г.М.Довудов* О МНОГООБРАЗИИ АНАГРАММ КОРНЕЙ ТАДЖИКСКОГО ЯЗЫКА Институт математики им. А.Джураева АН Республики Таджикистан, * Худжандский политехнический институт Таджикского технического университета им. академика М.С.Осими Посредством упорядоченного алфавитного кодирования корней, извлечённых из коллекции таджикских текстов объёмом около 55 миллионов словоупотреблений, сформировано множество корневых анаграмм таджикского языка. Получены статистические данные о количестве различных анаграмм с заданным числом элементов. Анонсирован ряд анаграмм наибольшей мощности. Ключевые слова: таджикский язык – словоформа – корень – кодирование – анаграмма – статистика. В статье [1] предложено упорядоченное алфавитное -кодирование словоформ, приспособленное, в частности, для выявления анаграмм, то есть таких подмножеств на множестве словоформ, которые состоят из одного и того же набора букв. В [2] и [3] такое кодирование было использовано для построения множеств словоформных анаграмм английского, русского и таджикского языков и изучения их статистических свойств. В настоящей работе излагаются результаты исследований анаграмм корней таджикского языка, полученных из коллекции таджикских текстов размером в 55184508 словоупотреблений. В ней выявлено 240208 различных словоформ, из которых, в свою очередь, извлечено 65 422 корня [4]. Несмотря на то, что указанное число корней нельзя считать исчерпывающим, выводимые из таких данных результаты оказываются достаточно информативными, поскольку опираются на базу корней с высокой частотой встречаемости в таджикских текстах. 1. Для выявления корневых анаграмм, следуя [1], поставим в соответствие каждому корню из исходного списка его -код, то есть цепочку тех же самых букв, что и в рассматриваем прообразе, но расположенных в алфавитном порядке. Далее полученное множество закодированных корней преобразуем в список кодов с их частотами встречаемости. Вновь сформированный список разделим на две группы: в первую соберём -коды с частотами, равными 1, во вторую – с частотами строго больше 1. Очевидно, что каждому коду из первой группы отвечает один и только один корень-прообраз. Что касается кодов второй группы, то каждому из них соответствуют несколько корней-прообразов, число которых равно частоте встречаемости рассматриваемого кода. Соотношения кодов двух групп представлены в табл. 1. Из этой таблицы напрашиваются следующие выводы: Адрес для корреспонденции: Усманов Зафар Джураевич, Институт математики АН РТ, 734063, Республика Таджикистан, г. Душанбе, пр. Айни, д. 299/1. E-mail: [email protected] 287 Доклады Академии наук Республики Таджикистан 2014, том 57, №4 между множествами корней и их -кодов не имеет места в целом взаимно однозначное отображение: корней - 65422, кодов - 61057 ; взаимно однозначность отображения “корень его -код” свойственна всего лишь 57441 корням (столбец 3); Таблица 1 “Плотность” анаграмм на множестве кодов 1 Число различных корней 65422 2 Число различных –кодов 61057 3 Число однозначных –кодов 57441 4 Число многозначных –кодов 3616 5 Отношение (3)/(2) в% 94,07 6 Отношение (4)/(2) в% 5,93 неоднозначность отображения обуславливается 3616 -кодами (столбец 4), каждому из которых соответствует анаграмма, содержащая не меньше одного корня-прообраза; выраженные в процентах отношения чисел однозначных (столбец 5) и многозначных (столбец 6) кодов (без учёта частоты их встречаемости) к числу различных кодов показывают подавляющее превосходство “внеанаграммных” корней, то есть не входящих в состав анаграмм. 2. Последнее утверждение удаётся уточнить благодаря дальнейшим статистическим исследо- ваниям, результаты которых представлены в таблицах 2 и 3. Таблица 2 “Плотность” анаграмм на множестве словоформ 1 2 Число различных словоформ Число различных корней 240208 65422 3 Число словоформ с однозначными –кодами корней 180944 4 Число словоформ с многозначными –кодами корней 59264 5 6 Отношение (3)/(2) в% Отношение (4)/(2) в% 75.32 24.68 Из табл. 2 видно, что учёт частоты словоформ с фиксированными кодами заметно повышает “вес” многозначных кодов, определяющих мощность анаграмм, до значения 24.68% в сравнении с предыдущей ситуацией – 5.93%. Различие в понятиях словоформы и словоупотребления естественным образом отражается на плотности анаграмм: на множестве словоупотреблений (38.31%) она выше, чем на множестве словоформ (24.68%), о чём и свидетельствует табл. 3. Таблица 3 “Плотность” анаграмм на множестве словоупотреблений 1 2 Число различных корней Число различных словупотр. 65422 55184508 3 Число словоупотр. с однозначными –кодами корней 34046811 4 Число словоупотр. с многозначными –кодами корней 21137697 288 5 6 Отношение (3)/(2) в% Отношение (4)/(2) в% 61.69 38. 31 Информатика З.Д.Усманов, Г.М.Довудов Обработка упомянутой ранее коллекции текстов позволила также получить результаты, представленные в табл. 4. В ней в каждой строке приводятся статистические данные, привязанные к мощностям анаграмм (столбец 1): - во 2-й позиции строки отмечается число различных анаграмм (что то же – различных кодов), которые имеют мощность, указанную в 1-й позиции; Таблица 4 Соотношения между мощностями анаграмм и числами кодов, словоформ и словоупотреблений Число элементов анаграмм 7 6 5 4 3 2 1 Итого Число кодов % Число словоформ % Число словоупотр. % 3 2 23 104 463 3021 57441 61057 0.005 0.003 0.038 0.170 0.758 4.948 94.078 100 374 92 1207 4882 14094 38615 180944 240208 0.156 0.038 0.502 2.032 5.868 16.076 75.328 100 101447 4983 218284 1493939 5101010 14218034 34046811 55184508 0.184 0.009 0.396 2.707 9.244 25.764 61.696 100 - в 3-й позиции указанное число выражено в процентах к общему числу различных анаграмм (различных кодов); - в 4-й позиции приводится число словоформ, корни которых формируют соответствующие анаграммы; - в 5-й позиции предыдущее число выражено в процентах к общему числу различных словоформ; - в 6-й позиции показано число словоупотреблений, в составе которых встретились корни (элементы) анаграмм соответствущих мощностей; - в 7-й позиции предыдущее число выражено в процентах к общему числу словоупотреблений. Отметим, что 2 – это минимальное и 7 – максимальное числа корней (элементов), составляющих анаграммы. Для удобства изложения результатов так же, как и в [1-2], мы воспользовались понятием “тривиальной ” анаграммы: она состоит из одного корня и ей соответствует однозначный код. 3. Итак, в коллекции таджикских текстов размером в 55184508 словоупотреблений выявлено 240208 различных словоформ, из них, в свою очередь, извлечено 65 422 корня, которым поставлено в соответствие 61057 различных –кодов. Последние были разделены на 2 группы: первая – из 57441 однозначных кодов (тривиальных анаграмм), а вторая - из 3616 нетривиальных кодов (реальных анаграмм). Помимо этого нам удалось определить полный список всех таджикских корней, входящих в состав нетривиальных анаграмм. В связи с их огромным количеством в табл. 5 приводятся данные только об анаграммах мощности 7, 6 и 5. 289 Доклады Академии наук Республики Таджикистан 2014, том 57, №4 Таблица 5 Анаграммы с наибольшим числом элементов № Код иқло Число элементов Число словоанаграмм форм 7 72 Число словоупотр. 11978 биорҳ 7 22 447 авдор 7 280 89022 авлоҳ 6 73 4770 аорсф 6 19 213 аақмр аақрт иқорт иқнот иқост аазрҳ аморҳ аарҳш илосҳ аабқр авло азор аимн аилмос агнор адмно амос аарсф азмр зиор иклмо илмо 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 55 53 18 17 14 51 85 33 106 22 40 44 71 18 53 59 21 121 126 61 47 76 10741 3637 450 256 965 1317 6146 631 25903 251 1083 1683 7732 18689 5519 9203 767 42107 27323 7384 18045 27739 аикмрш 5 16 713 Корни словоформ, қило, қоил, иқол, илқо, лиқо, лоиқ, оқил ҳирбо, ҳироб, ҳориб, биҳор, боҳир, ибҳор, роҳиб аврод, адвор, вардо, давор, дарво, довар, овард ҳавло, ҳавол, ҳалво, аҳвол, авҳол, алвоҳ асфор, афсор, расфо, сафро, фарсо, фасор қамар, арқам, мақар, рақам, рамақ қарта, қатар, қатра, тақар, тарақ қирот, қитор, қотир, ортиқ, ротиқ қонит, қотин, ниқот, нитоқ, нотиқ қосит, исқот, сиқот, соқит, сотиқ ҳазар, ҳараз, ҳарза, азҳар, заҳра ҳамро, ҳаром, аҳром, арҳом, маҳор ҳашар, ашҳар, рашҳа, шарҳа, шараҳ ҳосил, исҳол, ислоҳ, силоҳ, соҳил ақраб, абқар, абрақ, бақар, барқа авло, алов, вало, вола, лаво азро, ароз, зора, озар, ораз амин, мина, наим, ниам, нима амосил, имсола, ломиса, масоил, солима ангор, аргон, гарон, оранг, орган андом, доман, мадон, монда, намод асмо, маос, моса, само, сома асфар, афсар, сарфа, сафар, фарас замр, зарм, марз, разм, рамз зоир, изор, ориз, ризо, роиз икмол, кимол, комил, милок, молик имло, лоим, моил, олим, омил камриш, камшир, кашмир, римкаш, ширмак Отметим, что в табл.5, состоящей из 6 столбцов, первый указывает номер анаграммы, второй – её -код, который соответствует всем словоформам, входящим в состав анаграммы. В третьем столбце даётся мощность анаграммы, то есть число корней, входящих в её состав. В четвёртом и пятом столбцах показаны абсолютные частоты их встречаемости среди словоформ и словоупотреблений в коллекции текстов. В последнем столбце выписаны корни, вошедшие в состав анаграммы. Исследования по настоящей статье поддержаны Фондом Сороса в 2013 г. Поступило 08.01.2014 г. Л И Т Е РАТ У РА 1. Усманов З.Д. Об упорядоченном алфавитном кодировании слов естественных языков. – Доклады Академии наук Республики Таджикистан, 2012, т.55, № 7, с. 545 – 548. 290 Информатика З.Д.Усманов, Г.М.Довудов 2. Усманов З.Д., Довудов Г.М, Холматова С.Д. О множестве анаграмм таджикского языка. – Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук, 2013, № 1(150) , с. 32 -39. 3. Усманов З.Д., Довудов Г.М. О многообразии словоформных анаграмм. – Доклады Академии наук Республики Таджикистан, 2013, т.56, № 3, с. 196- 200. 4. Усманов З.Д., Довудов Г.М. Формирование базы морфов таджикского языка. – Душанбе: Дониш, 2014. З.Љ.Усмонов, Г.М.Довудов* ОИДИ ГУНОГУНШАКЛИИ АНАГРАММАИ РЕШАҲОИ ЗАБОНИ ТОЉИКЇ Институти математика ба номи А.Љўраев, Академияи илмњои Љумњурии Тољикистон, *Донишкадаи политехникии Донишгоњи техникии Тољикистон ба номи М.С.Осимї дар ш.Хуљанд Бо усули љобаљогузории алифбоии кодиронии решањо, ки аз маљмўи матнњои тољикии иборат аз 55 миллион калимањо људо карда шудаанд, маљмўи анаграммаи решањои забони тољикї тартиб дода шудааст. Оиди шумораи анаграммањои гуногун ва шумораи элементњои онњо маълумоти оморї ба даст оварда шудааст. Як ќатор анаграммањои шумораи элементашон зиёдтарин тавсиф карда шудааст. Калимањои калидї: забони тољикї – калима – реша – кодиронї – анаграмма – омор. Z.D.Usmanov, G.M.Dovudov* ON A SET OF TAJIK ROOT ANAGRAMS A.Juraev Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan, Khujand’s Polytechnic Institute of the M.S.Osimi Tajik Technical University * Thanks to special coding of roots, extracted from Tajik text collections, containing about 55million words, the sets of anagrams to Tajik roots are constructed. Statistical data on the number of different anagrams with a given number of elements are obtained. Some anagrams with the highest number of roots are presented for consideration. Key words: Tajik language – word form – root – coding – anagram – statistics. 291