Ю.Н. Орлов Институт прикладной математики им. М.В. Келдыша РАН, кафедра высшей математики МФТИ Методы статистического анализа литературных текстов Текст – это нестационарный временной ряд Пусть – случайная величина (буква или буквосочетание), принимающая значения из конечного упорядоченного множества букв (пар букв, и т.д.) в алфавите. k f N (i) i , i 1, 2, ..., n 1-ВПФР есть эмпирическая N вероятность обнаружения данной буквы в тексте из N символов. «Время» – это порядковый номер буквы в тексте. 2 Стационарный временной ряд Временной ряд называется узко стационарным, если его ФР стационарна. Стационарность в широком смысле означает независимость от времени первых нескольких (обычно двух) моментов распределения. 3 Стационарные процессы: сходимость к ген.совокупности Теорема Гливенко (1933). ВФР FN (x) сходится по вероятности к ген. ФР: P lim sup FN ( x ) F ( x ) 0 1 T x Терема Колмогорова (1933). Если ген. ФР непрерывна, то статистика N DN , где DN sup FN ( x ) F ( x ) x сходится по вероятности к функции K(z): lim P 0 N sup FN ( x ) F ( x ) z K ( z ) ( 1) k exp 2k 2 z 2 N x k 4 Квазистационарные ВФР и ВПФР ВПФР если f N ( x, t ) называется --стационарной, 1 : 1 , t V ( N , ; t ) f N ( x, t ) f N ( x, t ) dx 0 Пусть две ВПФР условию близости f n (x) 1 и ~ f n ( x) удовлетворяют ~ f n ( x ) f n ( x ) dx 0 Тогда их ВФР удовлетворяют критерию К. 5 Сравнение мощностей норм в L1 и в C 2,0 1,0 0,5 0,0 0,0 0,2 0,4 0,6 0,8 1,0 X 1,0 F1 F2 0,8 0,6 F(x) Слева – ПФР треуг. и равном. распред. Справа – соотв. ФР f(x) f1 f2 1,5 0,4 0,2 0,0 0,0 0,2 0,4 0,6 0,8 1,0 X 6 Уровень нестационарности текстов Для 1-ПФР n 12 f (1) f (2) f N(1) (i) f N(2) (i) i 1 1 2 Для 2-ПФР 12 F (1) F ( 2) n i, j 1 FN(1) (i, j ) FN( 2) (i, j ) 1 2 7 Длина квазистационарности Чтобы сравнивать распределения текстов разных объемов, следует убедиться в том, что они стабилизируются. Длина стационарности текста L ( ) есть такой объем, что ПФР любых фрагментов, объемы которых N , M L( ), отличаются не более чем на : n f N (i ) f M (i ) i 1 8 Длина квазистационарности L() для 1-ПФР 700 000 Булгаков Белая гвардия Булгаков Жизнь господина де Мольера Булгаков Заметки и миниатюры Булгаков Записки на манжетах Булгаков Записки юного врача Булгаков Мастер и Маргарита Булгаков Роковые яйца Булгаков Собачье сердце Булгаков Театральный роман Булгаков Черный маг, копыто инженера Набоков Дар Набоков Другие берега Набоков Защита Лужина Набоков Камера обскура Набоков Кроль, дама, валет Набоков Лолита Набоков Машенька Набоков Пнин Набоков Приглашение на казнь Набоков Соглядатай 600 000 500 000 400 000 300 000 200 000 100 000 0 0,4 0,25 0,15 0,09 0,07 0,05 0,03 0,02 0,01 9 Оценка достаточной длины текста Предположим, что буквы образуют стационарный ряд. Пусть N2 (i) - дисперсия эмпирической частоты f N (i) . f N (i ) f (i ) t N 1 N (i) Тогда статистика имеет распределение Стьюдента с N-1 степенями свободы. 0,95-квантиль t составляет 1,96. 10 Оценка длины текста (продолжение) С доверительной вероятностью α отклонение эмпирической вероятности f N (i) f (i) не превосходит t N (i) / N . n t ns f ( i ) f ( i ) s ( N ) max ( i ) Пусть . Тогда i1 N N N . Пусть λ – требуемая точность в оценке ПФР: n f N (i) f (i) i 1 Эта оценка выполнена, если объем текста не меньше, чем N t ns( N ) / 2 11 Оценка длины текста (окончание) Положим =0,01, n=32. Для уровней доверия 0,95; 0,97; 0,99 минимальные объемы текстов оказались равны 8, 10 и 15 тыс. знаков. Для корректного сравнения текстов уровень ошибки в эмпирических частотах на этих длинах должен быть много меньше уровня нестационарности . Это выполнено для =0,05 и 0,03. Для =0,01 и =0,002 N>250 тыс. знаков. 12 Идея метода идентификации автора и жанра текста Кластеризация текстов по авторам и жанрам осуществляется на основе нормы в L1. Тексты считаются написанными в данном жанре или данным автором, если расстояние от их ПФР до ПФР жанра или автора минимально среди имеющихся жанров и авторов. 13 Жанровые 1-ПФР 12% 10% 8% 6% 4% 2% 0% а б в Боевик г д е ж з и й к Дамский детектив л м н о п Детектив р с Классика т у ф х ц ч ш щ ъ ы ь Эротика Мистика э ю я Фантастика 14 Средние расстояния между 1-ПФР текстов, % Жанр 1 2 3 4 5 6 7 8 9 10 1 5,5 6,2 5,8 6,4 6,5 6,4 6,8 7,1 6,4 6,7 6,2 6,3 7,3 7,8 7,1 7,4 7,1 6,7 7,0 5,7 6,6 7,0 6,4 6,9 7,4 6,5 7,0 6,8 7,4 6,8 7,7 8,0 7,5 7,4 8,0 7,1 7,8 8,2 7,6 7,9 6,5 7,3 7,6 7,0 8,1 7,6 8,1 7,4 7,8 7,4 7,7 7,6 6,2 7,1 2 3 4 5 6 7 8 9 10 6,4 1-Боевик, 2-Дамский детектив, 3-Классический детектив, 4-Киберпанк, 5-Ужасы и мистика, 6-Научная фантастика, 7-Фэнтэзи, 8-Любовный роман, 9-Русская классика, 10-Советская классика. 15 Авторские 1-ПФР 12% 10% 8% 6% 4% 2% 0% а б в г д Айтматов е ж з и й к Булгаков л м н о п Гоголь р с Достоевский т у ф х Набоков ц ч ш щ ъ ы ь э ю я Толстой Тургенев 16 Расстояния между 1-ПФР для авторов, % Автор <Айтм. > <Акун. > <Булг. > <Гог. > <Донц. > <Дост. > <Марк. > <Наб. > <Толст.> <Тург. > Айтм. 4,4 7,3 7,6 7,2 7,5 8,3 7,8 7,0 6,8 6,8 Акун. 6,0 2,4 4,3 6,0 6,3 6,7 4,5 4,2 4,8 4,9 Булг. 7,3 5,4 4,0 6,9 6,6 8,9 4,9 6,2 6,7 6,3 Гог. 7,5 7,1 7,5 6,0 9,2 7,2 7,9 8,4 6,2 7,0 Донц. 6,6 6,1 6,0 7,9 2,1 9,0 5,6 7,1 7,0 6,6 Дост. 7,5 7,6 9,1 7,0 9,6 3,9 9,8 7,8 6,4 6,5 Марк. 7,1 5,1 4,2 7,2 5,9 9,9 2,8 6,3 7,1 6,8 Наб. 6,5 5,0 5,6 6,3 7,3 7,6 6,2 3,8 5,7 5,5 Толст. 7,1 6,5 6,9 6,6 8,4 7,2 7,4 6,7 4,8 6,0 Тург. 6,1 5,5 5,9 6,7 7,1 6,0 6,8 5,5 4,9 3,4 17 Отделимость одного автора по 1-ПФР 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 0,02 0,03 0,04 0,05 Тургенев-<Тургенев> 0,06 Тургенев 0,07 0,08 0,09 0,1 Тургенев-<Другой автор> 18 Расстояния между 2-ПФР для пары авторов 0,3 0,25 0,2 Тургенев 0,15 Тургенев-Айтматов 0,1 0,05 0 0,1 0,12 0,14 0,16 0,18 0,2 0,22 0,24 0,26 0,28 0,3 19 Разделение авторских текстов по расстояниям между 2-ПФР 0,09 0,08 0,07 0,06 0,05 Один автор 0,04 Чужие тексты 0,03 0,02 0,01 0,48 0,45 0,42 0,39 0,36 0,33 0,3 0,27 0,24 0,21 0,18 0,15 0,12 0,09 0,06 0,03 0 0 Расстояние между 2-ПФР 20 25 1 20 0,9 0,8 15 0,7 0,6 10 0,5 0,4 5 0,3 0,2 0 0,1 0,12 0,14 0,16 0,18 0,2 0,22 0,24 Ошибка Число кластеров Кластеризация текстов по авторам 0,1 0 0,26 0,28 Расстояние между 2-ПФР Число кластеров Ошибка 21 Расстояния между авторскими 2-ПФР,% Автор Айтм. Акун. Булг. Гог. Донц. Дост. Марк. Наб. Толст. Тург. Айтм. 19,9 24,1 26,0 25,4 23,7 25,4 25,0 23,8 25,2 23,2 12,5 18,4 22,8 18,1 23,5 17,5 17,8 23,1 19,9 19,5 25,4 21,1 27,0 20,3 20,5 25,5 22,9 21,4 26,2 23,7 26,0 23,6 23,8 23,0 11,0 25,2 18,4 21,1 25,8 21,0 18,3 28,0 25,0 24,3 21,4 14,4 20,2 25,7 23,0 16,8 22,8 21,8 20,6 22,7 Акун. Булг. Гог. Донц. Дост. Марк. Наб. Толст. Тург. 16,3 Точность идентификации автора этим методом составила 90%. 22 Сравнение текстов по информационной энтропии Информационной энтропией называется функционал S f (i ) ln f (i) i Для прозы значения S меняются от 3,07 до 3,09, а для поэзии от 3,11 до 3,13. Различить по этому показателю авторов или жанровую тематику текстов нельзя. 23 Другие кандидаты на авторские «инварианты» Средняя длина слова Доля гласных или согласных Доля союзных слов Среднее расстояние между выбранной парой букв Все функционалы от распределения букв не дают статистически достоверного критерия отличимости авторов и жанров 24 Оператор трансляций Пусть Pij (l ) есть условная вероятность того, что буква j отстоит от буквы i на l 1 символов. Пусть также K i (t ) есть i -ая компонента вектора вероятностей того, что буква i реализуется в тексте в момент t . Тогда K (t l ) P(l )K (t ) 25 Оператор трансляций на 1 шаг Pij (1) выражается через 1-ПФР и 2-ПФР: Pjk (1) F (k , j ) / f (k ) По формуле полной вероятности f ( j ) Pjk (1) f (k ) k Следовательно, 1-ПФР f ( j) k F (k , j) является с.в. оператора Pjk (1) , отвечающим с.з. 1. 26 Норма Фробениуса След матрицы оператора соседних трансляций также может служить опознавательным знаком писателя. S TrP(1) F (k , k ) / f (k ) k Он не является «авторским инвариантом», но для одного и того же автора норма разности операторов в среднем меньше, чем для разных авторов. Разрешающая способность этой нормы в среднем 0,7. 27 -спектр оператора соседних трансляций Число называется принадлежащим спектру матрицы P, если существует матрица такая, что P detE P 0 Сравнение между собой спектральных портретов операторов P для разных авторов в норме Хаусдорфа supx, Px, x 1 позволяет более точно их различить. 28 Пример спектрального портрета оператора P(1) «Портрет» романа В. Пелевина «Чапаев и пустота» 29 Хаусдорфово множество для разности операторов P -P 1 2 Множеством Хаусдорфа называется множество значений x, Px на ед. в-ре. Точность идентификации автора 95%. 30 Последовательность букв в тексте как динамическая система Временной ряд буквы «А» в романе В. Пелевина «Чапаев и пустота» 100 90 Расст. между А-А 80 70 60 50 40 30 20 10 0 1 101 201 301 401 501 601 701 801 901 Номер буквы А 31 Авторский динамический хаос Последовательность букв образует «почти белый шум» с автокорреляцией на уровне как у логистической системы 0,12 0,1 0,08 0,06 Автокорр 0,04 0,02 А-А Логист 0 -0,02 1 -0,04 5 9 13 17 21 25 -0,06 -0,08 -0,1 Лаг 32 Распределение расстояний между буквами в тексте А-А 0,18 0,16 0,14 DF-Пел1 0,12 DF-Пел2 0,1 DF-Пар1 0,08 DF-Пар2 DF-Пет1 0,06 DF-Пет2 0,04 0,02 0 0 10 20 30 40 50 60 70 80 90 100 110 120 33 Распределение расстояний между буквами в тексте Б-Б 0,025 0,02 0,015 0,01 0,005 0 0 25 50 75 100 125 150 175 200 225 250 275 300 325 350 375 400 425 450 475 500 34 Распределение расстояний между буквами в тексте Е-Е 0,14 0,12 DF-Пел1 0,1 DF-Пел2 0,08 DF-Пар1 DF-Пар2 0,06 DF-Пет1 0,04 DF-Пет2 0,02 0 0 10 20 30 40 50 60 70 80 90 100 110 35 Распределение расстояний между буквами в тексте И-И 0,1 0,09 0,08 DF-Пел1 0,07 DF-Пел2 0,06 DF-Пар1 0,05 DF-Пар2 0,04 DF-Пет1 0,03 DF-Пет2 0,02 0,01 0 0 10 20 30 40 50 60 70 80 90 100 36 Распределение расстояний между буквами в тексте Л-Л 0,06 0,05 DF-Пел1 0,04 DF-Пел2 DF-Пар1 0,03 DF-Пар2 DF-Пет1 0,02 DF-Пет2 0,01 0 0 10 20 30 40 50 60 70 80 90 100 110 120 37 Распределение расстояний между буквами в тексте О-О 0,2 0,18 0,16 DF-Пел1 0,14 DF-Пел2 0,12 DF-Пар1 0,1 DF-Пар2 0,08 DF-Пет1 0,06 DF-Пет2 0,04 0,02 0 0 10 20 30 40 50 60 70 80 38 Распределение расстояний между буквами в тексте Т-Т 0,1 0,09 0,08 DF-Пел1 0,07 DF-Пел2 0,06 DF-Пар1 0,05 DF-Пар2 0,04 DF-Пет1 0,03 DF-Пет2 0,02 0,01 0 0 10 20 30 40 50 60 70 80 90 100 110 120 39 Связь с задачей распознавания образов Носитель совместного распределения в пространстве x(t),x(t-1),x(t-2)… представляет динамическую систему x(t)=F(x(t-1),…). -5 3,5x10 -5 3,0x10 -5 2,5x10 -5 2,0x10 -5 1,5x10 -5 1,0x10 -6 5,0x10 100 0,0 80 20 60 40 40 60 x(n ) 20 80 ) +1 x( n 100 xn 1 1 2 xn2 , x0 [1; 1] 40