Ю.Н. Орлов Методы статистического анализа литературных текстов ,

реклама
Ю.Н. Орлов
Институт прикладной математики им. М.В. Келдыша РАН,
кафедра высшей математики МФТИ
Методы статистического анализа
литературных текстов
Текст – это нестационарный
временной ряд



Пусть  – случайная величина (буква или
буквосочетание), принимающая значения
из конечного упорядоченного множества
букв (пар букв, и т.д.) в алфавите.
k
f N (i)  i , i  1, 2, ..., n
1-ВПФР
есть эмпирическая
N
вероятность обнаружения данной буквы в
тексте из N символов.
«Время» – это порядковый номер буквы в
тексте.
2
Стационарный временной
ряд

Временной ряд называется узко
стационарным, если его ФР стационарна.

Стационарность в широком смысле
означает независимость от времени
первых нескольких (обычно двух)
моментов распределения.
3
Стационарные процессы:
сходимость к ген.совокупности

Теорема Гливенко (1933). ВФР FN (x)
сходится по вероятности к ген. ФР:


P  lim sup FN ( x )  F ( x )  0  1
T  x


Терема Колмогорова (1933). Если ген. ФР
непрерывна, то статистика N DN , где
DN  sup FN ( x )  F ( x )
x
сходится по вероятности к функции K(z):



lim P 0  N sup FN ( x )  F ( x )  z   K ( z )   ( 1) k exp  2k 2 z 2 
N 

x

k  
4
Квазистационарные ВФР и
ВПФР

ВПФР
если
f N ( x, t )
называется --стационарной,
1
 : 1     ,  t V ( N ,  ; t ) 

f N ( x, t   )  f N ( x, t ) dx  
0

Пусть две ВПФР
условию близости
f n (x)
1

и
~
f n ( x) удовлетворяют
~
f n ( x )  f n ( x ) dx  

0
Тогда их ВФР удовлетворяют критерию К.
5
Сравнение мощностей норм
в L1 и в C
2,0
1,0
0,5
0,0
0,0
0,2
0,4
0,6
0,8
1,0
X
1,0
F1
F2
0,8
0,6
F(x)

Слева –
ПФР треуг.
и равном.
распред.
Справа –
соотв. ФР
f(x)

f1
f2
1,5
0,4
0,2
0,0
0,0
0,2
0,4
0,6
0,8
1,0
X
6
Уровень нестационарности
текстов

Для 1-ПФР
n
12  f (1)  f (2)   f N(1) (i)  f N(2) (i)
i 1

1
2
Для 2-ПФР
12  F
(1)
F
( 2)

n

i, j 1
FN(1) (i, j )  FN( 2) (i, j )
1
2
7
Длина квазистационарности


Чтобы сравнивать распределения текстов
разных объемов, следует убедиться в том,
что они стабилизируются.
Длина стационарности текста L ( ) есть
такой объем, что ПФР любых фрагментов,
объемы которых N , M  L( ), отличаются не
более чем на :
n
 f N (i )  f M (i )  
i 1
8
Длина квазистационарности
L() для 1-ПФР
700 000
Булгаков Белая гвардия
Булгаков Жизнь господина де Мольера
Булгаков Заметки и миниатюры
Булгаков Записки на манжетах
Булгаков Записки юного врача
Булгаков Мастер и Маргарита
Булгаков Роковые яйца
Булгаков Собачье сердце
Булгаков Театральный роман
Булгаков Черный маг, копыто инженера
Набоков Дар
Набоков Другие берега
Набоков Защита Лужина
Набоков Камера обскура
Набоков Кроль, дама, валет
Набоков Лолита
Набоков Машенька
Набоков Пнин
Набоков Приглашение на казнь
Набоков Соглядатай
600 000
500 000
400 000
300 000
200 000
100 000
0
0,4
0,25
0,15
0,09
0,07
0,05
0,03
0,02
0,01
9
Оценка достаточной длины
текста


Предположим, что буквы образуют
стационарный ряд. Пусть  N2 (i) - дисперсия
эмпирической частоты f N (i) .
f N (i )  f (i )
t  N 1
 N (i)
Тогда статистика
имеет
распределение Стьюдента с N-1
степенями свободы. 0,95-квантиль t
составляет 1,96.

10
Оценка длины текста
(продолжение)



С доверительной вероятностью α отклонение
эмпирической вероятности f N (i)  f (i) не
превосходит t  N (i) / N .
n
t ns
f
(
i
)

f
(
i
)

s
(
N
)

max

(
i
)
Пусть
. Тогда i1 N
N
N .
Пусть λ – требуемая точность в оценке ПФР:
n

 f N (i)  f (i)  
i 1
Эта оценка выполнена, если объем текста не
меньше, чем N  t ns( N ) /  2
11
Оценка длины текста
(окончание)

Положим =0,01, n=32. Для уровней
доверия   0,95; 0,97; 0,99 минимальные
объемы текстов оказались равны 8, 10 и
15 тыс. знаков. Для корректного сравнения
текстов уровень ошибки  в эмпирических
частотах на этих длинах должен быть
много меньше уровня нестационарности .
Это выполнено для =0,05 и 0,03. Для
=0,01 и =0,002 N>250 тыс. знаков.
12
Идея метода идентификации
автора и жанра текста


Кластеризация текстов по авторам и
жанрам осуществляется на основе нормы
в L1.
Тексты считаются написанными в данном
жанре или данным автором, если
расстояние от их ПФР до ПФР жанра или
автора минимально среди имеющихся
жанров и авторов.
13
Жанровые 1-ПФР
12%
10%
8%
6%
4%
2%
0%
а б в
Боевик
г
д
е ж з
и й к
Дамский детектив
л м н о п
Детектив
р с
Классика
т
у ф х
ц ч ш щ ъ ы ь
Эротика
Мистика
э ю я
Фантастика
14
Средние расстояния между
1-ПФР текстов, %
Жанр
1
2
3
4
5
6
7
8
9
10
1
5,5
6,2
5,8
6,4
6,5
6,4
6,8
7,1
6,4
6,7
6,2
6,3
7,3
7,8
7,1
7,4
7,1
6,7
7,0
5,7
6,6
7,0
6,4
6,9
7,4
6,5
7,0
6,8
7,4
6,8
7,7
8,0
7,5
7,4
8,0
7,1
7,8
8,2
7,6
7,9
6,5
7,3
7,6
7,0
8,1
7,6
8,1
7,4
7,8
7,4
7,7
7,6
6,2
7,1
2
3
4
5
6
7
8
9
10

6,4
1-Боевик, 2-Дамский детектив, 3-Классический детектив, 4-Киберпанк,
5-Ужасы и мистика, 6-Научная фантастика, 7-Фэнтэзи, 8-Любовный
роман, 9-Русская классика, 10-Советская классика.
15
Авторские 1-ПФР
12%
10%
8%
6%
4%
2%
0%
а б в
г д
Айтматов
е ж з
и й к
Булгаков
л м н о п
Гоголь
р с
Достоевский
т у ф х
Набоков
ц ч ш щ ъ ы ь э ю я
Толстой
Тургенев
16
Расстояния между 1-ПФР для
авторов, %
Автор
<Айтм. >
<Акун. >
<Булг. >
<Гог. >
<Донц. >
<Дост. >
<Марк. >
<Наб. >
<Толст.>
<Тург. >
Айтм.
4,4
7,3
7,6
7,2
7,5
8,3
7,8
7,0
6,8
6,8
Акун.
6,0
2,4
4,3
6,0
6,3
6,7
4,5
4,2
4,8
4,9
Булг.
7,3
5,4
4,0
6,9
6,6
8,9
4,9
6,2
6,7
6,3
Гог.
7,5
7,1
7,5
6,0
9,2
7,2
7,9
8,4
6,2
7,0
Донц.
6,6
6,1
6,0
7,9
2,1
9,0
5,6
7,1
7,0
6,6
Дост.
7,5
7,6
9,1
7,0
9,6
3,9
9,8
7,8
6,4
6,5
Марк.
7,1
5,1
4,2
7,2
5,9
9,9
2,8
6,3
7,1
6,8
Наб.
6,5
5,0
5,6
6,3
7,3
7,6
6,2
3,8
5,7
5,5
Толст.
7,1
6,5
6,9
6,6
8,4
7,2
7,4
6,7
4,8
6,0
Тург.
6,1
5,5
5,9
6,7
7,1
6,0
6,8
5,5
4,9
3,4
17
Отделимость одного автора
по 1-ПФР
0,45
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
0,02
0,03
0,04
0,05
Тургенев-<Тургенев>
0,06
Тургенев
0,07
0,08
0,09
0,1
Тургенев-<Другой автор>
18
Расстояния между 2-ПФР для
пары авторов
0,3
0,25
0,2
Тургенев
0,15
Тургенев-Айтматов
0,1
0,05
0
0,1
0,12
0,14
0,16
0,18
0,2
0,22
0,24
0,26
0,28
0,3
19
Разделение авторских текстов
по расстояниям между 2-ПФР
0,09
0,08
0,07
0,06
0,05
Один автор
0,04
Чужие тексты
0,03
0,02
0,01
0,48
0,45
0,42
0,39
0,36
0,33
0,3
0,27
0,24
0,21
0,18
0,15
0,12
0,09
0,06
0,03
0
0
Расстояние между 2-ПФР
20
25
1
20
0,9
0,8
15
0,7
0,6
10
0,5
0,4
5
0,3
0,2
0
0,1
0,12
0,14 0,16 0,18
0,2
0,22 0,24
Ошибка
Число кластеров
Кластеризация текстов по
авторам
0,1
0
0,26 0,28
Расстояние между 2-ПФР
Число кластеров
Ошибка
21
Расстояния между
авторскими 2-ПФР,%
Автор
Айтм.
Акун.
Булг.
Гог.
Донц.
Дост.
Марк.
Наб.
Толст.
Тург.
Айтм.
19,9
24,1
26,0
25,4
23,7
25,4
25,0
23,8
25,2
23,2
12,5
18,4
22,8
18,1
23,5
17,5
17,8
23,1
19,9
19,5
25,4
21,1
27,0
20,3
20,5
25,5
22,9
21,4
26,2
23,7
26,0
23,6
23,8
23,0
11,0
25,2
18,4
21,1
25,8
21,0
18,3
28,0
25,0
24,3
21,4
14,4
20,2
25,7
23,0
16,8
22,8
21,8
20,6
22,7
Акун.
Булг.
Гог.
Донц.
Дост.
Марк.
Наб.
Толст.
Тург.

16,3
Точность идентификации автора этим методом составила 90%.
22
Сравнение текстов по
информационной энтропии

Информационной энтропией называется
функционал
S   f (i ) ln f (i)
i

Для прозы значения S меняются от 3,07 до
3,09, а для поэзии от 3,11 до 3,13.
Различить по этому показателю авторов
или жанровую тематику текстов нельзя.
23
Другие кандидаты на
авторские «инварианты»





Средняя длина слова
Доля гласных или согласных
Доля союзных слов
Среднее расстояние между выбранной
парой букв
Все функционалы от распределения букв
не дают статистически достоверного
критерия отличимости авторов и жанров
24
Оператор трансляций

Пусть Pij (l ) есть условная вероятность
того, что буква j отстоит от буквы i на l  1
символов.

Пусть также K i (t ) есть i -ая компонента
вектора вероятностей того, что буква i
реализуется в тексте в момент t .
Тогда

K (t  l )  P(l )K (t )
25
Оператор трансляций на 1
шаг

Pij (1) выражается через 1-ПФР и 2-ПФР:
Pjk (1)  F (k , j ) / f (k )

По формуле полной вероятности
f ( j )   Pjk (1) f (k )
k

Следовательно, 1-ПФР f ( j)  k F (k , j) является
с.в. оператора Pjk (1) , отвечающим с.з. 1.
26
Норма Фробениуса

След матрицы оператора соседних
трансляций также может служить
опознавательным знаком писателя.
S  TrP(1)   F (k , k ) / f (k )
k

Он не является «авторским инвариантом»,
но для одного и того же автора норма
разности операторов в среднем меньше,
чем для разных авторов. Разрешающая
способность этой нормы в среднем 0,7.
27
-спектр оператора соседних
трансляций

Число  называется принадлежащим спектру матрицы P, если существует
матрица  такая, что
  P

detE  P     0
Сравнение между собой спектральных
портретов операторов P для разных
авторов в норме Хаусдорфа supx, Px, x  1
позволяет более точно их различить.
28
Пример спектрального
портрета оператора P(1)

«Портрет»
романа В.
Пелевина
«Чапаев и
пустота»
29
Хаусдорфово множество для
разности операторов P -P
1

2
Множеством
Хаусдорфа
называется
множество
значений
x, Px
на ед. в-ре.

Точность
идентификации
автора
95%.
30
Последовательность букв в тексте
как динамическая система
Временной
ряд буквы
«А» в
романе В.
Пелевина
«Чапаев и
пустота»
100
90
Расст. между А-А

80
70
60
50
40
30
20
10
0
1
101
201
301
401
501
601
701
801
901
Номер буквы А
31
Авторский динамический
хаос
Последовательность букв образует «почти белый шум» с
автокорреляцией на уровне как у логистической системы
0,12
0,1
0,08
0,06
Автокорр

0,04
0,02
А-А
Логист
0
-0,02 1
-0,04
5
9
13
17
21
25
-0,06
-0,08
-0,1
Лаг
32
Распределение расстояний
между буквами в тексте
А-А
0,18
0,16
0,14
DF-Пел1
0,12
DF-Пел2
0,1
DF-Пар1
0,08
DF-Пар2
DF-Пет1
0,06
DF-Пет2
0,04
0,02
0
0
10
20
30
40
50
60
70
80
90 100 110 120
33
Распределение расстояний
между буквами в тексте
Б-Б
0,025
0,02
0,015
0,01
0,005
0
0
25
50
75 100 125 150 175 200 225 250 275 300 325 350 375 400 425 450 475 500
34
Распределение расстояний
между буквами в тексте
Е-Е
0,14
0,12
DF-Пел1
0,1
DF-Пел2
0,08
DF-Пар1
DF-Пар2
0,06
DF-Пет1
0,04
DF-Пет2
0,02
0
0
10
20
30
40
50
60
70
80
90 100 110
35
Распределение расстояний
между буквами в тексте
И-И
0,1
0,09
0,08
DF-Пел1
0,07
DF-Пел2
0,06
DF-Пар1
0,05
DF-Пар2
0,04
DF-Пет1
0,03
DF-Пет2
0,02
0,01
0
0
10
20
30
40
50
60
70
80
90
100
36
Распределение расстояний
между буквами в тексте
Л-Л
0,06
0,05
DF-Пел1
0,04
DF-Пел2
DF-Пар1
0,03
DF-Пар2
DF-Пет1
0,02
DF-Пет2
0,01
0
0
10
20
30
40
50
60
70
80
90
100
110
120
37
Распределение расстояний
между буквами в тексте
О-О
0,2
0,18
0,16
DF-Пел1
0,14
DF-Пел2
0,12
DF-Пар1
0,1
DF-Пар2
0,08
DF-Пет1
0,06
DF-Пет2
0,04
0,02
0
0
10
20
30
40
50
60
70
80
38
Распределение расстояний
между буквами в тексте
Т-Т
0,1
0,09
0,08
DF-Пел1
0,07
DF-Пел2
0,06
DF-Пар1
0,05
DF-Пар2
0,04
DF-Пет1
0,03
DF-Пет2
0,02
0,01
0
0
10
20
30
40
50
60
70
80
90
100
110
120
39
Связь с задачей
распознавания образов

Носитель
совместного
распределения в
пространстве
x(t),x(t-1),x(t-2)…
представляет
динамическую
систему
x(t)=F(x(t-1),…).
-5
3,5x10
-5
3,0x10
-5
2,5x10
-5
2,0x10
-5
1,5x10
-5
1,0x10
-6
5,0x10
100
0,0
80
20
60
40
40
60
x(n
)
20
80
)
+1
x( n
100
xn 1  1  2 xn2 , x0  [1; 1]
40
Скачать