Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ 1.1. Модели и методы представления и организации знаний — лекции 1-2. 1.2. Количественная спецификация ЕЯ систем — лекции 3-4, 8. 1.3. Логико-статистические методы извлечения знаний — лекция 5-7. ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ 1.4. Технология автоматизированного построения словарятезауруса. 1.5. Пример исследования ЕЯ ресурса. Лекции 3-4. КОЛИЧЕСТВЕННАЯ СПЕЦИФИКАЦИЯ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ СИСТЕМ Статистический анализ ЕЯ описания. Модель «ранг-частота». Закон Ципфа. Формула Мандельброта. Статистическое распределение в модели «ранг-частота». Построение ядра ЕЯ описания. Литература Материал лекции представлен в книге: Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно-тезаурусного описания. / Серия «Компьютерная лингвистика». Вступ. Статья А.И.Новикова. М.: МГУП, 2002. — книга в комплекте с CD ROM — С. 34–45. СТАТИСТИЧЕСКИЙ АНАЛИЗ ЕСТЕСТВЕННО-ЯЗЫКОВОГО ОПИСАНИЯ Лингвистическая статистика, лингвостатистика — раздел языкознания, занимающийся исследованиями статистическими методами количественных закономерностей в языке и речи. Энциклопедия «Русский язык» (1) в широком смысле — область применения статистических методов в языкознании (то есть опирающаяся на математическую статистику подсчетов и измерений при изучении языка и речи); (2) в узком смысле — изучение некоторых математических проблем, связанных с лингвистическим материалом, главным образом с типами статистических распределений языковых единиц в тексте. ПОНЯТИЯ ЛИНГВИСТИЧЕСКОЙ СТАТИСТИКИ ТЕКСТ последовательность лингвистических единиц: букв, морфем, словоформ, словосочетаний, предложений и др. количественные характеристики лингвистических форм: употребительность, совместная встречаемость, законы распределения в тексте, их физические размеры. ОСНОВНЫЕ ПОНЯТИЯ И КАТЕГОРИИ ЛИНГВОСТАТИСТИКИ: генеральная совокупность, выборки, частоты и вероятности, вероятностные распределения и статистические оценки. ВИДЫ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ: Тексты (корпусы текстов). Языковые единицы лингвистического уровня. ТЕОРИЯ ЧАСТОТ СЛОВ Предпосылки теории частот слов А. Методологические (концептуальные) суждения о мире Б. Эмпирические наблюдения В. Измерения Г. Практические приложения МЕТОДОЛОГИЧЕСКИЕ ПРЕДПОСЫЛКИ ТЕОРИИ ЧАСТОТ СЛОВ РЕАЛЬНЫЙ МИР (ПОРМ) <ЗНАНИЯ СУБЪЕКТА О ПОРМ> <ЕЯ ОПИСАНИЕ> МЕТАЗНАНИЕ ЗНАНИЕ ОБ ОРГАНИЗАЦИИ ЯЗЫКОВЫХ ЕДИНИЦ (СИНТАГМ): …, морфемы, словоформы, словосочетания, предложения, …, тексты, … ЭМПИРИЧЕСКИЕ НАБЛЮДЕНИЯ ТЕОРИИ ЧАСТОТ СЛОВ Значительные количественные (номенклатурные) и комбинаторные ограничения на использование языковых единиц. Существенная избыточность некоторых типов языковых единиц. Сложная иерархическая структура синтагм. Последовательная во времени организация языковых единиц. ИЗМЕРЕНИЯ ТЕОРИИ ЧАСТОТ СЛОВ Исследования произведений А.С.Пушкина: словоупотреблений – 545 000; разных слов – 21 000. Исследования языковой деятельности школьников: корпус текстов(писем, сочинений, заданий и т.п.) – 100 000; словоупотреблений – 6 000 000; разных словоформ – 25 000; разных слов – 2 500. Исследования современных английских текстов: словоупотреблений – 250 000; разных словоформ в книжных текстах – 24 000, в разговорных – 10 000. Исследования французской разговорной речи: 50% словоупотреблений – это 37 слов, 75% – 120 слов, 90% – 887 слов; 95% словоупотреблений языка телефонных разговоров – 737 слов. ПРАКТИЧЕСКИЕ ПРИЛОЖЕНИЯ ТЕОРИИ ЧАСТОТ СЛОВ Криптография Стенографирование Полиграфия Редакционно-издательская подготовка рукописей Распознавание текстов (печатных и рукописных) Распознавание аудиовизуальной речи Автоматизированное создание баз данных Автоматический перевод Сжатие данных Информационный поиск Автоматическое индексирование и реферирование МОДЕЛЬ «РАНГ-ЧАСТОТА» Жан.-Батист Эступ (Jеаn Bарtistе Estоuр). Джордж Кингсли Зипф (Gеоrgе Kingslеу Ziрf), ОПРЕДЕЛЕНИЯ МОДЕЛИ «РАНГ-ЧАСТОТА» <ТЕКСТ> <ЧАСТОТНЫЙ СЛОВНИК> Пример: Ранг r Слово W(r) Частота f(r) 1 the 245 Ранг r Слово W(r) Частота f(r) 2 of 136 3 terms 98 1 W(1) f(1) 4 to 81 2 W(2) f(2) 5 a 65 6 and 61 7 in 55 8 we 52 ... … … … r W(r) f(r) ЗАКОН ЧАСТОТ СЛОВ ЦИПФА i(k, r)/k = 0.1r-1 = 1/(10 r), где: (1.0) i(k,r)/k – относительная частота слова в тексте, k – общее число слов в тексте, r – ранг слова, т.е. его порядковый номер в упорядоченном по убыванию частотной функции словнике. ЛИТЕРАТУРА Дж. Солтон. Динамические библиотечные информационные системы. М.: Наука, 1979. Б.Мандельброт. Теория информации и психолингвистика: теория частот слов // Математические методы в социальных науках / Сб. статей под ред. П.Лазарсфельда и Н.Генри. М.: Прогресс, 1973. – С. 316–337. «ВЫВОД» ЗАКОНА ЧАСТОТ СЛОВ (1) Текст — случайная последовательность символов (букв и пробелов). Пробелы обозначают границы между словами. Обозначим: W(r) — слово; r — ранг слова; k — количество слов; i (r, k)/k — относительная частота слова; р (r) — вероятность слова; р0 — вероятность пробела; М — количество типов букв, М>1, (1 — ро)/М — вероятность буквы в тексте; m — количество букв в слове. Вероятность слова, состоящего из m букв: Это может быть записано как p0exp{-m}, где =log (M/(1-p0)) — положительная величина, зависящая от ро и М. «ВЫВОД» ЗАКОНА ЧАСТОТ СЛОВ (2) Зависимость между числом букв m и рангом слова r Букв в слове Типов слов 0 Пример: пробел: _; буквы: a,b,c; M=3. Типов слов Вер-ть слова 1 _ 1 0.2500 1 M a,b,c 3 0.0625 2 M2 aa, ab, ac, ba, bb, bc, ca, cb, cc 9 0.0153 3 M3 aaa, aab, aac, aba, abb, abc,… 27 0.0038 Пример: объем текста 1000 символов; пробелов — ~ 250, {a,b,c} — ~ 62; {aa,…cc} — ~ 15; {aaa,…ccc} — ~ 3. Ранг 1 2 3 4 5 6 … 12 … Частота ~ 62 ~ 62 ~ 62 ~ 15 ~ 15 ~ 15 … ~ 15 … Вер-ть 0.0625 0.0625 0.0625 0.0153 0.0153 0.0153 … 0.0153 … «ВЫВОД» ЗАКОНА ЧАСТОТ СЛОВ (3) «ВЫВОД» ЗАКОНА ЧАСТОТ СЛОВ (4) Зависимость между рангом и вероятностью: ступенчатая функция, которая постоянна, когда r изменяется между двумя (Мm— 1)/(М — 1), соответствуя последовательным значениям т. Если m велико, то: r (Мm— 1)/(М — 1), r (Мm— 1)/(М — 1); r (Мm— 1)/(М — 1), или «ВЫВОД» ЗАКОНА ЧАСТОТ СЛОВ (5) Вероятность слова из m букв Где: B = /log M ; =log (M/(1-p0)); Р = p0 (М—1): Связь между вероятностью слова и его рангом почти идентична закону Ципфа при значениях B = -1 и P = 0.1 ФОРМУЛА МАНДЕЛЬБРОТА «Поведение» наиболее часто употребляющихся слов, а также редких, которые характеризуют «богатство словарного состава» текста не соответствует закону Ципфа. Формула Б.Мандельброта (Bеnоit Mаndеlbrоt) i(k,r) = рk (r+v)-b, где: b, k, v – const (1.1) 0,12 Кривая Ципфа 0,1 0,08 Кривая Мандельброта 0,06 0,04 0,02 0 0 5 10 15 20 25 30 35 ПАРАМЕТРЫ ФОРМУЛЫ МАНДЕЛЬБРОТА ОЦЕНКА ПАРАМЕТРОВ ФОРМУЛЫ МАНДЕЛЬБРОТА (1) Получим выражения для приближенной оценки параметров в формуле Мандельброта Для этого выполним следующие преобразования: i(k , r ) kp(r v) b ; ln i (k , r ) ln p b ln( e ln r v), где: i(k , r ) k – относительная частота встречаемости слова. Таким образом, имеем: где: k f ( x) P b ln( e x v), i(k , r ) f ( x) ; P ln p; x ln r k (1.2) ОЦЕНКА ПАРАМЕТРОВ ФОРМУЛЫ МАНДЕЛЬБРОТА (2) Представим формулу (1.2) в виде степенного многочлена Тейлора: f (0) x f (0) x 2 f ( n ) (0) x n Tn ( x) f (0) ... o(Tn 1 ) 1! 2! n! f ( x) P b ln( e x v) ex f ( x) b x (e v ) ve x f ( x) b x (e v ) 2 .... ОЦЕНКА ПАРАМЕТРОВ ФОРМУЛЫ МАНДЕЛЬБРОТА (3) Если коэффициенты в многочлене Тейлора обозначить через С0,C1,...,Cn, то будем иметь: f ( x) C 0 C1 x C 2 x 2 ... C n x n o(Tn 1 ) C 0 P b ln( 1 v) 1 C1 b 1 v v C 2 b 2(1 v) ... ОЦЕНКА ПАРАМЕТРОВ ФОРМУЛЫ МАНДЕЛЬБРОТА (4) Откуда имеем приближенные выражения для параметров через коэффициенты v 2 C1 C2 2 b C1 (1 v) P C 0 b(1 v) p e C0 e b (1 v ) ОЦЕНКА ПАРАМЕТРОВ ФОРМУЛЫ МАНДЕЛЬБРОТА (5) Получим коэффициенты степенного ряда методом наименьших квадратов по имеющимся значениям частотной функции. Имеем S(T) = (<w, N(w,T)>). N ( w, T ) S(T) = (< ln r , ln( ) N (w, T ) N ( w, T ) N (w, T ) - относительная >), где частота слова w в тексте T. Введем обозначения: N ( wi , T ) xi ln ri ; yi ln N (w j , T ) ОЦЕНКА ПАРАМЕТРОВ ФОРМУЛЫ МАНДЕЛЬБРОТА (6) Будем искать аппроксимирующую функцию в виде многочлена: P( x) C 0 C1 x C 2 x 2 ... C n x n для этого необходимо минимизировать следующую функцию: F ( yi C0 C1 x ... Cn x n ) 2 min Вычислим частные производные этой функции и приравняем их к 0. F n 2 ( y i C 0 C1 xi ... C n xi ) 0 C 0 F n 2 xi ( yi C 0 C1 xi ... C n xi ) 0 C1 ... F n 2 xin ( y i C 0 C1 xi ... C n xi ) 0 C n ОЦЕНКА ПАРАМЕТРОВ ФОРМУЛЫ МАНДЕЛЬБРОТА (7) Получаем систему линейный уравнений, относительно С0,..,Cn: NC0 C1 xi ... C n xin y i 2 n 1 C x C x ... C x xi y i 0 i 1 i n i .... C 0 xi n C1 xi n 1 ... C n xin*n xi n y i ОЦЕНКА ПАРАМЕТРОВ ФОРМУЛЫ МАНДЕЛЬБРОТА (8) Более точные значения оценок параметров могут быть получены для закона Ципфа. В этом случае, имеет место линейная зависимос логарифма относительной частоты слова от логарифма его ранга: i(k , r ) ln ln p b ln r k Используя метод наименьших квадратов, также можно найти значения коэффициентов для прямой: i(k;, ri ) xi ln ri F ( yi ln p bxi ) 2 min yi ln k N ln p b xi y i ln p C 0 2 ln p xi b xi xi y i b C1 СТАТИСТИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ В МОДЕЛИ «РАНГ-ЧАСТОТА» Получим статистический закон распределения слов по частоте: f (r ) i (k , r ) p ( r v ) b k Условие нормировки: 0 f (r )dr p(r v) b dr 1 0 Вычислим интеграл и найдем нормировочное выражение: p ( r v ) b 0 (r v) b1 v b1 p p p (b 1)v b1 b 1 0 b 1 Закон распределения слов по частоте можно записать в виде: f (r ) (b 1)v b1 (r v) b (1.3) ПОЛУЧЕНИЕ СТАТИСТИЧЕСКОГО ЗАКОНА РАСПРЕДЕЛЕНИЯ СЛОВ В МОДЕЛИ «РАНГ-ЧАСТОТА» (1) Вычислим математическое ожидание и дисперсию. b 2 v 1 b b 1 E f p rf (r )dr p r (r v) dr (b 1)v v (1 b)( 2 b) b2 0 0 Вычислим начальный момент второго порядка: 2 2 2 v E f 2 p r 2. f (r )dr p r 2 (r v) b (b 1)v b1 (2 b)(3 b)(1 b) (2 b)(3 b) 0 0 Воспользуемся формулой для вычисления дисперсии: D Ef2 2 2 2 v v b 1 2 2 (E f ) v 2 (2 b)(3 b) (b 2) (b 2) 2 (b 3) ПОЛУЧЕНИЕ СТАТИСТИЧЕСКОГО ЗАКОНА РАСПРЕДЕЛЕНИЯ СЛОВ В МОДЕЛИ «РАНГ-ЧАСТОТА» (2) Математическое ожидание и дисперсия: ; 1 Ef v b2 Df v2 b 1 (b 2) 2 (b 3) (1.4) Используя метод моментов, можно получить значения параметров статистического распределения (1.3). Из формул (1.4) имеем: ; b 3D D E2 E2 1 v E (b 2) 1 Здесь, E и D – математическое ожидание и дисперсия в генеральной совокупности. ПОСТРОЕНИЕ ЯДРА ЕСТЕСТВЕННО-ЯЗЫКОВОГО ОПИСАНИЯ Спецификация ЕЯ описания ПОРМ Лексический состав Соотнесение с другими ЕЯ-описаниями Выделение конкретной ПОРМ. Разделение ЕЯ-описания на подобласти. Формирования корпуса текстов, релевантных изучаемой ПОРМ Формирование ядра релевантных текстов с использованием статистического критерия согласия для сравнения их количественных спецификаций Критерии согласия (к-ты корреляции): Пирсона (E.S.Pеаrsоn), Спирмена (C.Sреаrmаn), Кендалла (M.G.Kеndаll), дихотомический (в случае преобразования ранговых шкал), статистики для проверки значимости разностей пар, критерий согласия Вилкоксона (F.Wilсохоn) и др. ЛИТЕРАТУРА Дж.Гласс, Дж.Стенли. Статистические методы в педагогике и психологии. Используемый материал: с. 142–165. Л.Закс. Статистическое оценивание / Пер. с нем. В.Н.Варыгина. Под ред. Ю.П.Адлера, В.Г.Горского. М.: Статистика, 1976. – 600 с. Используемый материал: с. 286–287. В.Е. Гмурман. Теория вероятностей и математическая статистика. М.: Высшая школа, 1998. ОПРЕДЕЛЕНИЕ ОДНОРОДНОСТИ ТЕКСТОВ (1) <корпус текстов G> <вербальная выборка = текст Ti> АЛГОРИТМ ОПРЕДЕЛЕНИЯ ОДНОРОДНОСТИ ДВУХ ТЕКСТОВ (тексты – T1, Т2; частотные словники – S(T1), S(T2)) 1. Построение упорядоченных множества слов: S1 = ( w11, w12, w13,...,w1N ), S2 = ( w21, w22, w23,...,w2M ). 2. Нумерация элементы множеств S1 и S2 : S1 = (1,2,3,4,5,6...N), S2 = (1,3,2,5,N,4, N+1,N+2,...). 3. Добавление относительной частоты встречаемости слов. 4. Объединение и упорядочение множеств S1 и S2. 5. Нумерация элементов объединенного множества. 6. Суммирование индексов элементов множества S1 (Wнабл). ОПРЕДЕЛЕНИЕ ОДНОРОДНОСТИ ТЕКСТОВ (2) N > 25, M > 25 Wнижн. кр. Wнабл Wверхн. кр. , где Wв ерхн.кр . ( N M 1) N Wнижн.кр ( N M 1) N 1 Wнижн.кр (Q, N , M ) z кр 2 NM ( N M 1) 12 , Q – половина уровня доверия = /2; zкр находится по таблице функции Лапласа по равенству 1 2Q Ф( z кр ) 2 Ф( x ) 1 2 x e 0 z 2 2 dz ПОСТРОЕНИЕ ЯДРА ЕЯ ОПИСАНИЯ ПОРМ НА ОСНОВЕ ЭТАЛОННОГО ТЕКСТА ЗВЕЗДООБРАЗНАЯ ТОПОЛОГИЯ ЯДРА ЕЯ ОПИСАНИЯ ПОРМ. Способ предполагает наличие эталонного текста T1 Ýòàëîííûé òåêñò T2 T7 Te T6 T3 T4 T5 Этапы построения ядра 1. Выбор эталонного текста. 2. Проверка гипотезы об однородности текстов Te L Ti. 3. Включение текста Ti в корпус текстов G. ЛИНЕЙНАЯ СХЕМА ПОСТРОЕНИЯ ЯДРА ЕЯ ОПИСАНИЯ ПОРМ ЛИНЕЙНАЯ ТОПОЛОГИЯ ЯДРА ЕЯ ОПИСАНИЯ ПОРМ Эталонным текстом является текущий текст T1 T2 T2 T2 Этапы построения ядра 1. 2. 3. 4. 5. 6. Выбор текста Ti. Включение текста Ti в корпус текстов G. Выбор эталонного текста (Te = Ti или Te = Σ Ti ) Выбор текста Ti+1. Проверка гипотезы об однородности текстов Te LTi+1. Включение текста Ti+1 в корпус текстов G. ПОЛНОСВЯЗНАЯ СХЕМА ПОСТРОЕНИЯ ЯДРА ЕЯ ОПИСАНИЯ ПОРМ ПОЛНОСВЯЗНАЯ СЕТЕВАЯ ТОПОЛОГИЯ ЯДРА ЕЯ ОПИСАНИЯ ПОРМ Каждый текст Ti корпуса G является эталонным Этапы построения ядра T1 T2 T4 T3 1. Включение текстов Ti-1, Ti-2, Ti-3, … и т.д. в корпус G. 2. Выбор текста Ti. 3. Выбор эталонных текстов: Te1 = Ti-1, Te2 = Ti-2, Te3 = Ti-3, … и т.д. 4. Проверка гипотезы об однородности текстов: Te1LTi, Te2LTi, Te3LTi, … и т.д. 5. Включение текста Ti в корпус текстов G. ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ Опишите модель текста «ранг-частота». Сформулируйте закон частот слов Ципфа. «Выведите» закон Ципфа. Напишите формулу Мандельброта для закона частот слов. Определите значения коэффициентов в формуле Мандельброта. Получите (выведите) статистическое распределение «рангчастота». Перечислите методы построения ядра ЕЯ описания ПОРМ. Перечислите этапы построения ядра ЕЯ описания ПОРМ на основе эталонного текста. Опишите линейную схему построения ядра ЕЯ описания ПОРМ. Опишите полносвязную схему построения ядра ЕЯ описания ПОРМ.