PBI Определение абзацев в тексте 9 ноября 2010 г Сильвестров Алексей • • • • Введение Методы определения Entropy rate constancy Методы оценивания и результаты Введение • Цель: PBI – один из этапов обработки текста. Методы определения • Многопризнаковый бинарный классификатор: начинается ли с данного предложения абзац? • Использование отдельно взятых признаков и эвристик. Методы определения • 1. 2. 3. Признаки делятся на 3 вида: Несинтаксические. Языковые. Синтаксические. Несинтаксические: • Distance (Dw,Ds): расстояние в словах и предложениях от начала нового абзаца. • Sentence Length: В среднем длина предложения меняется на протяжении абзаца. • Quotes: Содержит ли предложение цитаты или является частью цитаты? • Final Punctuation: Каким знаком оканчивается предложение? Синтаксические: • Number of phrases (VP, NP, PP). • Tree Depth. • Cue Words: “because”, ”so”… Языковые: • Sentence probability: Вероятность данного предложения согласно выбранной языковой модели. • Word entropy rate: Энтропия первых предложений меньше, чем у остальных в абзаце. • Character n-gram models: Возможно, в начинающем абзац предложении больше заглавных букв? Языковые и несинт. признаки: производительность Синт. признаки: бесполезны Языковая модель • Языковая модель - это распределение вероятностей последовательностей слов: • P( “And nothing but the truth”) 0.001 • P( “And nuts sing on the roof”) 0 Языковая модель • Вероятность предложения s из L слов: P(s) p(w1 ) p(w 2 | w1 ) p(w 3 | w1w 2 ) p(w L | w1 w L-1 ) • Аппроксимация: n-граммы L P(s) p(w i | w i-1 , w i-2 ,..., w i-(n -1) ) i 1 Языковая модель • Пример: p(John read a book) p(John | bos )p(read | John)p(a | read)p(boo k | a)p( eos | book) p(John read a book) 0.01 0.15 0.4 0.6 0.2 0.0000072 • Пользуемся биграммами. • <bos> -начало предложения, иначе • <eos> -конец предложения, чтобы p(w1 | w 0 ) теряет смысл. p(s) 1 s Языковая модель • Maximum Likelihood: C ( xyz) C ( xyz) P( z | xy) C ( xyw) C ( xy) w • Грубая оценка. P( z | xy) 0 • Неприемлем: C ( xyz) 0 Языковая модель • Jelinek-Mercer smooth: C ( xyz) PJM ( z | xy) (1 ) PJM ( z | y ) C ( xy) • Где параметр подбирают или задают как функцию от С(xyz) Энтропия • Энтропия случайной величины: 1 H ( ) p ( x) log 2 p( x) x • Пример: бросок 8-гранной кости: 8 1 H ( ) p (i ) log 2 log 2 8 3bits p (i ) i 1 Энтропия • Совместная энтропия: 1 H ( X , Y ) p ( x, y ) log 2 p ( x, y ) y x • Условная энтропия: 1 H (Y | X ) p ( x, y ) log 2 p( y | x) x y • Цепное правило: H ( X , Y ) H ( X ) H (Y | X ) Энтропия • Цепное правило: H ( X , Y ) H ( X ) H (Y | X ) H (Y ) H ( X | Y ) • Взаимная информация: I ( X , Y ) H ( X ) H ( X | Y ) H (Y ) H (Y | X ) • Мера взаимной зависимости двух случайных величин Энтропия I ( X , Y ) H ( X ) H ( X | Y ) H (Y ) H (Y | X ) Энтропия • Entropy rate: 1 1 H rate H ( X 1 ,..., X n ) p( x1 ,..., xn ) log 2 n p( x1 ,..., xn ) x1n • Т.к. информация, содержащаяся в сообщении, зависит от его длины, рассматривают per-word энтропию ( она же entropy rate). Entropy rate constancy • Согласно принципу, энтропия H ( X i | X 1 ,..., X l ... X i 1 ) H ( X i | Ci , Li ) const • Тогда в выражении H ( X i | Ci , Li ) H ( X i | Li ) I ( X i | Ci , Li ) где C i -все слова в тексте до текущего предложения Li -все слова в предложении до текущего слова H ( X i | Li ) возрастает с номером предложения, т.к. I ( X i | Ci , Li ) всё время растет. Entropy rate constancy • Нас интересует среднее значение 1 1 i ( n 1) H ( X i | Li ) H ( Si ) log P ( x | x ) i i 1 | Si | | Si | xi X для X i wi Si • Задача свелась к вычислению энтропии предложения. Entropy rate constancy WSJ corpora Entropy rate constancy Война и мир Вопросы?