Дискретный подход при извлечении информации из

advertisement
Дискретный подход при извлечении информации из текста с автоматическим построением правил
(ММРО-15)
1
Дискретный подход при извлечении информации из текста
с автоматическим построением правил (текстовых запросов)
Прокофьев П. А.
p_prok@mail.ru
г. Москва, Компания «ЛАН-Проект»
Методы извлечения информации из текстов, как правило, не дают экспертам четкого понимания того,
какие факторы влияют на принятие решений при обработке информации. В данной работе предложен
подход, основанный на построении дискретных (логических) процедур распознавания, правила которых
описываются автоматически строящимися текстовыми запросами, понятными экспертам.
Задача извлечения информации из текста относится к разряду тех, для которых практически
невозможно построить математическую модель в
общепринятом смысле. Частным случаем задачи
извлечения информации из текста является отнесение интервалов в тексте к одному или нескольким
заранее определенным классам.
В работе [3] извлечение информации использовалось для разрешения неоднозначностей выделения географических объектов в текстах. Слова и
словосочетания в текстах распределялись по классам: страна, область, район, город и др. Используемые в работе [3] методы строили модели, анализ
которых для экспертов достаточно сложен.
Другой подход, основанный на написании правил экспертами вручную, показывает, что правила
быстро разрастаются и становятся плохо понятными самим экспертам.
В работах [1, 4] используются методы автоматического построения логических правил на этапе
настройки классификатора. Правила описываются
на определенном языке и позволяют отвечать на
вопрос об отнесении целого текста или его части к
определенной тематике. Последнее обстоятельство
не позволяет использовать эти методы в задаче извлечения информации в текстах.
В работе [2] предлагается метод формального
описания правил извлечения информации. По правилам строятся наборы интервалов текстов. Подобный подход разрабатывается в данной работе.
В рамках данной работы предлагается формальное описание языка правил (текстовых запросов) и метод автоматического построения правил
при настройке алгоритмов классификации, используемых при извлечении информации в тексте.
Алгоритмы классификации строятся с помощью
дискреционных процедур распознавания по прецедентам, описанных в [5, 6].
Модель текстов
Дадим ряд определений, которыми будем пользоваться в рамках нашей модели.
Определение 1. Текстами будем называть конечные последовательности слов: τ = (τ1 , . . . , τL ),
где τi — слова, τi ∈ W , i ∈ {1, . . . , L}, W — множе-
ство допустимых слов, L = L(τ ) — длина текста.
Обозначим множество всех текстов T .
Определение 2. Интервалом текста τ называется совокупность трех объектов: τ, i, j, для которых выполняется условие 1 6 i 6 j 6 L(τ ).
Интервал текста будем обозначать τ [i, j], где i —
начало интервала, j — конец интервала. Обозначим I(τ ) — множество всех интервалов текста τ ,
I — множество всех интервалов текстов.
Текстовые запросы
Определение 3. Текстовым запросом будем называть отображение q, ставящее в соответствие любому тексту τ конечный набор интервалов этого
текста:
q(τ ) = {τ [i1 , j1 ], . . . , τ [ic , jc ]} ⊂ I(τ ).
Обозначим множество текстовых запросов как Q.
Пример 1. Приведем примеры текстовых запросов:
1) запрос q ∗ (τ ) = I(τ ) возвращает все интервалы текста;
2) запрос q ω (τ ) = τ [i, i] τi = ω возвращает
интервалы из одного
равного ω∈ W ;
слова,
3) запрос q (1) (τ ) = τ [i, i] 1 6 i 6 L(τ ) возвращает все интервалы из одного слова;
4) запрос q (g,α) (τ ) = {τ [i, j] | g(τi , . . . , τj ) = α}
возвращает интервалы, последовательность
слов в которых отображается с помощью
функции g : T → A в фиксированное значение α ∈ A.
Чтобы задание запросов сделать конструктивным, рассмотрим ряд операций, позволяющих получать новые запросы из существующих:
1) конъюнкция:
(q1 ∧ q2 )(τ ) = q1 (τ )∩q2 (τ );
2) дизъюнкция:
(q1 ∨ q2 )(τ ) = q1 (τ )∪q2 (τ );
Всероссийская конференция «Математические методы распознавания образов» (ММРО-15), г. Петрозаводск, 11–17 сентября 2011 г.
2
(ММРО-15)
Прокофьев П. А.
3) отрицание:
(¬q)(τ ) = q ∗ (τ )\q(τ );
4) последовательность:
(q1 → q2 )(τ ) =
= τ [i, j] ∃k : τ [i, k] ∈ q1 (τ ), τ [k + 1, j] ∈ q2 (τ ) ,
возвращает интервалы, начальная часть которых принадлежит результату первого запроса, а конечная — результату второго;
5) внешнее включение:
(↑q)(τ ) = τ [i, j] ∃τ [i1 , j1 ] ∈ q(τ ), i 6 i1 , j1 6 j ,
возвращает интервалы, каждый из которых
окружает некоторый интервал из результата
запроса q;
6) внутреннее содержание:
(↓q)(τ ) = τ [i, j] ∃τ [i1 , j1 ] ∈ q(τ ), i1 6 i, j 6 j1 ,
возвращает интервалы, каждый из которых
лежит внутри некоторого интервала из результата запроса q;
7) внешняя дизъюнкция:
q1 ∨↑ q2 = (↑q1 ) ∨ (↑q2 );
8) внешняя конъюнкция:
q1 ∧↑ q2 = (↑q1 ) ∧ (↑q2 ).
Замечание 1. Набор этих операторов вместе с
базовыми запросами, приведенными выше в качестве примеров, является избыточным. Например, q1 ∧ q2 = ¬((¬q1 ) ∨ (¬q2 )), ↑ q = q ∨ (q ∗ →
→ q) ∨ (q → q ∗ ) ∨ (q ∗ → q → q ∗ ). Однако конструировать и представлять запросы, пользуясь этим
или, возможно, более расширенным набором операторов, значительно удобнее экспертам.
Признаки интервалов текстов
Определение 4. Признаком объекта называется
любое отображение, ставящее в соответствие объекту S определенное значение α = f (S). Множество всех возможных значений признака f будем
называть доменом признака и обозначать D(f ).
Если на множестве I задана система признаков f¯ = (f1 , . . . , fn ), то любому S из I соответствует вектор значений признаков f¯(S) =
= (f1 (S), . . . , fn (S)), принадлежащий D(f1 ) × . . .
. . . × D(fn ).
Рассмотрим два способа конструирования признаков интервалов.
1. Признаки словарного типа:
(
g(τr , . . . , τs ), если r 6 s;
′
f(g,u,v)
(τ [i, j]) =
g(Λ),
иначе,
где r = max{1, i+u}, s = min{i+v, L(τ )}, Λ
— специально зарезервированный символ для
обозначения подпоследовательности текста нулевой длины. Признак возвращает значение
отображения g последовательности слов, индексы которых заданы относительно начала интервала: от i+u до i+v.
2. Признаки запросного типа:
(
1, если τ [r, s]∈q(τ );
′′
f(q,u,v)
(τ [i, j]) =
0, иначе,
где r = max{1, i+u}, s = min{i+v, L(τ )}. Признак возвращает значение 1, если интервал
τ [r, s], заданный относительно начала контекста, удовлетворяет запросу q, и возвращает 0 в
противном случае.
Дискретные (логические) процедуры
распознавания
Пусть известно, что множество I представимо в виде объединения непересекающихся классов
K1 , K2 , . . . , Km . Имеется конечный набор интервалов S = {S1 , S2 , . . . , St } ⊂ I, для которых известна
их принадлежность к классам (обучающая выборка или набор размеченных текстов). Требуется для
произвольного интервала определить класс, к которому он принадлежит.
Подход в данной работе может быть использован на базе нескольких схем построения дискретных процедур распознавания по элементарным
классификаторам: голосование по представительным наборам, голосование по покрытиям класса
и голосование по антипредставительным наборам.
Эти схемы подробно описаны в работах [5, 6].
В каждой схеме алгоритм распознавания описывается набором элементарных классификаторов и
функцией вычисления оценки.
Наибольшую сложность представляет нахождение требуемых элементарных классификаторов для классов. В работе [5] описаны способы
нахождения элементарных классификаторов как
импликантов частично определенной логической
функции, переменные которой заданы на множестве значений признаков объектов. Импликанты
получаются при нахождении сокращенной ДНФ
доопределенной функции. Сокращенная ДНФ находится методами, приведенными в книге [7].
Рассмотрим процедуру распознавания на примере схемы голосования по представительным наборам. Пусть для класса K частично определена
на S функция
Дискретный подход при извлечении информации из текста с автоматическим построением правил
u
(K,S)
(
1, если S ∈ S ∩ K;
(S) =
0, если S ∈ S\K.
Доопределяя функцию u(K,S) на множество I,
получаем функцию
(
0, если S ∈ S\K;
(K,S)
U
(S) =
1, в остальных случаях.
Если S\K = {Si1 , . . . , Sim }, то
U (K,S) (S) = δ1 (S) ∧ . . . ∧ δm (S),
где δr (S) = (f1 (S)6=αr1 ) ∨ . . . ∨ (fn (S)6=αrn ) — конъюнкции, соответствующие интервалу Sir , и αrj =
= fj (Sir ) — значения признаков, r = 1, . . . , m, j =
= 1, . . . , n.
Прежде чем перейти к поиску импликант функции U (K,S) (S), исследуем свойства предикатов на
множестве I.
Определение 5. Предикаты p1 и p2 , значения
которых совпадают на M ⊂ I, будем называть равM
носильными на M и обозначать p1 ≡ p2 . Равносильность предикатов на I будем обозначать p1 ≡
≡ p2
Утверждение 1. Если f — признак интервалов
текста, тогда (f (S) 6= α) ≡ (f (S) = β1 ) ∨ . . .
. . . ∨ (f (S) = βd ), где {β1 , . . . , βd } = D(f )\{α}.
Утверждение 2. Пусть заданы: g — отображение на T ; q, q1 , q2 — текстовые запросы; u, v, w ∈
∈ Z. Справедливы следующие утверждения о равносильности предикатов:
1)
2)
3)
4)
5)
6)
7)
8)
9)
10)
′′
′
(S) 6= α) ≡ (f(q
(f(g,u,v)
(g,α) ,u,v) (S) = 0);
′′
′
(f(g,u,v) (S) = α) ≡ (f(q(g,α) ,u,v) (S) = 1);
′′
′′
(f(q,u,v)
(S) = 0) ≡ (f(¬q,u,v)
(S) = 1);
′′
′′
(S)
=
1)
∨
(f
(S)
= 1) ≡
(f(q
(q2 ,u,v)
1 ,u,v)
′′
≡ (f(q1 ∨q2 ,u,v) (S) = 1);
′′
′′
(f(q
(S) = 0) ∨ (f(q
(S) = 0) ≡
1 ,u,v)
2 ,u,v)
′′
≡ (f(q1 ∧q2 ,u,v) (S) = 0);
′′
′′
(f(q
(S) = 1) ∧ (f(q
(S) = 1) ≡
1 ,u,v)
2 ,u,v)
′′
≡ (f(q1 ∧q2 ,u,v) (S) = 1);
′′
′′
(f(q
(S) = 0) ∧ (f(q
(S) = 0) ≡
1 ,u,v)
2 ,u,v)
′′
≡ (f(q1 ∨q2 ,u,v) (S) = 0);
′′
′′
(f(q
(S) = 1) ∧ (f(q
(S) = 1) ≡
1 ,u,v)
2 ,v+1,w)
′′
≡ (f(q1 →q2 ,u,w) (S) = 1);
′′
′′
(f(q
(S) = 0) ∨ (f(q
(S) = 0) ≡
1 ,u,v)
2 ,v+1,w)
′′
≡ (f(q
(S)
=
0);
1 →q2 ,u,w)
′′
′′
(f(q,u,v)
(S) = 1) ≡ (f(q→q
(1) ,u,v+1) (S) = 1) ≡
′′
≡ (f(q(1) →q,u−1,v) (S) = 1).
Замечание 2. Утверждение 1 и пункт 1) утверждения 2 обосновывают замену предикатов
(f (S)6=α) на дизъюнкции простых импликант. Для
(ММРО-15)
3
реализации этой замены, возможно, понадобится
добавить новые запросные признаки.
Сокращенная ДНФ для U (K,S) (S) получается
после исключения всех предикатов вида (f (S)6=α),
раскрытия скобок и выполнения правил поглощения по описанному в [7] алгоритму. Затем из сокращенной ДНФ удаляются все элементарные конъюнкции, не удовлетворяющие ни одному S ∈ S∩K.
Замечание 3. Пункты 2)–9) утверждения 2 обосновывают преобразования импликант ДНФ с
уменьшением их длины. Равносильность 10) позволяет выполнять «выравнивание границ» запросных признаков и применять равносильности 4)–9).
При этом, возможно, также потребуется добавление новых признаков.
Следствие 1. Для любого класса K ⊂ I
существует конечное число текстовых запросов
q1 , . . . , qs и целых чисел u1 , . . . , vs ; v1 , . . . , vs , таких,
что равносильны:
S
U (K,S) (S) ≡
S
′′
′′
≡ (f(q
(S) = 1) ∨ . . . ∨ (f(q
(S) = 1).
1 ,u1 ,v1 )
s ,us ,vs )
Замечание 4. Следствие показывает, что каждый элементарный классификатор в процедуре
распознавания может быть представлен в виде текстового запроса.
Замечание 5. Очевидно, запросы, о которых
идет речь в следствии, строятся с применением равносильностей из утверждения 2. Однако запросы,
построенные таким образом, содержат очень строгие условия.
Утверждение 3. Пусть заданы: q, q1 , q2 — текстовые запросы; целые числа u, v, u′ , v ′ , u′′ , v ′′ :
u′′ 6 u, v 6 v ′′ , u′′ 6 u′ , v ′ 6 v ′′ . Справедливы
следующие импликации:
′′
′′
1) (f(q,u,v)
(S) = 1) ⇒ (f(↑q,u
′′ ,v ′′ ) = 1);
′′
′′
2) (f(q1 ,u,v) (S) = 1) ∧ (f(q2 ,u′ ,v′ ) (S) = 1) ⇒
′′
⇒ (f(q
′′ ′′ (S) = 1);
1 ∧↑ q2 ,u ,v )
′′
′′
3) (f(q1 ,u,v) (S) = 1) ∨ (f(q
′ ′ (S) = 1) ⇒
2 ,u ,v )
′′
⇒ (f(q1 ∨↑ q2 ,u′′ ,v′′ ) (S) = 1).
Замечание 6. Преобразования U (K,S) (S), осуществляемые заменой левой части верной импликации правой, не всегда приводят к равносильной
на S формуле. Однако, если включить признаки,
построенные по правилам утверждения 3, в состав признаков и повторно вычислить сокращенную ДНФ для U (K,S) (S), то можно добиться более
короткой ДНФ.
Текстовые запросы, построенные с использованием утверждения 3, менее строгие, чем запросы в
следствии к утверждению 2.
4
(ММРО-15)
Прокофьев П. А.
Утверждение 4. Пусть функция U (K,S) представляется на S формулой вида
S
U (K,S) (S) ≡ (h(S) ∧ h′ (S)) ∨ h′′ (S).
(1)
Обозначим множество H = {S ∈ S | (h(S) =
= 1) ∧ (h′′ (S) = 0)}. Пусть существуют запрос q и
целые числа u и v такие, что выполняются свойства:
′′
1) f(q,u,v)
(S) = 1, ∀S ∈ H ∩ K;
′′
2) f(q,u,v) (S) = 0, ∀S ∈ H\K.
Тогда функция U (K,S) представляется на S
формулой:
S
′′
U (K,S) (S) ≡ (h(S) ∧ (f(q,u,v)
(S) = 1)) ∨ h′′ (S).
2) разработка правил формирования коротких запросов при построении элементарных
классификаторов;
3) формальное описание алгоритма настройки
предложенной процедуры распознавания и
исследование его сложности;
4) использование описанных в [5, 8] методов поиска информативных фрагментов описаний
объектов при построении процедуры распознавания для сокращения вычислительных
затрат и улучшения качества распознавания;
5) разработка алгоритмов вычисления текстовых запросов и исследование алгоритмической сложности.
Литература
Замечание 7. Представление (1) может быть получено вынесением общей части нескольких импликант ДНФ за скобку:
[1] Junker M., Abecker A. Learning Complex Patterns
for Document Categorization // AAAI-98/ICML
Workshop on Learning for Text Categorization.
Madison, Wisconsin, USA, 1998.
U (K,S) ≡ σ1 ∨ . . . ∨ σl ∨ (σ0′ ∧ (σ1′ ∨ . . . ∨ σk′ )),
[2] Reiss F.,Raghavan S., Krishnamurthy R., Zhu H.,
Vaithyanathan S. An Algebraic Approach to RuleBased Information Extraction // ICDE. Cancun,
Mexico, 2008.
где σi , σj′ — элементарные конъюнкции, i = 1, . . . , l;
j = 0, . . . , k.
Утверждение 4 позволяет упрощать ДНФ,
уменьшая число импликантов. Интерес представляет конструирование признаков, удовлетворяющих условиям утверждения 4.
Заметим, что если запрос q удовлетворяет усло′′
(S) = U (K,H) (S)
виям утверждения 4, то f(q,u,v)
на H. Это обстоятельство позволяет рекуррентно
строить такой запрос q.
Эксперименты
Предложенный подход тестируется на задаче,
поставленной в работе [1]. Результы экспериментов
будут изложены в докладе.
Выводы
В работе дается формальное описание конструкции текстовых запросов. Показывается принципиальная возможность представления элементарных классификаторов дискретных процедур
распознавания в виде текстовых запросов.
Дальнейшие исследования будут направлены на
следующие моменты:
1) расширение и строгое формальное описание
языка текстовых запросов;
[3] Прокофьев П. А. Использование методов извлечения информации при географической привязке текстов на русском языке // Электронные библиотеки:
Перспективные методы и технологии, Электронные
коллекции (RCDL). — Петрозаводск, 2009.
[4] Агеев М. С. Методы автоматической рубрикации
текстов, основанные на машинном обучении и знаниях экспертов. — Диссертация на соискание ученой степени к.ф.-м.н. — М.: МГУ, 2004.
[5] Дюкова Е. В., Песков Н. В. Построение распознающих процедур на базе элементарных классификаторов // Математические вопросы кибернетики /
Под ред. О. Б. Лупанова. — М.: Физматлит, 2005. —
Т. 14.
[6] Дюкова Е. В. Дискретные (логические) процедуры
распознавания: принципы конструирования, сложность реализации и основные модели. Учебное пособие для студентов математических факультетов
педвузов. — М.: Изд-во «Прометей», 2003. — 29 с.
[7] Дискретная математика и математические вопросы
кибернетики / Под ред. С. Б. Яблонского, О. Б. Лупанова. — М.: Наука, 1974. — 312 c.
[8] Песков Н. В. Поиск информативных фрагментов
описаний объектов в задачах распознавания. —
Диссертация на соискание ученой степени к.ф.-м.н.,
М.: ВЦ РАН. — 2004.
Download