покрытие предметной области пересечение смысла рубрик?

advertisement
10.2. Технология автоматической рубрикации
текстов с использованием тезауруса для
автоматического концептуального
индексирования
Варианты классификациии
Рубрицирование текстов

вид общей задачи классификации /
организации информации
(спам, гармонизация законодательства …)

обмен информацией

иерархия анализа

замена сложного запроса
Каким ДОЛЖЕН быть рубрикатор?

покрытие предметной области

пересечение смысла рубрик?

иерархия анализа
 замена сложного запроса
Субъективизм экспертов
Совпадение при ручной рубрикации
между разными экспертами 60%
Автоматическое рубрицирование
Методы автоматической рубрикации

инженерный подход
или подход, основанный на знаниях

машинное обучение
Коллекция Reuters-21548:
 135 рубрик,
 короткие однородные документы;
 точность и полнота > 80%
SIGIR 2001, SIGIR 2002
Operational Text Categorization Workshop
Методы машинного обучения
в задачах рубрикации
Положительные/отрицательные примеры
Как лучше отделить
Отсечение по центрам тяжести
Отсечение по ближайшим соседям
(kNN)
Отсечение по ближайшим точкам
(SVM)
d
d
c
c
Оптимальный линейный сепаратор
SVM (Support Vector Machines)
Максимизация
расстояния между
двумя
параллельными
поддерживающими
плоскостями
2
|| w ||
Нелинейная отделимость
Reuters-21578, SVM, (P+R)/2  max(J)
(ModApte split)
Joachims
NAME
DOC_CNT
PRECISION
RECALL
(P+R)/2
P/R b.p.
Dumais
et.al.
P/R b.p.
earn
3964
97,79
97,79
97,79
98,20
98,00
acq
2369
95,82
95,55
95,69
92,60
93,60
money-fx
717
73,03
72,63
72,83
66,90
74,50
grain
582
92,09
85,91
89,00
91,30
94,60
crude
578
84,15
81,48
82,82
86,00
88,90
trade
486
77,12
77,78
77,45
69,20
75,90
interest
478
75,57
75,57
75,57
69,80
77,70
ship
286
87,30
61,80
74,55
82,00
85,60
wheat
283
84,81
94,37
89,59
83,10
91,80
corn
237
88,68
83,93
86,31
86,00
90,30
Примеры документов из Reuters-21548
CHINA'S HEILONGJIANG PROVINCE BOOSTS GOLD OUTPUT
Gold output in the northeast China province of Heilongjiang rose 22.7 pct in 1986 from 1985's
level, the New China News Agency said. It gave no figures. It said the province, China's second
largest gold producer after Shandong, plans to double gold output by 1990 from the 1986 level.
China does not publish gold production figures. However, industry sources estimate output at
about 65 tonnes a year, with exports put between 11 and 31 tonnes. China is selling more gold
abroad to offset large trade deficits in recent years, western diplomats said. REUTER
CONSOLIDATED TVX TO BUY BRAZIL GOLD MINE STAKES
<Consolidated TVX Mining Corp> said it agreed to issue 7.8 mln treasury shares to
acquire interests in three gold mining companies in Brazil and an option to increase the
company's interest in a platinum property. The company said the transactions will bring
immediate production and earnings to Consolidated TVX, enhance its precious metal
potential and is expected to improve cash flow and earnings on a per share basis. The
company did not give specific figures. Consolidated TVX said it will acquire 29 pct of
CMP, a public gold mining company in which TVX already holds a 15 pct interest,
making TVX the largest single shareholder. The company also agreed to acquire a 19
pct stake in Novo Astro, a private company, and a 16 pct interest in Teles Pires Mining,
increasing the TVX's ownership to 51 pct. In addition, Consolidated TVX said it will
acquire the right to add a 10 pct interest to a platinum property in which it already owns
a 29.4 pct stake. CMP earned 11 mln Canadian dlrs in 1986 and expects to produce
42,000 ounces of gold in 1987 at a cost of 160 U.S. dlrs an ounce, Consolidated TVX
Сложные случаи
Пересечение
выпуклых
оболочек
Сложные задачи
автоматической рубрикации текстов

размер рубрикатора больше 300-500 рубрик,
обычно со сложной иерархией;

трудно обеспечить достаточную по качеству
и количеству обучающую коллекцию,
субъективизм ручного индексирования
(обучающей коллекции) значительно возрастает;

документы могут иметь несколько рубрик
Множество примеров отсутствует и не может
быть создано в короткое время
 Российский социологический архив
(www.socialpolicy.ru)
 Данные соцопросов разных
организаций
 350 рубрик, 4 уровня иерархии
 Новый проект => отсутствие
примеров
Множество примеров существует,
но отсутствовали требования к качеству
 Международное научное сообщество RePec
(www.repec.org), SocioNet (www.socionet.ru)
 Архив исследовательских материалов
по экономике и социологии
 Рубрикатор: Journal of Economic
Literature Classification System (JEL )
 Более 700 рубрик
 Автор сам приписывает рубрики к своей
работе
Множество примеров противоречиво и недостаточно
для большинства рубрик
(очень большие классификаторы)

Российские правовые документы

Президентский классификатор
(Указ №511 15.03.2000) - 1168 рубрик

Множество примеров – 10,000 документов
классифицированных вручную

Только для 47 рубрик – более чем 100 док.,
только для 200 рубрик – более чем 20 док.

Inconsistency: мало отличающиеся
документы имеют разные наборы рубрик
Множество примеров для обучения
из другой коллекции
 Примеры: документы федерального уровня
 Проблема: рубрицирование 600,000
региональных документов
 Тот же рубрикатор
 Похожие документы, похожая проблема
НО!!!
 Стандартный метод SVM-light, обученный
на федеральных документах не
приписывает ни одной рубрики для 50%
документов
Применение тезауруса
для решения
сложных задач рубрикации
Системы автоматической рубрикации
Разработаны различные системы автоматической
рубрикации:
по общему тематическому правовому классификатору
Центральной избирательной комиссии РФ
(450 рубрик, 4 уровня)
по терминам верхнего уровня тезауруса
Исследовательской службы Конгресса США (80 рубрик)
по правовому рубрикатору Центра информационных
исследований (180 рубрик, 3 уровня)
Новые системы автоматической рубрикации
 Автоматическая рубрикация по Классификатору правовых актов РФ
(Указ Президента РФ N511 от 15 марта 2000 г., 1169 рубрик)
 Автоматическая рубрикация по Классификатору НПП «Гарант»
(3200 рубрик)
Технология автоматического рубрицирования
•
Опора на знания, описанные в Общественно-политическом
Тезаурусе
•
Представление рубрики в виде логической формулы для
небольшого числа ОПОРНЫХ концептов, затем
автоматическое расширение с использованием
иерархической структуры Тезауруса
•
Независимый от конкретного рубрикатора (изменения
состава рубрикатора) автоматический тематический анализ
текста – выявление в тексте совокупностей близких
терминов, выявление терминов, характеризующих
основную тему и подтемы документов
Схема описания рубрики
Рубрика
Альтернатива1
У11
И
У12
И
ИЛИ
+
ИЛИ
У13
Альтернатива2
У21
И
Условие22
ИЛИ
+
+
Тезаурус
по общественно-политической жизни
27 тысяч понятий,
64 тысячи терминов
105 тысяч отношений

предметная область –
проблемы современного общества;

состав - терминология таких областей
как экономика, финансы, оборона,
законодательство, научная политика, спорт,
искусство, военные конфликты и др.;

типы обрабатываемых текстов –
официальные документы, международные
договора, законы, газетные статьи, новостные
сообщения
Программное обеспечение для описания
отношений «рубрика – понятие тезауруса»

описание смысла рубрики как
булевской формулы над понятиями тезауруса

генерация расширенной булевской формулы
на основе иерархии тезауруса:
С => дизъюнкция понятий из дерева С;

управление расширением: параметры
Е – полное, L – по видам, N – без расширения:
(Государственные символы)
(Российской Федерации)
L
N

просмотр тезаурусной окрестности понятий
для определения пропусков;

специальные средства вычеркивания лишнего:
отдельными понятиями и поддеревьями
Представление смысла рубрики
опорными понятиями
Расширенное представление рубрики понятиями
тезауруса
Рубрикатор СОФИСТ. Представление рубрики

040000000 ЖЕНЩИНЫ
…

040050000

ИЛИ

{ЖЕНЩИНА}
И {СЕМЬЯ}
И {РОЛЬ,ПОЛОЖЕНИЕ||ОБЯЗАННОСТЬ||СТАТУС||…}




ИЛИ
{ЧЛЕН СЕМЬИ[L]} //жена,дочь,мать,бабушка,…
И {ОБЯЗАННОСТЬ||ОТВЕТСТВЕННОСТЬ||ПРАВО||…}





Семейные роли /ЖЕНЩИНЫ/
ИЛИ
{СЕМЬЯ}
И {ДОВЕРИЕ||ГЛАВНЫЙ||ЗАВИСЕТЬ||СЛУШАТЬСЯ||}
Рубрикатор СОФИСТ. Представление рубрики




380000000 ЭКОНОМИЧЕСКАЯ РЕФОРМА
…
380020000 ОТНОШЕНИЕ К РЕФОРМЕ /ЭКОНОМИЧЕСКАЯ
РЕФОРМА/
{



И
И
{ЭКОНОМИКА[E]||ЭКОНОМИЧЕСКАЯ РЕФОРМА[E]}
И НЕ {МИРОВАЯ ЭКОНОМИКА[E]||
ОТРАСЛЬ ЭКОНОМИКИ[E]||ФИНАНСЫ[E]}
{РЕФОРМА||ЭКОНОМИЧЕСКАЯ РЕФОРМА[E]||}}
{НЕУДАЧНЫЙ||НУЖНЫЙ||ОДОБРИТЬ||ОПАСНЫЙ[L]||
ОТВРАТИТЕЛЬНЫЙ||ОТРИЦАТЕЛЬНЫЙ||ПЛОХОЙ||
ПОДДЕРЖАТЬ||ПОЛЕЗНЫЙ||ПРИВЕТСТВОВАТЬ…}
ОПАСНЫЙ => авантюрный, вредный, гибельный,
гиблый, злокачественный, пагубный…
Отношение рубрика – понятие.
Вес или …?
Отношение рубрика-понятие:
1) без подтверждения
2) с подтверждением
1) вес=1
2) Рубрика «Машиностроение» - авиастроение (без
подтверждения) – самолет (с подтверждением)
 Понятие с подтверждением учитывается для вывода
рубрики только тогда, когда в тексте есть хотя бы
одно понятие, относящееся к этой рубрике без
подтверждения
 Подтверждение может быть выведено по связям
тезауруса или проставлено вручную
Сеть тематических узлов
(Постановление Правительства РФ от 26 июня 1995 г. N 604)
СОБСТВЕННОСТЬ
(1)
СООРУЖЕНИЕ
(1)
А
ЗДАНИЕ
(1)
ДЕНЬГИ
(22)
СТРОИТЕЛЬСТВО
(12)
ЖИЛОЕ ЗДАНИЕ
(1)
ПЛАТИТЬ
(1)
ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО
(4)
А
ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ
КООПЕРАТИВ (2)
ПОКУПКА
(6)
МНОГОКВАРТИРНЫЙ ДОМ
(1)
ЖИЛОЕ ПОМЕЩЕНИЕ
(25)
НАНЯТЬ
(13)
А
КВАРТИРА
(2)
В
КОМНАТА (ПОМЕЩЕНИЕ)
(1)
НАЕМ ЖИЛОГО
ПОМЕЩЕНИЯ
(13)
ЖИЛАЯ ПЛОЩАДЬ
(1)
В
ЖИЛИЩНАЯ НОРМА
(2)
Структура тематического представления
Mc1
Основные
тематические узлы
MT1
Mc3
MT3
MT2
Mc2
Mck
MTk
TNj
TNj+1
Локальные
тематические узлы
TNj+2
Вычисление веса термина
на основе тематического представления текста
α = 0.7
Учет двух факторов:
категория в тематическом представлении и частотность
Вес категории тематического представления:
0.9 0.7 0.75 -
для центра основного тематического узла,
для элемента основного тематического узла,
для центра локального тематического узла …
Расчет веса конъюнкции
Вес конъюнкции предназначен учитывать
не только сумму весов составляющих его конъюнктов,
но и меру близости конъюнктов в тексте:
сумма всех текстовых связей между понятиями одного
конъюнкта и понятиями другого, деленная на значение
максимальной текстовой связи между любыми двумя понятиями
текста.
Этот член равен обычно единице для сильно связанных
конъюнктов и принимает малое значение, если понятия различных
конъюнктов обсуждались в разных местах текста
Вычисление веса рубрики
Вес дизъюнкции:
где
dijk -
понятия, не требующие подтверждения,
pijm -
понятия, требующие подтверждения,

множитель равный единице,
если имеются понятия, не требующие
подтверждения, и нулю иначе
-
ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ
ПОСТАНОВЛЕНИЕ (от 26 декабря 2001 г. N 905)
О подписании Соглашения между Правительством Российской Федерации
и Правительством Туркменистана о сотрудничестве в области
исследования и использования космического пространства в мирных
целях …
090090000 Космическая деятельность
T130817
T4200
T106444
T6783
T955
T956
T131907
T1023
T1022
T137619
T9340
T5962
T2497
ПУСК РАКЕТЫ
КОСМОДРОМ
БАЙКОНУР
РАКЕТА-НОСИТЕЛЬ
КОСМОНАВТИКА
КОСМИЧЕСКАЯ ТЕХНИКА
ЗАПУСК КОСМИЧЕСКИХ АППАРАТОВ
КОСМИЧЕСКИЙ АППАРАТ
СПУТНИКОВАЯ СВЯЗЬ
КОСМИЧЕСКИЕ ИССЛЕДОВАНИЯ
КОСМИЧЕСКАЯ МЕДИЦИНА
АСТРОФИЗИКА
ИСКУССТВЕННЫЙ СПУТНИК ЗЕМЛИ
12
8
8
6
6
4
3
2
1
1
1
1
1
64
64
63
63
62
62
61
61
61
60
60
60
60
15
Фрагмент рубрик, приписанных документу
(Постановление Правительства РФ от 26 июня 1995 г. N 604)
150100020
Содержание и порядок прохождения военной службы 95
T791
T792
T6999
090040000
СТРОИТЕЛЬСТВО
ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО
ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ
81
12
4
2
81
64
62
ФЕД. ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ
МИНИСТЕРСТВО ОБОРОНЫ
77
7
3
77
63
Кадры Вооруженных Сил Российской Федерации
T792
070070020
95
76
62
Федеральные органы исполнительной власти
T2576
T5109
150040000
29
17
2
Строительство
T55
T482
T6217
020010040
ВОЕННАЯ СЛУЖБА
ВОЕННОСЛУЖАЩИЙ
ВОИНСКАЯ СЛУЖБА ПО КОНТРАКТУ
ВОЕННОСЛУЖАЩИЙ
17
76
76
Компенсационные и иные социальные выплаты
T124039 КОМПЕНСАЦИЯ
15
75
75
Системы автоматической рубрикации
Разработаны различные системы автоматической
рубрикации:
по общему тематическому правовому классификатору
Центральной избирательной комиссии РФ
(450 рубрик, 4 уровня)
по терминам верхнего уровня тезауруса Исследовательской
службы Конгресса США (80 рубрик)
по правовому рубрикатору Центра информационных
исследований (180 рубрик, 3 уровня)
Новая система автоматической рубрикации
Автоматическая рубрикация по
Классификатору правовых актов РФ
(Указ Президента РФ N511 от 15 марта 2000 г., 1169 рубрик)
классификация
для legal-коллекции





автоматическая классификация нормативных документов
законодательства РФ из БД СПС «Кодекс»
183 рубрик -- подмножество большого иерархического
рубрикатора нормативных документов
для обучения процедуры классификации предлагается
коллекция из 4496 документов, отрубрицированных по
данному классификатору экспертами компании «Кодекс»
для тестирования предоставлены 55519 документов, для
которых необходимо автоматически определить рубрики, к
которым эти документы относятся.
для некоторых рубрик нет документов в коллекции обучения,
всего рубрик с ненулевым количеством документов для
обучения — 170
классификация
для legal-коллекции
Прогон 1: SVM по леммам
Прогон 2: SVM по леммам+терминам
Леммы/понятия, встречающиеся менее,
чем в четырёх документах, были усечены.
21746 различных лемм и 1203087 пар лемма-документ
для обучающей выборки из 4496 документов.
29918 различных лемм/терминов и 1569958 пар
«лемма/термин»-документ.
классификация
для legal-коллекции
Прогон 3: Метод машинного обучения,
основанный на моделировании логики рубрикатора

описание рубрики в виде булевской формулы — запроса к ИПС
Элементами формул являются понятия Тезауруса ЦИИ.

Алгоритм строит формулы вида
U
k
Ji
i 1 j 1


ti , j
Конъюнкции, составляющие формулу, имеют длину от 1 до 3.
Мотивация -- создать алгоритм машинного обучения, который бы
моделировал смысл рубрики, составленной человеком, по результатам
рубрицирования. Необходимым требованием для данного алгоритма
было построение правил описания рубрики, которые можно легко
интерпретировать.


'
U
t
t
i, j ,k
i , j ,l 

i
j  k
l

1000
100
DOCS_CNT
мн-во Б
мн-во А
166
155
144
133
122
111
100
89
78
67
56
45
34
23
1
12
10
1
кол-во документов для обучения
классификация
для legal-коллекции
номер категории
Таблицу релевантности, состоящую из оценок,
проставленных экспертами ИС «Кодекс» для рубрик из АБ
будем обозначать “ideal50”.
значения метрик
классификация
для legal-коллекции
0,5
0,45
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
ROMIP2004 legal categorization, "ideal50"
2
svm_lem
svm_thes
formul
6
7
8
F1
Precision
Recall
метрики
Результаты прогонов участников для
таблицы релевантности “ideal50”
9
10
классификация
для legal-коллекции
Зависимость F1 от количества примеров обучения
0,6
2
0,5
svm_lem
0,4
svm_thes
F1
0,3
formul
0,2
6
0,1
7
0
8
1-14
15-50
51-100
>100
Количество примеров (рубрики "ideal50")
9
10
Зависимость F-меры от количества примеров для обучения
(в среднем для рубрик, частотность которых
попадает в указанный интервал)
Вопросы к лекции
1. Перечислите методы автоматической
рубрикации.
2. По каким причинам возникают
сложности в задачах автоматической
рубрикации текстов?
3. Какие рубрикаторы Вам известны?
Опишите их характеристики.
Download