10.2. Технология автоматической рубрикации текстов с использованием тезауруса для автоматического концептуального индексирования Варианты классификациии Рубрицирование текстов вид общей задачи классификации / организации информации (спам, гармонизация законодательства …) обмен информацией иерархия анализа замена сложного запроса Каким ДОЛЖЕН быть рубрикатор? покрытие предметной области пересечение смысла рубрик? иерархия анализа замена сложного запроса Субъективизм экспертов Совпадение при ручной рубрикации между разными экспертами 60% Автоматическое рубрицирование Методы автоматической рубрикации инженерный подход или подход, основанный на знаниях машинное обучение Коллекция Reuters-21548: 135 рубрик, короткие однородные документы; точность и полнота > 80% SIGIR 2001, SIGIR 2002 Operational Text Categorization Workshop Методы машинного обучения в задачах рубрикации Положительные/отрицательные примеры Как лучше отделить Отсечение по центрам тяжести Отсечение по ближайшим соседям (kNN) Отсечение по ближайшим точкам (SVM) d d c c Оптимальный линейный сепаратор SVM (Support Vector Machines) Максимизация расстояния между двумя параллельными поддерживающими плоскостями 2 || w || Нелинейная отделимость Reuters-21578, SVM, (P+R)/2 max(J) (ModApte split) Joachims NAME DOC_CNT PRECISION RECALL (P+R)/2 P/R b.p. Dumais et.al. P/R b.p. earn 3964 97,79 97,79 97,79 98,20 98,00 acq 2369 95,82 95,55 95,69 92,60 93,60 money-fx 717 73,03 72,63 72,83 66,90 74,50 grain 582 92,09 85,91 89,00 91,30 94,60 crude 578 84,15 81,48 82,82 86,00 88,90 trade 486 77,12 77,78 77,45 69,20 75,90 interest 478 75,57 75,57 75,57 69,80 77,70 ship 286 87,30 61,80 74,55 82,00 85,60 wheat 283 84,81 94,37 89,59 83,10 91,80 corn 237 88,68 83,93 86,31 86,00 90,30 Примеры документов из Reuters-21548 CHINA'S HEILONGJIANG PROVINCE BOOSTS GOLD OUTPUT Gold output in the northeast China province of Heilongjiang rose 22.7 pct in 1986 from 1985's level, the New China News Agency said. It gave no figures. It said the province, China's second largest gold producer after Shandong, plans to double gold output by 1990 from the 1986 level. China does not publish gold production figures. However, industry sources estimate output at about 65 tonnes a year, with exports put between 11 and 31 tonnes. China is selling more gold abroad to offset large trade deficits in recent years, western diplomats said. REUTER CONSOLIDATED TVX TO BUY BRAZIL GOLD MINE STAKES <Consolidated TVX Mining Corp> said it agreed to issue 7.8 mln treasury shares to acquire interests in three gold mining companies in Brazil and an option to increase the company's interest in a platinum property. The company said the transactions will bring immediate production and earnings to Consolidated TVX, enhance its precious metal potential and is expected to improve cash flow and earnings on a per share basis. The company did not give specific figures. Consolidated TVX said it will acquire 29 pct of CMP, a public gold mining company in which TVX already holds a 15 pct interest, making TVX the largest single shareholder. The company also agreed to acquire a 19 pct stake in Novo Astro, a private company, and a 16 pct interest in Teles Pires Mining, increasing the TVX's ownership to 51 pct. In addition, Consolidated TVX said it will acquire the right to add a 10 pct interest to a platinum property in which it already owns a 29.4 pct stake. CMP earned 11 mln Canadian dlrs in 1986 and expects to produce 42,000 ounces of gold in 1987 at a cost of 160 U.S. dlrs an ounce, Consolidated TVX Сложные случаи Пересечение выпуклых оболочек Сложные задачи автоматической рубрикации текстов размер рубрикатора больше 300-500 рубрик, обычно со сложной иерархией; трудно обеспечить достаточную по качеству и количеству обучающую коллекцию, субъективизм ручного индексирования (обучающей коллекции) значительно возрастает; документы могут иметь несколько рубрик Множество примеров отсутствует и не может быть создано в короткое время Российский социологический архив (www.socialpolicy.ru) Данные соцопросов разных организаций 350 рубрик, 4 уровня иерархии Новый проект => отсутствие примеров Множество примеров существует, но отсутствовали требования к качеству Международное научное сообщество RePec (www.repec.org), SocioNet (www.socionet.ru) Архив исследовательских материалов по экономике и социологии Рубрикатор: Journal of Economic Literature Classification System (JEL ) Более 700 рубрик Автор сам приписывает рубрики к своей работе Множество примеров противоречиво и недостаточно для большинства рубрик (очень большие классификаторы) Российские правовые документы Президентский классификатор (Указ №511 15.03.2000) - 1168 рубрик Множество примеров – 10,000 документов классифицированных вручную Только для 47 рубрик – более чем 100 док., только для 200 рубрик – более чем 20 док. Inconsistency: мало отличающиеся документы имеют разные наборы рубрик Множество примеров для обучения из другой коллекции Примеры: документы федерального уровня Проблема: рубрицирование 600,000 региональных документов Тот же рубрикатор Похожие документы, похожая проблема НО!!! Стандартный метод SVM-light, обученный на федеральных документах не приписывает ни одной рубрики для 50% документов Применение тезауруса для решения сложных задач рубрикации Системы автоматической рубрикации Разработаны различные системы автоматической рубрикации: по общему тематическому правовому классификатору Центральной избирательной комиссии РФ (450 рубрик, 4 уровня) по терминам верхнего уровня тезауруса Исследовательской службы Конгресса США (80 рубрик) по правовому рубрикатору Центра информационных исследований (180 рубрик, 3 уровня) Новые системы автоматической рубрикации Автоматическая рубрикация по Классификатору правовых актов РФ (Указ Президента РФ N511 от 15 марта 2000 г., 1169 рубрик) Автоматическая рубрикация по Классификатору НПП «Гарант» (3200 рубрик) Технология автоматического рубрицирования • Опора на знания, описанные в Общественно-политическом Тезаурусе • Представление рубрики в виде логической формулы для небольшого числа ОПОРНЫХ концептов, затем автоматическое расширение с использованием иерархической структуры Тезауруса • Независимый от конкретного рубрикатора (изменения состава рубрикатора) автоматический тематический анализ текста – выявление в тексте совокупностей близких терминов, выявление терминов, характеризующих основную тему и подтемы документов Схема описания рубрики Рубрика Альтернатива1 У11 И У12 И ИЛИ + ИЛИ У13 Альтернатива2 У21 И Условие22 ИЛИ + + Тезаурус по общественно-политической жизни 27 тысяч понятий, 64 тысячи терминов 105 тысяч отношений предметная область – проблемы современного общества; состав - терминология таких областей как экономика, финансы, оборона, законодательство, научная политика, спорт, искусство, военные конфликты и др.; типы обрабатываемых текстов – официальные документы, международные договора, законы, газетные статьи, новостные сообщения Программное обеспечение для описания отношений «рубрика – понятие тезауруса» описание смысла рубрики как булевской формулы над понятиями тезауруса генерация расширенной булевской формулы на основе иерархии тезауруса: С => дизъюнкция понятий из дерева С; управление расширением: параметры Е – полное, L – по видам, N – без расширения: (Государственные символы) (Российской Федерации) L N просмотр тезаурусной окрестности понятий для определения пропусков; специальные средства вычеркивания лишнего: отдельными понятиями и поддеревьями Представление смысла рубрики опорными понятиями Расширенное представление рубрики понятиями тезауруса Рубрикатор СОФИСТ. Представление рубрики 040000000 ЖЕНЩИНЫ … 040050000 ИЛИ {ЖЕНЩИНА} И {СЕМЬЯ} И {РОЛЬ,ПОЛОЖЕНИЕ||ОБЯЗАННОСТЬ||СТАТУС||…} ИЛИ {ЧЛЕН СЕМЬИ[L]} //жена,дочь,мать,бабушка,… И {ОБЯЗАННОСТЬ||ОТВЕТСТВЕННОСТЬ||ПРАВО||…} Семейные роли /ЖЕНЩИНЫ/ ИЛИ {СЕМЬЯ} И {ДОВЕРИЕ||ГЛАВНЫЙ||ЗАВИСЕТЬ||СЛУШАТЬСЯ||} Рубрикатор СОФИСТ. Представление рубрики 380000000 ЭКОНОМИЧЕСКАЯ РЕФОРМА … 380020000 ОТНОШЕНИЕ К РЕФОРМЕ /ЭКОНОМИЧЕСКАЯ РЕФОРМА/ { И И {ЭКОНОМИКА[E]||ЭКОНОМИЧЕСКАЯ РЕФОРМА[E]} И НЕ {МИРОВАЯ ЭКОНОМИКА[E]|| ОТРАСЛЬ ЭКОНОМИКИ[E]||ФИНАНСЫ[E]} {РЕФОРМА||ЭКОНОМИЧЕСКАЯ РЕФОРМА[E]||}} {НЕУДАЧНЫЙ||НУЖНЫЙ||ОДОБРИТЬ||ОПАСНЫЙ[L]|| ОТВРАТИТЕЛЬНЫЙ||ОТРИЦАТЕЛЬНЫЙ||ПЛОХОЙ|| ПОДДЕРЖАТЬ||ПОЛЕЗНЫЙ||ПРИВЕТСТВОВАТЬ…} ОПАСНЫЙ => авантюрный, вредный, гибельный, гиблый, злокачественный, пагубный… Отношение рубрика – понятие. Вес или …? Отношение рубрика-понятие: 1) без подтверждения 2) с подтверждением 1) вес=1 2) Рубрика «Машиностроение» - авиастроение (без подтверждения) – самолет (с подтверждением) Понятие с подтверждением учитывается для вывода рубрики только тогда, когда в тексте есть хотя бы одно понятие, относящееся к этой рубрике без подтверждения Подтверждение может быть выведено по связям тезауруса или проставлено вручную Сеть тематических узлов (Постановление Правительства РФ от 26 июня 1995 г. N 604) СОБСТВЕННОСТЬ (1) СООРУЖЕНИЕ (1) А ЗДАНИЕ (1) ДЕНЬГИ (22) СТРОИТЕЛЬСТВО (12) ЖИЛОЕ ЗДАНИЕ (1) ПЛАТИТЬ (1) ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО (4) А ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ (2) ПОКУПКА (6) МНОГОКВАРТИРНЫЙ ДОМ (1) ЖИЛОЕ ПОМЕЩЕНИЕ (25) НАНЯТЬ (13) А КВАРТИРА (2) В КОМНАТА (ПОМЕЩЕНИЕ) (1) НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ (13) ЖИЛАЯ ПЛОЩАДЬ (1) В ЖИЛИЩНАЯ НОРМА (2) Структура тематического представления Mc1 Основные тематические узлы MT1 Mc3 MT3 MT2 Mc2 Mck MTk TNj TNj+1 Локальные тематические узлы TNj+2 Вычисление веса термина на основе тематического представления текста α = 0.7 Учет двух факторов: категория в тематическом представлении и частотность Вес категории тематического представления: 0.9 0.7 0.75 - для центра основного тематического узла, для элемента основного тематического узла, для центра локального тематического узла … Расчет веса конъюнкции Вес конъюнкции предназначен учитывать не только сумму весов составляющих его конъюнктов, но и меру близости конъюнктов в тексте: сумма всех текстовых связей между понятиями одного конъюнкта и понятиями другого, деленная на значение максимальной текстовой связи между любыми двумя понятиями текста. Этот член равен обычно единице для сильно связанных конъюнктов и принимает малое значение, если понятия различных конъюнктов обсуждались в разных местах текста Вычисление веса рубрики Вес дизъюнкции: где dijk - понятия, не требующие подтверждения, pijm - понятия, требующие подтверждения, множитель равный единице, если имеются понятия, не требующие подтверждения, и нулю иначе - ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ ПОСТАНОВЛЕНИЕ (от 26 декабря 2001 г. N 905) О подписании Соглашения между Правительством Российской Федерации и Правительством Туркменистана о сотрудничестве в области исследования и использования космического пространства в мирных целях … 090090000 Космическая деятельность T130817 T4200 T106444 T6783 T955 T956 T131907 T1023 T1022 T137619 T9340 T5962 T2497 ПУСК РАКЕТЫ КОСМОДРОМ БАЙКОНУР РАКЕТА-НОСИТЕЛЬ КОСМОНАВТИКА КОСМИЧЕСКАЯ ТЕХНИКА ЗАПУСК КОСМИЧЕСКИХ АППАРАТОВ КОСМИЧЕСКИЙ АППАРАТ СПУТНИКОВАЯ СВЯЗЬ КОСМИЧЕСКИЕ ИССЛЕДОВАНИЯ КОСМИЧЕСКАЯ МЕДИЦИНА АСТРОФИЗИКА ИСКУССТВЕННЫЙ СПУТНИК ЗЕМЛИ 12 8 8 6 6 4 3 2 1 1 1 1 1 64 64 63 63 62 62 61 61 61 60 60 60 60 15 Фрагмент рубрик, приписанных документу (Постановление Правительства РФ от 26 июня 1995 г. N 604) 150100020 Содержание и порядок прохождения военной службы 95 T791 T792 T6999 090040000 СТРОИТЕЛЬСТВО ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ 81 12 4 2 81 64 62 ФЕД. ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ МИНИСТЕРСТВО ОБОРОНЫ 77 7 3 77 63 Кадры Вооруженных Сил Российской Федерации T792 070070020 95 76 62 Федеральные органы исполнительной власти T2576 T5109 150040000 29 17 2 Строительство T55 T482 T6217 020010040 ВОЕННАЯ СЛУЖБА ВОЕННОСЛУЖАЩИЙ ВОИНСКАЯ СЛУЖБА ПО КОНТРАКТУ ВОЕННОСЛУЖАЩИЙ 17 76 76 Компенсационные и иные социальные выплаты T124039 КОМПЕНСАЦИЯ 15 75 75 Системы автоматической рубрикации Разработаны различные системы автоматической рубрикации: по общему тематическому правовому классификатору Центральной избирательной комиссии РФ (450 рубрик, 4 уровня) по терминам верхнего уровня тезауруса Исследовательской службы Конгресса США (80 рубрик) по правовому рубрикатору Центра информационных исследований (180 рубрик, 3 уровня) Новая система автоматической рубрикации Автоматическая рубрикация по Классификатору правовых актов РФ (Указ Президента РФ N511 от 15 марта 2000 г., 1169 рубрик) классификация для legal-коллекции автоматическая классификация нормативных документов законодательства РФ из БД СПС «Кодекс» 183 рубрик -- подмножество большого иерархического рубрикатора нормативных документов для обучения процедуры классификации предлагается коллекция из 4496 документов, отрубрицированных по данному классификатору экспертами компании «Кодекс» для тестирования предоставлены 55519 документов, для которых необходимо автоматически определить рубрики, к которым эти документы относятся. для некоторых рубрик нет документов в коллекции обучения, всего рубрик с ненулевым количеством документов для обучения — 170 классификация для legal-коллекции Прогон 1: SVM по леммам Прогон 2: SVM по леммам+терминам Леммы/понятия, встречающиеся менее, чем в четырёх документах, были усечены. 21746 различных лемм и 1203087 пар лемма-документ для обучающей выборки из 4496 документов. 29918 различных лемм/терминов и 1569958 пар «лемма/термин»-документ. классификация для legal-коллекции Прогон 3: Метод машинного обучения, основанный на моделировании логики рубрикатора описание рубрики в виде булевской формулы — запроса к ИПС Элементами формул являются понятия Тезауруса ЦИИ. Алгоритм строит формулы вида U k Ji i 1 j 1 ti , j Конъюнкции, составляющие формулу, имеют длину от 1 до 3. Мотивация -- создать алгоритм машинного обучения, который бы моделировал смысл рубрики, составленной человеком, по результатам рубрицирования. Необходимым требованием для данного алгоритма было построение правил описания рубрики, которые можно легко интерпретировать. ' U t t i, j ,k i , j ,l i j k l 1000 100 DOCS_CNT мн-во Б мн-во А 166 155 144 133 122 111 100 89 78 67 56 45 34 23 1 12 10 1 кол-во документов для обучения классификация для legal-коллекции номер категории Таблицу релевантности, состоящую из оценок, проставленных экспертами ИС «Кодекс» для рубрик из АБ будем обозначать “ideal50”. значения метрик классификация для legal-коллекции 0,5 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 ROMIP2004 legal categorization, "ideal50" 2 svm_lem svm_thes formul 6 7 8 F1 Precision Recall метрики Результаты прогонов участников для таблицы релевантности “ideal50” 9 10 классификация для legal-коллекции Зависимость F1 от количества примеров обучения 0,6 2 0,5 svm_lem 0,4 svm_thes F1 0,3 formul 0,2 6 0,1 7 0 8 1-14 15-50 51-100 >100 Количество примеров (рубрики "ideal50") 9 10 Зависимость F-меры от количества примеров для обучения (в среднем для рубрик, частотность которых попадает в указанный интервал) Вопросы к лекции 1. Перечислите методы автоматической рубрикации. 2. По каким причинам возникают сложности в задачах автоматической рубрикации текстов? 3. Какие рубрикаторы Вам известны? Опишите их характеристики.