Обнаружение структурного подобия HTML-документов И. Некрестьянов Е. Павлова http://ir.apmath.spbu.ru Задача извлечения информации Информация с регулярной структурой зачастую скрыта среди презентационных деталей Детали форматирования могут различаться даже в одном источнике Огромный объем информации => Извлечение структурированной информации и выполнение запросов Типы подходов к извлечению информации Специализированные языки Использование HTML-разметки Работа с текстами на естественном языке Индуктивные подходы Моделирование искомой информации Использование онтологии Рассматриваемая задача Контекст: Автоматическая генерация посредника для извлечения информации подразумевает наличие образцов. Проблема: Как подбирать их автоматически? Общая идея: Кластеризация документов по структурному подобию. Агломеративно-иерархическая кластеризация Стандартный статистический метод Результат – дерево (не надо знать искомое число кластеров) Построение «снизувверх» Как представлять документы? Basis(k, l, attr) Модель DOM Имя тэга Входящий путь длины k Потомки на глубину l Атрибуты тэга <html> <body> … k <table> <tr border=“5”> l <th> <td> <td> Как вычислять веса? Наличие признака (0/1) Количество вхождений признака Частота встречаемости признака TFIDF tf wi i N log ki Что такое хороший результат? Классический подход – сравнение с идеалом или другим результатом Цель: автоматически обработать максимум документов «Хороший» кластер: – – Все документы обрабатываются одним посредником Кластер достаточно велик (N>2) Меры для оценки Энтропия (характеризует «чистоту» кластеров) Доля документов, которые находятся в «хороших» кластерах на уровне i (WScorei) Максимально возможная доля документов в «хороших» кластерах по всем разбиениям на кластеры, встречающихся в построенном дереве (WScore) WScorei и WScore WScore2 = 0 WScore = 4/6 Постановка экспериментов Наборы данных: – – List.Ru (11 классов) IMDB (34 класса) Рассматривались подмножества размером от 1000 до 3000 документов Способы сбора идеальной информации 1. 2. 3. Результаты применения автоматического метода (сложно реализуемо) Создать всех посредников вручную (очень трудоемко, нет гарантии) Создать часть посредников вручную и остальные документы разбить на классы по типу возникающих ошибок (аппроксимация варианта 2) Наблюдаемые закономерности Расширение признаков вниз ухудшает результаты Информация об атрибутах бесполезна Входящие пути полезны (оптимальная длина зависит от набора) Сложные схемы взвешивания имеют смысл (большинство наилучших результатов получено с TFIDF)