Подход к выявлению подмножеств похожих документов А. Антонов, С. Баглей, В. Мешков

advertisement
Подход к выявлению
подмножеств похожих
документов
А. Антонов, С. Баглей, В. Мешков
{ alexa, baglei, meshkov,} @ galaktika.ru
Особенности поиска информации
• Пользователю сложно взаимодействовать
с поисковой системой
Пример реального запроса пользователя:
“Сергей Иванов” и не (оборона или Путин или список или эстонский) не
"Оренбурггазпром" и не “волгоградская епархия” и не "Минобороны" и не
"газовик" не “наш конкурс” и не “наш приз” и не "матч" и не “правильный
ответ” не "кардиология" и не “сердце" не “счетная палата” и не
"Севастополь" и не "севастопольский" не "шк" и не "гонщик" и “гонка” и не
“Русский банк” и не "интернешнл" и не "ВИ"// не “русские бабки” и не"РЖД”
• Результаты, выдаваемые по запросу,
избыточны
Средства понижения
информационной избыточности
• Совершенствование алгоритмов
поиска
• Автоматическое структурирование
результатов поиска
Кластеризация и классификация
результатов поиска
Преимущества системы Галактика-Zoom
с точки зрения организации работы
алгоритма
Использование технологии Информационного
Портрета системы Галактика-Zoom
позволяет:
• Получить величины относительной значимости
признаков для документа;
• Упорядочить признаки документа по принципу их
относительной значимости в выборке.
ИнфоПортрет в системе Галактика-Zoom
ИнфоПортрет – множество значимых слов и словосочетаний,
которое составляет пространство признаков. Координатами
точки являются величины значимости каждого элемента
ИнфоПортрета для данного документа: вклад признака в
близость ИнфоПортретов.
Величина значимости признака задается формулой:
x• = M• x D• x f• , где:
M• - основная составляющая вклада признака в близость
ИнфоПортретов;
D• - невязка близости ИнфоПортретов;
f• - фильтрующий множитель.
Алгоритм построения подмножеств
похожих документов:
Шаг 1
Инициализация: построение ИП каждого
документа из множества Dl с
сохранением в двоичном формате.
Формирование и сохранение вектора
S1.
Документы,
у
которых
отсутствуют ИП, добавляются в
список U0.
Алгоритм построения подмножеств
похожих документов:
Шаг 2
Множество Dl разбивается на два
непересекающихся подмножества:
Dl+ - документы, размер ИП которых
не меньше наибольшего размера ИП
в векторе и Dl- - документы с
меньшими размерами.
Алгоритм построения подмножеств
похожих документов:
Шаг 3
• Если подмножество Dl+ не пустое, то
формирование вектора Sw из документов
множества Dl+ , центроидов из подмножеств C
похожих документов и из списка U уникальных
документов. Применение алгоритма ППД к
документам из множества Dl+ как возможным
новым центроидам. Если центроид из C
приписывается к новому подмножеству, то для всех
документов похожих на него пересчитывается мера
близости относительно нового центроида.
Алгоритм построения подмножеств
похожих документов:
Шаг 4
• Если остались уникальные документы из
подмножества Dl+ или подмножество Dl- – не
пустое, то формирование вектора Sw из
уникальных документов подмножеств Dl+ ,
Dl-, и центроидов подмножеств похожих
документов. Применение алгоритма ППД к
уникальным документам из подмножества
Dl+ и центроидам с возможным
пополнением их новыми документами из Dl-.
Алгоритм построения подмножеств
похожих документов:
Шаг 5
Если после выполнения шагов 3 и 4 остались
уникальные документы из множества Dl, то
формирование вектора из всех оставшихся
уникальных документов. Применение
алгоритма ППД к каждому уникальному
документу из множества Dl.
Результат работы алгоритма
• Набор подмножеств похожих
документов Сl
• Список уникальных документов Ul
Экспериментальная проверка:
основные характеристики базы
Параметр
Количество
Документов в базе
5000
63100
2008235
13621
172383
Слов в базе
Словомест в базе
Словосочетаний в базе
Мест словосочетаний в базе
Экспериментальная проверка:
характеристики результатов
Параметр
Количество
Количество подмножеств похожих документов
31
Количество документов в выборке
523
Количество документов, включенных в
подмножества
426 (82%)
Количество документов, общих для подмножеств
0
Минимальное число документов в подмножестве
3
Максимальное число документов в подмножестве
21
Минимальное число объектов в подмножестве
3
Максимальное число объектов в подмножестве
10
Результаты применения алгоритма
• Обеспечена возможность разбиения
множества документов на
подмножества похожих
• Получены приемлемые параметры
точности и полноты разбиения
Спасибо за внимание
Download