ИДЕНТИФИКАЦИЯ ВЕБ-СООБЩЕСТВ ТЕМАТИЧЕСКИХ

advertisement
ИДЕНТИФИКАЦИЯ ВЕБ-СООБЩЕСТВ ТЕМАТИЧЕСКИХ РЕСУРСОВ НА
ОСНОВЕ ВЫЯВЛЕНИЯ КОМПОНЕНТ СИЛЬНОЙ СВЯЗНОСТИ И ЧАСТОТНОГО
АНАЛИЗА ТЕКСТА
А.В. Сычев, М.М. Баженов
Воронежский государственный университет
Тел.: (4732) 20-89-09, 20-84-11, e-mail: sav@cs.vsu.ru
Масштабы глобальной сети WWW в ее сегодняшнем виде давно уже переросли рамки тех
технологических решений, которые были заложены в ее основу в период формирования и становления в
первой половине 90-х годов. Одним из следствий данной ситуации является проблема поиска релевантных
информационных ресурсов в сети WWW.
Несмотря на децентрализованную структуру сети WWW, в ней прослеживаются тенденции к
самоорганизации. Одной из них является формирование тематических веб-сообществ. Для точного
определения состава веб-сообщества, требуется содержательный анализ ресурсов, связанных между собой
гиперссылками. Однако в масштабах WWW содержательный анализ крайне затруднен. В данной работе мы
предлагаем решение, позволяющее автоматизировать процесс идентификации самоорганизованных вебсообществ. Мы будем называть веб-сообществом в сети WWW подмножество веб-сайтов или веб-ресурсов,
которые связаны гиперссылками и имеют общую тематику.
Естественной моделью представления структуры WWW является ориентированный граф, в котором
вершины соответствуют веб-ресурсам, а дуги – соединяющим их гиперссылкам. В рамках этой модели задача
анализа структуры связей между ресурсами – это задача анализа структуры графа.
В основе предлагаемого подхода к идентификации веб-сообществ лежит идея идентификации
наибольшей компоненты сильной связности (КСС) в масштабах построенного локального веб-графа с
дальнейшим содержательным анализом узлов, попавших в КСС и подсчетом “рейтинга” узлов. Компонента
сильной связанности – это множество узлов графа, в котором каждый узел достижим из любого другого узла
из того же множества по определённому направленному пути. Ниже приведен алгоритм, реализующий
предлагаемую модель идентификации веб-сообществ:
– выбрать зерновые ресурсы;
– получить локальный веб-граф с помощью онлайн-процедуры;
– извлечь все КСС локального веб-графа, выбрать наибольшую;
– укрупнить узлы, попавшие в наибольшую КСС, до списка доменов;
– провести численные оценки для элементов полученного списка доменов;
– ранжировать список по численной оценке, установить желаемый порог П принятия решения о
вхождении узла в веб-сообщество.
Для построения локального веб-графа необходимы “зерновые” ресурсы, которые бы являлись
несомненными членами идентифицируемого веб-сообщества.
Полученный с помощью онлайн-процедуры веб-граф необходимо проанализировать на наличие КСС. Как
показали эксперименты, в локальном веб-графе присутствует “гигантская” КСС, как правило, на порядок
большая, чем следующая за ней по размеру.
После получения наибольшей КСС мы имеем множество веб-узлов, где каждый достижим из каждого.
Это множество достаточно велико, и возникает задача уменьшения его размера. Если проанализировать
ссылки из набора, то можно четко выделить группы веб-страниц одного и того же сайта. Тогда одним из
вариантом решения задачи уменьшения размера множества является автоматическое укрупнение КСС до
списка доменов. В итоге мы будем иметь множество потенциальных членов веб-сообщества достаточно
малого размера, что позволяет провести экспертную оценку качества полученного веб-сообщества.
Последним этапом является численная оценка списка доменов, попавших в веб-сообщество, при которой
проводится содержательный анализ членов потенциального веб-сообщества и отсеиваются ложные члены.
Мы предлагаем метод количественной оценки качества членов веб-сообществ, основанный на сравнении
частотных характеристиках слов текста веб-страниц с соответствующими частотными характеристиками для
зерновых ресурсов в сообществе. Стоит отметить, что задача нормализации словоформ (т.е. сведения их к
единой форме слова) была решена способом, не требующим знания правил словообразования (описание
которых только для английского языка составляет порядка 300 страниц) или наличия полной семантической
базы смысловых соответствий.
Сравнение словоформ проводилось по формуле:
Cij =
где
0 ≤ Cij ≤ 1
ti ∩ t j
Dmax
,
- оценка смыслового соответствия словоформ ti и tj,
Dmin = MIN (li , l j ) , Dmax = MAX (li , l j ) ,
Dmin
⎧⎪1, tik = t jk
ti ∩ t j = ∑ σ k , σ k = ⎨
k =1
⎪⎩0, tik ≠ t jk
li
- длина словоформы ti,
lj
- длина словоформы tj,
На завершающем этапе идентификации веб-сообщества получаются множество узлов и
соответствующие каждому узлу численные оценки, характеризующие его качество как члена сообщества.
После ранжирования на основе полученных оценок, узлы с очень низкими значениями можно отсеять, а
оставшиеся узлы в той или иной степени будут соответствовать тематике веб-сообщества. Увеличивая порог
П, можно получить малое, но более точное сообщество.
На рис. 1 приведён анализ качества идентифицированного “библиотечного” веб-сообщества на основе
экспертной оценки, в зависимости от устанавливаемого порога для численной оценки. Качество оценивалось
с помощью показателей полноты и точности.
В табл. 1 приведены ресурсы, которые использовались “зерновые”.
Таблица 1. Зерновые ресурсы для идентификации “библиотечного” веб-сообщества.
Зерновой ресурс
www.arbicon.ru
www.rba.ru
www.bookchamber.ru
www.biblio.vrn.ru
Описание
Ассоциация Региональных Библиотечных Консорциумов
Российская Библиотечная Ассоциация
Российская Книжная Палата
Информационные Ресурсы Библиотек г.Воронежа
Зависимость точности и полноты от порога П
100
90
80
70
%
60
Точность
50
Полнота
40
30
20
10
0
0
20
40
60
100
Порог П, %
Рис. 1. График зависимости точности и полноты сообщества от порога П (на основе экспертной
оценки) в масштабах КСС укрупнённой до доменов.
Download