Выявление и визуализация метрических структур на множествах пользователей и ресурсов Интернет В. А. Лексин, К. В. Воронцов, К. В. Рудаков (Москва) В последнее время всё больше компаний подробно протоколируют действия своих клиентов. Актуальной проблемой становится создание новых информационных технологий для эффективного извлечения полезных знаний из сырых данных о поведении клиентов. Технология анализа клиентских сред (АКС), разработанная в компании Форексис [1] — это цепочка процедур обработки данных, ведущая от исходного протокола действий клиентов к решению широкого спектра задач принятия решений, маркетинга и управления взаимоотношениями с клиентами (CRM). Технология АКС основана на понятии сходства. Клиенты схожи с точки зрения компании, если они пользуются схожим набором услуг. Услуги схожи, если ими пользуются схожие множества клиентов. Данное определение рекурсивно и приводит к паре согласованных метрик. Метрика на множестве клиентов позволяет решать задачи поиска схожих клиентов, сегментации клиентской базы, обнаружения необычного поведения клиентов. Метрика на множестве услуг позволяет структурировать ассортимент, находить сопутствующие услуги, автоматически генерировать для клиентов персональные предложения. Технология АКС универсальна и может применяться в торговых сетях, телекоммуникационных компаниях, библиотеках, электронных магазинах, и многих других сферах. В данном исследовании анализируется клиентская среда поисковой машины. Роль «услуг» играют ресурсы сети Интеренет, предлагаемые в качестве результатов поиска. Клиентами являются пользователи поисковой машины. Пользование услугой — это переход клиента со страницы результатов поиска на соответствующий ресурс. Исходными данными являются протоколы переходов пользователей. Протоколы, предоставленные компанией Яндекс, охватывали 7 дней, по 5–10 миллионов запросов в день. Для каждого запроса в протоколе фиксировался уникальный идентификатор пользователя, список выданных документов и время обращения пользователя к выбранным документам. Основной вопрос, возникающий на начальном этапе анализа — что считать ресурсом? Неправильно было бы считать ресурсами отдельные документы, поскольку число заходов на них невелико, и оценки сходства для них вряд ли будут информативными. Ресурсом может быть доменное имя, однако не всегда, поскольку внутри домена часто находятся сайты различной тематики. Предлагается каждый сайт представлять в виде дерева каталогов и рассматривать в качестве ресурсов только достаточно посещаемые узлы дерева. Для пользователей также выставляется порог минимального числа посещений. После фильтрации ресурсов и пользователей строится частотная матрица, содержащая количество посещений каждого ресурса каждым пользователем. Затем по этой матрице вычисляются попарные расстояния между ресурсами и между пользователями. Оценка сходства ресурсов основывается на проверке статистической гипотезы о независимости посещений. Пусть i-й и j-й ресурсы посещались ni и n j пользователями соответственно. Пусть nij пользователей посетили оба ресурса. Если значение nij настолько велико, что вероятность его реализации Pij < a при заданном достаточно малом уровне значимости a , то можно полагать, что экспериментальные данные противоречат гипотезе независимости. Посещения данной пары ресурсов статистически взаимосвязаны, следовательно, эти ресурсы схожи. Если же Pij > a , то наблюдаемое распределение посещений (ni , n j , nij ) вполне могло реализоваться чисто случайно, и ресурсы нельзя считать схожими. Тогда значение Pij является неинформативным шумом, и можно полагать, что информация о сходстве данной пары ресурсов вообще отсутствует. Расстояние между ресурсами определяется как r (i , j ) = m ( Pij ) , где m — монотонно возрастающая функция, подбираемая эмпирическим путём. Аналогично строится матрица расстояний между пользователями, причём обе матрицы оказываются сильно разреженными. Разреженность является полезным свойством, так как позволяет строить эффективные алгоритмы, основанные на анализе локальных окрестностей в метрических пространствах ресурсов и пользователей. Дальнейший анализ может идти несколькими путями, в зависимости от содержательной постановки прикладных задач. Задача визуализации множества ресурсов в виде карты сходства решается специальными иерархическими методами многомерного шкалирования [2]. На Рис. 1 приведена карта сходства 1024 ресурсов. Чем более схожи ресурсы, тем ближе соответствующие им точки на карте. Несмотря на неизбежные искажения расстояний, возникающие при построении карт сходства, в целом они неплохо отражают тематическую кластерную структуру множества ресурсов. Плотные группы точек на карте практически всегда удается интерпретировать как сайты схожей тематики (на рисунке отмечены лишь некоторые группы точек). В окрестности заданного множества ресурсов можно построить локальную карту сходства, включающую только близкие к ним ресурсы. Локальные карты менее подвержены искажениям и гораздо быстрее строятся, так как содержат меньшее количество точек. Одно из возможных практических применений — автоматическая генерация карты схожих сайтов для традиционного раздела полезных ссылок «Links». Все ресурсы 0.75 0.70 игры 0.65 медицина 0.60 0.55 0.50 0.45 0.40 0.35 музыка 0.30 0.25 0.20 0.15 0.10 0.05 0.00 -0.05 бизнес -0.10 -0.15 -0.20 -0.25 -0.30 -0.35 -0.40 -0.45 -0.50 -0.55 рефераты -0.60 сотовая связь -0.65 -0.70 -0.75 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Все ресурсы 100% 97% 92% 87% 81% 76% 70% 65% 59% 54% 49% 43% 38% 32% 27% 21% 16% 11% 0% Рис. 1. Карта сходства всех ресурсов. Карта сходства для пользователя №5520 музыка рефераты music.mycom.ru/music.php music.mycom.ru www.bankreferatov.net/m.php www.bankreferatov.net www.igromania.ru astalavista.thebugs.us софт игры Рис. 3. Карта сходства ресурсов, предлагаемых конкретному пользователю. На Рис 2. показана локальная карта сходства с персональным предложением ресурсов для одного из пользователей. Данный пользователь посещал сайты по четырем темам: музыка, рефераты, компьютерные игры, бесплатный софт. Соответствующим образом выстроилось и персональное предложение. Карты сходства можно рассматривать как новое оригинальное средство навигации в сети Интернет. Функция интерактивного масштабирования позволяет детально исследовать отдельные группы точек. Наделить точки возможностью перехода по ссылке также не составляет никакого труда. Наличие метрики на множестве пользователей позволяет оценивать полезность любого ресурса для любого пользователя. Одно из возможных применений этих оценок — персонализация результатов поиска. Идея заключается в том, чтобы ранжировать документы, выданные в результате поиска, по их популярности среди схожих пользователей, а не среди всех пользователей Интернета. Работа выполнена при поддержке ООО «Яндекс», www.yandex.ru. Литература 1. Технология анализа клиентских сред. http://www.forecsys.ru/cea.php. Форексис. 2005. 2. Воронцов К. В., Вальков А. С. О быстрых алгоритмах синтеза плоских представлений метрических конфигураций. Искусственный Интеллект, Донецк, 2004. №2 с.43–48.