Лекция №6 Поведенческое ранжирование Евгений Чернов Поведенческое ранжирование 2 Где брать данные • Логи фронтэндов логи запросов логи показов логи кликов • Счетчики, лайки и т.п. лог переходов <from> - <to> 3 Применение 1.Вычисление релевантности 2.Борьба со спама 3.Словари и языковые модели 4.Переформулировки запросов 5.Поисковые подсказки 6.Исправление опечаток 7.… 4 Как интерпретировать клик? 5 Как интерпретировать клик? Нужна модель поведения пользователя! 6 Поисковая сессия 1. Запрос + его свойства 2. Выдача по запросу (возможны подмесы) 3. Клики пользователя (позиция + время) мгу: 7 Обработка сессий Модель Статистика Статистика для каждого документа: show – сколько раз документ был показан clicks – сколько раз на документ кликнули sessions – сколько всего сессий по запросу было 8 Примитивная модель: CTR (Click-Through Rate) Чем больше у документа кликов, тем он лучше 𝑟𝑑(𝑖) 𝑐𝑙𝑖𝑐𝑘𝑠𝑖 = 𝐶𝑇𝑅𝑖 = 𝑠ℎ𝑜𝑤𝑖 Может ли быть такое, что плохой документ имеет больше кликов, чем хороший? 9 10 Пример: CTR Ниссан Показов Кликов CTR http://nissan.ru/ 4921 3167 0,64 http://major-nissan.ru/ 1498 486 0,32 http://ru.wikipedia.org/wiki/Nissan 3959 83 0,021 images 4870 177 0,024 http://genser.ru/autos/nissan 1055 115 0,11 http://cars.mail.ru/dealers/msk/nissan 4314 133 0,031 http://nissan.kz/ 1069 76 0,071 http://nissan.ua/ 190 115 0,61 11 Как пользователь смотрит / кликает? 12 Позиционный базис Гипотеза: Порядок расположения документов влияет на просмотр документов, но не влияет на клики. Probability of Click 60% Более релевантный 50% 40% 30% 20% 10% 0% 1 normal 2 1swapped 2 Естественный Поменяли Пользователи склонны доверять порядок местами 2 поисковику результатов в и чаще кликают на документы, результата выдаче стоящие выше в выдаче → [Joachims et al. 2005, 2007] 13 Baseline Model Examination Hypothesis: Pr 𝐶𝑖 = 1 = Pr 𝐶𝑖 = 1 𝐸𝑖 = 1 Pr 𝐸𝑖 = 1 Baseline model: Pr 𝐶𝑖 = 1 = 𝑟𝑑(𝑖) 𝛼𝑖 где 𝑟𝑑(𝑖) - релевантность документа на позиции i 𝛼𝑖 = Pr 𝐸𝑖 = 1 - коэффициент позиционного базиса 𝑟𝑑(𝑖) = 𝑃𝑟 𝐶𝑖 = 1 𝛼𝑖 = 𝑐𝑙𝑖𝑐𝑘𝑠𝑖 𝑠ℎ𝑜𝑤𝑖 ∗ 𝛼𝑖 14 Baseline Model: распределение α 0,45 0,40 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0,00 1 2 3 4 5 6 7 8 9 10 15 Пример: Baseline Model Ниссан Показы Клики Позиц ия http://nissan.ru/ 4921 3167 1,25 0,64 1,82 http://major-nissan.ru/ 1498 486 3,06 0,32 2,9 http://ru.wikipedia.org/wiki/Nissan 3959 83 6,83 0,021 0,52 images 4870 177 8,13 0,024 0,8 http://genser.ru/autos/nissan 1055 115 6,48 0,11 2,44 http://cars.mail.ru/dealers/msk/nis 4314 san 133 4,99 0,031 0,51 http://nissan.kz/ 1069 76 7,76 0,071 2,36 http://nissan.ua/ 190 115 2,82 0,61 5,08 CTR Rel 16 Cascade model Cascade Hypothesis: Pr 𝐸1 = 1 = 1 Pr 𝐸𝑖 = 1 𝐸𝑖−1 = 0 = 0 Cascade Model: Pr 𝐸𝑖 = 1 𝐸𝑖−1 = 1 = 1 − 𝐶𝑖−1 17 Пример: Cascade Model Ниссан Показы Клики Просм отры http://nissan.ru/ 4921 3167 4688 http://major-nissan.ru/ 1498 486 http://ru.wikipedia.org/wiki/ 3959 Nissan images CTR Base Casca de 0,64 1,82 0,68 681 0,32 2,9 0,71 83 566 0,021 0,52 0,15 4870 177 520 0,024 0,8 0,23 http://genser.ru/autos/niss an 1055 115 166 0,11 2,44 0,69 http://cars.mail.ru/dealers/ msk/nissan 4314 133 880 0,031 0,51 0,15 http://nissan.kz/ 1069 76 167 0,071 2,36 0,45 http://nissan.ua/ 190 115 151 0,61 5,08 0,76 18 Dependent Click model (DCM) Pr 𝐸𝑖 = 1 𝐸𝑖−1 = 1, 𝐶𝑖−1 = 1 = 𝜆𝑖 Pr 𝐸𝑖 = 1 𝐸𝑖−1 = 1, 𝐶𝑖−1 = 0 = 1 19 User Browsing Model (UBM) Pr 𝐸1 = 1 = 𝛼1 Pr 𝐸𝑖 = 1 𝐶1:𝑖−1 = 𝛼𝑖 𝛽𝑖,𝑝(𝑖) где 𝛼𝑖 = Pr 𝐸𝑖 = 1 𝑝 𝑖 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑙<𝑖 {𝐶𝑙 = 1} 20 User Browsing Model : распределение α Априорное распределение кликов 0,45 0,40 0,35 0,30 0,25 Без кликов 0,20 После клика в 1 Послке клика в 2 0,15 0,10 0,05 0,00 1 2 3 4 5 6 7 8 9 10 Чему равно 𝛽3,2 ? 21 Click Chain Model (CCM) Обобщение DCM: Pr 𝐸𝑖 = 1 𝐸𝑖−1 = 1, 𝐶𝑖−1 = 0 = 𝛼1 Pr 𝐸𝑖 = 1 𝐸𝑖−1 = 1, 𝐶𝑖−1 = 1 = 𝛼2 1 − 𝑟𝑑 𝑖−1 + 𝛼3 𝑟𝑑(𝑖−1) При 𝛼2 = 𝛼3 = 0, 𝛼1 = 1 получаем Cascade Model При 𝛼2 = 𝛼3 = 𝜆𝑖 , 𝛼1 = 1 получаем DCM 22 General Click Model (GCM) Pr 𝐸𝑖 = 1 𝐸𝑖−1 = 1, 𝐶𝑖−1 = 0 = Π 𝐴𝑖 > 0 Pr 𝐸𝑖 = 1 𝐸𝑖−1 = 1, 𝐶𝑖−1 = 1 = Π(𝐵𝑖 > 0) Pr 𝐶𝑖 = 1 𝐸𝑖 = 1 = Π(𝑟𝑑(𝑖) > 0) Все предыдущие модели – частный случай GCM при соответствующем выборе случайных величин 𝐴𝑖 , 𝐵𝑖 , 𝑟𝑑(𝑖) 23 Constant Relevance Assumption Релевантность документа не зависит от пользователя и времени появления запроса, т.е. не зависит от кликов в другие документы: Pr 𝐶𝑖 = 1 𝐸𝑖 = 1, 𝐶1:𝑖−1 = Pr 𝐶𝑖 = 1|𝐸𝑖 = 1 Разделим понятия релевантности на: • Средняя релевантность • Мгновенная релевантность 24 Pure Relevance Model Полагаем Constant Relevance Assumption неверным, тогда Pr 𝐸𝑖 = 1 𝐶≠𝑖 = Pr 𝐸𝑖 = 1 = 𝛼𝑖 Pr 𝐶𝑖 = 1 𝐶≠𝑖 , 𝐸𝑖 = 1 = 𝑟𝑑(𝑖) 𝛿𝜂(𝑖) где • 𝜂𝑖 = 𝑘≠𝑖 𝐶𝑖 - число кликов в позицию не I • 𝛿𝜂(𝑖) - корректирующий фактор для мгновенной релевантности Pr 𝐶𝑖 = 1 𝐶≠𝑖 ) = Pr 𝐸𝑖 = 1 Pr 𝐶𝑖 = 1 𝐶≠𝑖 , 𝐸𝑖 = 1 = 𝛼𝑖 𝑟𝑑(𝑖) 𝛿𝜂(𝑖) 25 Априорное распределение кликов 0,70 0,60 0,50 0,40 1 Клик 0,30 2 Клика 3 Клика 0,20 0,10 0,00 1 2 3 4 5 6 7 8 9 10 26 Max-examination Model UBM использует информацию о кликах выше i: Pr 𝐸𝑖 = 1 𝐶1:𝑖−1 = 𝛼𝑖 𝛽𝑖,𝑝(𝑖) Но клики ниже несут еще больше информации! Пусть: 𝑝 𝑖 если нет клика ниже 𝑖 𝑒 𝑖 = 𝑖 + 1 если есть клик ниже 𝑖 Pr 𝐸𝑖 = 1 𝐶≠𝑖 = 𝛼𝑖 𝛾𝑖,𝑒(𝑖) Pr 𝐶𝑖 = 1 𝐶≠𝑖 = 𝛼𝑖 𝛾𝑖,𝑒(𝑖) 𝑟𝑑(𝑖) 27 Joint Relevance Examination Model (JRE) JRE = Pure Relevance Model + Max-examination Model Pr 𝐶𝑖 = 1 𝐶≠𝑖 = Pr 𝐸𝑖 = 1 𝐶≠𝑖 Pr 𝐶𝑖 = 1 𝐶≠𝑖 , 𝐸𝑖 = 1 = 𝛼𝑖 𝛾𝑖,𝑒(𝑖) 𝑟𝑑(𝑖) 𝛿𝜂(𝑖) 28 Пример: JRE Ниссан Показы Клики CTR Base Cascade JRE http://nissan.ru/ 4921 3167 0,64 1,82 0,68 0,23 http://major-nissan.ru/ 1498 486 0,32 2,9 0,71 0,34 http://ru.wikipedia.org/ wiki/Nissan 3959 83 0,021 0,52 0,15 0,11 images 4870 177 0,024 0,8 0,23 http://genser.ru/autos/ni 1055 ssan 115 0,11 2,44 0,69 0,39 http://cars.mail.ru/deale 4314 rs/msk/nissan 133 0,031 0,51 0,15 0,09 http://nissan.kz/ 1069 76 0,071 2,36 0,45 0,39 http://nissan.ua/ 190 115 0,61 5,08 0,76 0,91 29 Сравнение моделей 30 Привлекательность vs релевантность • Предыдущие модели оценивали релевантность, как “привлекательность”: Pr 𝐶𝑖 = 1 • Эта релевантность сильно зависит от сниппета • Истинная “релевантность” может быть оценена по удовлетворенности пользователем документа привлекательность: 14% удовлетворяемость: 95% привлекательность: 70% удовлетворяемость: 15% 31 Dynamic Bayesian Network [Chapelle+, A Dynamic Bayesian Network Click Model for Web Search Ranking] 32 Dynamic Bayesian Network Применяем EM-алгоритм 33 Dynamic Bayesian Network 34 Dynamic Bayesian Network 35 Dynamic Bayesian Network 36 Пример: DBN Ниссан Привлекат ельность Удовлетво ряемость DBN http://nissan.ru/ 0,68 0,83 0,56 http://majornissan.ru/ 0,71 0,75 http://ru.wikipedia.or g/wiki/Nissan 0,15 images CTR Base JRE 0,64 1,82 0,23 0,53 0,32 2,9 0,34 0,75 0,11 0,021 0,52 0,11 0,23 0,77 0,26 0,024 0,8 http://genser.ru/auto s/nissan 0,69 0,64 0,44 0,11 2,44 0,39 http://cars.mail.ru/de alers/msk/nissan 0,15 0,58 0,08 0,031 0,51 0,09 http://nissan.kz/ 0,45 0,80 0,36 0,071 2,36 0,39 http://nissan.ua/ 0,76 0,81 0,61 0,61 5,08 0,91 37 Dynamic Bayesian Network [погода] Санкт-Петербург • http://www.gismeteo.ru/city/daily/4079/ = 0,71 • weather – 0,29 (0,36 * 0,86) • http://ru.wikipedia.ru/Климат = 0,01 • http://meteoprog.ua/ru/weather/Kyiv = 0,03 38 DBN: многозначные запросы 39 Ягуар Привлекате льность Удовлетворя емость DBN http://jaguar.ru/ 0,34 0,891 0,30 http://jaguar.com/ru/ru 0,28 0,893 0,25 http://ru.wikipedia.org/Ягуар 0,54 0,892 0,48 images 0,932 0,34 0,36 40 Dynamic Bayesian Network 1.Проблемы с многозначными запросами 2.Порно по нормальным запросам? 3.Что если все 10 документов плохи? 4.Как учесть переформулировки? 5.«Сглаживание» информации –Q1 -> D1 –Q1 -> D2 –Q2 -> D2 –Q2 ??? D1 41 Сглаживание поведенческих данных гдз по математике 6 класс зубарева мордкович учебник гдз по математике гдз по математике 6 класс учебник зубарева мордкович 6 класс учебник по математике зубарева гдз зубарева мордкович 6 класс гдз 6 класс математика 11158 11974 169 17 2089 6036 42 Сглаживание поведенческих данных Используем двудольный граф: терм - документ 43 Heuristic Retrieval Model 𝑛(𝑑𝑖 ) – число термов, связанных с 𝑑𝑖 𝑛 𝑑𝑖 - среднее число термов, связанных с документом 𝑛(𝑡𝑗 ) – число документов, связанных с термом 𝑡𝑗 𝜆 = 0,5 𝛽 = 0,75 – коэффициенты сглаживания 𝑁𝑑 - число документов 44 Heuristic Retrieval Model Для нового запроса 𝑞 = {𝑡1 , … , 𝑡𝑘 }: 𝑛(𝑡𝑗 ) – число запросов, связанных с 𝑡𝑗 𝑁𝑞 - общее число запросов 45 Probabilistic Retrieval Model 46 Random-Walk Extension Mining the Search Trails of Surfing Crowds: Identifying Relevant Websites From User Activity 47 Сравнение алгоритмов сглаживания 48 Factorization Machine 49 Энергетический чистильщик треша http://zavit-ok.ru/kak-udalit-volosy-iz-nosa удаление волос из носа http://galya.ru/clubs/show.php?id=341051 почему растут волосы в носу http://moscow-faq.ru/all_question/house/2009/April/17294 машинка для удаления волос из носа http://woman.ru/beauty/face/thread/4069958 как убрать волосы в носу http://smallbox.ru/udalenie-volos-iz-nosa-ushej.html как удалить волосы в носу http://medeffect.ru/news/news-0086.shtml зачем волосы в носу http://hairlike.ru/strijka_volos_v_nosu.php стрижка волос в носу http://stylish-lady.ru/face/45.html как убрать волосы в носу http://stylish-lady.ru/face/45.html как избавиться от волос в носу http://bolshoyvopros.ru/questions/45076-kak-bez-boli-udalit-volosy-v-nosu.html как удалить волосы в носу http://revline.ru/catalog/tovar/343 триммер для носа и http://medcanal.ru/topic86407.html почему растут волосы в http://bolshoyvopros.ru/questions/22485-dlja-chego-v-nosu-volosy.html волосы в носу ушей носу для чего 50 ClickRank PageRank – подобный алгоритм -Оцениваем вероятность посещения страницы по графу переходов 51 BrowseRank: Сессии Событие: {Cookie, timestamp, URL, referral URL, attribute} События объединяются в сессию: 1. По пользователю 2. referral URL(i) = URL(i-1) 3. Время неактивности не должно превышать порог (30 мин.) 52 BrowseRank: Сессии • • • • Среднее число событий в сессии: 9.1 Средняя продолжительность сессии: 420,3 с Среднее число сессий на пользователя в день: 15,5 Процент поисковых сессий: 4,85% 53 Browse Rank 𝑡𝑑 - суммарное время просмотра страницы 𝑡𝑙 - суммарное время загрузки страницы 54 Browser Rank 55 Eye tracking 56 Eye tracking 57 Eye tracking 58 59 Eye Tracking для дизайна своего сайта 60 Отмечайтесь и оставляйте отзыв Спасибо за внимание! Евгений Чернов [email protected] Практика Реализовать алгоритм DBN для сессий: https://cloud.mail.ru/public/AZEX/NbXovqWK7 На основе полученной статистики получить следующее: 1. Выдача по запросу “погода” 2. Выдача по запросу “погода” из Санкт-Петербурга (107) 3. Найти запрос и документ (>5 сессий): a) С самым большим ранком b) С самой низкой привлекательностью c) С самым большим отношением привлекательности к удовлетворяемости d) С самым маленьким отношением привлекательности к удовлетворяемости