Часть 4. Некоторые модели рационального поведения

advertisement
База данных внешних гиперссылок
http://grid.krc.karelia.ru/webometrics/login.php?action=login
Гостевой вход:
guest/guest
2 из 10
Задачи рационального поведения в Вебе
Присутствие целевых множеств в Вебе может быть значительно
улучшено как за счет увеличения количества взаимных гиперссылок,
так и за счет увеличения их связности с помощью сайтовкоммуникаторов.
Далее рассматриваются три задачи:
– задача расстановки гиперссылок в множестве сайтов, повышающая их
присутствие в Вебе с точки зрения поисковых машин,
– задача дележа затрат на создание веб-коммуникатора,
– задача об оценке полезности участия в множестве сайтов,
ссылающихся на один и тот же сайт-коммуникатор и имеющих
обратные гиперссылки с него.
3 из 10
Задача расстановки гиперссылок
n – количество сайтов-участников,
ci – значимость i-го сайта, ci>0, i=1..n,
X=(xij), i,j=1..n, xij=1, если существует ссылка от i-го сайта на j-й, xij=0, если нет.
c1
c2
x13
Значимость (Google, Яндекс):
– чем больше ссылок на ресурс, тем он «значимее»,
–
c3
–
c4
c5
чем больше значимость ресурса i, тем больше возрастает
значимость ресурса j, если xij=1,
чем больше исходящих ссылок от ресурса i, тем меньше
приращение значимости каждого ресурса j, для которого xij=1.
Зададим
n
xij
~
с j  c j  ∑ n ci 
i 1
∑xik
0<<1
k 1
mi – максимально возможное количество ссылок от i-го на другие сайты,
mi>0, i=1..n.
4 из 10
Задача 1:
Задача 2:
2
 n ~

c



k
n
k 1

F X   
 c~j   min
 n

xij
j 1




n
F  X   ∑c~j j → max
j 
(1)
xij
j 1
1
cj
xii = 0 , i = 1, n
xij = 0,1, i = 1, n , j = 1, n
n
∑x
ij
 mi , i = 1, n
(1’)
.................(2)
.................(3)
................(4)
j 1
n
∑xij ≥1, i = 1, n
j=1
Исследование (1’, 2-5):
Исследование (1-5):
xij
Замена y =
приводит к задаче линейного
ij
n
∑xik программирования
k= 1
для её решения
  верно
Y *  yij
*
n

*
x

y

xik

 i1
i1
k 1

 ...............
n

*
x

y

xik
 in

in
k

1

n
1  x  m
ik
i
 
k 1


Приближенный алгоритм: в*каждой строке i* матрицы
значение 1 получают те xij, для которых yij имеет
максимальное значение в этой строке.
.................(5)
Строится функция Лагранжа
2
 n ~

  ck

n
n
n
k 1


~
L( X ,  )  
 c j   i  (mi   xij )
 n

j 1
i 1
j 1




n
c j  ck     ( xrk  xrj )  cr
Находятся условия
r 1

n


r 1

t  max  2    ct  R  ci     xri  cr 
i
X*

Приближенный алгоритм: в каждой строке i выбирается
элемент t c наименьшим t и новым значением ci ,
наиболее близким к среднему по столбцу.
5 из 10
Апробация на данных Яндекса:
20 реальных сообществ, содержащих от 7 до 84 участников,
в качестве c~i , i = 1, n приняты значения тИЦ,
=0,85 (damping-factor - Brin, Page).
Сообщества с согласованным поведением:
• Сайты КарНЦ РАН,
• Министерства РФ,
• Баннерная сеть Ket.Ru,
• Религия. Православие,
• Целлюлозно-Бумажная Баннерная Сеть.
6 из 10
Задача о дележе затрат
Веб-граф G (T,E,W) – сильно связный со взвешенными дугами, веса wi≥1.
d(i,t) – длина кратчайшего пути из i в t,
∑d (i , t )
Критерий доступности сайта t на целевом множестве T : midd( t ) = i∈T ,i ≠t
1 с которого
Владельцы сайтов – игроки договорились создать веб-коммуникаторn -h,
обязательно будут сделаны гиперссылки c весом 1 на любой сайт из T и с
каждого сайта из T будет сделана гиперссылка на h, имеющая вес 1.
∑d i, t 
h
Тогда
midd h (t ) 
i∈T ,i ≠t
n -1
, middh(i)2.
h
Пример:
1
2
3
4
7 из 10
Z – стоимость сайта h, zi - взнос каждого игрока, Z 
∑z .
i
i∈T
Вопрос: каковы должны быть значения z1, z2, …, zn, справедливые (в некотором
смысле) для каждого игрока-владельца сайта целевого множества?
Коалиция S – (под)множество сайтов из T, участвующих в создании h, причем h будет
ссылаться только на участников коалиции, и только они будут ссылаться на
коммуникатор.
Характеристическая функция для i-го участника v(i) = midd(i)–middhS(i) рассчитывается с
учетом того, того что коммуникатор создается только для членов коалиции S,
middhS(i) - средняя длина пути в вершину i из всех других вершин коалиции S, кроме h и
её самой.
Решение основано на разделении платы пропорционально компонентам вектора Шепли,
строящемуся с учетом среднего вклада каждого участника в выигрыш гранд-коалиции,
z1, z2, …, zn делится пропорционально величинам
i

S - 1!n - S !
∑
(v( S ) - v( S \ 
i ))
n!
S⊆T
8 из 10
Взвешенный
веб-граф
КарНЦ РАН
Одинаковый:
Z={0.125, 0.125, 0.125, 0.125, 0.125, 0.125, 0.125, 0.125}
Кооперативный: Z={0.000, 0.105, 0.169, 0.129, 0.105, 0.153, 0.169, 0.169}
9 из 10
Задача об участии в сообществе динамического каталога (СДК)
Пользователи Веба
p0
0 (головной сайт)
pi
Каталог
ссылок
1
2
pi0
qj
Рядовые сайты
i
1-pi0
qjcat
k
k+1
n
1
n
Известны
qjcat – вероятность перехода с j-й позиции каталога,
q1cat ≥ q2cat ≥… ≥ qkcat, qk+1cat = qk+2cat =… qncat =0.
q0
Неизвестны:
qj - вероятность перехода на
любой рядовой сайт с j-й позиции
каталога.
pi - вероятность попадания пользователя на i-й сайт СДК,
pi0 - вероятность перехода с i-го рядового сайта на головной
сайт (вероятность того, что пользователь, попав на i-й
рядовой сайт, останется на нем, равна 1-pi0 );
q0 - вероятность того, что пользователь, попав на
головной сайт, останется на нем;
10 из 10
Обозначим
ij - вероятность нахождения ссылки i-го рядового сайта на j-й позиции в
каталоге,
n
∀i = 1, n : qi = ∑q cat
j  ij
Тогда
j=1
n
0
Fi  p0 (1 - q0 ) ∑q cat
j  ij - pi pi
Доход от участия в СДК для i-го сайта:
j 1
Для нахождения ij построена система n2+2n уравнений
n
n
j =1
j ≠i
j =1
j ≠i
 i , k -1 ∑ jk u j +  i , k +1 ∑ jk d j -  ik (
n
n
j=1
j ≠i
j=1
j ≠i
n
n
j =1
j ≠i
j =1
j ≠i
∑ j ,k -1d j - ∑ j ,k +1u j ) +
di (  i ,k -1 -  ik ) + ui (  i ,k +1 -  ik ) = 0
 i ,2 (ui + ∑ j1d j ) -  i1d i -  i1 ∑ j ,2 u j = 0
n
n
j=1
j ≠i
j=1
j ≠i
 i ,n 1 (d i + ∑ jn u j ) -  in u i - in ∑ j ,n-1d j = 0
Для случая двух рядовых сайтов достаточное условие выигрыша обоих участников
max{ p1 p10 , p2 p20 }
p0 >
(1 - q0 )q2cat
11 из 10
Некоторые результаты имитационного моделирования:
Тестовый пример
«Кольцо сайтов» LawDir
Download