Планы веб-поиска Q1-2005

advertisement
Тенденции развития
поисковых систем
Александр Садовский
1
Яндекс: что нового в 2005
Робот
– быстрый (8-10 раз в сутки, 20 млн. URL)
– кластеризация основного (скорость в 1,5
раза больше)
Поиск
– ранжирование коротких запросов
– колдовство по опечаткам
– yandex.ua (морфология, регион сайта)
Антиспам
– внедрен автоматический отлов
2
17.11.05
10.11.05
03.11.05
26.10.05
19.10.05
12.10.05
05.10.05
28.09.05
21.09.05
14.09.05
07.09.05
31.08.05
24.08.05
17.08.05
10.08.05
03.08.05
27.07.05
20.07.05
Яндекс: что нового в 2005
Качество поиска Яндекса (по данным асессоров)
16
15
14
13
12
11
3
Яндекс: что нового в 2005
Закрыто спамерских хостов (в неделю)
16000
14000
12000
10000
8000
6000
4000
2000
Вручную
09.11.05
26.10.05
12.10.05
28.09.05
14.09.05
31.08.05
17.08.05
03.08.05
20.07.05
0
Автоматически
4
Поиск революции в поиске
Принципы Web 2.0 и веб-поиск
– пользователи «улучшают» сервис:
исправление опечаток на основе запросов;
ИЦ; ссылки из блогов
– ценность уникальных данных: архивы
блогов, словари, архивы запросов
– «длинный хвост»: поиск, а не только
навигация; реклама по ключевым словам
– открытые API: Яндекс.XML, RSS поисковых
результатов в Новостях, Блогах
– есть развитие, но нет версий: обратная
связь от веб-мастеров и пользователей
5
Поиск революции в поиске
Борьба с мусором
– дубликаты и клоны: шинглы, лексические
сигнатуры, сниппеты
– технический мусор: высокая изменчивость
текстов и URL
Антиспам
–
–
–
–
статистический анализ текста
анализ распределения ссылок
обнаружение колец
TrustRank
6
Поиск революции в поиске
Извлечение фактов: первый шаг
– «Новости в лицах»
7
Яндекс: поиск революции
в поиске
Стимуляция исследований:
научные стипендии
– 252 заявки, 34 стипендии
– сборник «Интернет-математика-2005»
8
9
Download