Обзор поисковых систем

advertisement
Содержание темы
Основные службы ИНТЕРНЕТ
Поиск информации в WWW
Поисковые каталоги (Yahoo!, List.ru)
Поисковые указатели (Alta Vista, Yandex)
Метапоисковые системы (Google,Webcrawler)
Рейтинговые системы (Hit Box, Rambler)
Поиск информации в FTP (LFS, Filesearch)
Бизнес в ИНТЕРНЕТЕ
Основные службы ИНТЕРНЕТ
World Wide Web («Всемирная паутина») –
самая популярная служба Интернет.
Сокращенно ее называют WWW.
File Transfer Protocol
(«Служба передачи файлов») используется:
для приема из Интернета программ и данных,
2) для отправки через Интернет своих файлов.
1)
Специальные поисковые службы WWW помогают
найти гиперссылку на необходимый нам документ.
Поисковый указатель. Пользователь формирует запрос с
помощью ключевых слов, выражающих объект его поиска,
а поисковая система выдает ему список ссылок
на Web-страницы, содержащие данные ключевые слова.
Поисковый каталог. Похож на предметный каталог
библиотеки. На начальной странице выбираем тему,
которая нас интересует, затем в рамках этой темы выбираем
категорию, потом подкатегорию и т.д. пока не получим
конкретный список Web-ресурсов рекомендованных
для просмотра.
Поисковые каталоги (ПК)
• ПК Yahoo!
• ПК Open Directory
• Российский ПК List.ru
• ПК Виртуальная
библиотека
• Каталог российских
Web-серверов Weblist
http://www.yahoo.com
Yahoo! – одна из старейших и наиболее популярных
поисковых служб. На нее работает более 200 редакторов,
неустанно улучшающих и пополняющих множество
тематических разделов. Если поиск по собственному каталогу
не дает результата, привлекаются ресурсы поискового
указателя Inktomi. Более 1,5 млн. ссылок.
Open Directory
http://www.dmoz.org
Общественный проект по каталогизации Web-ресурсов.
На добровольной основе объединяет редакторов многих
стран мира. Имеет более 4 млн. ссылок,
но уступает по качеству Yahoo!
www.list.ru
Крупнейший в России поисковый каталог.
Работает в системе портала www.mail.ru
Виртуальная библиотека
В каталогах «виртуальной библиотеки» содержатся адреса
онлайновых журналов, газет и других периодических
онлайновых изданий. Этот сервер может заинтересовать
всех, кто пристально следит за последними событиями в
науке, культуре, бизнесе, экономике и политике.
www.weblist.ru
Weblist, система разработанная компанией "МАРК-ИТТ" из Ижевска, это
обширная база данных о сайтах российского Интернета. Сведения вносят сами
создатели сайтов с помощью интерактивной формы, а затем могут самостоятельно
редактировать данные о своих ресурсах, введя свой пароль. При получении
данных о серверах предусмотрены возможности: поиска по ключевым словам в
адресах и описаниях документов, а также сортировки по тематике,
месторасположению и названию сервера.
Поисковые указатели (ПУ)
• Принцип работы ПУ
• Приемы поиска в ПУ
• ПУ Alta Vista, Lycos,
• Fast Search
• Российский ПУ
Yandex
Принцип работы ПУ
1. Сбор информации поисковыми роботами.
ПУ с помощью специальных агентских программ
формирует информационные ресурсы.
2. Индексация ресурсов.
ПУ преобразует собранные данные в удобные для
быстрого просмотра формы (поисковые индексы).
3. Исполнения запроса клиента.
ПУ на основе ключевых слов производит поиск
совпадений с содержимым поисковых индексов и
формирует результирующий список.
Некоторые приемы
поиска в ПУ
Контекстный поиск: “ “
В случае использования кавычек ПУ разыскивает
документы, в которых абсолютно точно есть
тот текст, который в них заключен.
Команда OR
Позволяет находить документы, которые содержат
любые из указанных ключевых слов (любая комбинация).
Команда AND (+)
Позволяет находить документы, которые содержат
одновременно все ключевые слова.
Команда NOT (-)
Устанавливает исключения из результатов поиска
Основные критерии оценки
поисковых служб:
Объем базы данных сетевых ресурсов
Релеватность выводимых результатов
(релевантные = подходящие документы)
Удобство и простота интерфейса
Наличие дополнительных возможностей для
поиска информации (по дате, размеру, месторасположению сервера, языку и т.д.)
Alta Vista
http://www.altavista.com
Alta Vista («вид сверху») — торговая марка популярной
поисковой машины. Сегодня база данных AltaVista является самой
крупной в Интернете. Помимо разветвленных средств поиска
текстовой информации содержит такие инструменты, как Photo
Finder – поиск изображений, технологию онлайнового перевода
документов и возможность индексирования на нескольких языках. В
сотрудничестве с компанией AskJeeves (http://www.askjeeves.com/)
AltaVista разработала базу данных, управляемую при помощи
команд на поддерживаемых языках.
Автоматическая форма
расширенного поиска
Alta Vista
Есть возможность выбрать язык для запроса, а также дату, тип
документа. Можно использовать операторы и синтаксис запросов.
Lycos
http://www.lycos.com
Поисковая система Lycos (волкопаук) специализируется в
сфере Интернет-торговли. На сайте есть обширные руководства для
покупателей в США (от книг и компакт-дисков до автомобилей и
квартир). База данных регулярно пополняется. Партнеры и
рекламодатели Lycos работают в самых разнообразных областях
бизнеса и предлагают широкий спектр товаров и услуг, а также
разнообразные ссылки на сайты по электронной коммерции.
Кроме универсальной поисковой системы этот портал
обладает мощнейшим специализированным каталогом
“WhoWhere”, содержащим персональную информацию о
зарегистрированных пользователях Интернета. Налицо
гибридность системы: каталог + указатель.
Русский Lycos использует поисковик, разработанный своим давним
партнером – норвежской компанией FAST Searsh & Transfer.
В настоящее время он используется в 14 европейских странах,
а всего с ним работает больше 4-х десятков порталов.
FAST Searsh & Transfer имеет и собственный сайт – http://www.alltheweb.com
FAST SEARCH
http://www.alltheweb.com
Данная служба
поддерживает 36 различных
языков, включая такие как
арабский, китайский,
японский, тайский и др.
Fast Search имеет около
1 млрд. страниц, 10 млн.
документов формата PDF
и MS Word.
Alltheweb адаптировала
поиск к особенностям
русского языка. Была
разработана технология
«лемматизации»разложения сложных слов
на простые формы.
Такого не делала ни одна
поисковая машина.
Yandex (Яндекс)
http://www.yandex.ru
Российская система Яндекс — мощная поисковая
служба, основанная на указателе, обладающая как большой
и представительной базой данных по отечественным Webресурсам, так и уникальной системой индексации. По набору
своих поисковых возможностей она не уступает самым
сложным поисковым машинам Запада.
Предоставляет уникальные инструменты,
сосредоточенные в разделе расширенного поиска.
Расширенный поиск Яндекса
В этой форме можно выбрать язык, дату публикации документа,
формат файла, расстояние между словами и т.д. Кроме этого поисковая
система Яндекса учитывает морфология русского языка,
т.е. особенности словообразования (напр., шёлидтиушёли т.д.)
Метапоисковые системы
Системы, принимающие от пользователя запрос,
размещают его сразу на нескольких поисковых системах.
Затем поступившая информация собирается, обобщается ,
структурируется и передается клиенту.
• Google!
• MetaCrawler
В наши дни крупные многие поисковые системы начали
заниматься подобным поиском самостоятельно, привлекая
ресурсы коллег на взаимовыгодной основе.
http://www.google.com
8 058 044 651
количество проиндексированных ресурсов на сегодня
Google! – одна из самых прогрессирующих метапоисковых систем
в Cети. Использует индекс цитирования, т.е. количество упоминаний
адреса Web-документа в других источниках влияет на рейтинг ресурса.
Самым сильным звеном Google оказалась его
рейтинговая система RageRank.
«Гугол – это
Дополнительные услуги Google!
 кэширование индексированных страниц
число 1
 использование оплаченных ссылок (sponsored links) со ста
и управляемых результатов поиска (editorial results)
нулями…»
Для реализации последнего работает программа AdWords, благодаря которой
рекламодатели покупают некоторые слова, используемые чаще всего
пользователем при поиске. Пример:
Имеет российский аналог www.google.ru
MetaCrawler
http://www.metacrawler.com
MetaCrawler
Метапоисковая система MetaCrawler вначале производит
поиск необходимой информации по базам данных других систем, а
затем, используя собственный алгоритм, анализирует и сортирует
полученные ссылки, ищет похожие, определяет рейтинг и выдает
результат клиенту.
Другие услуги MetaCrawler:
возможность расширенного поиска, интересное приложение
MiniCrawler для поиска информации в Сети в обход сайта
компании, программа MetaSpy, позволяющая вести наблюдение за
ключевыми словами в системе MetaCrawler. По данным различных
информационных агентств, MetaCrawler в последнее время входит в
десятку лучших метапоисковых систем в Сети.
Рейтинговые системы (РС)
На сервере рейтинговой службы создаются тематические
списки ссылок на наиболее популярные Web-ресурсы.
Представительность этих списков велика, поскольку именно
эти ссылки предпочитают большинство клиентов Сети.
Счетчик службы отслеживает каждое посещение ресурса.
С помощью РС осуществляется поиск по рекомендациям.
Webside Story
Rambler
http://www.hitbox.com
HitBox -- некий аналог Топ-100 Рамблера, за исключением того, что сайты-участники
публично не соревнуются между собой. Во всяком случае, эта информация не афишируется.
Поместив код счетчика на своей странице, Web-мастер получает в руки мощный
статистический инструмент, позволяющий отслеживать посещаемость, скорость загрузки
страницы, частоту создания закладок посетителями и т.д. Эта информация используется и
для определения рейтингов качества и популярности. Кроме того, HitBox позволяет узнать,
поддерживают ли Web-браузеры посетителей функцию cookies, какое разрешение экрана у
них установлено, инсталлированы ли у них Java-модули и т.д.
Rambler
http://www.rambler.ru
Одна из самых популярных российских ПС. Позволяет быстро выявить
круг Web-узлов, поставляющих информацию на заданную тему и
оценить их популярность по количеству посещений
за последние сутки. Наряду с поиcком по указателю, есть возможность
использовать поиск по каталогу.
Поиск информации
с использованием
протокола FTP
Принципиальным отличием поиска файлов от поиска
информации в WWW является то, что мы ищем ресурс по
названию файла.
Lycos FTP Search
(www.lycos.ftpsearch.com).
Осуществляет поиск файлов на FTP-серверах и содержит
одну из самых крупных подобных баз данных в мире
(около 100 млн. файлов).
FileSearch.ru
(www.filesearch.ru).
Крупнейшая FTP ПС в России.
http://www.filez.com
Filez.com - поисковая система по более, чем 75
миллионам файлов на FTP-серверах!
Имеет дружественный интерфейс для работы клиентов, нет ограничений на
размер файлов, на используемое программное обеспечение.
Пример коммерческого использования
FTP-службы среди ее клиентов
Услуга уральских провайдеров:
www.p4p.ru
Любой из пользователей сети
может зарегистрировать в
Провайдер поощряет пиринг
каталоге
между своими клиентами.
несколько директорий со своего ПК
и открыть к ним доступ через FTP-сервер.
Если другие абоненты будут скачивать из этих директорий
файлы, то владельцу компьютера интернет-компания
начислит 5 копеек за каждый мегабайт информации, а со
счетов «качальщиков» спишет за тот же мегабайт 20 копеек.
Это называется ПИРИНГОМ между владельцами ПК.
В данной сети есть несколько связанных сегментов (до 200
абонентов городского микрорайона, соседние дома).
Внутри данного сегмента трафик бесплатный,
а между сегментами - платный.
Бизнес в Internet.
Некоторые направления деятельности
• Провайдинг (ISP) - обеспечение подключений к сети , доступ
к основным услугам Интернет и сопровождение клиентов. Требует
больших вложений в быстро устаревающее оборудование. Однако
это один из самых прибыльных видов коммерческой деятельности.
• Создание, дизайн, поддержка и размещение (hosting) серверов
WWW (доходы варьируются).

• Контент-провайдинг -создание популярных сетевых ресурсов со
взиманием платы за доступ к ним (или ресурсов с продажей рекламы
по мере возрастания трафика). Один из доходов - лицензирование
информации для размещения на других серверах (C|Net, Meckler Media).
• Разработка программного обеспечения и технологий
с последующей широкой продажей или лицензированием.

Бизнес в Internet
(продолжение…)
• Создание сетевых сервисов повышенного спроса с взиманием средств
за пользование или с привлечением рекламодателей и спонсоров,
если услуга оказалась популярной (службы сетевой саморекламы –
Yahoo, Lycos, USA.Net, GeoCities, Submit-It…).
• Создание магазинов или маркет-систем (Amazon.com, пирамидальные
схемы MLM и. д.)
• Учреждение рекламных сетей, распределение рекламы по сайтам,
участвующим в общей схеме. Учредители взимают комиссию за каждое
размещенное объявление (Commonwealth, Internet Link Exchange,…)
Коммерческие приемы поисковых серверов:
Использование баннеров, рекламных объявлений и
размещение платных ссылок на сайты.
После проведения поиска информации, выдается ограниченное
количество ссылок бесплатно. Чтобы получить остальные, нужно
заплатить дополнительно.

Формирование рейтинга за плату: чем больше ставка, предложенная
рекламодателем за размещение материала, тем ближе к началу
результирующего списка располагается ссылка и выдается клиенту.
НАПРИМЕР:
Система поддерживает несколько
языков, включая китайский…
Ведущие порталы (Yahoo, AOL, EarthLink
используют у себя поисковик Google.)
Если вы набираете слово
GO
PICASSO
то появляется окно “Sponsored Links” .
Размещение этих (оплаченных) ссылок
полностью зависит от пользователей:
какая из них окажется более популярной,
тот ресурс и поднимется вверх по списку.
Picasso и его творчество.
Жизнь и искусство.
Picasso.
Выставки художников XX
века. Picasso, Dali, …
…….
При этом оплачивается не какая-то постоянная
сумма, а количество кликов.
Аналогичная модель COST-PER-CLICK имеется и у конкурента Google
– Overture.
Download