Структура представления информации в мировых

advertisement
Тема 3.
3.1. Структура представления
информации в мировых
информационных сетях
Принципы работы поисковых
систем
Виды поиска в WWW
поиск по
известным адресам
Тематические
каталоги
Поисковые машины
Специализированный поиск в базах данных
(резервирование, поиск справочной информации о людях,
организациях …)
Критерии профессионального поиска:
 контроль
полноты охвата ресурсов;
 контроль
достоверности информации,
полученной из Сети;
 высокая
скорость проведения поиска.
Компоненты поисковой системы
search engine results
engine
Браузероподобна
хранилище
(система выдачи
я
программа
скаченных и
«путешествующий»
результатов):
скачивания
обработанных
паук,
который
web-страниц
страниц
автоматически
идет по всем SEARCH ENGINE
the database
извлекает
ссылкам,
Поисковая
spider
(паук)
(база
результаты
найденным на
система
данных)
программа,
поиска из базы
странице
которая
данных
анализирует
indexer
crawler
веб-страницы,
(индексатор)
скаченные
пауками
Метод, по которому поисковая система (ПС)
принимает решение называется алгоритмом.
ПC осуществляет отбор на основании
постоянно меняющихся критериев:
• Title (заголовок): Имеется ли ключевое
слово в заголовке?
• Domain/URL (Домен/адрес): Имеется ли
ключевое слово в имени домена / в адресе
страницы?
• Style (стиль): (STRONG или B), Курсив (EM
или I), Заголовки HEAD.
• Density (плотность): Количество ключевых
слов относительно всего текста страницы
называется плотностью ключевого слова.
• MetaInformation (мета данные): - мета
ключевые слова (meta keywords) и мета
описания (meta description).
• Outbound Links (ссылки наружу): Какие
ссылки есть на странице и содержит ли они и
ключевое слово?
•Inbound Links (внешние ссылки): Имеются ли
в Интернет ссылки на данный сайт? Каков
текст ссылки? Это называется
«внестраничный» критерий (автор страницы
не всегда может им управлять).
• Insite Links (ссылки внутри страницы): Какие
ссылки на страницы данного сайта содержит
эта страница?
Т.о., поисковой системе необходимо делать
множество уточняющих запросов, используя
страницу целиком.
Поиск в соответствии с
видом
представления
Непосредственный
Тематические
каталоги
Электронные
каталоги
библиотек
Базы
данных
Архивы Энциклопедии
файлов
Словари
3. Как искать информацию в Интернет
Основные методы поиска информации в
Интернет:
• Непосредственный поиск с использованием
гипертекстовых ссылок (особенно
необходим на заключительных этапах
информационного поиска).
• Поиск в тематических каталогах.
• Поиск в энциклопедиях, словарях.
• Поиск с помощью поисковых машин.
• Поиск в базах данных.
Технология проведения информационного
поиска
 Определение географических регионов
поиска;
 Составление тезауруса;
Тезаурус - список ключевых слов,
организованный с учетом
семантических отношений между ними.
При составлении тезауруса необходимо
предусмотреть обработку синонимов,
омонимов и морфологических вариаций
ключевых слов.
• Отбор поисковых машин. Устанавливается
последовательность использования
поисковых машин в соответствии с
убыванием ожидаемой эффективности
поиска с применением каждой машины.
Составление и выполнение запросов к
поисковым машинам.
•
Это наиболее сложный и трудоемкий этап,
связанный с обработкой большого
количества информации (в основном
шумовой).
Эффективность поиска
Семантические показатели.
Основаны на оценке релевантности между
документами и запросами
Релевантность – объективно
существующее смысловое соответствие
между содержанием документа и запроса.
Устанавливается экспертным путем
Эффективность поиска
Семантические показатели:
 Полнота выдачи (ПВ)
а
ПВ 
100%
ав
Где:
а – множество релевантных и выданных системой
документов
в – множество релевантных, но не выданных системой
документов
Эффективность поиска
Семантические показатели:
 Точность выдачи (ТВ)
а
ТВ 
100%
аб
Где:
а – множество релевантных и выданных системой
документов
б – множество нерелевантных, но выданных системой
документов
Эффективность поиска
Семантические показатели:
 Потери информации (ПИ)
в
ПИ 
100%
ав
Где:
а – множество релевантных и выданных системой
документов
в – множество релевантных, но не выданных системой
документов
Эффективность поиска
Семантические показатели:
 Информационный шум (ИШ)
б
ИШ 
100%
аб
Где:
а – множество релевантных и выданных системой
документов
б – множество нерелевантных, но выданных системой
документов
Эффективность поиска
Прагматические показатели.
Определяются абонентами системы по
оценке пертинентности выданных
документов.
Пертинентность – субъективно
оцениваемое соответствие содержания
документов или текстов
информационным интересам потребителя.
Технология поиска
Уточнение запроса
(отсечение
нерелевантных результатов)
Анализ
полученных результатов
Формирование запроса
Отбор поисковых машин
Составление тезауруса
Правильный набор ключевых слов имеет
очень важное значение для задания запроса.
Слова, встречающиеся с максимальной частотой
- это предлоги, частицы, местоимения, в
английском языке – артикли. Их называют «стопслова».
Для отбора ключевых слов используют
процедуру, основанную на применении законов
Зипфа.
Текст оценивается по частоте появления каждого
слова. Слова ранжируются по частоте.
Download