Логические основы и технология поиска информации

advertisement
Логические основы и технология поиска информации
1. Логические основы формирования запроса
Для того чтобы средство информационного поиска выполнило поиск
необходимой
пользователю
информации,
он
должен
сформулировать и передать этому средству запрос при помощи специального
языка - так называемого языка запросов.
Основной составляющей любого запроса средству поиска являются
ключевые слова (термины), наиболее полно и точно характеризующие
искомые информационные ресурсы. В простейшем случае (поиск по одному
ключевому слову) запрос выражается требованием найти среди всех
доступных документов конкретной системе -имена (и адреса URL)
документов, в которых содержится интересующий термин. Средство
информационного поиска анализирует доступные ему сведения об
информационных ресурсах Интернета и отбирает те из ресурсов, которые
включают это ключевое слово. Из отобранных документов формируется
список результатов. В начале списка, как правило, выводится общее
количество найденных документов, а затем сам список с необходимыми
комментариями.
Основная проблема, с которой сталкиваются пользователи при поиске
информации в Интернете по ключевым словам, сводится к двум крайним
случаям:
1. Количество документов, удовлетворяющих заданному критерию поиска,
равно нулю. Это возникает в тех случаях, когда в запросе используются
редкие термины или же когда критерий запроса сложен. Сложен не для
компьютера, обрабатывающего запрос, а в том смысле, что ни
один
из проанализированных документов не удовлетворяет данному
запросу.
2. Количество найденных документов превышает несколько сотен или даже
тысяч (нередко эта цифра достигает десятков тысяч). В этом случае надо
переформулировать критерий поиска с целью получить реально обозримый
список (обычно не более 100-200 документов).
Чтобы синтаксически (с точки зрения правильности написания) и
семантически (с точки зрения корректности смысла) грамотно составить
запрос на поиск информации, необходимо обладать начальными знаниями в
области алгебры логики. Все языки имеют союзы, которые являются
аналогами основных логических (булевых) операторов j (операций) - «and»
(«и»), «or» («или») и «not» («не»). Различные средства поиска могут
использовать разные символы для обозначения идентичных логических
операций. Это без труда может быть установлено в обязательно
присутствующих справочных системах помощи (help). Здесь будут
использованы наиболее
обозначения.
Формулировка запроса
употребляемые
при
составлении
запросов
(Л, S, С, D и Е - слова запроса)
A and В
(A and Б) or (С and D)
(A and В) or (С and О) not Е
Рассмотрим использование основных логических операторов в запросах.
Оператор «and», указанный между словами запроса, предписывает системе
искать документы, в которых присутствуют все эти слова одновременно.
Оператор «or», указанный между теми же словами запроса, предписывает
системе искать документы, в которых присутствуют все эти слова и
документы, в которых присутствует любое из этих слов. Оператор «not»
позволяет отсечь документы, в которых присутствуют слова, указанные
непосредственно через пробел после него. Возможно комбинирование этих
операторов и круглых скобок.
Так, запрос «компьютер or ПК not (модем or цена)» указывает средству
информационного поиска найти все известные системе документы, в
которых присутствует любое из слов «компьютер» или «ПК», или оба слова
одновременно, а также не выдавать в результате поиска документы, в
которых присутствуют слова «модем» или «цена».
Кроме рассмотренных логических операторов, в запросах средству поиска
могут присутствовать и другие операторы. Перечень этих операторов зависит
от конкретной системы. Использование наиболее часто употребляемых из
них рассматривается далее при описании средств поиска. Доступные
средству поиска операторы описываются в справочной системе.
Download