Поиск информации в интернете Занятие 8. Сложные запросы в ПС Яндекс Неранжирующее «И» • Оператор неранжирующее «И» << очень похож на оператор определения слов в одном документе &&, с той лишь разницей, что слово, которое находится справа, влияет на возможность документов попасть в результаты поиска, но не влияет на ранжирование. Неранжирующее «И» (пример) • Например, запрос Трутнев && биография найдет документы, где указанные слова будут расположены в пределах одного документа. При этом одно из первых мест в результатах займет, например, документ, в котором будет словосочетание «биография Трутнева». Неранжирующее «И» (пример) • А на запрос Трутнев << биография будут найдены документы, где будут присутствовать оба слова, но слово «биография» не будет влиять на ранжирование и первые места в списке результатов поиска займут документы со словом «Трутнев». Поиск текста в заголовке страниц • Поиск текста в заголовке страниц (title): $title (запрос) • На запрос Максвелл << $title (биография) будут найдены документы со словом «биография» в заголовке и словом «Максвелл» в тексте. • Причем слово «Максвелл» будет определяющим. Поиск текста на сайте • Поиск ограничивается группой страниц, с заданным адресом. url=«www.url.ru/cat/*» • Пример: «кот Бублик» << url=«www.exler.ru*» • Будет найдены все упоминания о коте Бублике на сайте www.exler.ru Поиск файлов • Позволяет ограничить поиск определенным типом файла: HTML, PDF, DOC, PPT, XLS, RTF, SWF. mime=«тип_файла» • На запрос: (инструкция && микроволновая печь) << (mime=«pdf» | mime=«rtf») будет найдены документы PDF и RTF, в теле которых присутствуют слова «инструкция» и «микроволновая печь». Определение языка текста • Можно отобрать для поиска документы, написанные на определенном языке: • • • • • • русском (ru), украинском (uk), белорусском (be), английском (en), французском (fr), немецком (de). lang=«язык» • Пример: DAAD << lang=«de» Поиск по дате • Поиск производится только по страницам, дата которых удовлетворяет заданному условию date=«ГГГГ{*|ММ{*|ДД}}» • Пример: date=«200310*» • По запросу будет производится поиск документов, датированных октябрем 2003 года. Сложные запросы: выручат скобки • Вы можете строить сколь угодно сложные конструкции, подставляя в каждом из операторов вместо отдельного слова целые выражения. • Чтобы Яндекс при этом правильно понимал вас, заключайте выражения в круглые скобки. Сложные запросы • Чтобы пореже натыкаться на уменьшение количества результатов, вызванные неверным синтаксисом, используйте несколько правил: 1. Всегда ставьте перед стоп-словами «+»; 2. Отделяйте операторы поиска в элементах от слов запроса символами «&&»; 3. По возможности, используйте в сложных запросах «/+1» вместо кавычек. Анализ сложных запросов Пример запроса 1 • Общий запрос на тему бокса не совсем релевантен: (бокс|боксер|боксерский) • Очевидно, что по результатам поиска будет найдено довольно много документов в том числе и не относящихся к спорту. • Улучшим запрос… Пример запроса 1 • Отсечем анекдоты, собак, чехлы для техники, душевые, больничную тему. • Запрос (бокс|боксер|боксерский) ~~ (анекдот|собака|больничный|медицинский|ду шевая|чехол) выдаст более релевантные документы. После нескольких проверок запрос можно улучшить еще. Пример запроса 2 • Например, нужно найти резюме жителей Москвы со знанием французского языка, имеющих опыт работы с Windows, Linux. При этом уровень знания французского языка имеет первостепенное значение. • Строим запрос — $title(резюме) && +(москва | !495) && +французский && +linux && +windows Пример запроса 2 • $title(резюме) && +(москва | !495) && +французский && +linux && +windows • =«В заголовке должно быть слово «резюме», а в пределах одного документа – слова: «москва» (или код города 495), «французский», «linux», «windows» в точной словоформе» Проблема • ПС так выбирает слова для аннотации результатов поиска, что слово «французский» попадает в них редко — придется открывать все страницы. • Или слово «французский» играет второстепенное значение, так что смысл документов не соответствует запросу. • Переформулируем… Пример запроса 2 • Можно воспользоваться оператором <<: +французский << ($title(резюме) && +(москва | !495) && +linux && +windows) Теперь слово «французский» будет иметь первостепенное значение для ранжирования, но при этом остальные слова тоже играют роль в результатах поиска. Пример запроса 3 • Если вы ищете описание мумие, но не хотите наталкиваться на прайсы интернет-магазинов, можете задать такой запрос: мумие << (лечение|лечебный|болезни) ~~ (цена|прайс|рубль|доллар|фирма|магазин) • Будут найдены все страницы, где есть слово мумие, а также любое из слов лечение, лечебный или болезни, и нет ни одного из слов, перечисленных после оператора ~~. Практическое задание • Создайте запрос для поиска резюме жителя Перми, обладающего опытом верстки и предпечатной подготовки, владеющего программами графического пакета Adobe. • Создайте запрос для поиска вакансии в пермских СМИ, службах PR и рекламных агентствах для работы по гибкому графику. Пример запроса 4 • «Запрос пресс-службы»: у журналистов и работников служб PR существует необходимость создавать запросы для отслеживания публикаций и документов в интернете, связанных с определенной компанией и ее руководителем. • Очевидно, что в запросе должны присутствовать все варианты названия компании и имя руководителя. Пример запроса 4 • Сформулируем запрос для ПГУ: (пгу|пермгу|(пермский /+1 (государственный|классический) /+1 университет)) && (маланин|(владимир /1 маланин)) • Как видно, запрос учитывает четыре варианта названия вуза и два варианта упоминания имени ректора. Пример запроса 4 • Существует один нюанс: в результатах поиска присутствуют документы с официального сайта университета www.psu.ru • Чтобы отсечь эти документы, добавим в конце запроса ~~ url=«www.psu.ru*» Практическое задание • Создайте «запрос пресс-службы» для известной Вам компании. • Учитывайте русской и английское написание названия, аббревиатуры, сокращенное и полное имя руководителя. • Кроме этого, можно ограничить запрос темой документа, упоминанием региона и т.п. Практическое задание «Переведи запрос» «Переведи запрос» • Сначала перед Вами появится запрос, описанный «естественным» языком. Ваша задача – «перевести» описание на язык запросов. • После этого Вы увидите, наоборот, формализованный запрос. Ваша задача – сделать обратный перевод на «естественный» язык. Запрос 1 • Необходимо найти документы со словами «новый» или «анонсировал», или «представил», или «появился» и словами «гаджет» или «устройство», или «девайс», или «аппарат». Запрос 2 • тхэквандо|тэквадно|таэквандо|тхек-вандо Запрос 3 • Необходимо найти документы со словами «биография» или «жизнь» в заголовке, чтобы в тексте были слова «розинг» или «зворыкин» в точной словоформе; слова «изобретение», «телевидение», «электронно-лучевая трубка» в любой словоформе. Запрос 4 • ((фехтование|фехтовальщик|фехто-вать) && сабля) | саблист Запрос 5 • Необходимо найти документы со словами «прежнее» и «название» друг за другом или «называлась», или «переименовали» и словами «советский» и «спорт» друг за другом – в одном предложении. Запрос 6 • (спортивная /1 гимнастика | (гимнаст|гимнастка|гимнастика)) && (конь|кольца|брусья|опорный /1 прыжок) Источники информации • Язык запросов. Как искать? Помощь Яндекса. http://www.yandex.ru/search/?id=481939