Uploaded by mabekker08

Лекция 1

advertisement
Лекция 1
ТЕХНОЛОГИИ ПОИСКА ТЕМАТИЧЕСКОЙ ИНФОРМАЦИИ В
СЕТИ INTERNET
ПРИНЦИПЫ КОНТЕКСТНОГО ПОИСКА
В современном мире поток информации ежечасно увеличивается
лавинообразно. Электронные версии нормативно-правовых документов,
методических
рекомендаций
и
указаний,
последние
номера
профессиональных журналов стали доступны медицинским работникам в
самых отдаленных регионах при наличии доступа к сети Интернет. Однако
при кажущейся простоте получения информации ее качество и возможность
использования в работе напрямую зависят от полноты и адекватности
формулировки контекстного поиска.
Контекстный поиск - запрос информации в компьютерной системе с
использованием набора ключевых слов. Существуют несколько видов
поиска(рис. 1).
Для эффективного поиска современные алгоритмы заранее формируют
полнотекстовый индекс словарь, в котором перечислены все слова и указано,
в каких местах они встречаются. При наличии такого индекса достаточно
осуществить поиск нужных слов в нем, и тогда сразу же будет получен список
документов, в которых они встречаются. Технологии полнотекстового поиска,
с использованием индексирования, широко применяют в современных
поисковых системах сети Интернет.
Рис. 1. Классификация видов поиска
Поисковая система представляет программно-аппаратный комплекс с
веб-интерфейсом
(сайт,
на
котором
размещен
интерфейс
системы).
Программной частью поисковой системы служит поисковая машина
(поисковый
движок)
-
комплекс
программ,
который
обеспечивает
функциональность поисковой системы. Чаще всего структуру поискового
движка считают коммерческой тайной компании - разработчика поисковой
системы.
Индексирование в поисковых системах - процесс добавления
сведений о сайте роботом поисковой машины в базу данных, впоследствии
используемую для поиска информации на проиндексированных сайтах.
Поисковый робот - программа, служащая составной частью поисковой
системы и предназначенная для перебора страниц Интернета с целью
занесения информации о них в базу данных поисковика. Поисковый робот
анализирует содержимое страницы, сохраняет его в некотором специальном
виде на сервере поисковой машины, которой принадлежит, и отправляется по
ссылкам на следующие страницы. Владельцы поисковых машин нередко
ограничивают глубину проникновения робота внутрь сайта и максимальный
размер сканируемого текста. Именно поэтому чересчур большие сайты могут
оказаться не полностью проиндексированными поисковой машиной.
Почти все поисковые машины в сети Интернет используют системы
контекстной рекламы для получения прибыли. Эти системы позволяют
размещать рекламу как на страницах с результатами поиска по
определенным ключевым словам, так и на сайтах, установивших блоки
контекстной рекламы на своих страницах.
Большинство поисковых систем ищут информацию на сайтах
Всемирной паутины. Однако существуют также системы, способные искать
файлы на FTP-серверах, товары в интернет-магазинах и др.
Улучшение поиска - одна из приоритетных задач современного
Интернета. Существует ряд перспективных направлений развития поиска
(например, поиск в графических изображениях, аудио- и видеофайлах и др.),
однако прогресс в этом направлении упирается в фундаментальную проблему
создания искусственного интеллекта.
ПОИСКОВЫЕ СИСТЕМЫ РУССКОЯЗЫЧНОГО
ПРОСТРАНСТВА ИНТЕРНЕТА
Для удовлетворения запросов миллионов пользователей существует
достаточно большое количество поисковых систем, как «всеязыч-ных», так и
русскоязычных. Международная аналитическая компания NetMarketShare
ежемесячно составляет рейтинг самых популярных поисковиков. По данным
2013 г., места в непростой гонке распределились следующим образом:
- Google-Global - 68,1%;
- Baidu -18,4%;
- Yahoo-Global - 6,4%;
- Bing - 5,59%.
При всем многообразии выбора неоспоримым лидером в глобальном
интернет-поиске считают Google. Этот гигант-поисковик обрабатывает
примерно 118 млрд запросов ежемесячно и может находить информацию на
195 языках.
Русскоязычные поисковые системы, в отличие от «всеязычных»,
индексируют ресурсы, где доминирует русский язык. Именно поэтому и
расстановка сил в русскоязычном пространстве Интернета (Рунета) несколько
иная. По данным LiveInternet.ru (www.liveinternet.ru/stat/ru/), в июле 2013 г.
поисковые предпочтения российских пользователей выглядели так:
- Яндекс - 53,8%;
- Google - 34,2%;
- поиск Mail.ru - 9,4%; - Рамблер - 1,2%,
- остальные поисковики - менее 1%. Подобный разброс результатов
рейтинга
и
их
ежемесячные
изменения
связаны
с
постоянными
нововведениями конкурирующих
поисковых систем, заманчивыми предложениями, облегчающими
поиск. Однако основным критерием качества работы поисковой машины
служит релевантность - степень соответствия запроса и найденного, т.е.
уместность результата. В итоге при поиске первыми в открывающемся списке
оказываются те веб-страницы, которые наиболее соответствуют запросу
пользователя. Однако каждая из поисковых систем использует различные
критерии ранжирования документов, т.е. результаты поиска посредством
Яндекс и Google по одному и тому же запросу могут существенно отличаться.
Естественно, что пользователь будет больше доверять тому поисковику,
который представил наиболее релевантные результаты.
ПРИНЦИПЫ ФОРМИРОВАНИЯ ЗАПРОСОВ ДЛЯ ПОИСКОВОЙ
СИСТЕМЫ
Поисковую систему можно образно представить как огромную базу
ключевых слов, каждое из которых связано с Web-страницами, на которых его
встречали. Вся совокупность подобных связей по своей сути и является
Всемирной паутиной (вольный перевод английского словосочетания World
Wide Web). Технология WWW позволяет создавать ссылки (их также называют
гиперссылками), которые реализуют переходы на веб-страницах.
Вводя в поле поисковой системы ключевое слово или фразу,
пользователь посылает поисковой системе запрос. Результаты поиска
выдаются в виде списка адресов Web-страниц, на которых встретились эти
слова.
Чем лучше составлен запрос к поисковой машине, тем меньше общее
количество
найденных
документов
и
больше
из
них
документов,
соответствующих тому, что требуется (релевантные страницы). Если запрос
некорректен или составлен неграмотно, то поисковая машина может выдать
несколько миллионов результатов.
Для построения оптимального запроса рекомендуют придерживаться
нескольких правил:
• Используйте несколько ключевых слов одновременно.
• Выбирайте только самые важные ключевые слова, касающиеся
рассматриваемой
темы.
Считают,
что
эффективный
запрос
может
сформироваться из 3-4 ключевых слов, но их может быть и больше.
• Используйте функции расширенного поиска поисковых систем, если
вам нужны уточнения по датам, географии, языку, формату файла.
• Набирайте в запросе ключевые слова преимущественно строчными
буквами. Заглавные буквы необходимы для точного
отграничения в поиске имен собственных, наименований торговых
марок, предприятий, географических названий.
• Поисковый
запрос
необходимо
оформлять
с
соблюдением
орфографических норм. Если поисковая система поправляет ваше написание,
обратите на это внимание, уточните запрос с учетом орфографии, иначе
поисковик выдаст миллионы ненужных страниц с такими же ошибками.
• Используйте разные поисковые системы. Формируйте запрос в разных
поисковых системах.
• Не прекращайте поиск на первой десятке сайтов.
• Профессиональная публикация должна иметь автора, ссылки на
использованные
источники.
профессиональных сайтов.
Доверяйте
данным
с
проверенных
• Используйте так называемые операторы при составлении запроса
(табл. 1).
Таблица 1. Виды операторов для формирования поисковых запросов
для Yandex
Оператор
Использование
Пример
Поиск
словосочетания,
«...» предложения без изменения «Лечебная физкультура»
кавычки
порядка слов
Из поиска будут исключены
! -восклицательный слова других морфологических
!диспансеризация
знак
форм (употребляемые в других
падежах, числе и др.)
Дети | младенец | ребенок (задает
| - вертикальная Поиск
всех
синонимов
поиск документов, содержащих хотя
черта
(расширение запроса)
бы одно из перечисленных слов)
Обязательное присутствие слов в
+ - знак «плюс»
+ лечебная гимнастика | физкультура
найденных документах
+ аугментин + (инструкция по
применению)
―аптека
―цена
Исключение слова из результата
«―» - знак «минус»
(будут показаны страницы только с
поиска
инструкцией по применению, без цен
и предложений аптек)
Будут найдены документы,
И
перелом И реабилитация
содержащие оба ключевых слова
Поиск документов, в которых
используется
любое
из
ИЛИ
педиатрия ИЛИ «детские болезни»
указанных слов или оба слова
одновременно
Поиск
ограничивается
документами, не содержащими
НЕ
перелом НЕ вывих
слово,
указанное
после
оператора
реабилитация ~инвалидов (в тексте
Документы с предложением, найденных
документов
слова
«~» - знак «тильда» содержащим первое слово, но не «реабилитация» и «инвалид» не будут
содержащим второе
встречаться в одном предложении,
что значительно суживает запрос)
орел - город (будут найдены
Поиск документов, содержащих
документы,
в
которых
нет
первое слово, но без второго
упоминания о городе-герое)
Поиск по фразе с пропущенным
* - знак «звездочка»
Работа не *, в лес не *
словом
Поиск файлов определенного Закон «Об основах охраны здоровья»
Mime
формата
mime: doc (будут найдены только
документы, сохраненные в программе
MS Word версия 2003)
date:>
ГГГГММДД
Поиск
ограничивается
страницами,
созданными Диспансеризация
date:>20130815
(измененными) до указанной (будут
найдены
страницы,
даты или после нее, а также в измененные после 15 августа 2013 г.)
определенный интервал времени
На сайтах поисковых систем обычно есть ссылки на справочную
информацию по использованию поисковых сервисов, языков запросов,
рекомендации по поиску и т.д.
Эффективность даже корректного запроса, составленного по всем
правилам, снижает так называемый поисковый спам - сайты и страницы в
Интернете, созданные с целью манипуляции результатами поиска в поисковых
машинах и в конечном счете для обмана пользователя.
К поисковому спаму относят следующее.
• Не имеющие отношения к содержимому страницы, но популярные в
поисковых запросах слова, например «скачать». В результате поисковые
машины стали анализировать не только специальные теги, но и сам текст
сайта.
• «Накачка» текста ключевыми словами - искусственное повышение
частоты ключевого слова или выражения в тексте.
• «Невидимый текст» - текст, невидимый для посетителя страницы, но
индексируемый
поисковой
машиной.
Применяется
цвет
текста,
соответствующий цвету фона, текст размером в 1 пиксель.
• Ссылочный спам - ссылки, «накручивающие» параметр популярности
сайта.
Именно поисковый спам, генерируя множество ненужной информации,
существенно снижает в глазах пользователя значимость Интернета как
источника объективной информации. Овладение методами формулировки
конкретизированного запроса с использованием разнообразия ключевых слов
и операторов позволяет существенно снизить вероятность поискового спама.
ОФОРМЛЕНИЕ РЕЗУЛЬТАТОВ ПОИСКА И ССЫЛОК НА
ЭЛЕКТРОННЫЕ РЕСУРСЫ
В настоящее время при подготовке студенческих исследовательских
работ активно используют электронные источники удаленного доступа. И
наоборот, их цитируют в популярных профессиональных изданиях, учебных
пособиях, научных исследованиях, т.е. электронные документы признаны
полноправными источниками информации. Для того чтобы любой желающий
мог воспользоваться таким современным источником информации, все
данные должны быть правильно оформлены.
Ссылки
на
интернет-источники
оформляют
в
соответствии
с
требованиями ГОСТ 7.82-2001 «Библиографическое описание электронных
ресурсов» и ГОСТ 7.0.5-2008 «Библиографическая ссылка. Общие требования
и правила составления».
Под электронными ресурсами подразумевают как собственно данные из
Интернета (ресурсы удаленного доступа), так и документы на CD-диске
(ресурсы локального доступа).
Для электронных источников удаленного доступа нужно указать
практически те же данные, что и для журналов: автор, название статьи,
адрес URL и дату обращения. В записи обязательно должен
присутствовать текст (Электронный ресурс). Дата обращения к документу - та
дата, когда человек, составляющий ссылку, данный документ открывал и этот
документ был доступен. Упрощенный вариант описания доступа к интернетстранице выглядит следующим образом.
Фурсова Т.Н. Создание учебно-методического обеспечения процесса
организации и проведения исследований в сестринском деле (Электронный
ресурс). - Режим доступа: http://www.mma.ru/article/id29396?print=1 (дата
обращения - 14 мая 2012 г.).
ИСПОЛЬЗОВАНИЕ ПРОФЕССИОНАЛЬНЫХ САЙТОВ И
СОЦИАЛЬНЫХ СЕТЕЙ
Социальная
сеть
-
платформа,
онлайн-сервис
или
веб-сайт,
предназначенные для построения, отражения и организации социальных
взаимоотношений. Характерные особенности социальной сети:
― создание профилей, в которых требуется указать реальные фамилию,
имя, отчество и максимальное количество информации о себе;
― предоставление практически полного спектра возможностей для
обмена информацией (фото, видео, файлами произвольных форматов, сервиса
блогов, организации сообществ по интересам, сервиса мгновенного обмена
сообщениями и др.).
Среди
интернациональных
социальных
сетей
наибольшей
популярностью пользуется Facebook (www.facebook.com). Сайт доступен для
всех пользователей Интернета в возрасте от 13 лет, имеющих адрес
электронной почты. В настоящий момент аудитория Facebook составляет 1
млрд пользователей.
По данным опроса «Левада-центр», проведенного в июле 2013 г., самая
популярная сеть в России - «Одноклассники» (так заявили 76% опрошенных),
на втором месте - ВКонтакте (58%), а третье место заняла сеть «Мой мир» (ее
упомянули 30%). По данным компании ComScore на апрель 2012 г.,
пользователи Рунета проводят в социальных сетях в среднем 12,8 ч в месяц.
По статистике Всероссийского центра изучения общественного мнения
(ВЦИОМ), порядка 62% пользователей верят отзывам в социальных сетях,
47% ориентируются при выборе на советы в блогах и форумах и 48% доверяют
отзывам на сайтах.
Помимо использования социальных сетей сугубо для общения и отдыха,
возрастает удельный вес в интернет-пространстве профессиональных
сообществ. При этом количество сайтов для практикующих врачей растет
постоянно. К январю 2014 г. наиболее весомыми остаются сообщества
Докторнаработе (www.doktornarabote.ru) и ВрачиРФ
(http://vrachirf.ru/). Однако регистрация на данных ресурсах возможна
только для дипломированных специалистов с высшим медицинским
образованием. Без подтверждения факта окончания высшего учебного
заведения полнотекстовые версии статей просто не открываются. Именно
поэтому фельдшеру приходится довольствоваться либо ресурсами для
медицинских сестер, либо порталами для пациентов.
Примеры профессиональных сайтов, форумов, на которых не
лимитирован доступ:
- http://rmj.ru - независимое издание для практикующих врачей;
-
http://forums.rusmedserv.com
-
дискуссионный
клуб
Русского
медицинского сервера;
- http://med-info.ru - медицинские новости;
-
http://przrf.ru
-
официальный
сайт
Профсоюза
работников
здравоохранения РФ;
- http://imedicina.ru - медицинская социальная сеть врачей, пациентов,
специалистов в области медицины различного профиля, независимых
экспертов;
- http://msestra.ru - форум медицинских сестер (возможность «живого»
общения с коллегами по любым профессиональным вопросам);
- http://feldsher.ru - неформальный сайт СМП;
- http://medstudentu.ru - сайт студентов-медиков (информация о
диагностике и лечении заболеваний, с протоколами лечения и диагностики,
нормами анализов). К общению на профессиональных форумах желательно
отнестись несколько серьезнее, чем к переписке в «обычных» социальных
сетях. Желательно в течение определенного времени посещать сообщество,
оставляя минимум собственных комментариев, чтобы привыкнуть к правилам,
а также узнать о некоторых традициях. Комментируя чужие сообщения,
необходимо
помнить,
что
некоторые
ваши
действия
(даже
не
преднамеренные) могут привести к ограничению доступа или иному
«наказанию» от администратора форума. Так, практически на всех форумах
действует запрет (если это специально не оговорено) на употребление
нецензурной лексики, рекламирование каких-либо товаров и т.д. Нарушением
также могут оказаться клевета и иная злонамеренная дезинформация (обман)
или плагиат (табл. 2).
Таблица 2. Нарушения на профессиональных форумах
Название
Характеристика
«нарушения»
Оффтопик (от англ. Рассуждения не по теме текущего обсуждения (на фармацевтическом
off topic - вне темы) сайте гость активно начинает обсуждать преимущества памперсов)
Излишнее цитирование, включение в сообщение обширных
Оверквотинг
(от
выдержек из текстов вместо приведения существенной их части,
англ. overquoting)
важной в том или ином контексте
Сообщения, занимающие большие объемы и не несущие никакой
полезной информации. Например, не надо отвечать почти на каждое
Флуд (от англ. flood
письмо в теме. «Согласен!», «Подпишусь под каждым словом!».
- наводнение)
Новой информации вы не сообщаете, а страница будет загружаться
дольше
Бурное обсуждение, в процессе которого участники переходят на
Флейм (от англ.
личности и не могут остановиться; игнорируйте неприятные
flame - пламя)
высказывания, это повышает ваш статус на форуме
Размещение грубых или провокационных сообщений на
Троллинг (от англ.
дискуссионных форумах с целью привлечения внимания. Стать
to trawl - ловить
жертвой «тролля» просто, а восстановить душевное равновесие сетью)
проблематично
С точки зрения нетикета - правил общения в виртуальном пространстве
- не стоит злоупотреблять также устойчивыми сокращениями из англоязычной
области виртуального пространства: имхо, asap и т.д. По своей сути подобные
сокращения - акронимы (аббревиатуры, образованные начальными буквами
устойчивых, часто употребляемых выражений). Их значение не всегда
понятно «новичкам» в общении на форуме и придает при чрезмерно частом
использовании заносчивый вид высказыванию или комментарию (табл. 3).
Таблица 3. Устойчивые сокращения, используемые в социальных сетях
Сокращение
IMHO
LOL
AFAIK
NFC
BTW
ASAP
AKA
WBR
Английское выражение
In My Humble Opinion
Laugh Out Loud
As Far As I Know
No Further Comments
By The Way
As Soon As Possible
Also Known As
With Best Regards
Русский перевод
По моему скромному мнению
Я громко смеюсь
Насколько я знаю
Я все сказал
Кстати
Как можно скорее
Известный так же, как
С наилучшими пожеланиями
Еще одной особенностью общения на профессиональных форумах и
посредством электронной почты считают отсутствие такого важного
компонента, как интонация речи. Так, например, нежелательно даже случайно
писать сообщение на форуме ЗАГЛАВНЫМИ БУКВАМИ. По правилам
нетикета такое написание приравнивается к крику, злости, несдержанности.
Если вы хотите усилить эмоциональность своей речи, лучше заключайте слова
в звездочки или знаки подчеркивания, например: Я просто _уверен_ в этом.
При отсутствии визуального контакта любой шутливый комментарий
может быть воспринят как насмешка или, что хуже, оскорбление. С целью
передачи наиболее распространенных эмоций в процессе интернет-общения
очень часто используют так называемые смайлики (от англ. smiley улыбающийся)
-
стилизованные
изображения
улыбающегося
человеческого лица (табл.4). Смайлик служит эмотиконом (пиктограммой,
изображающей эмоцию).
Таблица 4. Виды смайликов
Эмотикон
:-)
:- (
:-|
>:-|
;-)
:, (
:D
:- ()
Эмоция
Улыбка, шутка
Печаль, грусть
Равнодушие
Злость
Подмигивание, ирония
Плач
Хохот, широкая улыбка
Я потрясен
В настоящее время большинство сайтов для общения на форуме
предлагают посетителям достаточное количество анимированных смайликов,
однако и «древние» пиктограммы остаются в ходу. При использовании
подобных изображений, главное, соблюдать принцип умеренности и
уместности. Если на профессиональном форуме завязались более или менее
дружеские отношения - один вариант, при обсуждении же сложного
клинического случая лучше все-таки больше доверять аргументам, чем
эмоциям. А в деловой переписке, при оформлении отчетов, требований,
служебных документов в электронном формате использование смайликов и
сокращений и вовсе строго ограничивают.
И самое главное: независимо от выбора профессиональной социальной
сети, сайта по результатам поиска любая найденная информация перед
использованием даже в обычной студенческой учебно-исследовательской
работе, а тем более практической деятельности должна быть проверена,
например, путем выявления источника данных, цифр, статистики.
ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ
1. Перечислите виды контекстного поиска.
2. Охарактеризуйте принципы деятельности поисковой системы.
3. Перечислите известные вам поисковые системы.
4. Назовите основной критерий качества работы поисковой машины.
5. Каким образом формируется запрос в поисковой системе?
6. Перечислите основные правила создания корректного запроса.
7. Охарактеризуйте
возможности
использования
операторов
при
формировании запроса в Яндексе.
8. Дайте определение понятия «поисковый спам». Приведите примеры.
9. Охарактеризуйте правила оформления ссылок на электронные
ресурсы.
10. Перечислите известные вам профессиональные медицинские сайты,
интернет-сообщества.
11. Перечислите недопустимые формы комментариев.
12. Охарактеризуйте
допустимость
профессиональной интернет-среде.
использования
акронимов
в
Download