качество и ипи(cals) технологии исследование методов

advertisement
issue32(1-08)new for PDF.qxd
08.12.2008
22:44
Page 35
35
КАЧЕСТВО: РУКОВОДСТВО, УПРАВЛЕНИЕ, ОБЕСПЕЧЕНИЕ
КАЧЕСТВО И ИПИ(CALS)&ТЕХНОЛОГИИ
Ñ.Ë. Ìàêàðîâ
S.L. Makarov
ANALYSIS OF METHODS
OF INFORMATION RETRIEVAL
SYSTEM IMPROVING
ИССЛЕДОВАНИЕ МЕТОДОВ
ПОВЫШЕНИЯ КАЧЕСТВА РАБОТЫ
ИНФОРМАЦИОННО&ПОИСКОВЫХ
СИСТЕМ
 ñòàòüå ïðåäñòàâëåíî èññëåäîâàíèå êà÷åñòâà ðàáîòû ïÿòè èíôîðìàöèîííî-ïîèñêîâûõ ñèñòåì, èíñòðóìåíòàðèé ýòîãî èññëåäîâàíèÿ, è ïî åãî ðåçóëüòàòàì
ïðåäëîæåíû ìåòîäû ïîâûøåíèÿ êà÷åñòâà ðåçóëüòàòîâ ðàáîòû èíôîðìàöèîííî-ïîèñêîâûõ ñèñòåì, ñ
êîòîðûìè èìååò äåëî ïîëüçîâàòåëü.
A research of five information retrieval system work
results which user deals with and tools of the research
as well as methods of information retrieval system
improving are discussed in the article.
и для кого не секрет, что существующие инфор;
мационно;поисковые системы несовершенны.
В этом можно убедиться, просматривая нереле;
вантные ссылки на первой странице результа;
тов поиска. Разработчики поисковых систем часто
прибегают к доводу, что пользователи не умеют гра;
мотно сформулировать запрос. Пользователи же по;
лагают, что виноваты не они, а разработчики. Однако
мало кто из пользователей может подкрепить слова о
несовершенстве выдаваемых им результатов поиска
некоторыми весомыми аргументами, основанными
на исследовании эффективности поиска. В данной
статье проводится одно из таких исследований.
Для того чтобы исследовать пять наиболее изве;
стных информационно;поисковых систем, был со;
ставлен поисковый запрос, одинаковый для всех си;
стем. В исследовании учитывались первые 30 ссы;
лок, упорядоченных по релевантности самими поис;
ковыми системами, выданные в качестве результата
поиска. Анализу подвергались именно те страницы,
ссылки на которые фигурировали в результатах по;
иска, дальнейшая возможная навигация с этих стра;
ниц в расчёт не принималась. В некоторых случаях
страницы не были доступны, в этом случае они не
учитывались, и результатов становилось на один
меньше, так как следующая за 30;й ссылка в таких
случаях (чтобы восполнить результаты до 30) не рас;
сматривалась.
Исследование проводилось с помощью специаль;
но созданного программного обеспечения, в которое
были заложены: морфологический модуль от компа;
нии АОТ (Ruslemmatizer, lemmatizer.dll), в который
входит модуль распознавания частей речи
(agramtab.dll), а также следующие формулы:
формула анализа многословных терминов [1]:
Н
№1, 2008
,
,
КАЧЕСТВО ИННОВАЦИИ ОБРАЗОВАНИЕ
issue32(1-08)new for PDF.qxd
08.12.2008
22:44
Page 36
36
Исследование проводилось следующим образом:
запрос сравнивался с документом с помощью форму;
лы (2) сначала только по однословным терминам, за;
тем – по терминам и словосочетаниям, состоящим из
двух слов и возможных разделяющих их союзов,
предлогов и т.п. (иначе называемых двухсловными
терминами), и, наконец, по терминам, двухсловным
терминам и трёхсловным терминам.
Прежде всего, необходимо обосновать анализ не
только терминов, входящих в документ, но и постро;
енных с их помощью словосочетаний. Необходи;
мость такого анализа видна из рисунка 1, показываю;
щего, что многословные термины могут показать
большую частоту встречаемости, чем однословные
КАЧЕСТВО: РУКОВОДСТВО, УПРАВЛЕНИЕ, ОБЕСПЕЧЕНИЕ
(см. 15;й документ). Кроме того, необходимо учиты;
вать, что чем сложнее словосочетания, входящие в
анализ, тем большую семантическую ценность пред;
ставляет такой анализ.
В идеале графики сравнения должны были бы вы;
глядеть так, как показано на рисунках 2, 3 или 4, где
найденные документы были отсортированы по убы;
ванию схожести с запросом для того, чтобы оценить,
какая поисковая система лучше справилась с этим
запросом. На самом деле результаты были распреде;
лены поисковыми системами именно в таком поряд;
ке, как показано, например, на рисунке 5 (ср. с рис. 2
– те же данные).
На рисунках 6, 7, 8, 9, 10 представлены результаты
работы пяти поисковых систем по анализу однослов;
ных, двухсловных и трёхсловных терминов.
В результате исследования были сделаны следую;
щие выводы:
1. Во всех пяти информационно;поисковых систе;
мах в качестве результатов на поисковый запрос
выдаётся много нерелевантных или малореле;
вантных документов. Для облегчения поиска и,
следовательно, повышения качества выданных
результатов такие документы следует отодвигать
на последние страницы результатов, либо вообще
Рис. 1. Анализ результатов поиска системы yandex по некоторому запросу
Рис. 2. Упорядоченное распределение однословных терминов в результатах работы некоторых поисковых систем
КАЧЕСТВО ИННОВАЦИИ ОБРАЗОВАНИЕ
№1, 2008
issue32(1-08)new for PDF.qxd
08.12.2008
22:44
Page 37
37
КАЧЕСТВО: РУКОВОДСТВО, УПРАВЛЕНИЕ, ОБЕСПЕЧЕНИЕ
Рис. 3. Упорядоченное распределение двухсловных терминов в результатах работы некоторых поисковых систем (с
учётом однословных)
Рис. 4. Упорядоченное распределение трёхсловных терминов в результатах работы некоторых поисковых систем
(с учётом однословных и двухсловных)
Рис. 5. Распределение однословных терминов в результатах работы некоторых поисковых систем (ср. с рис. 2)
Рис. 6. Результат работы поисковой системы Yandex
№1, 2008
КАЧЕСТВО ИННОВАЦИИ ОБРАЗОВАНИЕ
issue32(1-08)new for PDF.qxd
08.12.2008
22:44
Page 38
38
КАЧЕСТВО: РУКОВОДСТВО, УПРАВЛЕНИЕ, ОБЕСПЕЧЕНИЕ
Рис. 7. Результат работы поисковой системы Rambler
Рис. 8. Результат работы поисковой системы Google
не включать в результаты, несмотря на потерю
полноты поиска в последнем случае.
2. Документы в результатах не отсортированы по
релевантности (см. рис. 5, 6;10), что затрудняет
работу пользователю, который просматривает ча;
ще всего одну – две страницы результатов поиска.
Поэтому для повышения качества результатов
работы информационно;поисковых систем необ;
ходимо проводить такую сортировку как можно
тщательнее, чтобы облегчить пользователю по;
иск нужных ему документов.
3. Из рис. 2;4 следует, что лучше всего с данным по;
исковым системам запросом справились Yandex и
КАЧЕСТВО ИННОВАЦИИ ОБРАЗОВАНИЕ
Google, однако больше всего релевантных доку;
ментов среди первых тридцати исследованных
было в результатах Yahoo и Rambler. Самый реле;
вантный документ был найден системой Yandex
(в результатах – 23;й, т.е. на третьей странице ре;
зультатов поиска).
4. При сравнении документов необходимо учиты;
вать двух; и трёхсловные термины (словосочета;
ния) – см. рис. 1 (документ №15), рис. 6 (доку;
мент №1). Это может значительно повысить ка;
чество результатов работы поисковой системы,
так как пользователь при составлении запроса ча;
сто имеет в виду именно словосочетания, а не от;
№1, 2008
issue32(1-08)new for PDF.qxd
08.12.2008
22:44
Page 39
39
КАЧЕСТВО: РУКОВОДСТВО, УПРАВЛЕНИЕ, ОБЕСПЕЧЕНИЕ
Рис. 9. Результат работы поисковой системы Yahoo
Рис. 10. Результат работы поисковой системы Апорт
дельные слова. Однако, как правило, в результате
учёта словосочетаний релевантность документа
уменьшается.
Следует отметить, что для сравнительного анали;
за запроса и найденного документа по формулам (1)
и (2) требуется время, возрастающее прямо пропор;
ционально количеству текстовых символов в доку;
менте, тогда как результат поиска по запросу в поис;
ковых системах выдаётся практически мгновенно.
Поэтому, если пользователь хочет качественных ре;
зультатов поиска, а не быстрых и количественных,
приходится ждать.
№1, 2008
Макаров Сергей Львович,
ассистент кафедры Вычислительной техники МГИЭМ
ЛИТЕРАТУРА
1. Мальцева С.В. Научно;методические основы авто;
матизации проектирования информационной ар;
хитектуры Web;ресурсов Интернет. Диссертация
д.т.н. по специальности 05.13.12. Москва, 2004 г.
2. Козлов А.В. Повышение эффективности автома;
тизированного документального поиска в гипер;
текстовых ресурсах Интернет. Диссертация к.т.н.
по специальности 05.13.11. Москва, 2005 г.
КАЧЕСТВО ИННОВАЦИИ ОБРАЗОВАНИЕ
Download