СИСТЕМА КАТАЛОГИЗАЦИИ ИНТЕРЕНЕТ РЕСУРСОВ

advertisement
СИСТЕМА КАТАЛОГИЗАЦИИ ИНТЕРЕНЕТ РЕСУРСОВ
С.П. Алваров, Ю.Л. Ижванов
ГНИИ ИТТ "Информика", г.Москва
Интернет является пожалуй самым информационно насыщенным хранилищем. Вместе с тем это очень
динамичная структура. Постоянно происходит как увеличение данных хранящихся в Интернет, так и быстрое их
обновление. Создание эффективных систем навигации и поиска в Интернет, стало одним их наиболее динамично
развивающихся и наиболее актуальных областей исследования в сфере информационных технологий. Происходит
постоянный поиск и совершенствование инструментов для работы с большими массивами неструктурированной
информации.
Одной из наиболее удачных форм организации больших массивов данных – это разбиение ее на каталоги.
Каталожная структура позволяет быстро ориентироваться в большом количестве информации а, следовательно,
быстро находить необходимые данные.
В данной работе предлагается система каталогизации Интернет ресурсов. Данная система позволяет
создавать древовидную структуру каталогов и наполнять ее информационными ресурсами. Система так же
включает подсистему контекстно-атрибутного поиска. Система состоит из четырех основных частей:
 менеджер системы
 менеджер каталога
 менеджер ресурсов
 система просмотра каталога.
Первый раздел предназначен для администрирования системы. Следующие два раздела предназначены для
создания и редактирования каталога ресурсов. Доступ к данным разделам, как и к предыдущему, ограничен,
поскольку они предназначены для изменения структуры каталога и наполнения его информационными ресурсами.
Доступ к этим разделам должны иметь только уполномоченные специалисты и операторы системы.
Третий раздел предназначен для просмотра каталога ресурсов. Для поиска ресурсов можно использовать
прямой просмотр каталога или систему атрибутно- контекстного поиска, которая позволяет осуществлять поиск,
как по всем ветвям каталога, так и по произвольному набору его ветвей.
Менеджер системы.
Одной из основных задач этой части является регистрация операторов системы и назначение им прав
доступа к различным частям и функциям системы. Как было отмечено ранее, необходимо ограничить доступ к
частям системы, которые позволяют изменять ее структуру и информационное наполнение. Например, кто-то
может иметь права только на создание и изменение структуры каталога, а кто-то, только на заполнение каталога
ресурсами. Предусмотрена достаточно гибкая система авторизации, при которой, можно задать права доступа ко
всем основным функциям системы.
Данный раздел так же позволяет управлять импортом/экспортом данных из других систем, имеющих
аналогичную структуру данных. Можно экспортировать не только весь каталог, но отдельные его части.
Естественно при импорте данных их другого каталога осуществляется контроль за тем, чтобы ресурсы не
дублировались. Стоит отметить, что при разработке структуры данных, а в частности карточек с описанием
ресурсов, в качестве основы используется международная инициатива Dublin Core Metadata Set (DC)
http://purl.oclc.org/dc/, которая поддерживается рядом представительных организаций. Обмен данными
осуществляется на основе языка XML, поскольку данный язык хорошо подходит для описания структуры и
информационного наполнения каталога. Помимо этого, XML является стандартным языком, для обмена данными,
который поддерживают большинство производителей программных пакетов.
Менеджер разделов.
Каталог ресурсов можно разделить на две части. Это информационные ресурсы и структура самого
каталога, т.е. названия разделов и их иерархическое строение. Менеджер ресурсов позволяет задавать именно
структуру каталога. Для этого он содержит инструменты необходимые для добавления, изменения или удаления
разделов в каталоге. Начиная с верхнего уровня, можно создать иерархическую, древовидную структуру,
удовлетворяющую поставленным задачам.
Сначала нужно сформировать корневой каталог. Для этого в поле вводится название раздела. который мы
хотим добавить, и после нажатия на кнопку созданный раздел появится в списке. Таким образом можно
сформировать весь корневой каталог, а затем переходить на следующий уровень. Однако не обязательно назначать
сразу все разделы, список можно пополнить в любое удобное время.
Менеджер ресурсов.
3
После создания структуры каталога, необходимо присвоить каждому разделу соответствующий набор
информационных ресурсов. Система позволяет каждому ресурсу ставить в соответствие несколько подразделов.
Это придает большую гибкость системе, что ведет к более эффективному распределению информационных
ресурсов. Для добавлении ресурса необходимо заполнить так называемую карточку ресурса. В дальнейшем ее
можно отредактировать. При занесении ресурса в базу данных производится процедура индексации, позволяющая
занести в базу данных информацию о ключевых словах, содержащихся в самом тексте информационного ресурса.
Это позволяет в дальнейшем осуществлять полнотекстовый поиск, по ресурсам занесенным в хранилище.
Система просмотра каталога.
Задача системы просмотра каталогов состоит в определении по запросу клиента полного перечня
информационных ресурсов хранилища, удовлетворяющих условиям поиска. Большинство поисковых Интернетсистем, реализует либо атрибутный (перемещение по рубрикам каталога), либо контекстный (распознавание слов
содержащихся в тексте ресурса) поиск. Кроме того, поиск по атрибутам обычно сводится к перемещению по
отдельным веткам дерева каталога. Поиск по нескольким атрибутам одновременно (как это делается в развитых
базах данных) обычно не реализуется. В данной системе реолизованна поисковая система совмещающая
контекстный и атрибутный поиск, а также позволяющая осуществлять отбор значений нескольких
атрибутов(разделов) одновременно при перемещении по дереву каталога. Выбор рубрик, в которых будет
производиться поиск, происходит также как при регистрации ресурсов. Для поиска можно выбрать произвольный
набор каталогов. В зависимости от желания пользователя поиск будет производиться либо по всем разделам, либо в
соответствии со списком разделов сформированных пользователем.
Поддержка такого каталога – довольно трудоемкая работа, особенно в плане наполнения его новыми
ресурсами. Поэтому в данный момент осуществляется разработка системы автоматизированной каталогизации,
которая бы позволила добавлять произвольный ресурс к подходящим рубрикам. Существует два основных подхода
к этой проблеме.
Первый подход основан на знаниях. В его основе лежит заранее сформированная база знаний, в которых
описываются языковые выражения, соответствующие той или иной рубрике и правила выбора между рубриками.
База знаний, а так же правила рубрицирования создаются экспертами и требуют больших затрат сил и времени. Как
правило, создание базы знаний происходит применительно к конкретной предметной области. Преимуществами
данного подхода являются высокое качество каталогизации и высокое быстродействие на тех текстовых потоках,
для которых они проектировались. Основными недостатками подобных систем являются высокая трудоемкость и
значительные затраты, необходимые для разработки системы, а так же жесткая привязка баз знаний и алгоритмов к
предметной области, конкретному каталогу, размеру и формату обрабатываемых текстов.
Второй метод основан на обучении по примерам. В системах автоматической каталогизации, основанных
на этом методе, машинное обучение производиться на основе примеров текстов, которые были заранее приписаны
к определенной рубрике. Идея состоит в определении степени соответствия терминологического портрета
документа и терминологического портрета рубрик на основе статистически характеристик субъектов сравнения.
Под терминологическим портретом понимается совокупность наиболее важных терминов, содержащихся в тексте
документа. Важность термина в документе может быть определена на основе ряда показателей. Самый простой из
них – это частота встречаемости термина в документе. Под терминологическим портретом рубрики понимается
набор наиболее характерных для этой рубрики терминов с их весами. Формирование терминологического портрета
рубрики производиться с помощью технологии обучения.
Роль эксперта при данном подходе сводиться к формированию для каждой рубрики обучающей выборки,
содержащей по возможности полное и минимально избыточное лингвистическое наполнение каждой обучаемой
рубрики. Процесс каталогизации состоит из трех основных этапов:
 формирование терминологического портрета рубрики
 формирование терминологического портрета документа
 определение степени соответствия терминологического портрета документа и терминологического портрета
рубрик и присвоения документа одной или нескольким рубрикам.
Определение терминологического портрета рубрики осуществляется на основании анализа обучающей
выборки. Целью анализа является выявление отличий этой рубрики от других и выбор термов(ключевых слов),
наилучшим образом подчеркивающих особенности этой рубрики.
К достоинствам такого подхода относятся:
 - простота определения семантики рубрики, что дает возможность организовать автоматическое обучение
рубрик;
 - возможность определить семантики очень широкого класса рубрик из любой предметной области;
 наличие аппарата количественной оценки релевантности документов рубрикам;
 высокое быстродействие.
Главным недостатком данного метода является низкое, по сравнению с методами основанными на знаниях,
качество рубрицирования
4
В случае с нашей системой, мы, при создании подсистемы автоматической каталогизации, используем
второй подход. Не смотря на то, что первый метод имеет более высокое качество рубрицирования, он требует
создания базы знаний, что, как правило, занимает несколько лет. Второй метод является более универсальным и
требует проработанного математико-статистического аппарата для своей реализации. Для повышения качества
рубрицирования, необходимо наиболее тщательно подходить к вопросу выбора терминов, характеризующих
документ, чего можно достигнуть, использовав максимальное количество признаков, свидетельствующих о
значимости данного термина. В случае с html-документами, это могут быть, например, положение слова в теле
документа, тэги, указывающие на значимость какого-то слова или фразы.
Разработка этой системы происходит в рамках проекта Министерства Образования по созданию
образовательного портала. Предполагается использование системы при проектировании прототипа портала,
которое поручено ГНИИ ИТТ "Информика".
5
Download