Ключевое слово

advertisement
Государственная
публичная библиотека
Индексирование
документов
Сибирского
отделения
с использованием
вербальных
Российской академии
наук
информационно-поисковых
языков
http://www.spsl.nsc.ru
Индексирование документов
с использованием вербальных
информационно-поисковых
языков
Семинар - стажировка
Координатное
индексирование
документов.
Тема:
3 день
Координатное индексирование
Выражение
смыслового
содержания документа
или запроса
множеством ключевых
слов или дескрипторов
Процессы координатного индексирования


1) ананлиз
определения
содержания
документа, как
объекта
индексирования
2) выбор понятий,
характеризующих
содержание
документа

3) выбор терминов
индексирования для
обозначения понятий

4) Формирование
поискового образа
документа из
терминов
индексирования
Методы анализа текста
 Анкетный
(аспектный)
 Позиционный
 Частотный
Ключевое слово (ГОСТ 7.74-96)
 Информативное
слово,
приведенное к стандартной
лексикографической форме и
используемое
для
координатного
индексирования
Язык ключевых слов
(ГОСТ 7.74-96)
 Информационно-поисковый
язык, предназначенный для
индексирования документов
и информационных запросов
посредством ключевых слов
Свойства ЯКС
 Неконтролируемый
 Посткоординатный
(координатный)
Поиск по КС в публикациях:





поиск по ключевым словам, отобранным из текста
документа на основании различных методик, при
этом ПОД может быть дополнительно обогащен
либо индексатором, либо с помощью
автоматических процедур;
поиск по полным текстам документов;
поиск по полным текстам аннотаций и
рефератов;
по полным текстам заглавий и по наиболее
информативным словам заглавий;
по словам из традиционных предметных рубрик в
режиме посткоординации.
Ключевые слова по Э.Р. Сукиаяну
 Слова,
выбираемые из
текста документа,
совокупность которых
отражает тему документа
Ф. С. Воройский
1. Индексирование документов в АБИС //
Библиотековедение. – 1996. – № 9. – С. 42–44.
2.
Основные принципы обеспечения информационного
поиска
в
корпоративных
электронных
каталогах
// Информационные технологии, компьютерные системы и
издательская продукция для библиотек: Материалы 8-й
Междунар. конф. «LIBCOM-2004» -- Режим доступа:
http://www.gpntb.ru/libcom4/index3.cfm?n=tez/doc2/doc6
ИСТОЧНИК:
Анализу подлежат:
 заглавие
(название),
 продолжение заглавия,
 аннотация или реферат (к книге или
статье),
 оглавление (содержание),
 выборочные участки текста (введение,
выводы и т. п.)
Выбор ключевых слов
В качестве КС при свободном
индексировании используются ЛЕ,
представляющие именные слова и
словосочетания, аббревиатуры, числа,
формулы, а также фрагменты сложных
слов
(например электро-, гидро-, термо-,
метокси- и т. п.).

Не разрешается использовать!
не предусмотренные ГОСТом
аббревиатуры и сокращения,
 различные свертки слов, заменяющих
дескрипторы,
 другие искусственные способы записи
ЛЕ иначе как в их канонической форме

ПРАВИЛА НАПИСАНИЯ КЛЮЧЕВЫХ СЛОВ

КС — одиночные существительные должны быть
представлены в форме именительного падежа и,
как правило, единственного числа.

Во множественном числе записываются
существительные, не имеющие формы
единственного числа (сани, очки, ножницы...), а
также КС, представляющие собой обобщающие
понятия для нескольких однородных объектов
описания (войны, технологии — к описаниям
нескольких войн или технологий).
ПРАВИЛА НАПИСАНИЯ КЛЮЧЕВЫХ СЛОВ

КС — одиночные прилагательные и причастия
записываются в форме именительного падежа.

Прилагательные и причастия в единственном
числе приводятся в форме мужского рода.

В словосочетании они согласуются в роде и числе
с соответствующими существительными.
ПРАВИЛА НАПИСАНИЯ КЛЮЧЕВЫХ СЛОВ

Одиночные деепричастия преобразуются в
соответствующее существительное
распределяя — распределение,
поставляя — поставка.

Одиночные наречия заменяются
соответствующими прилагательными
автоматически — автоматический,
вручную — ручной.
ПРАВИЛА НАПИСАНИЯ КЛЮЧЕВЫХ СЛОВ

Глаголы в личной форме записываются, как
правило, в форме отглагольного
существительного или инфинитива
расшифровывает — расшифровка, расшифровать;
преобразует — преобразование, преобразовать.
Сохранение КС-словосочетаний
1. ЛЕ представляет собой устойчивое словосочетание и
включает:
— идиоматические выражения, преставляющие собой термины или
другие нерасторжимые сочетания слов,
красная строка, черный ящик,
— словосочетания-термины, для которых существуют синонимы и
аббревиатуры
радиолокационя станция — РЛС
— словосочетания, являющиеся именами собственными или
включающие их
Новая Зеландия, закон Ома, вольтова дуга
— словосочетания, отдельные компоненты которых имеют широкое
значение
металлическая конструкция, математическое обеспечение.
Сохранение КС-словосочетаний
2. Словосочетания, обозначающие измеряемые
параметры и характеристики
сила тока, диапазон частот, средняя скорость
3. Наиболее используемые в данной тематической
области словосочетания
уксусная кислота, товары широкого потребления
4. Словосочетания, обозначающие наменования
оборудования, машин, материалов и т. п., пишущиеся
через дефис
смесители-запарники, увлажнители-охладители
Разделение КС- словосочетаний
процесс и объект, который подвергается воздействию
производство азота — производство, азот;
—
— часть и целое
катоды радиоламп — катоды, радиолампы
— объект и его назначение
станки для распилки карандашей — станки, распилка, карандаши
— объединяет два существительных
история России — история, Россия
— объединяет существительное и прилагательное, если они не представляют
собой устойчивые термины в политематической области
военная доктрина — военный, доктрина
— содержит несколько прилагательных
торированные вольфрамовые катоды — торированные катоды,
вольфрамовые катоды
Порядок расположения КС

Список ключевых слов может быть не
упорядочен и не зависеть от их роли и
характера отношений между ними в
содержании каждого конкретного
документа (используется так
называемая "мешочная" грамматика).

КС отделяются друг от друга запятой.
Базы данных ВИНИТИ
Дескрипторный ИПЯ
 Информационно-поисковый
язык,
предназначенный
для
координатного индексирования
документов и информационных
запросов
посредством
дескрипторов
ЛЕКСИКА ДИПЯ
ДЕСКРИПТОР
 Лексическая
единица,
выраженная
информативным
словом (вербально) или кодом и
являющаяся
именем
класса
синонимичных или близких по
смыслу ключевых слов
Класс эквивалентности ЛЕ
 Совокупность
лексических единиц,
различие значение которых
несущественно для определения
основного содержания документов
в информационной системе.
Аскриптор
 недескриптор,
нондескриптор:
Лексическая единица в
информационно-поисковом
тезаурусе, которая не может быть
использована для координатного
индексирования и подлежит
замене одним или несколькими
дескрипторами
ГРАММАТИКА
ДИПЯ
Синтаксис (выражение
синтагматических отношений)

«Мешочная» грамматика

техника безопасности
травматизм
литейное производство.


Указатели роли и связи
 «Контекстная» (позиционная)
грамматика

«Контекстная» (позиционная)
грамматика







Слова включаются в ПОД и ПОЗ в соответствии со
специально разработанным перечнем (анкетой,
фиксированной схемой). Индексирование ведется
путем заполнения позиций анкеты. Пример такой
схемы:
Предмет или тема исследования.
Область применения или использования предмета.
Метод исследования
Условия, в которых протекало исследование
Технические средства или оборудование
Результаты исследования.
Указатель роли
 Вспомогательный
символ,
выбираемый из фиксированного
списка и присоединяемый к
лексическим единицам для
обозначения логической роли их в
данном поисковом образе
Указатели роли
Р1 Основной объект рассмотрения
 Р2 Область, сфера, место применения
 Р3 Метод, способ, средство решения
 Р4 Отличительная часть, элемент,
составляющая

Указатель связи
Вспомогательный символ, выбираемый
из фиксированного списка и
присоединяемый к лексическим
единицам для — выражения
синтагматических отношений между
ними в поисковом образе.
 Примечание — Указатели связи
объединяют различные лексические
единицы, выражающие в данном
поисковом образе единое понятие

Информационно-поисковый
тезаурус (ИПТ)
 Нормативный
словарь
дескрипторного
информационно-поискового
языка с зафиксированными в
нем парадигматическими
отношениями лексических
единиц.
Этапы построения ИПТ
определение тематического охвата
ИПТ;
 сбор массива ЛЕ;
 формирование словаря ИПТ;
 построение словарных статей и
указателей;
 оформление ИПТ;

Формирование словаря ИПТ
В словарь ИПТ могут быть включены
следующие типы ЛЕ:




одиночные слова (существительные,
прилагательные, глаголы, наречия);
именные словосочетания;
лексически значимые компоненты сложных
слов;
сокращения слов и словосочетаний.
Допускается включать
словосочетания:
 если
в качестве опорного слова
они содержат существительное
и если выполнен ряд условий
Примеры:
ЧЕРНЫЙ ЯЩИК,
 ЛЕГКАЯ ПРОМЫШЛЕННОСТЬ
 ТАБЛИЦА МЕНДЕЛЕЕВА
 ЭЛЕКТРИЧЕСКИЕ МАШИНЫ
 УНИВЕРСАЛЬНАЯ ДЕСЯТИЧНАЯ
КЛАССИФИКАЦИЯ = УДК
 ЯЗЫК ПРОГРАММИРОВАНИЯ

Структура тезауруса
Обязательные элементы
Вводная
часть
Лексикосемантичес
кий
указатель
Факультативные элементы
Системати
ческий
указатель
Иерархиче
ский
указатель
Пермутаци
онный
указатель
Лексико-семантический
указатель
 упорядоченная
последовательность словарных
статей ИПТ
 формируется
путем расположения
их в алфавитном порядке
заглавных ЛЕ.
Примеры:




в Изделия
костюмные
Изделия
пальтовые
Изделия
швейные
Н Куртка
двуботная






Куртка спортивная
Кусок ткани 2203
с Отрез
Лавсан 2304
в Волокно
полиэфирное
Волокна
синтетические
Систематический указатель
перечень дескрипторов,
сгруппированных согласно принятой
в ИПТ рубрикации.




Систематические указатели ИПТ
подразделяют на три типа:
— тематические,
— категориальные,
— смешанные.
Примеры:
ВОИНСКИЕ
ПОДРАЗДЕЛЕНИЯ
АРМИЯ
БАТАЛЬОН
ДИВИЗИЯ
ПОЛК
РОТА

ОВОЩНЫЕ
КУЛЬТУРЫ
БОБОВЫЕ
ГОРОХ
ФАСОЛЬ
ФАСОЛЬ
СПАРЖЕВАЯ

Иерархический указатель
Иерархический указатель отражает полную
структуру иерархических отношений.


Представляет собой перечень списков
дескрипторов, причем каждый список
начинается с дескриптора, не имеющего
вышестоящих.
После каждого дескриптора приведены
непосредственно нижестоящие дескрипторы
с указанием их уровня в иерархии путем
применения нумерации либо графического
обозначения уровня.
Примеры:
1. АРМИЯ
2. ДИВИЗИЯ
3. ПОЛК
4. БАТАЛЬОН
5. РОТА
Пермутационный указатель



предназначен для поиска ЛЕ по отдельным
словам, входящим в текст ЛЕ, в том числе и
по тем, которые стоят не в начале ЛЕ.
представляет собой перечень списков,
каждый из которых соответствует одному из
знаменательных слов в составе ЛЕ и
включает все ЛЕ, содержащие это
знаменательное слово.
Перечень списков упорядочен по алфавиту
знаменательных слов, а внутри списки
упорядочены по тексту ЛЕ.
Пример:
оптические квантовые
возбуждения
электрические
ГЕНЕРАТОРЫ помех
ГЕНЕРАТОРЫ последовательного
ГЕНЕРАТОРЫ постоянного тока
Тезаурусная статья
 Элемент
лексикосемантического указателя,
состоящий из дескриптора или
нондескриптора и всей
информации, относящейся к
нему
Структура словарной статьи

Дескрипторная статья состоит из
заглавного дескриптора, списка
дескрипторов и аскрипторов, семантически
связанных с ним, с обозначением видов
связи.

Аскрипторная статья состоит из
аскриптора и заменяющих его при обработке
и поиске информации дескрипторов или
комбинации дескрипторов.
Словарная статья может также
включать:
 частоту использования дескриптора;
 кодовый номер дескриптора;
 код дескриптора по систематическому
указателю;
 классификационные индексы;
 дополнительные семантические и
лексикографические пометы;
 иноязычные эквиваленты.
Порядок расположения элементов в
словарной статье








заглавный дескриптор;
дополнительные данные;
лексическое примечание;
аскрипторы или дескрипторы-синонимы;
вышестоящие дескрипторы;
нижестоящие дескрипторы;
ассоциативные дескрипторы;
дескрипторы, связанные другими видами
отношений
АЛГОРИТМИЧЕСКИЕ ЯЗЫКИ (формализм теории
алгоритмов
см. ТЕОРИЯ
АЛГОРИТМОВ)
с языки алгоритмические
машиноориентированные языки
проблемноориентированные языки
в ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ
ФОРМАЛЬНЫЕ ЯЗЫКИ
н АВТОКОДЫ
АЛГОЛ
ИПЛ
КОБОЛ
КОМИТ
ПЛ/1
ФОРТРАН
а АЛГОРИТМЫ
ПРОГРАММИРОВАНИЕ
ср искусственные языки
б) Аскрипторные статьи:
1) Языки программирования
см АЛГОРИТМИЧЕСКИЕ ЯЗЫКИ
2) Языки
иа ФОРМАЛЬНЫЕ ЯЗЫКИ
ЕСТЕСТВЕННЫЕ ЯЗЫКИ
3) Алфавитно-цифровые знаки
ик БУКВЫ
ЦИФРЫ

Дескриптор

Синонимы

Ссылки к
вышестоящим
дескрипторам

Ссылки к
нижестоящим
дескрипторам





Ссылка к ассоциативно
связанному дескриптору
Ссылка «Сравни»
Ссылка от аскриптора к
дескриптору
Ссылка к нескольким
формально заменяющим
дескрипторам
Ссыылка от аскриптора к
заменяющей его комбинации
дескрипторов
ГОСТы:

ГОСТ 7.25—2001 СИБИД. Тезаурус информационнопоисковый одноязычный. Состав, структура и основные
требования к построению

ГОСТ 7.66—92 СИБИД. Индексирование документов.
Общие требования к координатному индексированию


ГОСТ 7.74—96 СИБИД. Информационно-поисковые
языки. Термины и определения
Основная литература:





Воройский, Ф. С. Индексирование документов в АБИС / Ф. С.
Воройский // Библиотековедение. – 1996. – № 9. – С. 42–44.
Воройский, Ф. С. Основные принципы обеспечения
информационного поиска в корпоративных электронных
каталогах
// Информационные технологии, компьютерные системы и
издательская продукция для библиотек: Материалы 8-й
Междунар. конф. «LIBCOM-2004» -- Режим доступа:
http://www.gpntb.ru/libcom4/index3.cfm?n=tez/doc2/doc6
Гендина, Н. И. Лингвистическое обеспечение
автоматизированных библиотечных систем / Н. И. Гендина. –
Алма-Ата, 1991. – 221 с.
Сукиасян, Э. Р. Язык ключевых слов , Э. Р. Сукиасян //
Библиотека. – 2005. -- № 6. – С. 13—15.
Ханжин, А. Г. Разработка методики координатного
индексирования документов. Ч. 2. / А. Г. Ханжин // НТИ. Сер.
2. Информационные процессы и системы. – 1995. – № 9. –
С. 14–19.
Вы прослушали курс:
Индексирование документов
с использованием вербальных
информационно-поисковых
языков
Благодарим за
сотрудничество!
На Ваши вопросы готовы ответить:
Людмила Анатольевна Жарикова,
старший научный сотрудник ГПНТБ СО
РАН,
отдел научной обработки документов
zhar@spsl.nsc.ru
Галина Анатольевна Скарук,
кандидат педагогических наук,
старший научный сотрудник ГПНТБ СО
РАН,
отдел научной обработки документов
skaruk@spsl.nsc.ru
Download