Государственная публичная библиотека Индексирование документов Сибирского отделения с использованием вербальных Российской академии наук информационно-поисковых языков http://www.spsl.nsc.ru Индексирование документов с использованием вербальных информационно-поисковых языков Семинар - стажировка Координатное индексирование документов. Тема: 3 день Координатное индексирование Выражение смыслового содержания документа или запроса множеством ключевых слов или дескрипторов Процессы координатного индексирования 1) ананлиз определения содержания документа, как объекта индексирования 2) выбор понятий, характеризующих содержание документа 3) выбор терминов индексирования для обозначения понятий 4) Формирование поискового образа документа из терминов индексирования Методы анализа текста Анкетный (аспектный) Позиционный Частотный Ключевое слово (ГОСТ 7.74-96) Информативное слово, приведенное к стандартной лексикографической форме и используемое для координатного индексирования Язык ключевых слов (ГОСТ 7.74-96) Информационно-поисковый язык, предназначенный для индексирования документов и информационных запросов посредством ключевых слов Свойства ЯКС Неконтролируемый Посткоординатный (координатный) Поиск по КС в публикациях: поиск по ключевым словам, отобранным из текста документа на основании различных методик, при этом ПОД может быть дополнительно обогащен либо индексатором, либо с помощью автоматических процедур; поиск по полным текстам документов; поиск по полным текстам аннотаций и рефератов; по полным текстам заглавий и по наиболее информативным словам заглавий; по словам из традиционных предметных рубрик в режиме посткоординации. Ключевые слова по Э.Р. Сукиаяну Слова, выбираемые из текста документа, совокупность которых отражает тему документа Ф. С. Воройский 1. Индексирование документов в АБИС // Библиотековедение. – 1996. – № 9. – С. 42–44. 2. Основные принципы обеспечения информационного поиска в корпоративных электронных каталогах // Информационные технологии, компьютерные системы и издательская продукция для библиотек: Материалы 8-й Междунар. конф. «LIBCOM-2004» -- Режим доступа: http://www.gpntb.ru/libcom4/index3.cfm?n=tez/doc2/doc6 ИСТОЧНИК: Анализу подлежат: заглавие (название), продолжение заглавия, аннотация или реферат (к книге или статье), оглавление (содержание), выборочные участки текста (введение, выводы и т. п.) Выбор ключевых слов В качестве КС при свободном индексировании используются ЛЕ, представляющие именные слова и словосочетания, аббревиатуры, числа, формулы, а также фрагменты сложных слов (например электро-, гидро-, термо-, метокси- и т. п.). Не разрешается использовать! не предусмотренные ГОСТом аббревиатуры и сокращения, различные свертки слов, заменяющих дескрипторы, другие искусственные способы записи ЛЕ иначе как в их канонической форме ПРАВИЛА НАПИСАНИЯ КЛЮЧЕВЫХ СЛОВ КС — одиночные существительные должны быть представлены в форме именительного падежа и, как правило, единственного числа. Во множественном числе записываются существительные, не имеющие формы единственного числа (сани, очки, ножницы...), а также КС, представляющие собой обобщающие понятия для нескольких однородных объектов описания (войны, технологии — к описаниям нескольких войн или технологий). ПРАВИЛА НАПИСАНИЯ КЛЮЧЕВЫХ СЛОВ КС — одиночные прилагательные и причастия записываются в форме именительного падежа. Прилагательные и причастия в единственном числе приводятся в форме мужского рода. В словосочетании они согласуются в роде и числе с соответствующими существительными. ПРАВИЛА НАПИСАНИЯ КЛЮЧЕВЫХ СЛОВ Одиночные деепричастия преобразуются в соответствующее существительное распределяя — распределение, поставляя — поставка. Одиночные наречия заменяются соответствующими прилагательными автоматически — автоматический, вручную — ручной. ПРАВИЛА НАПИСАНИЯ КЛЮЧЕВЫХ СЛОВ Глаголы в личной форме записываются, как правило, в форме отглагольного существительного или инфинитива расшифровывает — расшифровка, расшифровать; преобразует — преобразование, преобразовать. Сохранение КС-словосочетаний 1. ЛЕ представляет собой устойчивое словосочетание и включает: — идиоматические выражения, преставляющие собой термины или другие нерасторжимые сочетания слов, красная строка, черный ящик, — словосочетания-термины, для которых существуют синонимы и аббревиатуры радиолокационя станция — РЛС — словосочетания, являющиеся именами собственными или включающие их Новая Зеландия, закон Ома, вольтова дуга — словосочетания, отдельные компоненты которых имеют широкое значение металлическая конструкция, математическое обеспечение. Сохранение КС-словосочетаний 2. Словосочетания, обозначающие измеряемые параметры и характеристики сила тока, диапазон частот, средняя скорость 3. Наиболее используемые в данной тематической области словосочетания уксусная кислота, товары широкого потребления 4. Словосочетания, обозначающие наменования оборудования, машин, материалов и т. п., пишущиеся через дефис смесители-запарники, увлажнители-охладители Разделение КС- словосочетаний процесс и объект, который подвергается воздействию производство азота — производство, азот; — — часть и целое катоды радиоламп — катоды, радиолампы — объект и его назначение станки для распилки карандашей — станки, распилка, карандаши — объединяет два существительных история России — история, Россия — объединяет существительное и прилагательное, если они не представляют собой устойчивые термины в политематической области военная доктрина — военный, доктрина — содержит несколько прилагательных торированные вольфрамовые катоды — торированные катоды, вольфрамовые катоды Порядок расположения КС Список ключевых слов может быть не упорядочен и не зависеть от их роли и характера отношений между ними в содержании каждого конкретного документа (используется так называемая "мешочная" грамматика). КС отделяются друг от друга запятой. Базы данных ВИНИТИ Дескрипторный ИПЯ Информационно-поисковый язык, предназначенный для координатного индексирования документов и информационных запросов посредством дескрипторов ЛЕКСИКА ДИПЯ ДЕСКРИПТОР Лексическая единица, выраженная информативным словом (вербально) или кодом и являющаяся именем класса синонимичных или близких по смыслу ключевых слов Класс эквивалентности ЛЕ Совокупность лексических единиц, различие значение которых несущественно для определения основного содержания документов в информационной системе. Аскриптор недескриптор, нондескриптор: Лексическая единица в информационно-поисковом тезаурусе, которая не может быть использована для координатного индексирования и подлежит замене одним или несколькими дескрипторами ГРАММАТИКА ДИПЯ Синтаксис (выражение синтагматических отношений) «Мешочная» грамматика техника безопасности травматизм литейное производство. Указатели роли и связи «Контекстная» (позиционная) грамматика «Контекстная» (позиционная) грамматика Слова включаются в ПОД и ПОЗ в соответствии со специально разработанным перечнем (анкетой, фиксированной схемой). Индексирование ведется путем заполнения позиций анкеты. Пример такой схемы: Предмет или тема исследования. Область применения или использования предмета. Метод исследования Условия, в которых протекало исследование Технические средства или оборудование Результаты исследования. Указатель роли Вспомогательный символ, выбираемый из фиксированного списка и присоединяемый к лексическим единицам для обозначения логической роли их в данном поисковом образе Указатели роли Р1 Основной объект рассмотрения Р2 Область, сфера, место применения Р3 Метод, способ, средство решения Р4 Отличительная часть, элемент, составляющая Указатель связи Вспомогательный символ, выбираемый из фиксированного списка и присоединяемый к лексическим единицам для — выражения синтагматических отношений между ними в поисковом образе. Примечание — Указатели связи объединяют различные лексические единицы, выражающие в данном поисковом образе единое понятие Информационно-поисковый тезаурус (ИПТ) Нормативный словарь дескрипторного информационно-поискового языка с зафиксированными в нем парадигматическими отношениями лексических единиц. Этапы построения ИПТ определение тематического охвата ИПТ; сбор массива ЛЕ; формирование словаря ИПТ; построение словарных статей и указателей; оформление ИПТ; Формирование словаря ИПТ В словарь ИПТ могут быть включены следующие типы ЛЕ: одиночные слова (существительные, прилагательные, глаголы, наречия); именные словосочетания; лексически значимые компоненты сложных слов; сокращения слов и словосочетаний. Допускается включать словосочетания: если в качестве опорного слова они содержат существительное и если выполнен ряд условий Примеры: ЧЕРНЫЙ ЯЩИК, ЛЕГКАЯ ПРОМЫШЛЕННОСТЬ ТАБЛИЦА МЕНДЕЛЕЕВА ЭЛЕКТРИЧЕСКИЕ МАШИНЫ УНИВЕРСАЛЬНАЯ ДЕСЯТИЧНАЯ КЛАССИФИКАЦИЯ = УДК ЯЗЫК ПРОГРАММИРОВАНИЯ Структура тезауруса Обязательные элементы Вводная часть Лексикосемантичес кий указатель Факультативные элементы Системати ческий указатель Иерархиче ский указатель Пермутаци онный указатель Лексико-семантический указатель упорядоченная последовательность словарных статей ИПТ формируется путем расположения их в алфавитном порядке заглавных ЛЕ. Примеры: в Изделия костюмные Изделия пальтовые Изделия швейные Н Куртка двуботная Куртка спортивная Кусок ткани 2203 с Отрез Лавсан 2304 в Волокно полиэфирное Волокна синтетические Систематический указатель перечень дескрипторов, сгруппированных согласно принятой в ИПТ рубрикации. Систематические указатели ИПТ подразделяют на три типа: — тематические, — категориальные, — смешанные. Примеры: ВОИНСКИЕ ПОДРАЗДЕЛЕНИЯ АРМИЯ БАТАЛЬОН ДИВИЗИЯ ПОЛК РОТА ОВОЩНЫЕ КУЛЬТУРЫ БОБОВЫЕ ГОРОХ ФАСОЛЬ ФАСОЛЬ СПАРЖЕВАЯ Иерархический указатель Иерархический указатель отражает полную структуру иерархических отношений. Представляет собой перечень списков дескрипторов, причем каждый список начинается с дескриптора, не имеющего вышестоящих. После каждого дескриптора приведены непосредственно нижестоящие дескрипторы с указанием их уровня в иерархии путем применения нумерации либо графического обозначения уровня. Примеры: 1. АРМИЯ 2. ДИВИЗИЯ 3. ПОЛК 4. БАТАЛЬОН 5. РОТА Пермутационный указатель предназначен для поиска ЛЕ по отдельным словам, входящим в текст ЛЕ, в том числе и по тем, которые стоят не в начале ЛЕ. представляет собой перечень списков, каждый из которых соответствует одному из знаменательных слов в составе ЛЕ и включает все ЛЕ, содержащие это знаменательное слово. Перечень списков упорядочен по алфавиту знаменательных слов, а внутри списки упорядочены по тексту ЛЕ. Пример: оптические квантовые возбуждения электрические ГЕНЕРАТОРЫ помех ГЕНЕРАТОРЫ последовательного ГЕНЕРАТОРЫ постоянного тока Тезаурусная статья Элемент лексикосемантического указателя, состоящий из дескриптора или нондескриптора и всей информации, относящейся к нему Структура словарной статьи Дескрипторная статья состоит из заглавного дескриптора, списка дескрипторов и аскрипторов, семантически связанных с ним, с обозначением видов связи. Аскрипторная статья состоит из аскриптора и заменяющих его при обработке и поиске информации дескрипторов или комбинации дескрипторов. Словарная статья может также включать: частоту использования дескриптора; кодовый номер дескриптора; код дескриптора по систематическому указателю; классификационные индексы; дополнительные семантические и лексикографические пометы; иноязычные эквиваленты. Порядок расположения элементов в словарной статье заглавный дескриптор; дополнительные данные; лексическое примечание; аскрипторы или дескрипторы-синонимы; вышестоящие дескрипторы; нижестоящие дескрипторы; ассоциативные дескрипторы; дескрипторы, связанные другими видами отношений АЛГОРИТМИЧЕСКИЕ ЯЗЫКИ (формализм теории алгоритмов см. ТЕОРИЯ АЛГОРИТМОВ) с языки алгоритмические машиноориентированные языки проблемноориентированные языки в ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ФОРМАЛЬНЫЕ ЯЗЫКИ н АВТОКОДЫ АЛГОЛ ИПЛ КОБОЛ КОМИТ ПЛ/1 ФОРТРАН а АЛГОРИТМЫ ПРОГРАММИРОВАНИЕ ср искусственные языки б) Аскрипторные статьи: 1) Языки программирования см АЛГОРИТМИЧЕСКИЕ ЯЗЫКИ 2) Языки иа ФОРМАЛЬНЫЕ ЯЗЫКИ ЕСТЕСТВЕННЫЕ ЯЗЫКИ 3) Алфавитно-цифровые знаки ик БУКВЫ ЦИФРЫ Дескриптор Синонимы Ссылки к вышестоящим дескрипторам Ссылки к нижестоящим дескрипторам Ссылка к ассоциативно связанному дескриптору Ссылка «Сравни» Ссылка от аскриптора к дескриптору Ссылка к нескольким формально заменяющим дескрипторам Ссыылка от аскриптора к заменяющей его комбинации дескрипторов ГОСТы: ГОСТ 7.25—2001 СИБИД. Тезаурус информационнопоисковый одноязычный. Состав, структура и основные требования к построению ГОСТ 7.66—92 СИБИД. Индексирование документов. Общие требования к координатному индексированию ГОСТ 7.74—96 СИБИД. Информационно-поисковые языки. Термины и определения Основная литература: Воройский, Ф. С. Индексирование документов в АБИС / Ф. С. Воройский // Библиотековедение. – 1996. – № 9. – С. 42–44. Воройский, Ф. С. Основные принципы обеспечения информационного поиска в корпоративных электронных каталогах // Информационные технологии, компьютерные системы и издательская продукция для библиотек: Материалы 8-й Междунар. конф. «LIBCOM-2004» -- Режим доступа: http://www.gpntb.ru/libcom4/index3.cfm?n=tez/doc2/doc6 Гендина, Н. И. Лингвистическое обеспечение автоматизированных библиотечных систем / Н. И. Гендина. – Алма-Ата, 1991. – 221 с. Сукиасян, Э. Р. Язык ключевых слов , Э. Р. Сукиасян // Библиотека. – 2005. -- № 6. – С. 13—15. Ханжин, А. Г. Разработка методики координатного индексирования документов. Ч. 2. / А. Г. Ханжин // НТИ. Сер. 2. Информационные процессы и системы. – 1995. – № 9. – С. 14–19. Вы прослушали курс: Индексирование документов с использованием вербальных информационно-поисковых языков Благодарим за сотрудничество! На Ваши вопросы готовы ответить: Людмила Анатольевна Жарикова, старший научный сотрудник ГПНТБ СО РАН, отдел научной обработки документов [email protected] Галина Анатольевна Скарук, кандидат педагогических наук, старший научный сотрудник ГПНТБ СО РАН, отдел научной обработки документов [email protected]