семинар НУГ

advertisement
МЕТОДЫ ОРГАНИЗАЦИИ
ЛЕКСИЧЕСКОЙ ИНФОРМАЦИИ
Тезаурусы в задачах информационного поиска
ИНФОРМАЦИОННЫЙ
процесс отыскания в некотором множестве текстов (документов) всех таких,
ПОИСК
которые посвящены указанной в запросе теме (предмету) или содержат
нужные потребителю факты, сведения. И. п. осуществляется посредством
информационно-поисковой системы и выполняется вручную либо с
использованием средств механизации или автоматизации. Непременным
участником И. п. является человек. При И. п. отыскиваются — и могут быть
найдены — такие и только такие факты или сведения, которые были введены
в ИПС. Перед вводом в ИПС текста (документа) определяется его основное
смысловое содержание (тема или предмет), которое затем переводится и
записывается на одном из информационно-поисковых языков. Эта запись
называется поисковым образом текста. Так же поступают и когда в ИПС
вводят определённым образом записанные факты, сведения. Поступивший
запрос также переводится на информационно-поисковый язык, образуя
поисковое предписание. Поскольку поисковые образы текстов и поисковые
предписания записаны на одном и том же языке, выражения на котором
допускают только одно истолкование, то возможно сравнивать их
формально, не вникая в смысл. Для этого задаются определённые правила
(критерии соответствия), устанавливающие, при какой степени формального
совпадения поискового образа с поисковым предписанием текст следует
считать отвечающим на информационный запрос и подлежащим выдаче.
Техническая эффективность И. п. характеризуется двумя относительными
показателями — коэффициентом точности (отношением числа текстов,
отвечающих на информационный запрос, к общему числу текстов в данной
выдаче) и коэффициентом полноты (отношением числа текстов,
отвечающих на информационный запрос, к общему числу таких текстов,
содержащихся в данной ИПС).
Лит.: Михайлов А. И., Черный А. И., Гиляревский Р. С., Основы
информатики, 2 изд., М., 1968, с. 244—620; Bourne Ch. P., Methods of
information handling, N. Y., 1963; Vickery B. C., On retrieval system theory, 2 ed.,
L., 1965.
ЛЕКСИКА. СИСТЕМНОСТЬ В
ЛЕКСИКЕ
 Лексика (от др.-греч. λεξικός — «относящийся к
слову», от λέξις — «слово», «оборот речи») —
совокупность всех слов того или иного языка,
словарный состав языка. Лексика является
центральной частью языка, именующей,
структурирующей и передающей знания об
объектах реальной действительности.
 Слово =
Означающее (звук./граф. образ)
Означаемое (содержание слова)
 Слово – Понятие – Реалия
 Слово – лексическое значение (в основе
понятие)
ЛЕКСИЧЕСКАЯ ИНФОРМАЦИЯ

БЕРЁЗА, -ы, ж. Лиственное дерево с белой (реже тёмной) корой и с сердцевидными листьями.
Белая б. Чёрная б. Карликовая б., уменьш. берёзка, -и, ж., ласк. берёзонька, -и, ж., прил.
берёзовый, -ая, -ое. Б. сок. Б. веник. Берёзовая каша (о наказании розгами; устар. шутл.).
Семейство берёзовых (сущ.). (С.И. Ожегов, Н.Ю. Шведова. Словарь русского языка)

БЕРЕЗА - род деревьев и кустарников семейства березовых. Обычно выделяют 120-140 (по другим данным,
65) видов, в умеренных и холодных поясах Северного полушария и в горах субтропиков. Лесообразующая и
декоративная порода. Наибольшее хозяйственное значение имеют береза повислая, или бородавчатая, и
береза пушистая. Древесину используют в мебельном производстве, на поделки; почки и листья как
мочегонное, желчегонное средства. 5 видов охраняются. (БЭС)

БЕРЕЗА — дерево, символизирующее весну и воскресение. Культ березы был характерен для стран севера и
востока Европы. У скандинавов — она атрибут богини земли Нертус. Кельты одевали на голову умершим
погребальные шапки из березовой коры. Мотив березы использовался у кельтских друидов в мистерии
празднования зимнего солнцестояния. Тюркская богиня Умайя снизошла с неба на землю с двумя березами.
Береза в представлении народов Севера шаманское дерево, соединяющее землю и небо. Зарубки,
отмечаемые шаманом на березе, символизируют лестницу в высшие миры. Камчадалы использовали ветви
березы в сакральном празднике метел. У древних славян береза связывалась с душами умерших — отсюда
амбивалентное отношение к ней: почитание в качестве символа предков и характеристика как нечистого
дерева. В ветвях березы обитают русалки, а на березовых метлах совершают свои полеты ведьмы. Но вместе
с тем березовые ветви — один из самых распространенных у славян оберегов. Березовые ветви преграждали
нечистой силе путь в жилище человека.
Береза символизирует девичество, поэтому в лирической поэзии береза аллегорически изображает девушку.
Береза обладает целебными качествами: так, березовый сок способствует очищению крови. Используемый в
бане березовый веник служит средством ритуального очищения. Семантика березы — белый цвет. Береза
использовалась в магических целях. Цыганские гадатели обворачивали вокруг нее нательную рубаху, после
чего первый услышанный звук истолковывался как предсказание. На "зеленые святки" в России девушки
производили обряд "заламывания березы". На дереве скручивали ветви, заплетали их в косички,
обвешивали бусами и платками. Считалось, что этот ритуал должен помочь заключению брака. Гадали и по
брошенным в реку березовым венкам. Часто береза используется в качестве символа России.
(Энциклопедия символов, знаков, эмблем. М., 1999; О Великих Господских и Богородичных праздниках. М.,
1990.)
ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ
Лексическая связность текста как проявление глобальной связности текста
Какую информацию можно извлечь из данных микротекстов?



Глокая куздра штеко будланула бокра и кудрячит бокренка (Л.В. Щерба)
Colorless green ideas sleep furiously (Н. Хомский)
http://omiliya.org/article/puski-byatye-lyudmila-petrushevskaya.html
(Л. Петрушевская)
Сяпала Калуша с Калушатами по напушке. И увазила Бутявку, и волит:
— Калушата! Калушаточки! Бутявка!
Калушата присяпали и Бутявку стрямкали. И подудонились.
А Калуша волит:
— Оее! Оее! Бутявка-то некузявая!
Калушата Бутявку вычучили.
Бутявка вздребезнулась, сопритюкнулась и усяпала с напушки.
А Калуша волит калушатам:
— Калушаточки! Не трямкайте бутявок, бутявки дюбые и зюмо-зюмо некузявые. От бутявок дудонятся.
А Бутявка волит за напушкой:
— Калушата подудонились! Зюмо некузявые! Пуськи бятые!
ПАРАДИГМАТИКА

Парадигматические отношения в лексике – это
отношения, рассматривающие слова как
сосуществующие в языке, в словаре, в сознании
носителей. В парадигматике слова связаны друг с
другом отношениями сходства и различия
(ассоциативно). Так, различают отношения:
а) сходства в плане содержания (ПС) - синонимы;
б) сходства в плане выражения (ПВ) - омонимы;
в) неполного (частичного) сходства как в ПС, так и в ПВ
- паронимы;
г) включения – лексико-семантические, или
тематические поля;
д) противопоставления – антонимы.

Вышеперечисленные отношения являются
разновидностями парадигматических отношений и
составляют лексическую парадигму. Семная структура
слова – основа парадигматических отношений.

Эти отношения не являются линейными. Существуют in
absentia, «по вертикали»
СИНТАГМАТИКА
 Синтагматические отношения – это отношения
слов в речевом потоке в процессе сочетания их с
другими словами.
 По способности слов вступать в различные
сочетания различают лексические значения
слов свободные и несвободные,
фразеологически связанные и синтаксически
обусловленные.
 Существуют in presentia
 Отношения «по горизонтали»
 Валентность
ЭПИДИГМАТИКА
 Системность в лексике была обогащена
введением в ее описание «третьего измерения»,
относящегося к деривационным связям слов и
получившего у Д. Н. Шмелева название
эпидигматики. Последняя отражает
способность слова, благодаря словообразованию
и процессам его семантического развития,
входить одновременно в различные лексикосемантические парадигмы и демонстрировать
таким образом помимо синтагматических и
чисто парадигматических еще и
эпидигматические связи.
«ВСЕОБЩИЙ ТЕЗАУРУС МИРА»

«Весь окружающий нас мир можно рассматривать как
множество, состоящее из двух элементов: предметов и их
отношений. Этот реально существующий мир отражается в
сознании человека в форме взаимосвязанных понятий, т.е.
в такой форме мышления, при которой в сознании
фиксируются только существенные признаки предмета.

Все понятия естественного языка, служащие для описания
окружающего мира, представляют всеобщий тезаурус мира,
отражающий весь универсум наших знаний. Всеобщий
тезаурус можно подразделить на частные тезаурусы путем
выделения совокупности однородных понятий по их
иерархическому уровню или путем выделения понятия,
которыми можно описать какую-либо специфическую часть
мира. Таким образом, на основе всеобщего тезауруса можно
составить бесконечное множество тезаурусов по различным
областям науки и техники, по отдельным проблемам и
задачам…».

Шемакин Ю.И. Тезаурус в автоматизированных системах
управления и обработки информации. М., 1974. С. 15.
ОПРЕДЕЛЕНИЕ
ТЕЗАУРУСА
(от греч. thesauros сокровище),..1) словарь, в
котором максимально полно
представлены слова языка с
примерами их употребления в
тексте (в полном объеме
осуществим лишь для мертвых
языков)…2) Словарь, в котором
слова, относящиеся к какимлибо области знания,
расположены по тематическому
принципу и показаны
семантические отношения
(родо-видовые, синонимические
и др.) между лексическими
единицами. В информационнопоисковых тезаурусах
лексические единицы текста
заменяются дескрипторами.
БСЭ
Тезаурусы
Информационнопоисковые
тезаурусы
Идеографические
словари
Ассоциативные
словари
Лингвистические
ресурсы типа
WordNet и
EuroNet
ТЕЗАУРУС
Два независимых
признака
1.
Концептуальный
вход
2.
Фиксированные
семантические
связи между
единицами
Никитина С.Е.
 Первый этап создания словарей:
ТИПЫ
ТЕЗАУРУСОВ
Тезаурус – особый вид
словаря –
идеографический
словарь, лексика в
котором
систематизирована по
тематическому
принципу
1. Attikai Lexeis греческого грамматика,
директора Александрийской библиотеки
Аристофана Византийского (II в. до н.э.)
2. «Ономастикон» лексикографа и софиста
Юлия Поллукса (II в. н.э.)
3. Санскритский словарь «Амаракоша» (II-III
вв. н. э.) - древнеиндийский поэт, грамматик
и лексикограф Амара Сина
КЛАССИФИКАЦИЯ В СЛОВАРЕ
Ю. ПОЛЛУКСА

Боги. Места культа, алтари и храмы. Создание и разрушение. Жрецы. Провидцы и
искусство провидения. Благочестивые и безбожники. Короли, купцы, ремесленники.
Дом, корабль. Погода. Армия. Лошади и искусство верховой езды. Домашние
животные. Сельское хозяйство, плуг, средства перемещения, пчелы.

Человек. Возрастные отличия. Рождение человека. Части тела.

Пол. Родство. Брак. Дети. Друзья. Господа и рабы. Строительное дело.
Географическое положение. Путешествие. Печаль, радость.

Образование: грамматика и риторика. Философы и софисты. Поэты и музыканты.
Музыкальные инструменты. Танцы, театр. Астрономия. Медицина и болезни.

Охота. Собаки. Животные, на которых охотятся. Женские украшения. Мужество,
страх. Фармацевтическое дело. Молитва. Слава.

Гости. Вино и продукты. Еда. Застольная беседа.

Рынок. Купля и продажа. Торговцы. Товары. Деньги.

Суд. Судья. Процессы. Наказания. Доносчик.

Административное деление. Город. Общественные здания. Игры детей и взрослых.

Утварь.
КЛАССИФИКАЦИЯ В СЛОВАРЕ
«АМАРАКОША»
КНИГА I

Глава 1. Секции:
Небо, боги, титаны и их атрибуты.
Небесный свод, атмосфера, планеты, звезды.
КНИГА II

Глава 1. Земля, солнце, страна, дороги, меры длины.

Глава 2. Города, здания, жилище.

Глава 3. Горы, скалы, источники, пещеры, минералы.

Глава 4. Секции:
Времена года, фазы луны, затмения.
…
Леса, сады, деревья, растения, части растения.
Преступление, добродетель, счастье, судьба,
характер, ум, чувства, вкус, запах, цвет.
…
Деревья разных пород.
…
Лекарственные растения.
Слово, язык, сочинение.
…
Полезные растения.
Звук.
…
Огородные растения, травы.
Музыка, танцы, драматические представления,
празднества.


Глава 5. Львы и другие четвероногие, насекомые, птицы, стаи, стада..

Глава 6. Секции:
Глава 2. Секции:
Области ада, темь, змеи, яды.
…
Мужчины, женщины, родственники, государства, учреждения.
…
Здоровье, лекарства, болезни, части тела.
…
Одежда, украшения, благовония, гирлянды.
Потусторонний мир, души усопших, несчастье,
страдание.

Моря, вода, острова, реки, суда, рыба, водоемы,
водоросли.
Глава 7. Расы, секты, режимы, сословие жрецов, жертвоприношение,
милостыня, самоистязание, учение, брак, цель человеческой жизни.

Глава 8. Секции:
…
Сословие воинов, короли, министры, враги, союзники, оборона,
победа, доходы, знаки королевского отличия.
…
Лагерь, армия, оружие, война, резня, похороны, тюрьма.

Глава 9. Третье сословие, профессии, земледельцы, поле, зерно, орудия
труда, пища, тягловый скот, торговля, меры.

Глава 10. Четвертое сословие, арендаторы, ремесленники, артисты,
музыканты, охота, охотники, собаки, дичь, орудия, умения, спиртные
напитки, игрища.
ТИПЫ
ТЕЗАУРУСОВ
 Второй этап создания словарей:
1. Тезаурус Питера Марка Роже
(Thesaurus Rougue) – 1852 г.
Понятийное поле английского языка:
абстрактные отношения; пространство;
материя и дух (разум, воля, чувства).
Схема классификации была приспособлена
для французского языка Т. Робертсоном
(1859 г.), для немецкого языка Д. Зандерсом
(1877 г.) и А. Шлессингом (1881 г.), для
испанского языка Д. Э. Бенотом (1889 г.) и
Н. Сампером (1912 г.).
ОТНОШЕНИЯ В
ТЕЗАУРУСЕ
Наталья Гронская
Наталья Русова

Основными отношениями в тезаурусе являются:
•
Синонимия – связь между словами одной части речи, различных по
звучанию и написанию, но имеющих одинаковое или очень близкое
лексическое значение, например: кавалерия – конница, смелый –
храбрый;
•
Антонимия (и контрастивы) – связь между словами одной части
речи, различных по звучанию, имеющих прямо противоположные
значения: правда – ложь, добрый – злой;
•
Гипонимия/гиперонимия. Гипероним – слово с более широким
значением, выражающее общее, родовое понятие, название класса
(множества) предметов (свойств, признаков). Гипоним – слово с
более узким значением, называющее предмет (свойство, признак) как
элемент класса (множества). Эти отношения транзитивны и
несимметричны. Гипоним наследует все свойства гиперонима.
Являются центральными отношениями для описания существительных;
•
Меронимия/партонимия – отношение «ЧАСТЬ-ЦЕЛОЕ». Внутри
этого отношения выделяются отношения «быть элементом» и «быть
сделанным из». Отношение определено только для существительных;
•
Следствие (это отношение связывает между собой глаголы);
•
Причина (также определено для глаголов).
ЛЕКСИКОН ВЛАСТИ
СЛОВАРЬ – ТЕЗАУРУС
ПОЛИТИЧЕСКИХ АССОЦИАЦИЙ
(рабочие материалы к словарю)
Н.Э. ГРОНСКАЯ, Н.Ю. РУСОВА
ЛЕКСИКОН ВЛАСТИ
Словарь-тезаурус
политических ассоциаций
ИНФОРМАЦИОННОПОИСКОВЫЙ
 Цели создания ИПТ:
ТЕЗАУРУС
Это нормативный
словарь, указывающий
отношения между
терминами и
служащий для
описания содержания
документов.
Инструмент для
ручного описания
содержания документа
специалистамииндексаторами
1. Обеспечение перевода содержания
документа и поискового запроса на
один «язык» = единицы тезауруса
2. Отношения между терминами дают
возможность описать документ
оптимальными терминами тезауруса
3. ИПТ используется как поисковое
средство при поиске документа
Основная единица – термины
предметной области – дескриптор
ИНФОРМАЦИОННОПОИСКОВЫЙ
ТЕЗАУРУС
Основные принципы
разработки тезаурусов
– «золотая середина»
между достаточным
количеством терминов
и возникающей
субъективностью
индексатора
В среднем в тезаурусе –
10000 терминов и
6000 - 7000
дескрипторов
1.
Отбор терминов для включения в
тезаурус (источники: близкие по
предметной области тезаурусы, сами
тексты, эксперты).
2.
Удаление слишком частотных и
малочастотных терминов.
3.
Удаление слишком конкретных
терминов (ограничение количества
уровней иерархии)
Поисковый образ - текст, состоящий из
лексических единиц информационнопоискового языка, выражающий
содержание документа или
информационного запроса и
предназначенный для реализации
информационного поиска.
ИНФОРМАЦИОННОПОИСКОВЫЙ
ТЕЗАУРУС
Два типа отношений:
Иерархические (не
более 9 уровней
иерархии)
Ассоциативные
ТЕЗАУРУС ИССЛЕДОВАТЕЛЬСКОЙ СЛУЖБЫ
КОНГРЕССА США (LEGISLATING INDEXING
VOCABULARY
 1967 – 1995 гг.
 10 тыс. терминов, 5 тыс. дескрипторов
 Используется для индексирования и поиска
законов, законопроектов, политической
литературы в исследовательской службе
Конгресса США
 Дескрипторы именуют 80 тематических
областей (top terms)
КОНКРЕТНЫЕ ТЕЗАУРУСЫ
 Тезаурус Евросоюза (EUROVOC) – на 9 языках,
ручное индексирование, 2001 г. – русская
версия
 Тезаурус ООН URBUS – на всех официальных
языках ООН, многоотраслевой
 Тезаурус по архитектуре и искусству (Art and
Architecture Thesaurus) – 34 тыс. дескрипторов,
131 тыс. терминов, 7 фасетов, 33 иерархии;
полное покрытие искусства Западной Европы и
Америки
 Тезаурус в области медицины (Medical Subject
Headings), США, медико-биологическая сфера,
25 тыс. дескрипторов
ОСНОВНЫЕ МЕТОДЫ
ИНДЕКСИРОВАНИЯ
ДОКУМЕНТА
Координатное
индексирование
Создание рубрикатора
параллельно с
созданием тезауруса
(сверху, в то время как
тезаурус создается
снизу – от терминов)
 Цель КИ – включение в поисковый
образ документа (ПОД) всех
необходимых терминов
 Смысл текста можно передать
набором ключевых слов
 КИ может быть свободным
(авторским) и нормализованным
 Возможно введение весов для
дескрипторов (главная тема,
побочная тема, вспомогательные
понятия)
ИТОГ
 Информационно-поисковый тезаурус
– искусственный язык описания
текстов (документов) определенной
предметной области
 Эти тезаурусы сложно вписываются
автоматическую обработку
документов
 Предполагают ручное
индексирование документов
ВЫВОДЫ
 Тезаурусный метод извлечения и
представления (поиска) лексической
информации опирается на системные связи в
лексической системе языка (парадигматика,
синтагматика, эпидигматика)
 Отличительные черты всех тезаурусов :
1. Концептуальный вход
2. Фиксированные семантические связи между единицами

ИПТ – это нормативный словарь, указывающий
отношения между терминами и служащий для
описания содержания документов. ИПТ является
инструментом для ручного описания содержания
документа специалистами-индексаторами
Download