Lexical chaining – Lexical chains - textual cohesion (Halliday & Hasan) Cohesion: text makes sense as a whole Cohesion occurs where the interpretation of one item is dependent of that of another item in the text. It is this dependency that gives rise to cohesion. Textual coherence • • • • • Союзы Референция Лексическая связанность Субституция (one; делать) Эллипсис В чем преимущество лексической связанности для автоматического анализа? Lexical chaining 5 типов лексической связанности • повтор • синонимия СЛОВАРИ • общее частное • часть целое • коллокации ( и антонимы как подтип) статистически часто встречаются вместе WORDNET (Miller et al. 1990 Fellbaum 1998) An online lexical database whose design is inspired by current psycholinguistic theories of human lexical memory. – 4 гр. категории: сущ., глагол, прил., наречие – Главное отношение: СИНОНИМИЯ SYNSET Wordnet noun relations • Гипонимы • Гиперонимы • Холонимы • Меронимы • Антонимы Генерация цепочки 1. К термину подбирается синсеты (neighbouri set) 2. Любой другой термин, который совпадает с одним из терминов синсета, становится членом лексической цепочки 3. Если в цепочке имеется более трех терминов, то ее индексируют 4. И так для всех терминов сообщения Greedy vs. non-greedy Morris & Hirst (1991) Правила выбора правильной цепочки • Chain salience (words should be added to the most recently updated chain). • Thesaural relationship (wordnet:часть-целое) • Transitivity • Allowable word distance Типы отношений (I) Очень сильные (extra strong) отношения • повторение слов (mouse/mice) Сильные (strong) отношения • два слова, если они имеют одинаковый номер синсета telephone/phone • два синсета, если они связаны горизонтальной связью • два синсета, если между ними существует связь наверх или вниз • два слова, если одно из них является сложным словом, а другое – его частью (orange_tree, tree) 8 Типы отношений (II) Отношения средней силы (mediumstrength relations) • два синсета соединены в WordNet разрешенным путем длины x, 1≤x≤5 Правила: • никакое направление не должно предшествовать связи вверх • разрешено не более одного изменения направления (кроме тех случаев, когда горизонтальная связь использована для перехода от связи вверх к связи вниз) 9 • В основе выделения трех типов отношений лежит презумпция того, что близость в значении прямо зависит от расстояния (в узлах) в таксономии • Не все дуги одинаковой длины; правила – попытка сократить количество узлов, семантически не связанных между собой, но близких формально 10 Интуитивные основания правил • Если контекст сужен, расширение его последующей связью наверх не имеет большого смысла • Изменение направления – «большой шаг» в семантике (кроме (редкой) горизонтальной связи), т. о. отношения средней силы – либо генерализация, либо специализация 11 Необходимость правил 12 Работа алгоритма: Поиск связи между целевым словом и словом одной из цепочек: очень сильное отношение > сильное отношение > отношение средней силы Отношения средней силы взвешиваются в зависимости от длины пути и количества изменений направления (нужно найти самое сильное отношение средней силы): (1) Link Strength = C – path length - k C – константа, k – кол-во изменений направления 13 Работа алгоритма: Ограничения на расстояние между целевым словом и последним словом цепочки: • нет для очень сильных отношений (‘one sense per discource’ assumption) • 7 предложений для сильных отношений • 3 предложения для отношений средней силы 14 Работа алгоритма: • Greedy lexical chaining approach: при добавлении слова к цепочке учитывается только его левый контекст • «Очередь» (queue): каждое слово предложения n добавляется к очереди; ищутся очень сильные отношения между этими словами и всеми созданными к этому моменту цепочками. Как только очень сильное отношение найдено, поиск прекращается, слово удаляется из очереди и добавляется к цепочке. Затем ищутся сильные отношения, затем отношения средней силы (которые взвешиваются по формуле (1)) между оставшимися словами из очереди и всеми лексическими цепочками; слова удаляются из очереди и добавляются к соответствующим цепочкам. Для слов, оставшихся в очереди, создаются новые цепочки. 15 Работа алгоритма: • Chain salience: слова добавляются к цепочке, которая обновлялась последней. 16 17