Автоматическая обработка текста Лекция 2 Корпуса 5/7/2016 1 Введение. Обработка текста. Этапы и разработка Корпуса: основные понятия Требования к корпусу Стандарты Разметка 5/7/2016 2 Автоматическая обработка текста. Лингвистические платформы графематический анализ препроцессинг (очистка текста) токенизатор, сплиттер морфологический анализ нормализация (лемматизация, стемминг) частеречная разметка (POS-tagging) синтаксический анализ полный синтаксический анализ, chunking, 5/7/2016 shallow parsing 3 Автоматическая обработка текста. Лингвистический конвейер ??? семантический анализ распознавание аргументной структуры semantic role labeling разрешение анафоры (anaphora resolution) дискурсивный анализ (риторические структуры) распознавание именованных сущностей извлечение фактов классификация, кластеризация текстов 5/7/2016 4 Разработка модулей обучение корпус текстов обучающий корпус vs. тестовый корпус специальным образом отобранные тексты размеченные под проблему (аннотированные) 5/7/2016 5 Разработка: корпуса Как собирать корпуса? Как аннотировать корпуса? специальные технологии сбора корпуса под задачу vs. использование существующих экспертных (эталонных) корпусов 5/7/2016 6 Разработка: корпуса Золотой стандарт Примеры: 5/7/2016 НКРЯ со снятой омонимией Penn-Treebank 7 Корпус Корпус – множество текстов, отобранных исходя из некоторых принципов, размеченных (аннотированных) в корпусе с помощью специальных программ можно искать необходимые фрагменты текста по заданным параметрам (например, множество текстов одного жанра или автора, множество строчек или предложений, в которых встретилось конкретное слово или словосочетание, множество существительных в родительном падеже и т.п.) 08.02.2008 8 Понятие корпуса Лингвистический, или языковой, корпус текстов – большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. 08.02.2008 9 Основные единицы Основной элемент хранения в корпусе: текст (может быть полное произведение, фрагмент произведения, одно предложение и т.п.) - насколько большой объем текстов в данном корпусе, как измерять этот объем, как сравнивать корпуса: в количестве текстов, страниц и т.п.??? Возможный ответ: В словах 08.02.2008 10 Но: что такое слово? Что мы будем считать словом? Сколько слов в предложении: Ворон к ворону Ворон ворону 08.02.2008 летит кричит 11 Что такое слово? Что мы будем считать словом? словоупотребление Лемма (множество словоформ, сведенных к одной исходной форме (≈лексема)) 08.02.2008 12 Основные единицы Единицы хранения в корпусе – текст или структурный элемент текста (требование завершенности фрагмента) Словоупотребление Лемма (нормализованная форма) 5/7/2016 13 Лемма древних Является для 08.02.2008 древние =S, мн,од=(род|вин|пр)| древний =A =род,мн|вин,мн,од|пр,мн являть являться Длить Для =V=непрош,ед,изъяв,3л,нсв, страд =V=непрош,ед,изъяв,3-л,нсв =V,несов=непрош,деепр =PR 14 Основные понятия Требования к корпусу Стандарты Разметка Типы корпусов Примеры корпусов 5/7/2016 15 Требования к корпусу Репрезентативность Полнота Экономичность Структурированность Компьютерная поддержка 5/7/2016 16 Требования к корпусу: Репрезентативность способность корпуса текстов отражать все свойства проблемной области, релевантные для данного типа лингвистических исследований, в определенной пропорции, определяемой частотой явления в проблемной области. – 5/7/2016 17 Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса Размеры и процентные соотношения: Жанры Стили Периоды Авторы Хронологические границы ………………………. 5/7/2016 18 Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса Всеобщий корпус, нацеленный на пропорциональный охват языковой практики, по анализам Д. Байбера, должен был бы содержать приблизительно 90% разговоров (обычной разговорной речи), 3% писем и замечаний и 7% опубликованных и неопубликованных текстов классических стилей и жанров. 5/7/2016 19 Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса Обычно художественные тексты составляют в национальных корпусах 20-40% 5/7/2016 20 Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса Если всеобщий национальный корпус составляется из письменных текстов современного языка, при создании проекта все же необходимо: с хронологической точки зрения ограничить современный язык с точки зрения репрезентативности определить, будут ли тексты для корпуса подбираться на основе принципа адекватного представления всех стилей и жанров (типов текстов) или на основе адекватного размещения языковых явлений в соответствующих текстах / целом корпусе 5/7/2016 21 Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса Культурно-репрезентативный корпус От лингвистической работы часто требуется не языковой пример, а хороший языковой пример, “освященный” авторитетом сочинителя собрание культурно значимых текстов на данном языке В практическом преломлении “культурная значимость” потенциальным источником расхожих цитат текст признаётся принадлежащим данному слою, если он вносит какой-то вклад в историю русского языка (в том числе и интересен языковыми экспериментами). 5/7/2016 22 Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса культурная значимость не гарантирует “стандартности” авторского языка. От корпуса языка требуется соответствие узусу и языковой компетенции его образованного носителя. Между тем тексты таких авторов, как Зощенко, Платонов или даже Гоголь изобилуют “авторскими особенностями” Отсюда задача: “стандартный”, “эталонный” корпус русского языка; языка лишённого по возможности сознательных стилевых и лексических экспериментов, тем не менее “гладкого” и “профессионального”. 5/7/2016 23 Требования к корпусу: Репрезентативность Требование репрезентативности при создании исследовательского корпуса Например, проблема – корпус текстов по дискурсивным словам русского языка Ср. частота частицы же vs. типа 5/7/2016 24 Требования к корпусу: Полнота Полнота В корпусе исследуемое явление должно быть представлено во всей его полноте, включая редкие случаи и отклонения от нормы NB: Полнота требует учета релевантных явлений, даже если они очень редкие и не попадают в корпус в соответствии с требованием репрезентативности 5/7/2016 25 Требования к корпусу: ?? Экономичность “Корпус должен экономить усилия исследователя при изучении проблемной области. В частности, он должен быть не просто строгим подмножеством проблемной области, но, по возможности, существенно отличаться от нее (меньше) по объему” А.Н.Баранов. Введение в прикладную лингвистику. С.119. 5/7/2016 26 Требования к корпусу: Структуризация А.Н.Баранов. Введение в прикладную лингвистику. С.119. 5/7/2016 27 Требования к корпусу: Компьютерная поддержка необходимы специальные программы по обработке данных Необходима предварительная подготовка текста для того, чтобы его можно было обрабатывать компьютером 5/7/2016 28 Сбалансированный корпус в корпусе должны быть представлены в соответствующих пропорциях тексты разных функциональных стилей, жанров, авторов и т.п. (например, как художественная литература, так и газетные и журнальные статьи, учебники, научнопопуляпная литература и т.д.). Пример: Брауновский корпус Фрэнсис – Кучера. 1млн словоупотреблений. 500 текстов по 2000 словоупотреблений. Мониторный корпус 5/7/2016 29 Основные понятия (лекция 1) Требования к корпусу Стандарты Разметка 5/7/2016 30 Требование унификации: многократное использование; много пользователей; совместимость с другими корпусами; совместимость с другими лингвопроцессорами; совместимость с общепринятыми научными теориями; совместимость с общепринятыми классификациями; возможность применения стандартных программных средств. 5/7/2016 31 Объекты стандартизации Структура формата Наполнение формата Метаданные Классификаторы Лингвистическая разметка 5/7/2016 Кодировки 32 Стандарты Пример: In passing the door of that sanctum some time after, I caught the words -'She'll happen do better for him nor ony o' f grand ladies.' And again, 'If she ben't one o' th' handsomest, she's noan faa''l, and varry good-natured; and i' his een she's fair beautiful, onybody may see that.‘ 474 JANE EYRE 475 5/7/2016 33 Стандарты Пример: In passing the door of that sanctum some time after, I caught the words -- 'She'll happen do better for him nor ony o' f grand ladies.' And again, 'If she ben't one o' th' handsomest, she's noan faa''l, and varry good-natured; and i' his een she's fair beautiful, onybody may see that.‘ 474 JANE EYRE 5/7/2016 475 34 Стандарты В этой записи имеется ряд недостатков: номера страниц и колонтитулы идут прямо в тексте (программам обработки трудно различать их); нет разницы между одинарными кавычками и апострофами (проблемы с выделением прямой речи); сохранение переносов, которые были в исходном тексте, (сложности для автоматического поиска); буква с ударением в слове faál и длинное тире представлены специальными группами символов, которые не соответствуют стандарту (дополнительные проблемы с обработкой); абзацы выделены только отступом, а знак возврата каретки, жестко задающий формат, имеется в конце каждой строки (если изменить размер шрифта, которым печатается текст, то переформатирование текста будет непростой задачей). 5/7/2016 35 Стандарты In passing the door of that sanctum some time after, I caught the words &dash; <p><q>She'll happen do better for him nor ony o' t' grand ladies.</q> And again, <q>If she ben't one o' th' handsomest, she's noan fa&agrave;l, and varry good-natured; and i' his een she's fair beautiful, onybody may see that.</q> <pb n='475'> 5/7/2016 36 Стандарты разметки TEI – text encoding initiative EAGLES -Expert Advisory Group on Language Engineering Standards SGML - Standard Generalised Markup Language XML (Extensible Markup Language) - язык разметки документов 5/7/2016 37 Другие международные проекты и стандарты стандарт CES (Corpus Encoding Standard); стандарт XCES (Corpus Encoding Standard for XML); проект ISLE (International Standards for Language Engineering); стандарт CDIF (Corpus Document Interchange Format, BNC). 5/7/2016 38 Группа стандартов TEI для корпусов (TEI P4, TEI P5) Схема описания документа: библиографическое описание текста, собственно метаописание текста и "технологическое" описание: кодировка текста, история создания электронной версии и т.п. 5/7/2016 39 Стандарт Text Encoding Initiative (TEI) 1. 2. формальное описание текста Название Автор Год Размер ……… содержательное описание текста Жанр Стиль Целевая аудитория Время создания ……… 5/7/2016 40 TEI TEI – универсальное множество, из которого создатель корпуса может выбрать любое подмножество, релевантное для своей конкретной задачи. 5/7/2016 41 Примеры стандартных тегов TEI •<front> •содержит различную вступительную информацию (заголовки, титульный лист, предисловия, посвящения и т.п.), которую размещают перед основным текстом. •<group> •содержит число монолитных текстов или групп текстов. •<body> •содержит всю основную часть одного монолитного текста, исключая то, что относится к вводной или закрывающей частям текста. •<back> •содержит различные приложения и т.п., которые располагаются после основной части текста. 5/7/2016 42 TEI <p> •отмечает абзацы написанного прозой текста. •<div> •содержит раздел вводного, основного или закрывающего текста. •содержит раздел первого уровня вводного, основного или закрывающего текста (это самый высокий уровень, если элемент <div0> не используется, или второй уровень, если он используется). •<div1> 5/7/2016 43 Кодирование метаданных в TEI Предусмотрены следующие тэги: 1. <creation> — информация о времени и месте создания текста; 2. <textClass> — классификация текста; 3. <textDesc> — описание текста; 4. <particDesc> — описание автора или участников акта коммуникации; 5. <settingDesc> — условия, в которых происходил акт коммуникации. тэгов. 5/7/2016 Внутри каждого тэга – большое количество вложенных уточняющих 44 Классификаторы: пример тематической классификации EAGLES (1) natsci appsci socsci 5/7/2016 естественные науки mathematics математика physics физика chemistry химия … прикладные науки medicineмедицина engineering техника и технология computing вычислительная техника military военное дело marine мореплавание … общественные науки anthropology антропология language лингвистика, филология … 45 Формальные языки разметки 5/7/2016 SGML (Standard Generalized Mark-up Language), XML (Extensible Mark-up Language) 46 Пример описания на языке XML описание слова 'лошади' будет записано следующим образом: <noun lemma="лошадь" number="singular" gender=“feminine" case="genitive"> лошади </noun> <w> лошади <ana lemma=“лошадь" feats="noun,sg,m,gen“/></w> или <w> lemma="лошадь" feats="NSM2----------">лошади</w>, где NSM2 обозначает the noun (N), Singular (S), masculine (M), Genitive (2) 5/7/2016 47 Разметка метатекстовая разметка разбиение текста на фрагменты лемматизация морфологическая разметка синтаксическая разметка семантическая разметка фонетическая разметка другие типы разметки: анафорическая структура дискурса DRT (http://www.coli.uni-sb.de/~bos/doris/ ) 5/7/2016 48 Метаразметка 5/7/2016 Факторы: 1) факторы, относящиеся к созданию текста автором; 2) факторы, относящиеся к внешним признакам текста; 3) факторы, относящиеся к целям создания текста и его влиянию на аудиторию. 4) предметная область текста; 5) стилистические особенности текста. 49 Пример метаразметки: <A BEAUMONT ELIZABETH> Author's name <C E1> Sub-period <O 1500-1570> Date of original <M X> Date of manuscript <K X> Contemporaneity of original and manuscript <D ENGLISH> Dialect <V PROSE> Verse or prose <T LET PRIV> Text type <F X> Language of foreign original <W WRITTEN> Relationship to spoken language <X FEMALE> Sex of author <J INTERACTIVE> Interactive/non-interactive <I INFORMAL> Formal/informal 5/7/2016 50 Например, Трифонов, "Дом на набережной": <teiHeader id="TRIF1" target="TRIFONOW/dom.txt" type="text" lang="ru"> <fileDesc> <titleStmt> <title>Дом на набережной</title><author>Юрий Трифонов</author> <extent type="w">45238</extent> <extent type="u">4</extent> <extent type="s">4132</extent> </titleStmt> <sourceDesc> <respStmt><name>Мошков</name><resp>Электронная библиотека</resp></respStmt> <address>http://www.lib.ru/PROZA/TRIFONOW/dom.txt</address> </sourceDesc> 5/7/2016 </fileDesc> 51 Морфологическая разметка This example is from the Spoken English Corpus and used the C7 tagset: Perdita&NN1-NP0; ,&PUN; covering&VVG; the&AT0; bottom&NN1; of&PRF; the&AT0; lorries&NN2; with&PRP; straw&NN1; to&TO0; protect&VVI; the&AT0; ponies&NN2; '&POS; feet&NN2; ,&PUN; suddenly&AV0; heard&VVD-VVN; Alejandro&NN1-NP0; shouting&VVG; that&CJT; AJ0: general adjective AT0: article, neutral for number AV0: general adverb AVP: prepositional adverb CJC: co-ordinating conjunction CJS: subordinating conjunction CJT: that conjunction DPS: possessive determiner DT0: singular determiner NN0: common noun, neutral for number NN1: singular common noun NN2: plural common noun 5/7/2016 NP0: proper noun POS: genitive marker PNP: pronoun PRF: of PRP: prepostition PUN: punctuation TO0: infintive to VBI: be VM0: modal auxiliary VVB: base form of lexical verb VVD: past tense form of lexical verb VVG: -ing form of lexical verb VVI: infinitive form of lexical verb 52 VVN: past participle form of lexical verb EXAMPLE OF PART-OF-SPEECH TAGGING, LOB CORPUS: hospitality_NN is_BEZ an_AT excellent_JJ virtue_NN ,_, but_CC not_XNOT when_WRB the_ATI guests_NNS have_HV to_TO sleep_VB in_IN rows_NNS in_IN the_ATI cellar_NN !_! the_ATI lovers_NNS ,_, whose_WP$ chief_JJB scene_NN was_BEDZ comparatively_RB little_AP to_TO sing_VB cut_VBN at_IN the_ATI last_AP moment_NN ,_, had_HVD Rollinson_NP ._. '_' he_PP3A stole_VBD my_PP$ wallet_NN !_! '_' roared_VBD 5/7/2016 53 Пример морфологической разметки Национального корпуса русского языка: <s>Я{я=S,ед,од=им} сидел{сидеть=V,несов=изъяв,прош,ед,муж} на{на=PR} барском{барский=A=ед,сред,пр} сиденье{сиденье=S,сред,неод=ед,пр}, дышал{дышать=V,несов=изъяв,прош,ед,муж} горячим{горячий=A=ед,муж,твор} ветром{ветер=S,муж,неод=ед,твор}, бившим{бить=V,несов=прич,прош,ед,муж,твор} в{в=PR} лицо{лицо=S,сред,неод=ед,вин}, ощущая{ощущать=V=несов,деепр,непрош} в{в=PR} то{тот=A=ед,сред,вин} же{же=PART} время{время=S,сред,неод=ед,вин} не{не=PART} 5/7/2016 54 Лемматизация SUSANNE corpus : N12:0510g - PPHS1m He he N12:0510h - VVDv studied study N12:0510i - AT the the N12:0510j - NN1c problem problem ... VVDv thought think N12:0520c - IO of of N12:0520d - AT1 a a 5/7/2016 N12:0520e - NNc means means N12:0520f - IIb by by N12:0520g - DDQr which which N12:0520h - PPH1 it it N12:0520i - VMd might may N12:0520j - VB0 be be N12:0520k - VVNt solved solve N12:0520m - YF +. - 55 Синтаксическая разметка Treebanks Parsing (S=sentence, NP=noun phrase, VP=verb phrase, PP=prepositional phrase, N=noun, V=verb, AT=article, P=preposition.) 5/7/2016 56 [S[NP Claudia_NP1 NP][VP sat_VVD [PP on_II [NP a_AT1 stool_NN1 NP] PP] VP] S] [S [NP Claudia NP] [VP sat [PP on [NP a stool NP] PP] VP] S] 5/7/2016 57 Full parsing: [S[Ncs another_DT new_JJ style_NN feature_NN Ncs] [Vzb is_BEZ Vzb] [Ns the_AT1 [NN/JJ& wine-glass_NN [JJ+ or_CC flared_JJ HH+]NN/JJ&] heel_NN ,_, [Fr[Nq which_WDT Nq] [Vzp was_BEDZ shown_VBN Vzp] [Tn[Vn teamed_VBN Vn] [R up_RP R] [P with_INW [NP[JJ/JJ/NN& pointed_JJ ,_, [JJ- squared_JJ JJ-] ,_, [NN+ and_CC chisel_NN NN+]JJ/JJ/NN&] toes_NNS Np]P]Tn]Fr]Ns] ._. S] & whole coordination + subordinate conjunct, introduced - subordinate conjunct, not introduced Fr relative phrase JJ adjective phrase Ncs noun phrase, count noun singular Np noun phrase, plural Nq noun phrase, wh-word Ns noun phrase, singular 5/7/2016 P prepositional phrase R adverbial phrase S sentence singular Tn past participal phrase Vn verb phrase, past participle Vzb verb phrase, third person singular to be Vzp verb phrase, passive third person 58 Skeleton Parsing [S& [P For_IF [N the_AT members_NN2 [P of_IO [N this_DD1 university_NNL1 N]P]N]P] [N this_DD1 charter_NN1 N] [V enshrines_VVZ [N a_AT1 victorious_JJ principle_NN1 N]V]S&] ;_; and_CC [S+[N the_AT fruits_NN2 [P of_IO [N that_DD1 victory_NN1 N]P]N] [V can_VM immediately_RR be_VB0 seen_VVN [P in_II [N the_AT international_JJ community_NNJ [P of_IO [N scholars_NN2 N]P] [Fr that_CST [V has_VHZ graduated_VVN here_RL today_RT V]Fr]N]P]V]S+] 5/7/2016 59 Семантическая разметка Разрешение семантической неоднозначности Выделение значений лексем в данном контексте Разметка в соответствии с тезаурусом Роже Разметка семантических ролей Разметка в соответсвии с выделяемыми в словаре подзначениями Разметка в соответствии с классами, выделяемыми в WORDNET 5/7/2016 60 Пример семантической разметки: По тезаурусу Роже And the soldiers platted a crown of thorns 00000000 00000000 23241000 21072000 00000000 21110400 00000000 13010000 5/7/2016 00000000 Low content word (and, the, a, of, on, his, they etc) 13010000 Plant life in general 21030000 Body and body parts 21072000 Object-oriented physical activity (e.g. put) 21110321 Men's clothing: outer clothing 21110400 Headgear 23231000 War and conflict: general 61 Пример семантической разметки в НКРЯ <st> При{при=ПРЕД} мощном{мощный=П=ср,ед,пр} сложении{сложение=С,ср,но=ед,пр}, крупной{крупный=П=жр,ед,пр} голове{голова=С,жр,но=ед,пр}, крупных{крупный=П=мн,пр} чертах{черта=С,жр,но=мн,пр [Ex="Провести черту." R="непр" Cl="форма" | Ex="Пограничная ч." R="непр" C3="характеристика" Ap="оценка:max" | Ex="Черты характера." R="непр" C3="характеристика" | Ex="Пограничная ч" R="предм" Cl="пр&м" ]} лица{лицо=С,ср,но=ед,рд} он{он=М-С,мр,ед,3л=им}, когда{когда=СОЮЗ} сидел{сидеть=Г,нс,нп,дст=мр,ед,прш}, производил{производить=Г,нс,пе=мр,ед,дст,прш [Mo="преф" | Ex="Завод производит станки." Cl="существование" Ca="каузация существования" Mo="преф" | Ex="П. свое имя от древнего рода." Mo="преф" ]} впечатление{впечатление=С,ср,но=ед,вн [R="непр" Cl="восприятие" C4="возд" | R="непр" Do="ментальная сфера" ]} рослого{рослый=П=мр,ед,рд} человека{человек=С,мр,од=ед,рд}.</st> 5/7/2016 62 Пример семантической разметки: The rock moved down the hill rolling FIGURE MOTION PATH GROUND MANNER The rock rolled down the hill FIGURE MOTION + MANNER PATH GROUND La botella entró a la cueva flotando (the bottle) (moved-in) (to) (the cave) (floating) FIGURE MOTION + PATH PATH GROUND MANNER She powdered her nose MOTION + PATH + FIGURE GROUND I shelved the books MOTION + PATH + GROUND FIGURE 5/7/2016 63 1.2.6. Фонетическая разметка 1 8 14 1470 1 1 A 11 ^what a_bout a cigar\ette# . /1 8 15 1480 1 1 A 20 *((4 sylls))* /1 8 14 1490 1 1 B 11 *I ^w\on't have one th/anks#* - - /1 8 14 1500 1 1 A 11 ^aren't you .going to sit d/own# /1 8 14 1510 1 1 B 11 ^[/\m]# # end of tone group ^ onset / rising nuclear tone \ falling nuclear tone /\ rise-fall nuclear tone_ level nuclear tone [] enclose partial words and phonetic symbols. normal stress ! booster: higher pitch than preceding prominent 64 5/7/2016 syllable 1.2.7. Разметка анафоры A039 1 v (1 [N Local_JJ atheists_NN2 N] 1) [V want_VV0 (2 [N the_AT (9 Charlotte_N1 9) Police_NN2 Department_NNJ N] 2) [Ti to_TO get_VV0 rid_VVN of_IO [N 3 <REF=2 its_APP$ chaplain 3) ,_, [N {{3 the_AT Rev._NNSB1 Dennis_NP1 Whitaker_NP1 3} ,_, 38_MC N]N]Ti]V] ._. 5/7/2016 65 Другие виды разметки структура дискурса "apologies" e.g. sorry, excuse me "greetings" e.g. hello "hedges" e.g. kind of, sort of thing "politeness" e.g. please "responses" e.g. really, that's right DRT (http://www.coli.uni-sb.de/~bos/doris/ ) 5/7/2016 66 Принципы разметки Leech's Maxims of Annotation Теоретическая база – максимально независимая, но не может быть таковой Тэги – мнемоничные, теоретически прозрачные По возможности однозначные Минимальный набор необходимых тэгов Тэги поддающиеся инструктажу – 2 любых человека с улицы оттэгировали одинаково Недорогие общедоступные решения 5/7/2016 67 Максимы Лича Требование удаления/восстановления разметки <w><ana lex="из-под" gr="PR"/>Из-под</w> <w><ana lex="сено" gr="S n inan sg gen" sem="r:concr t:stuff t:food:fodder pt:aggr sc:part(plant) " sem2="r:concr t:stuff t:food:fodder pt:aggr sc:part(plant) "/>сена</w> , <w><ana lex="на" gr="PR"/>на</w> <w><ana lex="который" gr="A-PRO n sg loc" sem="r:rel | r:rel t:ord " sem2="r:rel | r:rel t:ord "/>котором</w> <w><ana lex="лежать" intr act m sg лежал praet indic act" sem="t:loc:body ca:noncaus d:root" Из-под сена gr="V , на ipf котором , Платон Спиридоныч sem2="t:loc:body ca:noncaus d:root || d:root | t:loc ca:noncaus d:root | d:root | d:root | d:root | вытянул свёрток , протянул Павлу d:root "/>лежал</w> , <w><ana lex="Платон" gr="S persn m anim sg nom" sem="r:propn t:hum t:persn" sem2="r:propn t:hum t:persn || t:fam"/>Платон</w> <w><ana lex="Спиридонович" gr="S m anim sg nom distort" sem="r:propn t:hum t:patrn der:s " sem2="r:propn t:hum t:patrn der:s "/>Спиридоныч</w> <w><ana lex="вытянуть" gr="V pf tran m sg act praet indic act" sem="t:move ca:caus d:pref der:v" sem2="t:move ca:caus d:pref der:v || d:pref der:v | d:pref der:v | d:pref der:v | d:pref der:v | d:pref der:v | d:pref der:v | d:pref der:v | d:pref der:v "/>вытянул</w> <w><ana lex="сверток" gr="S m inan sg acc" sem="r:concr pt:set sc:thing der:v" sem2="r:concr pt:set sc:thing der:v || r:concr pt:qtm qc:stuff der:v "/>свёрток</w> , <w><ana lex="протянуть" gr="V pf tran m sg act praet indic act" sem="d:pref der:v" sem2="d:pref der:v || d:pref der:v | d:pref der:v | d:pref der:v | d:pref der:v | t:be:exist ca:noncaus d:pref der:v | d:pref der:v | d:pref der:v "/>протянул</w> <w><ana lex="Павел" gr="S persn m anim sg dat" sem="r:propn t:hum t:persn " sem2="r:propn t:hum 68 5/7/2016 t:persn "/>Павлу</w>