Синтаксическая разметка в ХАНКО

реклама
Синтаксическая разметка в
ХАНКО: проблемы и решения
Михаил Копотев
Отделение славистики и балтистики
Хельсинский университет
[email protected]
М. Копотев Синтаксическая разметка в ХАНКО
www.slav.helsinki.fi/hanco
Копотев М.В., Мустайоки А. Принципы создания
Хельсинкского аннотированного корпуса русских
текстов (ХАНКО) в сети интернет // Научно-техническая
информация. Сер. 2: Информационные системы и
процессы. № 6: Корпусная лингвистика в России. 2003.
С. 33-37.
Копотев М.В. Гурин Г.Б. Принципы синтаксической
разметки Хельсинкского аннотированного корпуса
русских текстов ХАНКО // Компьютерная лингвистика и
интеллектуальные технологии. Труды международной
конференции Диалог–2006, Москва: изд-во РГГУ, 2006,
с. 280–284.
М. Копотев Синтаксическая разметка в ХАНКО
www.slav.helsinki.fi/hanco
Три типа разметки
•
грамматика зависимостей (И. А. Мельчук,
И. М. Богуславский, Л. Л. Иомдин и др.);
•
грамматика структурных схем (Н. Ю. Шведова,
В. А. Белошапкова и др.);
•
традиционные синтаксические учения
(А. А. Шахматов, В. В. Виноградов, Н. С. Валгина и
др.).
М. Копотев Синтаксическая разметка в ХАНКО
www.slav.helsinki.fi/hanco
ХАНКО:
•
грамматика зависимостей и
•
традиционный синтаксис (по членам предложения).
Плюсы
•
подробное описание и узлов, и связей синтаксических
структур;
•
Обе целевые группы: преподаватели русского языка, и
профессиональные лингвисты;
•
Возможность представлять результаты
альтернативных разметок как независимо, так и
совместно.
М. Копотев Синтаксическая разметка в ХАНКО
www.slav.helsinki.fi/hanco
Грамматика зависимостей
А.С. Старостин, М.Г. Мальковский. Модель синтаксиса в
системе морфосинтаксического анализа «Treeton» //
Компьютерная лингвистика и интеллектуальные
технологии. Труды международной конференции
Диалог–2006, Москва: изд-во РГГУ, 2006, с. 481-492.
М. Копотев Синтаксическая разметка в ХАНКО
www.slav.helsinki.fi/hanco
Грамматика зависимостей
•
•
Тринотации (treenotation=tree+annotation)
Агрегаты
М. Копотев Синтаксическая разметка в ХАНКО
www.slav.helsinki.fi/hanco
Грамматика зависимостей
Штрафы:
Переборный алгоритм
•
•
•
•
штрафы на повторение
Он играл эту симфонию всю ночь
штрафы на зацепление
штрафы на расщепление
Непроективностость
штрафы на применение правил
человек умный VS умный человек
М. Копотев Синтаксическая разметка в ХАНКО
www.slav.helsinki.fi/hanco
ТРАДИЦИОННЫЙ СИНТАКСИС В ХАНКО
Плюсы
•
•
общеизвестность и простота;
возможность косвенным образом искать материал для
исследований, даже опирающихся на другие
синтаксические подходы (прежде всего, структурные
схемы).
М. Копотев Синтаксическая разметка в ХАНКО
www.slav.helsinki.fi/hanco
ТРАДИЦИОННЫЙ СИНТАКСИС В ХАНКО
Минусы
•
несоответствие современным представлениям о природе
синтаксических структур;
•
описание синтаксических узлов и игнорирование
синтаксических связей;
•
невозможность разбиения массива данных на дискретные
классы (напр., нечеткое разграничение разных типов
второстепенных членов);
М. Копотев Синтаксическая разметка в ХАНКО
www.slav.helsinki.fi/hanco
ТРАДИЦИОННЫЙ СИНТАКСИС В ХАНКО
•
большое количество синтаксически слабо мотивированных
решений (отсутствие предложных групп, вопрос о границах
главных и второстепенных членов предложения,
разграничение главного и второстепенного компонента в
аппозитивных конструкциях и т.д.);
•
сложность автоматической обработки.
М. Копотев Синтаксическая разметка в ХАНКО
www.slav.helsinki.fi/hanco
Традиционный синтаксис в ХАНКО: проблемы
применения
1. Нечеткость критериев выделения определенного члена
предложения
Косвенное дополнение / несогласованное
определение.
С мостов через Сену посрывало гирлянды
иллюминации.
Косвенное дополнение / разные виды
обстоятельства.
У дешевых дубленок шкуры могут быть плохо
подобраны по цвету и плотности, непрокрашены,
и тогда они будут линять при влажной погоде
(косвенное дополнение / обстоятельство условия).
М. Копотев Синтаксическая разметка в ХАНКО
www.slav.helsinki.fi/hanco
Традиционный синтаксис в ХАНКО: проблемы
применения
1. Нечеткость критериев выделения определенного члена
предложения
Разные виды обстоятельств
Ничьей закончились и выборы в Сенат, который
партии разделили ровно пополам
(обстоятельство образа действия / меры и
степени).
..жестоко избивали хозяев при попытках
возражать или жаловаться... (обстоятельство
времени / обстоятельство условия).
Нечеткость разделения прямого объекта и части
сказуемого.
Российский лидер соблюдает приличия…
М. Копотев Синтаксическая разметка в ХАНКО
www.slav.helsinki.fi/hanco
Традиционный синтаксис в ХАНКО: проблемы
применения
2. существенно больший список форм выражения разных
членов предложения
Подлежащее и главный член односоставного
предложения.
В стотысячной натовской группировке на
Балканах уже выявилось почти два десятка
смертельных случаев и до 50 заболевших.
...на покупателя, даже просто пришедшего
взглянуть на дубленки, тотчас накидывались
сразу с десяток продавцов.
Стать матросом было его мечтой.
М. Копотев Синтаксическая разметка в ХАНКО
www.slav.helsinki.fi/hanco
Традиционный синтаксис в ХАНКО: проблемы
применения
3. Проблема вложенных членов предложения
Обстоятельства и определения
Холдинг NETBRIDGE заявил о $ 6 млн.,
потраченных на проекты List.ru <...>, и это не
считая собственных проектов...
Вводные единицы и обращения,
Капиталисты всех стран, соединяйтесь!
По признанию менеджеров, кофейни - дело
выгодное, быстро окупаемое и перспективное.
М. Копотев Синтаксическая разметка в ХАНКО
www.slav.helsinki.fi/hanco
Традиционный синтаксис в ХАНКО: проблемы
применения
3. Проблема вложенных членов предложения
Вводные предложения и вводные слова,
Известно, что он хороший парень (главная часть
сложноподчиненного предложения).
Известно, он хороший парень (вводное
предложение)
Он, известно, хороший парень (вводное слово)
…и вообще работать на комбинате - почти
такое же везение, как жить в Москве.
М. Копотев Синтаксическая разметка в ХАНКО
www.slav.helsinki.fi/hanco
Традиционный синтаксис в ХАНКО: проблемы
применения
4. Разметка составного сказуемого
Они выводят из строя оптику.
Они выводят из тени неизвестных артистов.
6. Единицы «малого» синтаксиса
И работы Минкульту и Михаилу Швыдкому
хватит еще надолго.
Но все чаще и чаще президент проговаривается,
обнаруживая истинные свои воззрения.
М. Копотев Синтаксическая разметка в ХАНКО
www.slav.helsinki.fi/hanco
Традиционный синтаксис в ХАНКО: этапы работы
В начале марта в Москве прошла конференция "Лоббизм в
России - 10 лет теории и практики".
АОТ (www.aot.ru)
ПГ(В начале -> марта; "рд,")
ПГ(в -> Москве; "пр,")
ПГ(в -> России; "пр,")
ЧИСЛ_СУЩ(лет -> 10; "вн,рд,им,мн,")
ГЕНИТ_ИГ(лет -> теории; "вн,рд,им,мн,")
ОДНОР_ИГ(и -> теории; "им,мн,")
ОДНОР_ИГ(и -> практики; "им,мн,")
ПОДЛ(прошла -> конференция; "")
М. Копотев Синтаксическая разметка в ХАНКО
www.slav.helsinki.fi/hanco
Традиционный синтаксис в ХАНКО: этапы работы
В начале марта в Москве прошла конференция "Лоббизм в России
- 10 лет теории и практики".
АОТ
В начале марта |дополнение или обстоятельство|пг
в Москве |дополнение или обстоятельство|пг
10 лет |подлежащее или сказуемое | числительное -
определение|числ_сущ
теории и практики Однор_иг
прошла – сказуемое
Конференция – подлежащее
М. Копотев Синтаксическая разметка в ХАНКО
www.slav.helsinki.fi/hanco
М. Копотев Синтаксическая разметка в ХАНКО
www.slav.helsinki.fi/hanco
М. Копотев Синтаксическая разметка в ХАНКО
www.slav.helsinki.fi/hanco
М. Копотев Синтаксическая разметка в ХАНКО
www.slav.helsinki.fi/hanco
Скачать