Карлов Университет, Прага, Чехия

advertisement
Карлов Университет, Прага, Чешская Республика
Факультет формальной и прикладной лингвистики
Центр им. Вилема Матезиуса по лингвистике и семиотике
ХХ летняя школа
7–12 марта 2005 г.
ХХ летняя школа, организованная Центром им. Вилема Матезиуса по лингвистике и
семиотике под руководством Эвы Гайичовой и Петра Сгалла, прошла 7-12 марта 2005 г. в
Праге (Чешская Республика).
Деятельность Центра им. Вилема Матезиуса направлена на восстановление и укрепление
связей между учеными, представляющими различные направления исследований языка.
Курсы лекций, входящие в программу школы, охватывают широкий круг теоретических
вопросов (в числе которых моделирование семантики, морфологии, синтаксиса
естественного языка) и их практических решений (прежде всего, в области компьютерной
лингвистики: создание корпусов текстов, использование корпусов в автоматической
обработке естественного языка, проблемы машинного перевода и пр.).
В программу ХХ школы вошли лекции, посвященные вопросам построения онтологических
схем, представления семантической информации в корпусе текстов, использованию
формальных грамматик при работе с корпусом, многоуровневой разметки корпуса, а также
применению статистических методов при автоматической обработке текста (в частности, в
машинном переводе).
Ольга Бабко-Малая (Пенсильванский университет, США) представила курс лекций о
семантической разметке Банка пропозиций (PropBank).
Особое внимание было уделено следующим темам:
 структура и особенности построения PropBank;
 описание аргументной структуры предложения и приписывание семантических
ролей его компонентам при обработке данных в PropBank;
 ресурсы FrameNet, WordNet и VerbNet как источники семантико-синтаксической
информации при разметке PropBank;
 логическое представление семантико-синтаксической информации в PropBank.
Материалы, обсуждаемые в рамках курса, представляют значительный интерес для
специалистов в области исследования взаимодействия семантических, морфологических и
синтаксических свойств глагола с точки зрения формальной семантики.
Лу Бернард (Оксфордский университет, Великобритания) прочел курс лекций о возможных
подходах к лингвистической разметке корпуса и о применении различных инструментов
разметки.
Основные темы курса:
 характеристики языка XML как инструмента разметки корпуса текстов;
 сфера применения языка XML в корпусных исследованиях;
 XML-разметка корпуса с точки зрения сегментации текста, установления
межтекстовых связей, категориальных свойств элементов текста;
 применение ресурса XAIRA (XML-Aware Indexing and Retrieval Architecture) в
качестве инструмента анализа размеченного корпуса текстов.
Лекции особенно важны для тех лингвистов, которые рассматривают размеченный корпус
текстов как источник лингвистических данных и работают над созданием корпусов данного
типа.
Ян Гайич (Карлов университет, Чешская Республика) представил курс лекций о разметке
Пражского банка синтаксических зависимостей (PDT).
Особое внимание было уделено следующим темам:
 уровни представления лингвистической информации в PDT;
 морфологическая разметка PDT (процедура морфологического анализа, разрешение
морфологической неоднозначности);
 поверхностно-синтаксическая информация в PDT (анализ конструкций с
аналитическими формами, с глагольными связками, с пассивизацией, с объектными
распространителями, с зависимыми клаузами);
 глубинно-синтаксическая информация в PDT (особенности представления
пропозициональной структуры предложения, актуального членения, порядка слов).
Данный курс полезен специалистам в области структурного синтаксиса, работающим над
созданием синтаксически размеченных корпусов и банков синтаксических зависимостей.
Эва Гайичова (Карлов университет, Чешская Республика) прочла лекцию по формальному
синтаксису.
Основные темы лекции:
 смысловая структура, формальная организация и актуальное членение предложения;
 формальное описание структуры связного текста;
 представление структуры предложения в Пражском банке синтаксических
зависимостей (PDT).
В лекции обсуждаются проблемы современной синтаксической теории и их решения с
учетом опыта, накопленного Пражской лингвистической школой.
Аравинд Джоши (Пенсильванский университет, США) представил курс лекций о
формализации связей между структурой предложения и структурой связного текста.
Особое внимание было уделено следующим темам:
 анализ связок как предикатов высшего порядка, аргументами которых могут
являться только предложения;
 особенности разметки связок при описании структуры предложения и текста;
 использование грамматики деревьев при многоуровневой разметке текста;
 формализм грамматики деревьев как основа для построения грамматики
зависимостей.
Данные лекции могут заинтересовать как специалистов в области формальнограмматического описания, так и тех, кто занимается практическим применением теории
синтаксиса в корпусной лингвистике.
Маргарет Кинг (Женевский университет, Швейцария) представила курс лекций об оценке
качества лингвистических ресурсов.
Основные темы курса:
 существующие подходы к оценке качества лингвистических ресурсов (проекты
ALPAC, JEIDA, (D)ARPA, TREC, CLEF, LREC, EAGLES, ISO, TEMAA, FEMTI,
ISLE и др.);
 оценка качества лингвистических ресурсов с точки зрения системы обработки
естественного языка, ее пользователя и данных, предоставляемых системой;
 степень точности действия лингвистических ресурсов и соответствия их
поставленным целям как критерии оценки качества;
 методы повышения качества лингвистических ресурсов.
Курс представляет интерес для разработчиков систем автоматической обработки
естественного языка и для тех, кто участвует в создании стандартов качества
лингвистических ресурсов.
Петр Сгалл (Карлов университет, Чешская республика) прочел лекцию о представлении
структуры предложения в Пражском банке синтаксических зависимостей (PDT).
Особое внимание было уделено следующим темам:
 уровни синтаксического описания в PDT;
 представление поверхностно-синтаксической структуры предложения в PDT;
 представление глубинно-синтаксической структуры предложения в PDT.
Данная лекция обобщает результаты исследований чешских лингвистов в области теории и
практики формально-синтаксических описаний.
Эдвард Хови (Университет Южной Калифорнии, Институт Информатики, США)
представил курс лекций о построении онтологий и их использовании в автоматической
обработке текста.
Основные темы курса:
 типология и внутренняя организация онтологических схем, обзор существующих
онтологических описаний (CYC, SUMO, DOLCE, OMEGA, IAMTC, OntoBank,
OntoSelect, Pennman NL Generation System, MikroKosmos и пр.);
 сопоставление онтологических схем, иерархий семантических категорий в
лексических базах данных типа WordNet и семантических структур в
лексикографических описаниях;
 анализ различных методов автоматического построения онтологических схем на
основе корпуса текстов;
 использование онтологических описаний в процедурах семантической разметки
корпусов текстов.
Лекции, посвященные онтологиям, имеют высокую ценность для специалистов в области
моделирования семантики естественного языка и автоматической обработки текста.
Юджин Чарняк (Браунский университет, США) прочел курс лекций о применении
статистических методов в машинном переводе.
Особое внимание было уделено следующим темам:
 статистические методы синтаксического анализа и машинный перевод;
 процедура машинного перевода, основывающаяся на глубинно-синтаксической
информации для языка оригинала и языка перевода;
 совместимость глубинно-синтаксических описаний английского и чешского языков;
 модель порождения глубинно-синтаксических структур чешского языка на основе
глубинно-синтаксического описания английского языка в системе машинного
перевода.
Курс представляет интерес для исследователей, занимающихся разработкой систем
машинного перевода, для специалистов в области формального синтаксиса и
лингвостатистики.
В программу XX летней школы был включен семинар по автоматизации работы с
рукописными текстами и лексикографическими описаниями. Руководители семинара –
Кирил Рибаров и Милена Добрева.
Лейтмотив семинара определили лекции Лу Бернарда (Оксфордский университет,
Великобритания) и Мэтью Дрисколла (Копенгагенский университет, Дания) о возможностях
TEI P5 при решении задач, связанных с представлением рукописных текстов в электронном
формате.
В ходе семинара обсуждались вопросы построения и применения корпусов древних текстов,
в частности, корпуса древнеисландских текстов (Мэтью Дрисколл, Копенгагенский
университет, Дания), исторического корпуса немецкого языка (Анке Людлинг, Берлинский
университет, Германия), различных корпусов старославянских текстов (Кирил Рибаров,
Милена Добрева, Карлов университет, Чешская Республика; Роланд Майер, Университет
Регенсбурга, Германия), а также создание компьютерных версий исторических словарей
польского языка (Кржиштоф Шафран, Януш Биен, Тадеуш Пиотровски, Польская
Республика) и сербо-хорватского языка (Дамир Борас, Загребский университет, Хорватия). О
будущем автоматизации работы с рукописными текстами и лексикографическими
описаниями говорилось в докладе Индржиха Марека и Зденека Улиржа (Национальная
Библиотека Чешской Республики). Семинар закончился круглым столом.
XX летняя школа Центра им. Вилема Матезиуса по лингвистике и семиотике – это своего
рода научно-исследовательский мост между Востоком и Западом. Среди лекторов – ученые
из Чешской Республики, США, Великобритании, Германии, Дании, Польши. Среди
студентов – представители стран Центральной и Восточной Европы. Не может не радовать
то, что среди слушателей школы было немало российских лингвистов.
Подробную информацию о деятельности Центра им. Вилема Матезиуса по лингвистике и
семиотике можно найти на сайте http://ufal.mff.cuni.cz/vmc
Обзор подготовлен
В.П.Захаровым, О.А.Митрофановой, Е.А.Дмитриевой
(кафедра математической лингвистики СПбГУ)
Download