Языковые средства представления размеченных текстов. Международные

реклама
Лекция 6.
Языковые средства
представления
размеченных текстов.
Международные
стандарты и проекты
В.П. Захаров
Санкт-Петербургский
государственный университет
Требование унификации:
многократное использование;
 много пользователей;
 совместимость с другими корпусами;
 совместимость с другими лингвопроцессорами;
 совместимость с общепринятыми научными
теориями;
 совместимость с общепринятыми
классификациями;
 возможность применения стандартных
программных средств.

Лекция 6
Корпусная лингвистика
2
Объекты стандартизации


Структура формата
Наполнение формата
Метаданные
Классификаторы
Лингвистическая разметка


Лекция 6
Кодировки
Оценка корпусов
Корпусная лингвистика
3
Международные проекты и
стандарты
Проект TEI (Text Encoding Initiative);
 рекомендации EAGLES (Expert Advisory Group
on Language Engineering Standards);
 стандарт CES (Corpus Encoding Standard);
 стандарт XCES (Corpus Encoding Standard for
XML);
 проект ISLE (International Standards for
Language Engineering);
 стандарт CDIF (Corpus Document Interchange
Format, BNC).

Лекция 6
Корпусная лингвистика
4
Группа стандартов TEI для корпусов
(TEI P4, TEI P5)
Схема описания документа:



библиографическое описание текста,
собственно метаописание текста и
"технологическое" описание:
кодировка текста, история создания электронной
версии и т.п.
Лекция 6
Корпусная лингвистика
5
Стандарт Text Encoding Initiative
(TEI)
1.
формальное описание текста
Название
Автор
Год
Размер
………
2.
содержательное описание текста
Жанр
Стиль
Целевая аудитория
Время создания
………
Лекция 6
Корпусная лингвистика
6
TEI
TEI – универсальное множество, из
которого создатель корпуса может
выбрать любое подмножество,
релевантное для своей конкретной
задачи.
Лекция 6
Корпусная лингвистика
7
Pizza Chef:
технология и программное обеспечение
для создания собственного подмножества
TEI
(TEI Lite, Burnard & Sperberg-McQueen 1995)
1.
Выбрать нужное подмножество тэгов (проза, речь,
словарь и т.п.)
2.
Выбрать стандарт кодирования (ISO Latin 1, ISO
Cyrillic 2 и т.п.)
3.
Создать файлы модификации для удаления или
переопределения элементов
4.
Загрузить файлы модификации
5.
"Можно запекать пиццу"! генерируется пользовательская таблица DTD
для нужного подмножества TEI
Лекция 6
Корпусная лингвистика
8
Кодирование метаданных в TEI
Предусмотрены следующие тэги:
1. <creation> — информация о времени и месте создания
текста;
2. <textClass> — классификация текста;
3. <textDesc> — описание текста;
4. <particDesc> — описание автора или участников акта
коммуникации;
5. <settingDesc> — условия, в которых происходил акт
коммуникации.
Внутри каждого тэга – большое количество вложенных
уточняющих тэгов.
Лекция 6
Корпусная лингвистика
9
Классификаторы:
пример тематической классификации
EAGLES (1)
natsci
естественные науки
mathematics
математика
physics
физика
chemistry
химия
…
appsci прикладные науки
medicine
медицина
engineering
техника и технология
computing
вычислительная техника
military
военное дело
marine
мореплавание
…
socsci общественные науки
anthropology антропология
language
лингвистика, филология
…
Лекция 6
Корпусная лингвистика
10
Классификаторы:
пример тематической классификации
EAGLES (2)
religion
politics
education
commerce
life
arts
leisure
Лекция 6
религия (включая философию в БНК)
политика
inner
внутренняя
world
внешняя
…
образование
экономика
finance
финансы
…
общество
искусство
literature
литература
architecture
архитектура
…
досуг
reading
чтение
sports
спорт
travels
путешествия
…
Корпусная лингвистика
11
Пример схемы кодировки
(см. Шаров 2002)
<taxonomy id="domain">
<bibl>Источники: БНК и EAGLES</bibl>
<category id="natsci"><catDesc>Естественные науки</catDesc>
<category id="mathematics"><catDesc>Математика</catDesc></category>
....................................
</taxonomy>
<taxonomy id="written">
<category id="printed"><catDesc>печатные издания</catDesc>
<category id="books"><catDesc>книги и проч.</catDesc></category>
...........................................
</taxonomy>
<taxonomy id="spoken">
<category id="on location"><catDesc>местный разговор</catDesc>
<category id="telephone"><catDesc>телефон</catDesc>
<category id="studio"><catDesc>студия</catDesc>
</taxonomy>
<taxonomy id="aims">
<category id="information"><catDesc>Справочная
информация</catDesc></category>
<category id="discussion"><catDesc>Обсуждение</catDesc>
...........................................
</taxonomy>
Лекция 6
Корпусная лингвистика
12
Формальные языки разметки



Лекция 6
SGML (Standard Generalized Mark-up
Language), XML (Extensible Mark-up
Language);
"вертикальный" формат;
Позиционное кодирование
Корпусная лингвистика
13
Пример описания на языке XML:
DTD
Описание для имени существительного:
<!ELEMENT noun ( #PCDATA)>
<!ATTLIST noun
lemma CDATA #REQUIRED
gender (masculine|feminine|neuter|common|empty)
"masculine"
number (singular|plural|singulariatantum|pluraliatantum)
"singular"
case
(nominative|genitive|dative|accusative|ablative|preposition
al) "nominative"
pronoun (pron|empty) "empty">
Лекция 6
Корпусная лингвистика
14
Пример описания на языке XML:
данные корпуса
В этом случае (см. DTD предыдущего слайда)
описание слова 'лошади' будет записано следующим образом:
<noun lemma="лошадь" number="singular" gender="masculine"
case="genitive">
лошади
</noun>
Другие варианты записи той же метаинформации:
<w lemma="лошадь" pos="noun" number="singular" gender="masculine"
case="genitive"> лошади </w>
или
<w> лошади <ana lemma="он" feats="noun,sg,m,gen"></w>
или
<w lemma="лошадь" feats="NSM2----------">лошади</w>,
где NSM2 обозначает the noun (N), Singular (S), masculine (M), Genitive (2)
Лекция 6
Корпусная лингвистика
15
Скачать