Лекция 6. Языковые средства представления размеченных текстов. Международные стандарты и проекты В.П. Захаров Санкт-Петербургский государственный университет Требование унификации: многократное использование; много пользователей; совместимость с другими корпусами; совместимость с другими лингвопроцессорами; совместимость с общепринятыми научными теориями; совместимость с общепринятыми классификациями; возможность применения стандартных программных средств. Лекция 6 Корпусная лингвистика 2 Объекты стандартизации Структура формата Наполнение формата Метаданные Классификаторы Лингвистическая разметка Лекция 6 Кодировки Оценка корпусов Корпусная лингвистика 3 Международные проекты и стандарты Проект TEI (Text Encoding Initiative); рекомендации EAGLES (Expert Advisory Group on Language Engineering Standards); стандарт CES (Corpus Encoding Standard); стандарт XCES (Corpus Encoding Standard for XML); проект ISLE (International Standards for Language Engineering); стандарт CDIF (Corpus Document Interchange Format, BNC). Лекция 6 Корпусная лингвистика 4 Группа стандартов TEI для корпусов (TEI P4, TEI P5) Схема описания документа: библиографическое описание текста, собственно метаописание текста и "технологическое" описание: кодировка текста, история создания электронной версии и т.п. Лекция 6 Корпусная лингвистика 5 Стандарт Text Encoding Initiative (TEI) 1. формальное описание текста Название Автор Год Размер ……… 2. содержательное описание текста Жанр Стиль Целевая аудитория Время создания ……… Лекция 6 Корпусная лингвистика 6 TEI TEI – универсальное множество, из которого создатель корпуса может выбрать любое подмножество, релевантное для своей конкретной задачи. Лекция 6 Корпусная лингвистика 7 Pizza Chef: технология и программное обеспечение для создания собственного подмножества TEI (TEI Lite, Burnard & Sperberg-McQueen 1995) 1. Выбрать нужное подмножество тэгов (проза, речь, словарь и т.п.) 2. Выбрать стандарт кодирования (ISO Latin 1, ISO Cyrillic 2 и т.п.) 3. Создать файлы модификации для удаления или переопределения элементов 4. Загрузить файлы модификации 5. "Можно запекать пиццу"! генерируется пользовательская таблица DTD для нужного подмножества TEI Лекция 6 Корпусная лингвистика 8 Кодирование метаданных в TEI Предусмотрены следующие тэги: 1. <creation> — информация о времени и месте создания текста; 2. <textClass> — классификация текста; 3. <textDesc> — описание текста; 4. <particDesc> — описание автора или участников акта коммуникации; 5. <settingDesc> — условия, в которых происходил акт коммуникации. Внутри каждого тэга – большое количество вложенных уточняющих тэгов. Лекция 6 Корпусная лингвистика 9 Классификаторы: пример тематической классификации EAGLES (1) natsci естественные науки mathematics математика physics физика chemistry химия … appsci прикладные науки medicine медицина engineering техника и технология computing вычислительная техника military военное дело marine мореплавание … socsci общественные науки anthropology антропология language лингвистика, филология … Лекция 6 Корпусная лингвистика 10 Классификаторы: пример тематической классификации EAGLES (2) religion politics education commerce life arts leisure Лекция 6 религия (включая философию в БНК) политика inner внутренняя world внешняя … образование экономика finance финансы … общество искусство literature литература architecture архитектура … досуг reading чтение sports спорт travels путешествия … Корпусная лингвистика 11 Пример схемы кодировки (см. Шаров 2002) <taxonomy id="domain"> <bibl>Источники: БНК и EAGLES</bibl> <category id="natsci"><catDesc>Естественные науки</catDesc> <category id="mathematics"><catDesc>Математика</catDesc></category> .................................... </taxonomy> <taxonomy id="written"> <category id="printed"><catDesc>печатные издания</catDesc> <category id="books"><catDesc>книги и проч.</catDesc></category> ........................................... </taxonomy> <taxonomy id="spoken"> <category id="on location"><catDesc>местный разговор</catDesc> <category id="telephone"><catDesc>телефон</catDesc> <category id="studio"><catDesc>студия</catDesc> </taxonomy> <taxonomy id="aims"> <category id="information"><catDesc>Справочная информация</catDesc></category> <category id="discussion"><catDesc>Обсуждение</catDesc> ........................................... </taxonomy> Лекция 6 Корпусная лингвистика 12 Формальные языки разметки Лекция 6 SGML (Standard Generalized Mark-up Language), XML (Extensible Mark-up Language); "вертикальный" формат; Позиционное кодирование Корпусная лингвистика 13 Пример описания на языке XML: DTD Описание для имени существительного: <!ELEMENT noun ( #PCDATA)> <!ATTLIST noun lemma CDATA #REQUIRED gender (masculine|feminine|neuter|common|empty) "masculine" number (singular|plural|singulariatantum|pluraliatantum) "singular" case (nominative|genitive|dative|accusative|ablative|preposition al) "nominative" pronoun (pron|empty) "empty"> Лекция 6 Корпусная лингвистика 14 Пример описания на языке XML: данные корпуса В этом случае (см. DTD предыдущего слайда) описание слова 'лошади' будет записано следующим образом: <noun lemma="лошадь" number="singular" gender="masculine" case="genitive"> лошади </noun> Другие варианты записи той же метаинформации: <w lemma="лошадь" pos="noun" number="singular" gender="masculine" case="genitive"> лошади </w> или <w> лошади <ana lemma="он" feats="noun,sg,m,gen"></w> или <w lemma="лошадь" feats="NSM2----------">лошади</w>, где NSM2 обозначает the noun (N), Singular (S), masculine (M), Genitive (2) Лекция 6 Корпусная лингвистика 15