КОРПУС РУССКИХ СПОНТАННЫХ ТЕКСТОВ: СТРУКТУРА И ЕДИНИЦЫ Венцов

advertisement
Анатолий Владимирович Венцов,
Юлия Олеговна Нигматулина,
Ольга Васильевна Раева,
Елена Игоревна Риехакайнен,
Наталия Арсеньевна Слепокурова
(СПбГУ)
КОРПУС РУССКИХ
СПОНТАННЫХ ТЕКСТОВ:
СТРУКТУРА И ЕДИНИЦЫ
Цель создания корпуса
изучение особенностей сигнала, с которым слушающий сталкивается при восприятии речи в
естественных условиях
разработка возможных алгоритмов преобразования
непрерывного речевого акустического сигнала в
линейную последовательность лексических единиц
ФУНКЦИОНАЛЬНАЯ МОДЕЛЬ ВОСПРИЯТИЯ РЕЧИ
Виды аннотирования:
- орфографическая расшифровка;
- акустико-фонетическая транскрипция
Общая информация
- расшифровки теле- и радиопередач;
- орфографическая
минуты звучания;
расшифровка:
224
- Орфографическая расшифровка + акустикофонетическая транскрипция: 90 минут
звучания.
Принципы транскрибирования
Гласные
/a/
/o/
/е/
/i/
/ı/
/u/
/ə/
Излишне долго
произнесенные гласные
Ударность гласного
Символы (латиница)
После или
Между
Перед
между
твердыми
мягким
мягкого(ими)
a
&
a"
o
@
o"
e
E
e"
i
i
i
Q
Q
u
Y
u"
*
*
*"
::
«+» в постпозиции
Принципы транскрибирования
Согласные
/ʒ/
/ʦ/
/x/
/ʨ/
/ʃ/
/ɕ/
Мягкость
согласных
Символы (латиница)
Звонкие и
Глухие
озвонченные
Z
c
D
x
h
C
G
S
$
Z'
'
Принципы транскрибирования
Условное обозначение /
маркер
Описание
(нрзб)
неразборчиво произнесенное
слово или фраза
(ансмбл)
одновременная речь нескольких
дикторов
pause
глухая пауза
inh
вдох
sigh
вздох
(gst)
гортанная смычка или участки
ларингализации
(pXX)
краткая пауза (ХХ -длительность
в мс)
Принципы транскрибирования
Пример:
pause 0,202
по [po+] 0,238
inh 0, 493
а-а причинам н-н-ну таким вот [ao pr'iCi+n*m n::u te"k'i+m v*t] 1,712
небесным, наверное, [n'ib'E+sn*m na"v'Erne::+] 1,214
Доступ к Корпусу
Корпус русского литературного языка
http://narusco.ru/
Раздел «Наши ресурсы»
Создание конкорданса по текстам речевого корпуса
Доступ к Корпусу
Речевой корпус:
- монологическое (спонтанные монологи);
- дикторское (радиосводки Ю.Б. Левитана);
- прочитанное;
- диалоги.
Доступ к Корпусу
Доступ к Корпусу
Частотный словарь словоформ
русской спонтанной речи
Количество уникальных строк
6651
Орфографическая
расшифровка
городу
потом
потом
потом
С/ф
3664
С/у
10488
Транскрипция Частотность
[go+r*du]
[patu+m]
[pato+m]
[p*tu+]
2
3
8
1
Граница между словами в корпусе
устных текстов
«Составные слова» = «сочетания эквивалентные слову»
потому_что
как_бы
то_есть
… и др.
Венцов А.В., Грудева Е.В., Касевич В.Б., Ягунова Е.В. Идиомы в
Национальном корпусе русского литературного языка //
Международная конференция «Корпусная лингвистика–2004»
Тезисы докладов (12-14 октября 2004 г., С.-Петербург). СПб,
2004. С. 17–18.
Венцов А.В., Грудева Е.В. Частотный словарь словоформ
русского языка (проект). Череповец, 2008. 204 с.
Граница между словами в корпусе
устных текстов
то_есть [tQs’ / tısj]
потому_что [gua+S / guáʃ]
Граница между словами в корпусе
устных текстов
человека_общаться [C*lE+kap$a+c* /
ʨəlɛ+kapɕa+ʦə]
Стяжение – слияние двух смежных звуков,
приводящее к возникновению одного.
театр [t’&tr / tʲætr]
ему_уже [Qimu+Z / ɨmu+ʒ]
дети_оттуда [d’Et’&tuda / dʲε+tʲætuda]
при своём_мнении [pr* sa+emn’E+n’i / prə
sa+emnʲɛ+nʲi]
Спектрограмма сочетания когда_он
[kagda+ o+n] – стяжения не произошло
Спектрограмма стяжения щи_ото [$&ta / ɕʲæta]
(из словосочетания вещи_отождествлять
[v'E+$&taZd'istl'&+t’ / vʲɛ+ɕætaʒdʲistlʲæ+tʲ])
стяжение
Стяжения гласных и согласных в
Корпусе русских спонтанных текстов
Стяжения Количество
гласных
310
Процент от общего
числа проанализированных сочетаний
V+V или C+C на
стыке словоформ, %
55,5
согласных
106
74,1
Стяжения в спонтанной и
прочитанной речи
гласные
всего
сочетаний
спонтанная
(115 мин)
стяжения
согласные
всего
сочетаний
стяжения
559
310
(55,5%)
143
106
(74,1%)
прочитанная 303
(46 мин)
191
(63,0%)
39
38
(97,9%)
Три вида единиц:
• отдельные словоформы (я, четыре и т.д);
• составные слова (то_есть, всё_равно и др.);
• словоформы, подвергшиеся стяжению
(что_он [Ston / ʃton], дайте_им [da+et’im /
dáetjim] и др.)
Перспективы
• верификация созданной транскрипции;
• дальнейшая фонетическая расшифровка
записей;
• пополнение общего объема корпуса, в том числе
за счет привлечения записей подготовленной
русской речи (дикторской речи, прочитанных
текстов);
• разработка более совершенной системы поиска.
Спасибо за внимание!
Download