Устная речь в национальном корпусе русского языка – проблемы

advertisement
Российские разработки
корпусов устной речи
I. Корпусы звучащей речи =
фонетические базы данных
II. Корпусы устных текстов
I. Корпусы звучащей речи
 Корпус русской речи ISABASE
 Речевой корпус RuSpeech
 Информационно-поисковая система
диагностики типа акцента/диалекта
неизвестного диктора «Территория»
II. Корпусы устных текстов
 1. Корпус детских рассказов о
сновидениях ориентирован на
изучение структуры устного
дискурса.
 Способ представления текстов:
аудиозапись + дискурсивная
транскрипция
Образец транскрипции











Z50. Ольга Ц., 17 лет.
1.
/\Озеро ...(0.5) какое-то,
2.
..(0.3) (Или /\речка или /\озеро,
3.
но по-моему \озеро,
4.
Потому что как-то ммм(0.6) \маленькое
такое,
5.
\небольшое.)
6.
…(0.9) и-и …(0.7) через /него ..(0.3) как-то
\бревно какое-то,
7.
типа \моста.
8.
..(0.4) Там всё как-то /маленькое,
9.
и в то же время \большое.
10. ....(1.2) Вокруг такой /–ле-ес-с_
Устная речь в
Национальном корпусе
русского языка
(www.ruscorpora.ru)
Национальный корпус русского языка
– собрание лингвистически размеченных
текстов общим объемом 140 млн
словоупотреблений.
Национальный корпус
русского языка
 корпус современных письменных
текстов 1950-2006
 корпус письменных текстов XVIII –
1-ой пол. XX в.
 корпус устных текстов
 поэтический корпус
 корпус диалектных текстов
 параллельный корпус
Способ представления устных текстов –
орфографическая запись + отдельные особенности
произношения
 Мама от нас ушла / потому что мы с Мишей когда
встречаемся / у нас <нрзб> Ну он тоже начал
изображать меня / по телефону / так вот взяв руку
/ краем к левой щеке прислонив / большой палец к
уху / мизинец ко рту / Ты чё{что*}? [Беседа
психолога с ребенком // (2005.06)]
 Потому как действительно / старая музыка / ну
она как… / ну-у.... не похлеще... может / не
получше / но / во всяком случае / терпит
конкуренцию со стороны современных так
называемых нападающих / более таких уже
агрессивных исполнителей. [Радиопередача по
заявкам радиослушателей, Челябинск // (2005)]
Представительность Корпуса живой
русской речи
 Содержит подлинные целые тексты
 Большой объем текстов – 4,4 млн
словоупотреблений
 Разнообразие текстов с точки зрения
половозрастного, социального,
профессионального состава говорящих,
времени и географии записей
 Большой временной диапазон – около 50
лет
 Устные тексты относятся к разным
сферам общения
 Мультимедийный подкорпус
Метатекстовая аннотация
в корпусе устной речи
 сфера функционирования: публичная,
непубличная, кино
 тип текста: беседа, интервью, микродиалог и пр.
 тематика текста: частная жизнь, медицина и
здоровье, политика и общественная жизнь и пр.
 время создания текста
 стиль текста: нейтральный, сниженный,
официальный
 характеристики аудитории: размер, возраст,
уровень подготовки
 место записи текста
Лингвистическая аннотация в
корпусе устной речи
 Морфологическая разметка
 Семантическая разметка
 Социологическая разметка
Состав и структура
корпуса устной речи
Корпус
живой русской
речи
Устная
публичная речь
81%
Устная
непубличная
речь
7%
Речь кино
12%
Распределение текстов по времени записи
4%
6%
4%
До 1970 г.
1971-1979
9%
1980-1989
1990-1999
2000-2006
77%
Перспективы развития
корпуса устной речи
 1. Разработка программного обеспечения
для социологической разметки.
 2. Увеличение объема корпуса устной
речи до 10 млн словоупотреблений.
 3. Расширение географии корпуса за счет
включения записей русской устной речи,
сделанных в различных регионах России,
в странах ближнего и дальнего
зарубежья.
 4. Интеграция в состав корпуса
аудиозаписей текстов.
Download