Автоматизированное определение эмоций в речи человека

advertisement
УДК 004(06) Информационные технологии
В.Л. РОЗАЛИЕВ
Волгоградский государственный технический университет
АВТОМАТИЗИРОВАННОЕ ОПРЕДЕЛЕНИЕ ЭМОЦИЙ
В РЕЧИ ЧЕЛОВЕКА
Данная работа направлена на рассмотрение одного из видов невербальной
коммуникации - передачи эмоций в речи, и связь ее с акустическими и лингвистическими характеристиками.
Воспринимая слухом речь, мы получаем информацию, как о смысле
речи, так и об ее эмоциональном содержании из анализа акустических
характеристик, а иногда только из одних акустических характеристик,
например, при прослушивании звукозаписей или речи по телефону [7].
Следовательно, эмоции кодируются определенными акустическими параметрами в речевом сигнале. Понимание этих особенностей акустического
кодирования эмоций необходимо для определения механизма восприятия
эмоций, их выражения. Исследование различных видов и способов передачи невербальной информации имеет огромное значение для понимания
процессов человеческого общения и общения в системе "человек-ЭВМ",
для автоматического распознавания речи, определения личности по голосу [3]. Наконец, это принципиально важная проблема для всех видов искусства, особенно создаваемого с помощью современных технических
средств: кино, радио, звукозаписи, телевидения [4].
Несмотря на очевидные успехи в области распознавания речи, и многообразия программных и аппаратных продуктов, можно сказать, что у
современной науки весьма неясные представления о глубинных процессах, отвечающих за распознавание речи в нашем мозгу. Хотя при распознавании используются элементы синтаксического и семантического анализа, нужно признать, что машины из того, что мы им говорим, ничего не
понимают [1].
Формализованная модель эмоций в речи представима в следующем
виде:
Model = <Prichina, Proavlenie, Emotion, F: Proavlenie → Emotion>,
где Prichina – это причина эмоционального состояния (примем за причину
время появления изменений в текущем эмоциональном состоянии, сохраняя, таким образом, пользователю право на окончательное решение);
Proavlenie – это множество параметров, характеризующих звуковой сигнал речи человека, т.е. все множество акустических, лингвистических параметров: Proavlenie = {AcusticParam, LingvisticParam}, где AcusticParam –
ISBN 978-5-7262-0883-1. НАУЧНАЯ СЕССИЯ МИФИ-2008. Том 11
1
УДК 004(06) Информационные технологии
это акустические параметры [2]; LingvisticParam – это лингвистические
параметры [6]; Emotion – множество эмоциональных состояний [4]; F –
функциональные зависимости Emotion от Proavlenie [5].
Последовательность определения эмоционального состояния человека
по речи будет следующей. После квантования и фильтрации гребенкой из
24 фильтров, речевой сигнал представляется в виде последовательности
значений кратковременных энергетических спектров, измеренных в моменты времени j=1,2,…,J каждые 5,7 мс. Значение 5,7 мс выбрано экспериментально. Таким образом, речевой сигнал представим в виде:
{x(0,j), … , x(i,j), …, x(23,j)}, j = 1,2…J,
где х(i,j) – значение сигнала на выходе i–го полосового фильтра в j-м
кратковременном энергетическом спектре; J – общее количество спектральных срезов на анализируемом отрезке.
После разделения на полосы некоторые из них отбраковываются. После этого находятся параметры, характеризующие речевой поток, и по
функциональной зависимости находится соответствующая параметрам
эмоция.
Список литературы
1. Заболеева-Зотова А.В. Естественный язык в автоматизированных системах. Семантический анализ текстов. Волгоград: ВолгГТУ, 2002. 228 с.
2. Радзишевский А.Ю. Основы аналогового и цифрового звука. М.: Издательский дом
«Вильямс», 2006. 288 с.
3. Рамашвили Г.С. Автоматическое опознавание говорящего по голосу. М., 1981. 416 с.
4. Розалиев В.Л. Моделирование эмоционального состояния пользователя // Открытое
образование: прилож. к журн.: по матер. XXXIV междунар. конф. и дискусс. науч. клуба,
Ялта-Гурзуф, 20-30.05.07: Инф. технол. в науке, образ., телеком. и бизнесе (IT+SE’07). –
2007. - [Б/н]. – С.172-173.
5. Связь акустических параметров с эмоциональной выразительностью речи и пения. –
[Электронный ресурс]. – [2003]. – Режим доступа: http://rus.625-net.ru/audioproducer/2003/02/
aldo.htm
6. Noguerias A. Speech emotion Recognition Using Hidden Markov Models. Paris: Eurospeech, 2001. 245 p.
7. Morozov V.P. Emotional expressiveness of the Singing Voice: the role of macrostructural
and microstructural modifications of spectra // Scand Journ. Log. Phon. MS. № 150, 1996. P. 1–11.
ISBN 978-5-7262-0883-1. НАУЧНАЯ СЕССИЯ МИФИ-2008. Том 11
2
Download