Розалиев В.

advertisement
349
ПОДХОД К РАСПОЗНАВАНИЮ ЭМОЦИОНАЛЬНОСТИ РЕЧИ
ЧЕЛОВЕКА
В.Л. Розалиев1
1
ВолгГТУ, 400131, Россия, Волгоград, пр. Ленина 28, rozaliev_v@mail.ru
Данная работа направлена на рассмотрение одного из видов невербальной
коммуникации - передачи эмоций в речи, и связь ее с акустическими и
лингвистическими характеристиками.
Введение
Несмотря на очевидные успехи в области
распознавания речи, и многообразия
программных и аппаратных продуктов,
можно сказать, что у современной науки
весьма неясные представления о глубинных
процессах, отвечающих за распознавание
речи
в
нашем
мозге.
Системы
распознавания
речи
не
умеют
автоматически распознавать язык диктора.
В системах нет возможности - полностью
выделить речь. Качество распознавания в
шумном окружении ухудшается вдвое.
Главным средством борьбы с шумами
являются механизмы подавления, которые
эффективны
далеко
не
всегда.
Распознавание хоть и проводится с
точностью 98%, однако существует
оговорка, что результаты будут сильно
отличаться для различных пользователей.
При распознавании используются элементы
синтаксического и семантического анализа,
однако, нужно признать, что машины из
того, что мы им говорим, ничего не
понимают. Появляющиеся на рынке
продукты и все увеличивающийся интерес
к данной области, а так же прибыль
компаний (около 400 миллионов долларов)
занимающихся продажей оборудования для
call-центров, способного выделять с
достаточно низкой точностью эмоций
говорящего, и главное огромная область
применения данных технологий, делают
исследование актуальным и практически
значимым. А низкая разработанность
задачи сопоставления параметров речи с
эмоциональным
состояниями
делают
работу так же и теоретически значимой.
Исследование различных видов и способов
передачи невербальной информации имеет
огромное
значение
для
понимания
процессов человеческого общения и
общения в системе "человек-ЭВМ", для
автоматического
распознавания
речи,
определения личности по голосу. Наконец,
это принципиально важная проблема для
всех
видов
искусства,
особенно
создаваемого с помощью современных
технических
средств:
кино,
радио,
звукозаписи, телевидения. Как известно,
для зрителя важно не только то, "что"
говорит диктор, но и то "как" он это делает:
степень эмоциональной выразительности в
его голосе, жестах, мимике и т.д. Именно
поэтому
проблемам
невербальной
коммуникации уделяется сейчас очень
большое
внимание.
Невербальная
коммуникация обладает целым рядом
особенностей, принципиально отличающих
ее от вербальной коммуникации. Основные
из
них
следующие:
реализация
одновременно через разные органы чувств
(слух,
зрение,
обоняние
и
др.);
эволюционная "древность" по сравнению с
вербальной речью; независимость от
смысла речи (слова могут значить одно, а
интонация голоса - другое); значительная
непроизвольность и подсознательность;
независимость от языковых барьеров;
выбор особых акустических средств
кодирования и др. [1; 2; 3]
Модель эмоций в речи
Данная работа направлена на рассмотрение
одного
из
видов
невербальной
коммуникации - передачи эмоций в речи, и
350
связь
ее
с
акустическими
и
лингвистическими
характеристиками.
Действительно, воспринимая слухом речь,
мы получаем информацию, как о смысле
речи, так и об ее эмоциональном
содержании из анализа акустических
характеристик, а иногда только из одних
акустических характеристик, например, при
прослушивании звукозаписей или речи по
телефону.
Следовательно,
эмоции
кодируются определенными акустическими
параметрами в речевом сигнале. [4]
Понимание
этих
особенностей
акустического
кодирования
эмоций
позволит понять сам механизм восприятия
эмоций, их выражения. Позволит помочь
людям страдающим аутизмом и не
способным самостоятельно воспринимать
эмоции окружающих. Позволит лекторам,
менеджерам, публичным ораторам иметь
эффективное средство контроля, того с
каким эмоциональным настроем подается
их речь, и какова заинтересованность
аудитории. Так же данное исследование
важно для повышения эффективности
распознавания речи. А постепенное
повсеместное внедрение роботов, делает
результаты данной работы важными для
повышения
уровня
взаимодействия
человека и машины. Таким образом, цель
работы
заключается
в
повышение
эффективности речевой коммуникации
людей с ЭВМ, а так же людей с
ограниченными возможностями за счет
распознавания эмоциональности речи. Мы
считаем, что исследования в области
определения эмоциональности являются
актуальными, а создание такой системы
коммерчески
выгодным
и
крайне
перспективным.
Формализованная модель эмоций в речи
представима в следующем виде: Model =
<Prichina, Proavlenie, Emotion, F: Proavlenie
→ Emotion>, где Prichina – это причина
эмоционального состояния, примем за
причину время появления изменений в
текущем
эмоциональном
состоянии,
сохраняя таким образом пользователю
право
на
окончательное
решение;
Proavlenie – это множество параметров,
характеризующих звуковой сигнал речи
человека, т.е. все множество акустических,
лингвистических параметров, т.е. Proavlenie
= {AcusticParam, LingvisticParam}, где
AcusticParam
–
это
акустические
параметры;
LingvisticParam
–
это
лингвистические
параметры;
Y
–
множество эмоциональных состояний; F функциональные зависимости Y от X.
При вычислении акустических параметров
(AcusticParam)
речевой
поток
рассматривается
как
некоторый
квазистационарный процесс [2]. В качестве
интегральных признаков речевого потока
(т.е. при произвольном контексте речи)
используются
статистические
оценки
распределения
параметров
текущего
спектра речи (спектральные признаки) и
частоты основного тона, характеризующие
этот поток в целом за определенный
промежуток времени [3]. При вычислении
спектральных признаков речевой сигнал
представляется
в
виде
дискретной
последовательности цифровых значений
амплитуды речевой волны, подвергается
спектральному
анализу
посредством
быстрого преобразования Фурье (БПФ) [5].
С помощью БПФ спектры вычисляются
последовательно по речевому потоку с
применением
набора
фильтров,
соответствующих критическим полосам.
В качестве интегральных спектральных
признаков выбраны следующие группы
индивидуальных
признаков:
средние
значения спектра анализируемого речевого
сигнала;
нормализованные
средние
значения спектра; относительное время
пребывания сигнала в полосах спектра;
нормализованное
время
пребывания
сигнала в полосах спектра; медианные
значения спектра речи в полосах;
относительная мощность спектра речи в
полосах; величины вариации огибающей
спектра речи; нормализованные величины
вариации огибающих спектра речи;
значения коэффициентов кросскорреляции
спектральных огибающих между полосами
спектра. [6]
Опыт
криминалистической
практики
показывает,
что
индивидуальные
акустические признаки, вычисленные на
отрезках речи с сопоставимым контекстом,
более информативны, чем признаки,
вычисленные
на
отрезках
речи
с
произвольным контекстом. Поэтому мы,
воспользовавшись
некоторыми
351
лингвистическим
параметрами
при
определении эмоционального состояния,
находим
слова,
однозначно
характеризующие
эмоциональное
состояние человека и на них вычисляем
векторы признаков при длительности
участков 10 с.
Признаки, характеризующие отдельные
звуки, необходимы для проведения более
глубокого микроанализа. И если слова,
характеризующие
эмоциональное
состояние мы можем и не найти, то такие
звуки легче найти в речи. Вычисление
акустических признаков микроанализа
проводится на наиболее информативных (с
точки
зрения
проявления
индивидуальности гласных звуках [А], [О],
[Е], [И]). Немаловажную роль в выборе
этих звуков оказывает обстоятельство, что
они
имеют
наибольшую
частоту
встречаемости в устной русской речи.
Основными
индивидуализирующими
параметрами
для
звуков
являются:
значение частоты основного тона (F0) на
гласных; значение четырех формантных
частот (F1, F2, F3, F4) гласных звуков;
величина длительности гласных (Тг).
Из лингвистических параметров мы
выделяем: изменение мелодики (Ml); темп
речи
(Tm);
сила
голоса
(Fr);
эмоциональность речи (Em).
Деление
эмоций
на
первичные
(фундаментальные, базовые, основные) и
вторичные (производные), основано на
утверждении, что существует некоторое
количество эмоций, которые появились у
человека врожденно (без влияния социума),
они являются универсальными для всех
людей и имеют одинаковое выражение, и
вторичные – производные от первичных,
возникшие
в
результате
смешения
первичных.
Исследователи
отмечают
«групповой»
характер
эмоций,
проявляющийся
в
способности
эмоциональных состояний к объединению,
«базированию»
вокруг
некоторых
основных, «доминирующих» эмоций на
основе когнитивного опыта человека. [4; 7]
Таким образом, характеристиками таких
групп будут:
1) группировка происходит вокруг одного
эмоционального состояния, доминанты, по
которому и называется вся группа;
2) доминанты почти всегда лексемы
первого плана, наиболее обработанные в
языке и наиболее укорененные во всей
отраженной в ней словесной культуре;
3) эмоциональные состояния внутри
группы
связаны
отношениями,
основанными на семантической общности
и образуют синонимичные ряды.
Основанием для объединения эмоций в
пределах единой семантической группы
является:
1) синонимичный характер толкования
эмоций;
2) общее представление о типовом
сценарии возникновения, развития и
протекания эмоционального состояния.
При этом сценарий представляется в виде,
причина – проявления. Так, например, для
эмоционального состояния «Радость»,
причина
–
восприятие
какого-либо
положения дел как приятного, хорошего
для себя, проявления – смех, веселье;
3) общность причины эмоционального
состояния.
Таким образом, мы выделим следующие
выходные значения: Emotion = {y1, y2, y3},
где y1 = «Радость». Фактически это можно
назвать
совокупность
положительных
эмоций; y2 = «Нейтральное состояние»; y3 =
«Отрицательные эмоции» y3 = {y31, y32,
y33}, где y31 = «Гнев»; y32 = «Страх»; y33 =
«Горе».
Несложно заметить, что положительные
эмоции меньше представлены в системе
эмоциональных состояний, на самом деле,
в речи значительно более выражены и
проще
определяемы
отрицательные
эмоции, а положительные очень сложно
выделяемы. Возможно, это связано с тем,
что визуально человек легче и эффективнее
определяет положительные эмоции.
Последовательность
определения
эмоционального состояния человека по
речи будет следующей. После квантования
и фильтрации гребенкой из 24 фильтров,
речевой сигнал представляется в виде
последовательности
значений
кратковременных энергетических спектров,
измеренных в моменты времени j=1,2,…,J
каждые 5,7 мс. Значение 5,7 мс выбрано
экспериментально. Таким образом, речевой
сигнал представим в виде: {x(0,j), … , x(i,j),
…, x(23,j)}, j = 1,2…J, где х(i,j) – значение
352
сигнала на выходе i–го полосового фильтра
в j-м кратковременном энергетическом
спектре;
J
–
общее
количество
спектральных срезов на анализируемом
отрезке. После этого каждая из полос
просматривается
на
соотношение
сигнал/шум и на уровень энергии спектра,
при отношении сигнал/шум меньше 15
децибел полоса отбраковывается, так же
при уровне энергии меньшем, чем
медианное значение энергии полосы,
полоса так же отбраковывается. После
этого блок вычисления акустических
параметров находит значения акустических
параметров. По вычисленным значениям
осуществляется расчет выходных значений,
соответствующих
эмоциональному
состоянию. При значениях выходящих за
допустимые пределы, мы начинаем искать
в речевом потоке слова, характеризующие
эмоциональное состояние. Найдя эти слова,
мы производим вычисление акустических
параметров на этих словах и вычисляем
выходные параметры. Если же слова,
характеризующие
эмоциональное
состояние не было найдено, мы вычленяем
из потока речи фонемы звуков [А], [О], [Е],
[И]. По каждой из фонем вычисляется
параметры, характеризующие отдельные
звуки.
По
ним,
а
так
же
по
лингвистическим параметрам строится база
нечетких правил, по которым принимается
решение о том в каком эмоциональном
состоянии находится человек. В каждый
момент
времени,
мы
записываем
найденную эмоцию и вычисленные
параметры
акустических
и
лингвистических
переменных,
соответствующих данной эмоции. Таким
образом, накапливая базу знаний о
параметрах
характеризующих
эмоциональное состояние.
Заключение
Таким образом, разработка системы
распознавания
эмоциональности
речи
является коммерчески выгодным и крайне
перспективным. Такая система может
получить свое применение в СМИ, где
определение того с каким эмоциями
выражаются дикторы, является ключом к
повышению рейтинга, а, следовательно,
повышения конкурентоспособности таких
СМИ. Использование такой системы в
местах заключения, поможет повысить
скорость реакции на возникновение
конфликтов,
тем
самым,
повышая
эффективность
работы
охраны.
А
применение в магазинах, могло бы
существенно сократить конфликты между
продавцами и покупателями, за счет
своевременной
реакции
старших
менеджеров. Использование такой системы
в организациях поможет топ-менеджерам
понять проблемы своего коллектива, и
соответственно
своевременно
предотвратить межличностные и иные
проблемы в коммуникации работников,
поможет предотвратить неудачи при
проведении переговоров и совещаний.
Использование
такой
системы
на
телефонах доверия и call-центрах, могло бы
поднять на новый уровень общение
операторов и клиентов.
Список литературы
1. Компьютерные
системы
массового
обслуживания и речевые технологии / В.А.
Жожикашвили, Н.В. Петухова, М.П. Фархадов //
Проблемы управления. – 2006. - №2. – С. 3-7.
2. Радзишевский, А.Ю. Основы аналогового и
цифрового звука. – М.: Издательский дом
«Вильямс», 2006. – 288 с.
3. Hozjan V., Zdravko K. “Improved Emotion
recognition with Large Set of Statistical Features”,
Eurospeech 2003, 2003.
4. Noguerias A., Moreno A., Bonafonte A., Marino J.
B., “Speech emotion Recognition Using Hidden
Markov Models”, Eurospeech 2001, 2001.
5. Morozov V.P. Emotional expressiveness of the
Singing Voice: the role of macrostructural and
microstructural modifications of spectra // Scand
Journ. Log. Phon. MS. — № 150, 1996. — P. 1–11.
6. Hawkins, S., House, J., Huckvale M., Local J.,
Ogden R. “ProSynth: An Integrated Prosodic
Approach to Device-Independent, Natural sounding
Speech Synthesis”, International Conference Speech
and Language Processing, 1998
7. Вежбицкая А. Толкование эмоциональных
концептов // Язык.Культура. Познание. М.:
Русские словари, 1996. С. 326-375.
Download