8435 УДК 004.934 ИДЕНТИФИКАЦИЯ МОДЕЛИ ПОРОЖДЕНИЯ РЕЧИ С ЦЕЛЬЮ АДЕКВАТНОГО ВОСПРИЯТИЯ Ч.Т. Нгуен Тульский государственный университет Россия, 300012, Тула, пр. Ленина, 92 E-mail: [email protected] С.Д. Двоенко Тульский государственный университет Россия, 300012, Тула, пр. Ленина, 92 E-mail: [email protected] Ключевые слова: распознавание речи, подстройка под диктора, амплитудный спектр, аддитивный белый гауссовский шум, идентификация Аннотация: Задача распознавания речевых команд рассмотрена в новой постановке как задача идентификации модели речеобразования с целью адекватного восприятия. В рамках новой постановки рассмотрены задача подстройки под диктора для улучшения распознавания речевых сигналов и задача распознавания речевых команд на фоне шумов. Для улучшения качества распознавания речевых сигналов на фоне шумов предложено применить эвристический прием, заключающийся в увеличении значений отсчетов амплитудных спектров речевых сигналов на некоторую константу. Приведены результаты экспериментов. 1. Введение Большое разнообразие задач обработки речевого сигнала, а также большая его вариабельность и нестабильность результатов обработки в целом требуют новой постановки задачи обработки в данной области. В данной задаче следует обобщить уже имеющийся опыт обработки речевых сигналов с целью увеличения качества их обработки. Назовем такую задачу задачей идентификации модели порождения речи с целью адекватного восприятия. Задачу идентификации модели порождения речи с целью адекватного восприятия по нашему мнению следует решать в три этапа. Первый этап. Идентификация. Предполагается, что речевой сигнал порожден в соответствии с некоторой известной моделью речеобразования. Предположив, что эта модель параметрическая, следует оценить значения его параметров для заданного речевого сигнала. Предполагается, что модель речевого сигнала – это последовательность его кратковременных амплитудных спектров. Второй этап. Генерация. Если модель речевого сигнала идентифицирована, то можно варьировать параметры модели. Третий этап. Адекватное восприятие. В роли воспринимающего и интерпретирующего устройства выступает система распознавания речевых сигналов. Будем счиXII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г. 8436 тать, что восприятие речевого сигнала является адекватным, если его модель правильно распознается системой. Таким образом, этапы решения данной задачи означают выполнение вполне определенной обобщенной «процедуры» обработки, шаги которой определены рассмотренными выше этапами. Если сгенерированная модель речевого сигнала правильно распознается системой, то процедура заканчивается. В противном случае она возвращается ко второму шагу с другим набором параметров модели. Известно, что система распознавания речевых команд, обученная на эталонах речевых сигналов своего диктора, устойчиво распознает речевые команды, произнесенные этим диктором. Когда другой диктор тестирует такую систему, результат распознавания часто оказывается неприемлемым. Такой результат объясняется тем, что спектры сигналов чужого диктора сильно отличаются от спектров сигналов своего диктора, на которого настроена система. В работе предлагается устранить различие спектров сигналов чужого и своего дикторов путем преобразования спектра речевого сигнала чужого диктора к спектру речевого сигнала своего диктора. Кроме того, в данной статье рассматривается другая проблема, не затрагивающая задачи устранения различия спектров чужого и своего дикторов. На практике результат распознавания сигналов как своего, так и чужого дикторов дополнительно ухудшается шумом. Обучающие речевые сигналы обычно являются незашумленными, а тестирующие речевые сигналы оказываются зашумленными. Присутствие шума приводит к сильному отклонению спектров тестирующих речевых сигналов от спектров их эталонов в обучающей выборке. Поэтому качество результата распознавания на фоне шумов резко падает. Если спектр зашумленного сигнала сильно отличается от спектра незашумленного сигнала, то очевидно, что степень связи таких спектров может оказаться достаточно малой. Для увеличения степени связи в данной работе предлагается увеличивать значения отсчетов амплитудных спектров обоих сигналов на некоторую константу. 2. Идентификация Пусть сигнал Y { y1 , , yT } означает произношение какой-то речевой команды, где T – целое, положительное. Отсчеты yt , t 1, , T принимают вещественные значения. Разбиение речевого сигнала на фрагменты. Дискретные отсчеты речевого сигнала обрабатываются фрагментами с определенным периодом L . Фрагменты имеют длину N – количество отсчетов речевого сигнала во фрагменте. Формально i -й фрагмент представлен следующим описанием: Ytti i N 1 { yt ; ti t ti N 1} , 1 ti T N 1 , L ti 1 ti . Разбиение исходного сигнала на фрагменты основано на представлении о речи как о квазистационарном процессе, поведение которого остается относительно неизменными в течение короткого периода времени. Это позволяет разделить сигнал на порции, в пределах которых можно считать сигнал стационарным [1]. Кратковременный спектр речевого сигнала. Для каждого фрагмента речевого сигнала строится его кратковременный спектр. Спектр включает в себя фазовый и амплитудный спектры. Предполагается, что система распознавания речевых команд использует в качестве признаков последовательность векторов Мел-частотных кепстральных XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г. 8437 коэффициентов, являющихся результатом дискретного косинусного преобразования от логарифма кратковременного амплитудного спектра речевого сигнала, распределенного по Мел-шкале [2] без фазовой составляющей спектра. Удобно считать последовательность кратковременных амплитудных спектров A {A1 , A 2 , A 3 ,} моделью речевого сигнала Y , где амплитудный спектр A i представляет собой вектор отсчетов A i { Aik } . Отсчеты амплитудного спектра определяются дискретным преобразованием N Фурье i -го фрагмента речевого сигнала: Aik yt i n 1e j 2 ( n 1)( k 1) / M , k 1,, M / 2 . n 1 Для вычисления дискретного преобразования Фурье применяется алгоритм быстрого преобразования Фурье, имеющий максимальную производительность, когда длина последовательности входных данных является степенью двух [3]. Поэтому число M является степенью двух с наименьшим показателем: M 2 log 2 N . Длина фрагмента N должна выбираться с учетом особенностей решаемой задачи. Большая длина позволяет точнее определить спектр сигнала, но может скрыть имевшие место быстрые изменения. Меньшая длина способствует выявлению изменений сигнала, но спектральные характеристики при этом вычисляются с большими погрешностями. Таким образом, длина фрагмента должна выбираться из компромисса между спектральным и временным разрешениями [4]. Период L обычно выбирается меньше длины фрагмента N . Тогда фрагменты речевого сигнала перекрываются. Это делается для того, чтобы не пропустить существенных изменений, если они происходят на границах фрагментов [5]. Построение кратковременного спектра сигнала в окне. Разделение речевого сигнала на фрагменты для построения кратковременных спектров эквивалентно умножению отсчетов на единичный коэффициент в окне и на нулевой вне его (прямоугольное окно). Это приводит к нежелательному искажению спектра сигнала. Для уменьшения подобных искажений применяются окна с плавно спадающими до нуля коэффициентами по направлению к краям окна и сдвиг фрагментов сигнала с перекрытием [6]. В данной работе используется окно Хэмминга, где значения отсчетов в окне определяются по формуле: wn 0.54 0.46 cos(2 (n 1) /( N 1)) , 1 n N , а отсчеты амплитудного спектра определяются по формуле: N Aik yt i n 1wn e j 2 ( n 1)( k 1) / M , k 1,, M / 2 . n 1 Таким образом, идентифицированная модель речевого сигнала оказывается представленной последовательностью A {A1 , A 2 , A 3 ,} , где i -й кратковременный спектр представлен своими отсчетами A i { Aik ,1 k M / 2} . 3. Генерация 3.1. Устранение различия спектров сигналов чужого и своего дикторов Считается, что для характеристики звуков речи достаточно выделения трех формант − FI, FII, FIII, которые нумеруются в порядке возрастания их частоты [7]. Форманта является достаточно отчетливо выделяющейся областью усиленных частот, определяемой по усредненной частоте в амплитудном спектре звука. Среднее расстояние между формантами зависит от характеристики голоса говорящего (расстояние для женского голоса несколько больше, чем для мужского). XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г. 8438 Для расширения или сужения амплитудных спектров сигнала обычно применяется функция преобразования ( A, ) , где A кратковременный амплитудный спектр, параметр преобразования [5]. Мы хотим, чтобы амплитудный спектр A расширялся, если 1 , и сжимался, если 1 . Известно, что амплитудный спектр является функцией от угловой частоты A ( ) , где нормированная частота 0 [1]. Эффект расширения (сжатия) спектра может быть достигнут путем простого искажения оси частот ~ . Расширенный ~ (сжатый) спектр определяется выражением A (~ ) . Тогда новая частота ~ принимает значения в диапазоне от 0 до , который теперь зависит от значения . С целью устранения этого недостатка будем искажать ось частот следующим образом: , 0 при 1 ~ ( ), , 0 при 1. При таком искажении оси частот область сжатия или расширения спектра сигнала в нужной степени ограничивается значением дополнительного параметра . Внутри этой области расстояния между формантами изменяются в зависимости от значения , а вне ее искажаются так, чтобы просто обеспечить интервал [0, ] искаженной частоты ~ . После преобразования амплитудного спектра с коэффициентом преобразования ~ ~ ~ ~ получается новая последовательность амплитудных спектров A {A1 , A 2 , A 3 ,} . 3.2. Уменьшение влияния шума Сразу заметим, что на данном этапе, в отличие от предыдущего раздела, не происходит преобразования полученных спектров сигналов чужого диктора к спектрам сигналов своего диктора. Значения отсчетов кратковременных амплитудных спектров речевого сигнала только увеличиваются на константу. Такую модель речевого сигнала назовем моделью с усилением. Степень связи амплитудных спектров A p { A1p , , ApM / 2 } и A q { Aq1 ,, AqM / 2 } может выражаться коэффициентом корреляции, т.е. косинусом угла между двумя векторами отсчетов амплитудных спектров, принимая значения от 1 (полное совпадение спектров) до –1 (полная противоположность) [8]: r (A p , A q ) M /2 M /2 M /2 n 1 n 1 n 1 Apn Aqn ( Apn ) 2 ( Aqn ) 2 . Увеличим значения отсчетов амплитудных спектров на величину c 0 и получим степень связи «усиленных» спектров: M /2 ~ ~ r ( A p , A q ) ( Anp c)( Aqn c) M /2 M /2 n 1 n 1 ( Apn c) 2 n 1 ( Aqn c) 2 . Если считать, что величина c неограниченно растет, то разделив числитель и знаменатель на c , получим предельное значение степени связи: Anp M /2 ~ ~ lim r ( A p , A q ) lim c c n 1 M /2 n 1 Anp c 1 Aqn c 1 c 1 2 M /2 n 1 Aqn c 1 2 M /2 M / 22 XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г. 1. 8439 Легко увидеть, что при неограниченном росте величины c степень связи стремится к единице. Это означает, что в общем случае увеличение значений отсчетов амплитудных спектров на ограниченную константу приводит к увеличению их степени связи по сравнению с исходной. Очевидно, что величину c не следует делать слишком большой, т.к. при этом устраняется различие в степени связи между похожими и непохожими спектрами. В данной работе рассматриваются спектры зашумленного и незашумленного сигналов, исходная степень связи которых зависит от уровня шума. В каждом конкретном случае оказывается, что возрастание или убывание величины степени связи спектров двух сигналов, в итоге, зависит не только от значения c , но и от уровня шума. Ниже будет показано, что это отражается на результатах распознавания. После «усиления» кратковременного амплитудного спектра на величину c 0 по~ ~ ~ ~ лучается новая последовательность амплитудных спектров A {A1 , A 2 , A 3 ,} , где ~ ~ ~ A i { Aik ,1 k M / 2} , Aik Aik c . Результирующую модель речевого сигнала назовем моделью с усилением. 4. Адекватное восприятие Для выполнения этапа адекватного восприятия в данной работе была построена система распознавания речевых команд на основе скрытых марковских моделей [9]. Такая система распознавания может обучаться на речевых сигналах своего диктора. Речевые сигналы чужих дикторов преобразуются в сигналы своего диктора и классифицируются. Эксперименты по устранению влияния дикторов описаны ниже. В другом случае для исследования влияния шума система распознавания речевых команд обучается с помощью моделей с усилением незашумленных речевых сигналов для того, чтобы эксплуатироваться на моделях с усилением зашумленных речевых сигналов. Заметим, что в этом случае не происходит преобразования спектров сигналов чужого диктора к спектрам сигналов своего диктора. Таким образом, в данной работе изучается только влияние шума на качество распознавания сигнала диктора, независимо от того, свой это диктор или чужой. Эксперименты по уменьшению влияния шума также описаны ниже. 5. Эксперименты 5.1 Эксперименты по устранению влияния дикторов Было проведено сто экспериментов на речевых сигналах из базы данных TIDigits 1.0 [10]. Сначала был рассмотрен один женский голос как голос своего диктора, на речевых сигналах которого построена система распознавания речи с решающим правилом классификации 11 речевых команд. Потом один чужой диктор произносил 11 речевых команд по 2 раза. Полученные речевые сигналы этого чужого диктора были классифицированы, используя построенную систему распознавания речевых команд без преобразования их спектров ( 1) . Далее эти сигналы были преобразованы в сигналы своего диктора и классифицированы. Распознанные классы сигналов сравнивались с их истинными классами, и была определена частота правильного распознавания ( Z Z err ) Z , где Z общее число произнесенных речевых команд, Z err число ошибочно распознанных. XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г. 8440 Такие эксперименты были проведены с разными чужими дикторами. Группа из 24 дикторов (12 мужчин, 12 женщин) играет роль чужого диктора. Результаты экспериментов показаны на рис. 1. Рис. 1. Результаты экспериментов, где свой диктор – женщина и при 1 спектры сигналов не преобразуются, при 1 – преобразуются к спектрам своего диктора. Остальные 24 эксперимента были проведены как первые 24 эксперимента за исключением того, что роль своего диктора играл один мужской голос. Результаты экспериментов показаны на рис. 2. Рис. 2. Результаты экспериментов, где свой диктор – мужчина и при 1 спектры сигналов не преобразуются, при 1 – преобразуются к спектрам своего диктора. Результаты распознавания для схемы с преобразованием (рис. 1, 2) были получены при длине фрагментов речевого сигнала N 64 , где период обработки L N / 2 , значении параметра 7 / 8 , если 1 , и 7 /(8 ) , если 1 . Задача оптимизации параметра была решена, используя метод золотого сечения [11]. По результатам 48 экспериментов оказалось, что преобразование спектров чужого диктора к спектрам сигналов своего диктора повышает частоту правильного распознавания на 17%. XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г. 8441 5.2 Эксперименты по уменьшению влияния шума Были проведены эксперименты на 11 речевых командах из базы данных TIDigits 1.0 [10]. Были использованы 308 речевых сигналов (28 сигналов для каждой команды) в качестве обучающей выборки. На речевых сигналах обучающей выборки было построено правило классификации 11 речевых команд. Далее были использованы 528 речевых сигналов (48 сигналов для каждой команды) для составления тестовой выборки. К этим речевым сигналам был искусственно добавлен аддитивный белый гауссовский шум [12] с отношением сигнал/шум Rsn 3 дБ. Для заданного речевого сигнала Y { y1 , , yT } , шума {1 , , T } и значения Rsn зашумленный речевой сигнал Ψ { 1 , , T } образован по формуле [13]: t yt 10 Rsn 20 T t yi2 i 1 T i2 , t 1, , T . i 1 Описанные выше этапы обработки речевого сигнала без усиления значений кратковременных амплитудных спектров назовем схемой без усиления. Тогда обработку сигнала с усилением значений кратковременных амплитудных спектров назовем схемой с усилением. Распознанный класс каждого зашумленного сигнала по каждой схеме сравнивался с его истинным классом для определения частоты правильного распознавания. Такие эксперименты были проведены с разными отношениями сигнал/шум Rsn 3, 6, 9,, 60 дБ. Результаты экспериментов показаны на рис. 3. Рис. 3. Зависимость результата распознавания от отношения сигнал/шум. Результат распознавания для схемы с усилением (рис. 3) был получен при длине фрагментов речевого сигнала N 760 , где период обработки L N / 4 , и значении параметра увеличения амплитудного спектра c 2 . Рис. 3 показывает, что при «усилении» на константу амплитудных спектров сигналов увеличивается их степень связи, что улучшает качество распознавания. Но на это влияет шум. На рис. 3 показано, как влияет шум на качество распознавания при «усилении» спектров сигналов. Если тестирующие сигналы сильно зашумлены ( Rsn 45 дБ), то при добавлении константы ( c 2 ) качество распознавания резко улучшается. Если тестирующие сигналы меньше зашумлены, то добавление константы все меньше и меньше влияет на качество распознавания, а при некотором уровне шума (в экспериментах Rsn 45 дБ) качество распознавания ухудшается, хотя и несущественно ( 1% ). XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г. 8442 Также показано, что результат распознавания для схемы с усилением зависит от величины c . Было рассмотрено влияние значения c на результат распознавания при фиксированой длине фрагментов N 760 , периоде обработки L N / 4 и отношении сигнал/шум Rsn 12 дБ. На рис. 4 показаны результаты распознавания для схемы с усилением при значениях c 0, 0.1, , 0.5, 1, , 10 . Рис. 4. Зависимость результата распознавания для схемы с усилением от значения c . Оказалось, что с увеличением значения c частота правильного распознавания сначала быстро растет, а потом даже немного падает. Слишком большую константу добавлять нельзя, потому что это ухудшает качество распознавания по очевидной причине: устраняется различие между похожими и не похожими спектрами сигналов. Наконец, показано, что результат распознавания для схемы с усилением зависит не только от «усиления» амплитудного спектра на величину c , но и от выбора длины фрагментов речевого сигнала N . Было рассмотрено влияние длины фрагментов речевого сигнала N на результат распознавания при фиксированном периоде обработки L N / 4 , значении c 2 , отношении сигнал/шум Rsn 12 дБ. На рис. 5 показаны результаты распознавания для схемы с усилением при значениях длины N 40, 48,, 80, 120,, 800 . Рис. 5. Зависимость результата распознавания для схемы с усилением от значения N . XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г. 8443 Оказалось, что при возрастании N качество распознавания резко возрастает при небольшой длине фрагмента сигнала, а потом колеблется около некоторого уровня. При значении N 640 частота правильного распознавания, например, оказалась максимальной среди тестированных значений. 6. Заключение В данной работе для улучшения качества распознавания речевых сигналов предложено подстраивать систему распознавания под диктора. Это означает, что амплитудные спектры сигналов чужих дикторов преобразуются к амплитудным спектрам сигналов своего диктора. Эксперименты подтверждают улучшение качества распознавания. В данной работе также предложено применить эвристический прием, заключающийся в увеличении значений отсчетов амплитудных спектров речевых сигналов на некоторую константу. Для аддитивного белого гауссовского шума результат распознавания в случае существенного шума значительно улучшается и незначительно ( 1% ) ухудшается в случае малого шума. В предложенном подходе к распознаванию речевых сигналов используется ряд эвристических параметров. Следовательно, в общем случае необходимо решать задачу оптимизации этих параметров для улучшения качества распознавания. Список литературы 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. Handbook of speech processing / Ed. by J. Benesty. Berlin: Springer, 2008. 1159 p. Zheng F., Zhang G., Song Z. Comparison of Different Implementations of MFCC // Computer Science and Technology. 2001. Vol. 16, No. 6. P. 582-589. Duhamel P., Vetterli M. Fast Fourier Transforms: A Tutorial Review and a State of the Art // Signal Processing. 1990. Vol. 19. P. 259-299. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. М.: Радио и связь, 1981. С. 496. DAFX: Digital Audio Effects, Second Edition / Ed. by U. Zolzer. West Sussex: John Willey & Sons, 2011. 602 p. Oppenheim A.V., Schafer R.W. Discrete-Time Signal Processing. New Jersey: Prentice Hall, 1999. P. 870. Бондарко Л.В., Вербицкая Л.А, Гордина М.В. Основы общей фонетики, 4-е издание. СПб.: Академия, 2004. 160 c. Давыдов А.В. Сигналы и линейные системы. Лекции. http://gendocs.ru/v13566/ Аграновский А.В. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов. М.: Радио и связь, 2004. 162 с. Leonard G., Doddington G. TIDigits. isip.piconepress.com/projects/speech Мэтьюз Д.Г. Численные методы. Использование MATLAB. 3-е издание. М.: Вильямс, 2001. 720 с. Proakis J.G., Salehi M. Digital Communications. New York: McGraw-Hill, 2008. 1150 p. Wojcicki K. Add noise to a signal at a prescribed SNR level. http://www.mathworks.com/matlabcentral XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г.