ГЛАВА 4. СРАВНИТЕЛЬНЫЙ АНАЛИЗ ВЫДЕЛИТЕЛЕЙ ОСНОВНОГО ТОНА. ВНЕДРЕНИЕ РЕЗУЛЬТАТОВ ДИССЕРТАЦИОННОЙ РАБОТЫ

advertisement
110
ГЛАВА 4. СРАВНИТЕЛЬНЫЙ АНАЛИЗ ВЫДЕЛИТЕЛЕЙ
ОСНОВНОГО ТОНА. ВНЕДРЕНИЕ РЕЗУЛЬТАТОВ
ДИССЕРТАЦИОННОЙ РАБОТЫ
Для оценки точности выделения ОТ по методу GS выполнен
сопоставительный анализ его работы с типовыми методами выделения ОТ. В
качестве типовых методов выбраны: пиковый метод, кепстральный метод,
автокорреляционный метод, метод Рабинера-Голда, фильтровой метод и метод
ЛЛК, реализованные в системе идентификации дикторов SIS (г. СанктПетербург) [64]. Система SIS используется в практике криминалистической
идентификации личности по голосу и речи [50].
4.1 Типовые выделители основного тона
Описание типовых методов выделения ОТ заимствовано из описания
системы SIS [64].
В системе SIS реализовано 6 алгоритмов вычисления основного тона для
вокализованных участков речевого сигнала.
Все методы выделения ОТ, реализованные в системе SIS, работают по
следующей схеме:
1. Отсечение низкоэнергетических участков сигнала. На каждом
заданном по длительности кадре анализа сигнала производится вычисление
среднего значения амплитуды сигнала и сопоставление вычисленного значения
с порогом, заданным пользователем. Участки, среднее значение амплитуды
которых не превышает пороговое значение, принимаются за паузы.
2. Отсечение высокочастотных шумовых участков сигнала. Для этого на
каждом кадре анализа сигнала производится вычисление среднего значения
частоты пересечения нуля и сопоставление вычисленного значения с порогом,
заданным пользователем. Участки, среднее значение частоты пересечения
нуля, которых превышает пороговое значение, принимаются за шум.
3. Определение значения периода ОТ одним из методов.
4. Проверка степени периодичности сигнала для данного периода ОТ.
5. Принятие окончательного решения Т/НТ
4. Переход к следующему кадру анализа.
111
Пиковый метод выделения основного тона
Пиковый метод основан на оценке временной структуры речевого
сигнала с целью определения положения и продолжительности периода
основного тона. Действие алгоритма заключается в следующем. На первом
вокализованном сегменте речи ищут значение периода основного тона и
начало каждого периода, определяемое по максимуму амплитуды. Далее в
области возможного значения основного тона находят следующий максимум
оцифрованного сигнала. Расстояние между максимумами считают значением
периода основного тона на данном шаге. Метод является самым быстрым из
всех имеющихся в данной системе, наиболее эффективно работает на сигналах
без шума при наличии первой или по крайней мере второй-третьей гармоник
ОТ, очень чувствителен к установкам параметров, особенно точно следует
выставлять границы максимального и минимального допустимых значений
периода ОТ.
Кепстральный метод вычисления основного тона
Наличие выраженного максимума в кепстре в диапазоне от 2мс до 20мс
очень точно указывает на то, что данный кадр является вокализованным, а
положение максимума определяет период анализируемого сигнала. Для
определения кепстра в системе SIS выполняют обратное преобразование Фурье
комплексного логарифма спектра мощности сигнала на кадре анализа. Для
увеличения скорости вычислений преобразование Фурье выполняют с
помощью алгоритма БПФ. Длительность анализируемого кадра должна
превышать длительность по крайней мере двух-трех наиболее длинных для
данной фонограммы периодов основного тона и быть кратной степени двух,
что составляет обычно 512 отсчетов для низких мужских голосов и 256 для
женских и высоких мужских голосов (при частоте дискретизации, равной
10кГц). В то же время, чем больше окно, тем дольше считается основной тон и
тем хуже отслеживаются быстрые изменения частоты ОТ. Для снятия эффекта
наложения частот используют окно Xанна [71].
Алгоритм
вычисления
периода
основного
тона
заключается
в
следующем. Длина кадра, анализируемого с помощью кепстра, обычно равна
512 отсчетам для мужских голосов и 256 - для женских голосов. Сдвиг от кадра
к кадру обычно задают равным 1/16-1/4 длины кадра анализа. Для оптимизации
выделения ОТ, особенно на зашумленных или хриплых сигналах, можно задать
112
значения границ полосы частот спектра, по которой вычисляют кепстр сигнала
и на его основе - значения периода ОТ. Для каждого анализируемого кадра
полученный кепстр исследуется с целью отыскания пика в области возможных
значений ОТ. Если пик в кепстре превышает порог, то кадр классифицируется
как вокализованный, а положение пика дает оценку периоду основного тона.
Автокорреляционный метод вычисления основного тона
В основе метода выделения основного тона по автокорреляционной
функции лежит теорема, утверждающая, что автокорреляционная функция
периодического сигнала тоже периодическая и эти два периода совпадают.
Автокорреляционная функция определяется по формуле :
R n ( k) 
N  k 1
 x( n  m)  x( n  m  k) ,
(4.1)
m 0
где N - длина кадра анализа, n - текущая координата начала кадра анализа во
всем сигнале, k - номер коэффициента функции автокорреляции. Перед
вычислением функции (4.1) участок сигнала в пределах кадра анализа
умножают на окно Хемминга.
Функция R(k) достигает максимума при k=0, следующий локальный
максимум функция R(k) для периодического сигнала X(n) с периодом P имеет
место
при
k=P.
Таким
образом,
определив
положение
максимума
автокорреляционной функции вокализованного речевого сигнала можно
определить период основного тона. Длину окна выбирают так, чтобы она была
не слишком большой и сигнал внутри окна не успел заметно измениться, но и
такой, чтобы окно охватывало по крайней мере два периода основного тона для
реализации возможности оценить периодичность сигнала. Типовое значение
длительности окна в системе SIS составляет 256 отсчетов на частоте 10кГц или
25,6 мс.
Действие алгоритма вычисления периода основного тона заключается в
следующем. Расположение кадров анализа аналогично кепстральному методу.
В области предполагаемого значения периода основного тона вычисляют
автокорреляционную функцию и ищут ее максимум. Величину максимума
сравнивают
с
порогом
и
принимают
решение
о
действительной
вокализованности сегмента. В случае положительного решения считают, что
положение максимума автокорреляционной функции соответствует периоду
основного тона.
113
Метод выделения основного тона по Рабинеру-Гоулду
Работают три простых выделителя основного тона: 1) по расстоянию
между
максимумами
временного
сигнала;
2)
по
расстоянию
между
минимумами временного сигнала; 3) по расстоянию между максимумами и
минимумами временного сигнала. При этом отбрасывают слишком мелкие
пики в окрестности больших и оценивают пики временного сигнала по ширине
и амплитуде для поиска только достаточно похожих пиков. Полученные три
текущие оценки длительности периода ОТ рассматривают совместно для
текущего, предыдущего и последующего периодов ОТ. Все оценки сравнивают
и за оценку текущего периода ОТ принимают ту, которая чаще всего
встречается в данной совокупности оценок ОТ.
Фильтровый метод вычисления основного тона
В этом методе сигнал до начала анализа фильтруют узкополосным
фильтром нижних частот. Для мужчин полоса пропускания от 50 до 250 Гц, для
женщин от 70 до 450 Гц, то есть диапазон возможных значений частоты
основного тона. Далее выполняют анализ, аналогичный пиковому методу.
Метод часто не работоспособен для сигналов с ограничением полосы частот
снизу.
Вычисление основного тона по методу ЛЛК
При вычислении основного тона по алгоритму ЛЛК для тональных
участков вычисляют функцию автокорреляции с окном длительностью, равной
20мс. По 15 последовательно вычисленным значениям автокорреляции делают
предположение о величине ОТ. Принимая к сведению вышеописанные
предположения, алгоритм пикового выделения основного тона формирует
окончательный результат.
Для всех типовых методов выделения ОТ на графиках контура ОТ
участки паузы обозначаются уровнем 0Гц, участки шума обозначаются
уровнем
20Гц,
тональные
участки
обозначаются
соответствующими
значениями частоты ОТ.
Проведенные
эксперименты
позволяют
сказать,
что
алгоритмы
выделения ОТ, реализованные в системе SIS требуют в среднем от пяти до
десяти минут на настройку средним оператором после недельного обучения
оператора.
114
4.2 Визуальное сравнение методов выделения ОТ
На рис.4.1а приведена осциллограмма изолированного слова “три”
произнесенного диктором мужчиной (среднее значение частоты ОТ для
Рис. 4.1 Изолированное слово "три" и контуры ОТ,
полученные разными выделителями ОТ: а) осциллограмма слова “три”
(диктор мужчина); б) пиковый метод; в) фильтровой метод; г) метод
Рабинера - Голда; д) кепстральный метод; е) автокорреляционный
метод; ж) метод ЛЛК; з) GS-метод.
данного произнесения составляет
около 110Гц). На рис.4.1б - рис.4.1з
показаны контуры основного тона
указанного
пиковым
слова,
выделенные
методом,
фильтровым
методом, методом Рабинера-Голда,
кепстральным
методом,
автокорреляционным
методом,
методом
ЛЛК
и
GS-методом
соответственно.
Визуальный
анализ
полученных на рис. 4.1б - рис. 4.1з
Рис. 4.2 Осциллограмма и контур ОТ
начальной части слова "три":
а) осциллограмма начальной части слова "три";
б) контур ОТ начальной части слова "три".
контуров показывает, что ни один из типовых методов не обеспечил
115
правильного выделения контура основного тона на переходе от смычки /т/ к
Рис. 4.3 Осциллограмма фразы "Не видали мы такого невода" при отношении С/Ш 5дБ
и контуры ОТ, полученные разными выделителями ОТ: а) осциллограмма произнесения
с шумом; б) эталонный контур ОТ (получен ручным способом); в) пиковый метод; г)
фильтровой метод; д) метод Рабинера - Голда; е) кепстральный метод; ж)
автокорреляционный метод; з) метод ЛЛК; и) GS-метод.
звонкой /р/. Для доказательства соответствия контура основного тона,
полученного GS-методом, истинному контуру основного тона на рис. 4.2
представлены в увеличенном во времени масштабе отфильтрованный
фильтром нижних частот с частотой среза 1500 Гц осциллограмма начального
участка слова “три”, а также соответствующий ему контур ОТ, полученный GSметодом. Из этих рисунков видно, что предлагаемый метод обеспечил
правильную простановку марок в начале возбуждения речевого тракта на звуке
"р". Ни один из типовых методов не смог сделать этого.
На рис. 4.3 приведен пример произнесения предложения “Не видали мы
такого невода” диктором VBG с добавленным белым шумом при отношении
сигнал/шум 5дБ, а также контуры основного тона указанного произнесения,
полученные пиковым методом, фильтровым методом, методом Рабинера Голда, кепстральным методом, автокорреляционным методом, методом ЛЛК и
116
GS-методом.
Во всех типовых методах потеряны участки начала и окончания
произнесения, имеются многочисленные ошибки на переходах между
фонемами.
Для данного отношения
С/Ш при выделении контура
ОТ
можно
GS-методом
отметить
переход
на
половинную частоту основного
тона в начале произнесения,
повышенную изрезанность и
повышенное
количество
ошибок в конце произнесения.
Однако GS-метод, в целом,
обеспечил
правильное
слежение
за
траекторией
основного тона на протяжении
всего произнесения.
На рис. 4.4 приведено
произнесение предложения “Не
видали
мы
такого
невода”
диктором VBG с добавленным
белым шумом при соотношении
сигнал/шум
показаны
0дБ,
а
также
контуры основного
тона указанного произнесения,
полученные пиковым методом,
фильтровым методом, методом
Рабинера-Голда и GS-методом
Рис. 4.4 Осциллограмма фразы "Не видали мы
такого невода" при отношении С/Ш 0дБ и контуры
ОТ, полученные разными выделителями ОТ:
а) осциллограмма произнесения с шумом;
б) пиковый метод; в) фильтровой метод;
г) метод Рабинера - Голда; д) GS-метод.
соответственно. Кепстральный метод, автокорреляционный метод и метод ЛЛК
оказались полностью неработоспособны на данной фразе.
Количество
ошибок
выделения
основного
тона
GS-методом
по
сравнению со случаем при отношении С/Ш=5дБ возросло, особенно в конце
произнесения. Однако GS-метод, в целом, несмотря на столь низкое отношение
С/Ш, обеспечил приемлемое слежение за траекторией основного тона на
117
протяжении всего произнесения, в то время как типовые методы оказались
практически неработоспособны.
Download