программного и алгоритмического обеспечения, повышает

advertisement
ИЗВЕСТИЯ ВолгГТУ
Помимо освещенных выше, официально зарегистрированных программ [9, 10], в блоке
анализа и управления информацией ИС принимают участие типовые программы и базы данных, разработанные автором.
Заключение. Для оценки работы системы
с вышеописанным программным обеспечением
была сформирована экспертная группа из десятка специалистов по распространению техногенных загрязнений, выполнивших тестирование
таких характеристик, как оперативность, надежность, производительность, уровень специализации и функциональной замкнутости подсистем и т. д. Тестирование показало эффективную
работу системы, после чего в Международном
центре инновационного развития горных территорий (г. Владикавказ, Республика Северная
Осетия-Алания) осуществлена практическая
реализация разработок. Апробация системы показала повышение эффективности мониторинга
техногенных загрязнений на исследуемых участках ТС (Моздокский район) по сравнению
с предыдущими результатами, полученными без
применения информационных технологий, лишь
по данным полевых исследований. Благодаря
тому, что разработанное ПО снабжено функцией
прогнозов, был предотвращен ряд крупных утечек техногенных загрязнений, позволивший сохранить устойчивость ТС в целом, за счет сохранения ее стабильности. На основании результатов испытаний системы можно сделать вывод
о том, что представленный цифровой и фактический материал, в виде специализированного
программного и алгоритмического обеспечения,
повышает эффективность решения задач аналиУДК 004.94
63
за, обработки и управления информацией сложными проблемно-ориентированными системами.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Дворянкин, А. М. Разработка моделей и алгоритмов
для решения задачи автоматизированной классификации
объектов с учетом естественно-языковых атрибутов /
А. М. Дворянкин, С. А. Овчинников // Известия ВолгГТУ :
межвуз. сб. науч. ст. № 1(27) / ВолгГТУ. – Волгоград,
2007. – (Серия «Актуальные проблемы управления, вычислительной техники и информатики в технических системах» ; вып. 1). – C. 44–48.
2. Олейников, С. П. Декомпозиция задач принятия решения в условии неоднородной информации / С. П. Олейников, Д. П. Олейников, Л. Н. Бутенко // Известия ВолгГТУ :
межвуз. сб. науч. ст. № 8(46) / ВолгГТУ. – Волгоград,
2008. – (Серия «Актуальные проблемы управления, вычислительной техники и информатики в технических системах» ; вып. 5). – C. 131–133.
3. Герасимов, А. М. Система формирования поисковых запросов к базе данных по физическим эффектам /
А. М. Герасимов, П. А. Колчин, С. А. Фоменков // Известия ВолгГТУ : межвуз. сб. науч. ст. № 2(28) / ВолгГТУ. –
Волгоград, 2007. – (Серия «Актуальные проблемы управления, вычислительной техники и информатики в технических системах» ; вып. 2). – C. 88–90.
4. Соколов, А. А. Разработка новых методов и средств
анализа обработки информации и управления сложными
природно-техническими системами / А. А. Соколов // Доклады МОИП. – 2010. – Т. 44. – М.: МАКС Пресс, 2010. – 96 с.
5. Соколов, А. А. Анализ работы алгоритмов компрессии для сокращения объема цифровой информации. Перспективы науки. Science prospects / А. А. Соколов, Е. А. Соколова. – 2010. – № 7. – С. 93–96.
6. Соколов, А. А. К проблеме повышения эффективности
комплексной оценки влияния промышленных объектов на
экосистемы / А. А. Соколов, Е. А. Соколова // Экология урбанизированных территорий. – 2009. – № 3. – С. 42–43.
7. Пат. № 87280 РФ. Бюл. изобрет. 27, 1013, (2009).
8. Пат. № 106975 РФ. Бюл. изобрет. 21, 892, (2011).
9. Свидетельство о государственной регистрации программ для ЭВМ № 2009614579 от 27 августа 2009 г.
10. Свидетельство о государственной регистрации
программ для ЭВМ № 2009613133 от 17 июня 2009 г.
Г. О. Фролов
АЛГОРИТМ ТЕКСТОНЕЗАВИСИМОЙ ИДЕНТИФИКАЦИИ ЧЕЛОВЕКА ПО ГОЛОСУ
Волгоградский государственный технический университет
frolovgo@gmail.com
Рассмотрен языко- и текстонезависимый метод идентификации человека по голосу, основанный на выделении из речевого сигнала признаков, характеризующих усредненную энергию вейвлет-коэффициентов
пакетного вейвлет-преобразования с пятью уровнями декомпозиции по базису Добеши двадцатого порядка.
На основе векторов признаков построена модель диктора с помощью алгоритма k ближайших соседей.
Идентификация образцов голоса осуществляется путем выбора модели, имеющей максимальную апостериорную вероятность соответствия анализируемому образцу.
Ключевые слова: идентификация по голосу, верификация, вейвлет-анализ, пакетное вейвлет-преобразование, метод ближайшего соседа.
G. O. Frolov
TEXT-INDEPENDENT SPEAKER RECOGNITION ALGORITM
Volgograd State Technical University
A text independent method of speaker identification, based on the selection of the speech signal features that
characterize the averaged energy of the wavelet coefficients of the wavelet packet transform with five levels of decomposition on the basis of Daubechie-20 order is proposed. On the basis of feature vectors, a model speaker with
an algorithm k nearest neighbors is constructed. Identification of voice samples perform by selecting a model having
the maximum posterior probability of matching the analyzed sample.
Keywords: voice identification, verification, wavelet analysis, packet wavelet transform, nearest neighbor classifier.
64
ИЗВЕСТИЯ ВолгГТУ
Введение
Для параметризации образцов человеческого
голоса предлагается использовать пакетное
вейвлет-преобразование. Традиционными для
решения таких задач оказываются алгоритмы,
использующие преобразование Фурье. Наиболее
известными из них являются алгоритмы
MFCC[6] и LPCC[6]. В основе этих алгоритмов
лежит предположение о том, что человеческий
голос можно считать стационарным сигналом на
интервалах порядка 20–40 мс, что верно далеко
не всегда. Опубликованные результаты практических испытаний систем, использующих для
параметризации сигналов эти алгоритмы, свидетельствуют о том, что доля верно идентифицированных дикторов превышает 98 % [5]. При
этом, как правило, разработчики умалчивают
о том, что результататы достигаются для образцов голоса, записанных в условиях звукозаписывающей студии при помощи профессиональных микрофонов. Результаты, полученные независимыми исследователями, такими как National
Institute of Standards and Technology (NIST), показывают, что при использовании образцов, записанных в реальных каналах связи, точность
идентификации редко превышает 90 % даже для
текстозависимых систем идентификации [9].
Используемое такими популярными алгоритмами параметризации, как MFCC и LPCC,
кратковременное преобразование Фурье с длительностью окна от 20 до 50 мс с перекрытием
до 25 % позволяет довольно точно выделить
спектральные максимумы, характеризующие
резонансные частоты голосового тракта человека для отдельных звуков, обусловленные индивидуальными анатомическими особенностями голосового тракта. Но признаки такого рода
легко искажаются шумами и изменениями в голосовом тракте, вызванными физическим состоянием человека.
Поэтому, для повышения точности идентификации по голосу, был разработан метод параметризации сигналов, использующий вейвлет-преобразования и позволяющий выделить
просодические характеристики речи, малочувствительные к шумам и искажениям в канале
связи, из ее нестационарных фрагментов в моменты коартикуляции.
Метод параметризации речевых сигналов
Как утверждалось выше, голосовой сигнал
имеет нестационарный характер, обусловленный постоянной перестройкой голосового тракта в процессе слитной речи.
На рис. 1 представлен фрагмент записи голоса диктора в момент перехода звука «Т»
к звуку «О» при произношении слова «стоп».
Сигнал на этом участке нестационарен.
Рис. 1. Пример нестационарного фрагмента в речевом сигнале
Фурье-анализ малопригоден для анализа подобных сигналов и не может различить сигнал
из нескольких одновременно действующих гармоник, и сигнал, составленный из этих же гармоник, разнесенных во времени, при условии,
что исследуемые фрагменты имеют одинаковую
длительность. Использование оконного преобразования Фурье порождает проблемы другого
характера – при уменьшении размера окна падает разрешение по частоте, спектральные максимумы расплываются, и определить наличие конкретных частот становится невозможно.
Вейлвет-анализ лишен данных недостатков
за счет возможности использовать переменный
масштаб для разных диапазонов частот.
Схема разработанного алгоритма параметризации, использующего вейвет-преобразование, приведена на рис. 2.
На этапе препроцессинга выполняется предусиление высокочастотных гармоник сигнала для выравнивания спектра, так как огибающая спектра человеческого голоса имеет спад
в сторону высоких частот с крутизной около
6 дБ/окт [3].
65
ИЗВЕСТИЯ ВолгГТУ
Конечным результатом работы алгоритма
параметризации является 32-мерный характеристический вектор для каждого кадра сигнала.
В качестве модели диктора в полном объеме сохраняются характеристические векторы
для всего объема обучающих голосовых материалов.
В процессе идентификации вероятность
принадлежности i-го вектора тестового образца
модели диктора j определяется как
P(Cj|yi) = Kij\k,
где Kij – количество векторов среди найденных
K ближайших соседей, принадлежащих классу j.
Каждый вектор тестового образца сравнивается с каждым вектором всех шаблонов. Тестовый образец классифицируется по правилу:
Рис. 2. Схема разработанного алгоритма
N
Для предусиления к сигналу применяется
фильтр вида:
y(n) = y(n)−ay(n−1),
(1)
где a = 0,97 – коэффициент, подобранный экспериментально.
После предусиления выполняется нормализация, направленная на устранения влияние
различных уровней громкости образцов:
y(n) = (y(n)−μ)/σ,
(2)
где μ – среднее арифметическое отсчетов сигнал; σ – среднеквадратичное отклонение, соответсвенно.
После выполнения первичной обработки
сигнал разбивается на окна длиной 1024 отсчета сигнала. Для каждого окна вычисляется пять
уровней пакетного вейвлет-преобразования [8]
по базису Добеши двадцатого порядка, в результате чего получется 32 поддиапозона по 32
вейвлет-коэффициента в каждом.
Для формирования результирующего параметрического вектора используется оператор
специального вида, называемый TKEO (Teager
Kaiser Energy Operator) [7] и применяемый
к каждому поддиапазону. Компоненты результирующего параметрического вектора формируются следующим образом:
fi  log10 (
1
Ni
N i 1
 (w (k ))
k 1
i
2
(4)
 wi (k  1) * wi ( k  1) ),
(3)
где fi – i-й компонент параметрического вектора; wi(k), wi(k+1), wi(k–1) – соответственно k-й,
k+1-й и k–1-й компоненты i-го поддиапазона
5-го порядка вейвлет-разложения.
С  arg max  P(C j | yi ),
1 j  N
(5)
i 1
где N – длина тестовой последовательности
в кадрах.
Данный алгоритм классификации известен
как алгоритм K ближайших соседей (K nearest
neighbor – KNN) [6].
Результаты тестирования
разработанного метода
Алгоритм, описанный выше, был реализован при помощи в качестве расширения свободно распространяемого каркаса программного обеспечения с открытым исходным кодом
Recspe[4], в состав которого входят реализации
нескольких популярных алгоритмов параметризации голосовых образцов и классификации
моделей дикторов, в частности, алгоритмы
KNN, MFCC и LPCC. Образцы голосов дикторов для тестирования были взяты из свободного корпуса дикторов Chains[2], включающего
в себя образцы голосов 36 мужчин и женщин,
записанных в различных условиях. Для каждого диктора записано около 50 минут голоса.
Для обучения системы идентификации использовались фрагменты длиной 2,5 минуты
для каждого диктора. В качестве классификатора во всех случаях применялся алгоритм
KNN c числом k=32.
Первый этап тестирования проводился с использованием 36 фрагментов голоса для каждого диктора длиной от 4 с до 10 с, записанных
в студийных условиях.
Точность идентификации, достигнутая при
использовании разработанного алгоритма (обозначен «daub20») соизмерима с другими участниками тестирования.
66
ИЗВЕСТИЯ ВолгГТУ
Рис. 3. Результаты тестирования алгоритмов параметризации при использовании образцов голоса,
записанных в студийных условиях
Рис. 4. Результаты тестирования алгоритмов параметризации при использовании образцов голоса,
записанных в телефонном канале
При переходе к образцам голоса, записанным в телефонном канале (8000 Гц/8 бит), разработанный алгоритм выходит на первое место
среди рассмотренных аналогов.
Разработанный алгоритм применим для построения систем текстонезависимой идентификации по голосу, в тех случаях, когда необходимость работы с голосовыми материалами
низкого качества не позволяет использовать
менее робастные алгоритмы.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Chen, S.H. Speaker Verification Using MFCC and
Support Vector Machine / S.H. Chen, Y.R. Luo // IMECS
2009. – Hong Kong, 2009. – С. 532–535. – Англ.
2. Cummins, F. The CHAINS Speech Corpus: CHAracterizing Individual Speakers [Электронный ресурс] – 2006. –
Режим доступа : http://chains.ucd.ie/docs/chains_corpus_specom2006.pdf
3. Furui, S. Cepstral analysis technique for automatic
speaker verification // IEEE Trans. Acoustics, Speech, Signal
Processing, ASSP-29, 1981. – С. 254–272. – Англ.
4. Kral, P. About RecSpe – Automatic Speaker Recognition Toolkit [Электронный ресурс] – 2010. – Режим доступа : http://home.zcu.cz/~pkral/sw/recspe.html
5. Matsui, T. Comparison of text-independent speaker
recognition methods using VQ-distortion and discrete/continuous HMMs / T. Matsui, S. Furui // Proc. ICSLP, 1992. –
C. 157–160. – Англ.
6. Reynolds, D.A. An Overview of Automatic Speaker
Recognition Technology // Proc. International Conference on
Acoustics, Speech, and Signal Processing, 2002. – Orlando. –
FL. IV. – C. 4072–4075. – Англ.
7. Solnik, S. Teager–Kaiser energy operator signal conditioning improves EMG onset detection [Электронный ресурс] – 2010. – Режим доступа : http://www.ncbi.nlm.nih.
gov/pmc/articles/PMC2945630/
8. Добеши, И. Десять лекций по вейвлетам. – Ижевск :
Регулярная и хаотическая динамика, 2001. – 464 с.
9. Сорокин, В. Н. Верификация диктора по спектрально-временным параметрам речевого сигнала / В. Н. Сорокин, А. И. Цыплихин // Информационные процессы. –
М. – Вып. 10, № 2. – С. 87–104.
10. Фролов, Г. О. Применение вейвлет-преобразования в задачах идентификации по голосу / Г. О. Фролов //
Современные научные исследования и инновации [Электронный ресурс]. – 2013. – Режим доступа : http://web.
snauka.ru/issues/2013/05/24295
Download