Международная научно-техническая конференция «Информационные системы и технологии» ИСТ-2014 СЕКЦИЯ 5.3 ТЕХНИЧЕСКАЯ КИБЕРНЕТИКА (ИНФОРМАЦИОННОЕ МОДЕЛИРОВАНИЕ КОГНИТИВНЫХ ПРОЦЕССОВ) А.А. АФАНАСЬЕВ (научный сотрудник), О.Н. ТИТОВ (аспирант) (Академия Федеральной службы охраны Российской Федерации) СЕГМЕНТАЦИЯ ОБРАБАТЫВАЕМОГО РЕЧЕВОГО СИГНАЛА НА ОСНОВЕ ПОЛИСПЕКТРАЛЬНОГО АНАЛИЗА Речь остается одним из основных видов информации, и именно поэтому ведущей тенденцией развития отечественных систем обработки речи, обусловленной важностью информационного процесса и возрастающими современными требованиями абонентов, является задача повышения качества предоставляемых телекоммуникационных услуг. В ряде случаев выделение и оценивание параметров полезного сигнала сталкивается или сопровождается значительными трудностями, связанными с искажением полезной информации помехами различного характера и уровня (1, 2). При этом статистические характеристики, как полезного сигнала, так и помехи зачастую априори определены не в полной мере. (1) U ( m) (t ) S ( m) (t ) n ( m) (t ) ( m) n ( m) (t ) nG( m) (t ) naG (t ) , где U ( m) (t ) - обрабатываемый РС, S ( m ) (t ) - чистый сигнал речи, n (2) ( m) (t ) - шумовое воздействие. В связи с этим возникает необходимость предварительной фильтрации речевого сигнала (РС) в задаче шумоподавления. Среди подходов, реализующих данную задачу в практике и теории, хорошо известны такие методы как винеровская и инверсная фильтрация, методы, основанные на параметрическом анализе сигналов, методы линейной и нелинейной фильтрации, методы на основе процедуры регуляции с целью решения обратной задачи. Однако стоит отметить, что широкое практическое распространение получили различные модификации алгоритмов спектрального вычитания на основе цифровой обработки сигнала, эффективность которых напрямую зависит от правильного сегментирования обрабатываемого РС. Основным предположением является то, что уровень шумового воздействия в паузе . pause сигнала A N ( jw) равен аддитивному шумовому воздействию на активном участке сигнала . aktiv AN ( jw) (3, 4), что явно указывает на зависимость данных алгоритмов от самого факта обнаружения паузы: . pause AN . aktiv ( jw) A N ( jw) . aktiv . aktiv (3) . aktiv AU ( jw) A S ( jw) A N ( jw) (4) Определяющими принципами лежащими в основе существующих алгоритмов являются: 1) Аппроксимация закона распределения сигнала шумового воздействия нормальным законом, что приводит в дальнейшем к подсчету количества знакоперемен обрабатываемого РС, а также на переходах между соседними сегментами (5): trech trech Отметим, что пороговое значение trech на сегменте (5) зависит от K - количества отсчетов в сегменте РС (6): trech K 2 (6) 340 Международная научно-техническая конференция «Информационные системы и технологии» ИСТ-2014 СЕКЦИЯ 5.3 ТЕХНИЧЕСКАЯ КИБЕРНЕТИКА (ИНФОРМАЦИОННОЕ МОДЕЛИРОВАНИЕ КОГНИТИВНЫХ ПРОЦЕССОВ) 2) Выставление пороговых значений как по амплитуды обрабатываемого РС во временной trech области U 1 , так и по мгновенной мощности сегмента в частотной области E m (7 - 10): trech U (kT ) U 1 (7) K k (8) trech (9) k 1 Em K 2 U (m) (10) m k K 1 trech где - суммарный признак паузы сегмента, - пороговое значение суммарного признака. Однако в условиях сложной помеховой обстановки, когда шумовое воздействие состоит как из (m) гауссовой nG( m ) (t ) , так и из негауссовой компоненты naG (t ) , кроме того, по уровню соизмеримых с уровнем полезного сигнала речи, данные способы сегментации дают ошибочную оценку энергетики паузы обрабатываемого РС, что приводит в конечном итоге к неработоспособному состоянию всего алгоритма спектрального вычитания. Недостатки существующих способов определения сегмента паузы позволяют сделать вывод, что сам процесс поиска со слабой адаптацией к индивидуальным особенностям диктора и работающий только по пассивным сегментам обрабатываемого РС, является слабо приспособленным к шумовому воздействию высокого уровня. Поэтому в основе разработанных алгоритмов используется понятие комплексного спектрально-временного поиска паузы на основе полиспектрального анализа с адаптацией к индивидуальным особенностям диктора. Определяющими принципами лежащими в основе предлагаемого алгоритма являются следующие: 1) Уход от описания закона распределения шумового воздействия как нормального закона. 2) Исследование и описание корреляционных моментов третьего порядка, и на их основе осуществить кластеризацию и сегментацию обрабатываемого РС в биспектральной области (11, 12): RU (a, b) K 1 K 1 . B U ( p, q ) Z a 0 b 0 K 1 U kT U (k a)T U (k b)T k 0 K 1 U kT U (k a)T U (k b)T k 0 (11) K W (a, b) exp j 2 (ap bq) (12) K . где RU (a, b) - тройная автокорреляционная функция (ТАКФ), BU ( p, q) - биспектр, полученный Z путем преобразования Фурье от ТАКФ по K-выборке обрабатываемого РС, W (a, b) - оконная функция. Практическая реализация предлагаемого способа повышает вероятность правильной классификации при сегментации обрабатываемого РС, а соответственно и улучшает качество функционирования алгоритмов шумоподавления в основе которых лежит анализ статистических свойств шума в моменты пауз в РС, так как оценка шумового воздействия с использованием ТАКФ, дает более полную информацию о структуре помехи, включая информацию о ее фазовых соотношениях с полезным сигналом. E-mail: [email protected] 341