Выделение основного тона слитной речи и автоматическая

advertisement
Меламуд Александр Евгеньевич
445 гр.
Научный руководитель:
к.т.н. Булашевич Александр Евгеньевич


HMM (Hidden Markov Model) – на данный
момент - основной способ для
распознавания речи
Алгоритмы, основанные на HMM решают
задачу распознавания лабораторной речи –
причина популярности



Необходим достаточно длинный участок
речи
Необходимо обучение на большой выборке
(более 10 часов размеченной вручную речи)
На реальной речевом сигнале (например
телефонный сигнал) метод работает плохо
(всего-лишь 30-35% правильно
распознанных фонем)

Производить предварительную
сегментацию сигнала с целью:
◦ Параметризация сигнала, согласованная с
границами фонем

Один из вариантов: предварительная
сегментация по виду первичного
возбуждения:
◦ «подсказка» HMM ограниченного набора фонем
заданного артикуляционного класса.



Попытки решать задачу сегментации методами
спектрального анализа, обычно по оценке
модуля градиента спектрограммы.
Неудачно: мало разрешение по времени
Подход к сегментации на основе признаков,
имеющих физический смысл. Перспективен. С
начала 90-х в связи с активным внедрением
HMM метод заброшен
Задача: сегментация речевого потока на
основании источника первичного возбуждения
в двух вариантах постановки: на жесткой сетке
кадров и с определением границ точных
сегментов



Артикуляционные классы: голос, шум,
пауза/смычка, взрыв
Группы фонем: гласные, звонкие согласные,
глухие согласные и смычные
2 фонемы 1-го класса – редкость =>
прицел на решение общей задачи
сегментации



Спектральные методы не применить: в
одной из постановок задач нужна точность
до 1 мс
Вероятностные не применить из-за желания
«подсказывать» HMM
Временные статистики.
Сложность: ответа на вопрос, какую
статистику где применять, что ей подавать
на вход в случае зашумленного сигнала,
нет. Это предмет моего исследования




Общая энергия: голос/не голос, пауза/шум
Количество переходов через ноль:
шумные/смычные, вокализованные
участки/звонкие щели
Анализ локальных экстремумов: шум/голос,
вокализованные участки/звонкие щели
Отношение вышеназванных статистик при
фильтрации в разных частотных полосах:
звонкая смычка/все остальное, шум/глухая
смычка


Точность автоматической сегментации
≈70% (Точность HMM при алфавите в 5
фонем ≈70% )
Основные ошибки в гласных и звонких
согласных, глухих смычных и шумных
согласных



Доработка методов обработки статистик
Адаптивная настройка порогов статистик –
ожидается существенное повышение
точности
Привлечение данных об основном тоне для
уточнения границ
Download