Распознавание речи

реклама
Распознавание речи
Радченко Глеб Игоревич
ЮУрГУ
1
Введение
Содержание доклада:
– Общие сведения о человеческой речи
– Основные модели речеобразования
– Постановка задачи распознавания речи
– Решение задачи распознавания речи
– Параллельная реализация задачи
– Заключение
2
Общие сведения о человеческой
речи
• 2 вида звуков
– Вокализованные (гласные и звонкие
согласные) – распознаются относительно
легко
– Невокализованные (глухие согласные) –
значительно хуже поддаются
распознаванию
3
Схема голосового тракта
4
Физическая модель голосового
тракта
5
Математическая модель
голосового тракта
6
Постановка задачи
распознавания речи
• Распознавание корреспондента
• Распознавание речи
– С предварительным обучением и без него
– Размер словаря (десятки – сотни – тысячи
слов)
– Окружение и зашумленность сигнала
– Связная речь или отдельные команды
7
Общий алгоритм распознавания
связной речи
Исходный сигнал
Начальная фильтрация и
усиление полезного сигнала
Выделение отдельных слов
Распознавание слова
Распознавание речи
Реакция на распознанный сигнал
8
Распознавание звукового
примитива
Предварительная
обработка
Нейронная
сеть
Детектор
основного тона
Последовательность
отсчетов
Фильтр низких
частот
Измерение
энергии
Анализ на
основе
линейного
предсказания
Результат
Формирование
вектора
параметров
Формантный
анализ
9
Предпосылки для использования
параллельных вычислений
• Большой массив однородных входных данных
• Возможность выделения равнозначных участков
распознавания (отдельных слов, отдельных звуков)
• Высокая сложность функций-примитивов (FFT,
cepstral analysis, другие обобщенные характеристики
участка речи)
• Независимость
данных
примитивных
преобразований
• Сложная база данных звуковых примитивов
10
Проблема параллельной
реализации НС
Многократное
замедление
работы
алгоритма
нейронной
сети,
по
сравнению
с
последовательной
реализацией.
Это связано с резким увеличением
затрат на пересылку сообщений между
узлами во время работы.
11
Проблема параллельной
реализации НС
Вычислительный узел
Взаимная зависимость по данным
12
Варианты решения
• Использование машин с общей
памятью
• Использование модели структуры НС и
другого метода размещения нейронов
на узлах
• Использовать модель “параметрических
нейронов”
• Использование иной модели пересылки
информации
13
Варианты применения
параллельной реализации
• Многопроцессорные рабочие станции –
в связи со сложностью требуемых
вычислений и большой базой дынных
• Суперкомпьютерные системы –
постоянный анализ больших объемов
звуковых данных
14
Заключение
• Для задачи распознавания речи
возможна эффективная параллельная
реализация
• Нейронная сеть при параллельной
реализации будет отличатся от
нейронной сети для последовательной
реализации.
15
Спасибо за внимание!
16
Скачать