Распознавание речи Радченко Глеб Игоревич ЮУрГУ 1 Введение Содержание доклада: – Общие сведения о человеческой речи – Основные модели речеобразования – Постановка задачи распознавания речи – Решение задачи распознавания речи – Параллельная реализация задачи – Заключение 2 Общие сведения о человеческой речи • 2 вида звуков – Вокализованные (гласные и звонкие согласные) – распознаются относительно легко – Невокализованные (глухие согласные) – значительно хуже поддаются распознаванию 3 Схема голосового тракта 4 Физическая модель голосового тракта 5 Математическая модель голосового тракта 6 Постановка задачи распознавания речи • Распознавание корреспондента • Распознавание речи – С предварительным обучением и без него – Размер словаря (десятки – сотни – тысячи слов) – Окружение и зашумленность сигнала – Связная речь или отдельные команды 7 Общий алгоритм распознавания связной речи Исходный сигнал Начальная фильтрация и усиление полезного сигнала Выделение отдельных слов Распознавание слова Распознавание речи Реакция на распознанный сигнал 8 Распознавание звукового примитива Предварительная обработка Нейронная сеть Детектор основного тона Последовательность отсчетов Фильтр низких частот Измерение энергии Анализ на основе линейного предсказания Результат Формирование вектора параметров Формантный анализ 9 Предпосылки для использования параллельных вычислений • Большой массив однородных входных данных • Возможность выделения равнозначных участков распознавания (отдельных слов, отдельных звуков) • Высокая сложность функций-примитивов (FFT, cepstral analysis, другие обобщенные характеристики участка речи) • Независимость данных примитивных преобразований • Сложная база данных звуковых примитивов 10 Проблема параллельной реализации НС Многократное замедление работы алгоритма нейронной сети, по сравнению с последовательной реализацией. Это связано с резким увеличением затрат на пересылку сообщений между узлами во время работы. 11 Проблема параллельной реализации НС Вычислительный узел Взаимная зависимость по данным 12 Варианты решения • Использование машин с общей памятью • Использование модели структуры НС и другого метода размещения нейронов на узлах • Использовать модель “параметрических нейронов” • Использование иной модели пересылки информации 13 Варианты применения параллельной реализации • Многопроцессорные рабочие станции – в связи со сложностью требуемых вычислений и большой базой дынных • Суперкомпьютерные системы – постоянный анализ больших объемов звуковых данных 14 Заключение • Для задачи распознавания речи возможна эффективная параллельная реализация • Нейронная сеть при параллельной реализации будет отличатся от нейронной сети для последовательной реализации. 15 Спасибо за внимание! 16