УДК 004.934 АДАПТАЦИЯ НЕЙРОСЕТЕВЫХ АКУСТИЧЕСКИХ МОДЕЛЕЙ С ИСПОЛЬЗОВАНИЕМ GMM-DERIVED И BOTTLE-NECK ПРИЗНАКОВ В СИСТЕМАХ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ Н.А. Томашенко (Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, г. Санкт-Петербург) Научный руководитель – д.т.н., профессор Ю.Н. Матвеев (Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, г. Санкт-Петербург) Задача адаптации к диктору и другим источникам акустической вариативности, таким как окружающие шумовые помехи, тип канала, реверберация, крайне важна для создания надежной системы распознавания речи. Чем ближе условия обучения акустических моделей, применяемых в системах автоматического распознавания речи, к тестовым и реальным условиям эксплуатации, тем лучше будет качество системы распознавания речи. Цель адаптации к диктору заключается в том, чтобы при использовании лишь небольшого количества имеющихся данных конкретного диктора, улучшить качество акустических моделей для повышения точности распознавания речи этого диктора. В настоящее время исследователи доказали эффективность использования глубоких нейронных сетей в качестве инструмента моделирования акустических моделей в системах автоматического распознавания речи [1], так же было показано, что во многих задачах они значительно превосходят акустические модели, основанные на смеси гауссовских распределений. В связи с этим, особенно актуальной становится задача адаптации к диктору нейросетевых акустических моделей. Цель данной работы заключается в разработке гибкого метода адаптации нейросетевых акустических моделей, основанного на специальном методе построения признаков для обучения нейронных сетей. Разработанная система обучения нейросетевых акустических моделей для адаптации к диктору состроит из следующих основных этапов: 1. Выделение акустических признаков из речевого сигнала. 2. Построение вспомогательной статистической акустической модели монофонов на основе смеси гауссовских распределений (Gaussian Mixture Model, GMM). 3. Преобразование акустических признаков, полученных в п. 1, в значения вероятностей с помощью вспомогательной модели, построенной в п. 2. Таким образом извлекаются так называемые GMM-derived признаки [2]. При этом на данном этапе для каждого диктора GMM-модель адаптируется на тех данных, которые имеются в базе для данного диктора, что позволяет выполнить дикторо-адаптивное извлечение признаков. 4. Обучение глубокой нейронной сети первого уровня. Входные признаки для обучения сети получены в п.3. Выходные признаки – это связанные состояния моделей трифонов (фонем с определенным правым и левым контекстом), которые учится классифицировать нейронная сеть. Нейронная сеть содержит несколько скрытых слоев по 1000 нейронов в каждом слое и 1 узкий скрытый слой (55-80 нейронов), учится по кросс-энтропийному критерию. Узкий скрытый слой используется для получения так называемых bottle-neck признаков [3]. 5. Отщепление от обученной в п.2 нейронной сети двух последних слоев для извлечения bottle-neck признаков. 6. Увеличение контекста полученных в п.5 признаков и обучение глубокой нейронной сети второго уровня. Построенная таким образом нейронная сеть используется в системе распознавания речи. При этом она позволяет эффективно и просто осуществлять адаптацию к диктору путем адаптации вспомогательной GMM-модели и получения адаптированных GMM-derived признаков. Описанный алгоритм адаптации к диктору был реализован на кафедре РИС НИУ ИТМО. Он показал хорошие результаты, как на русскоязычных, так и англоязычных базах тестирования. Литература 1. Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A. R., Jaitly, N., and Kingsbury, B., “Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups”, Signal Processing Magazine, IEEE, 29(6), 82-97, 2012. 2. N. Tomashenko, Yu. Khokhov “Speaker adaptation of context dependent deep neural networks based on MAP-adaptation and GMM-derived feature processing”, Interspeech, pp. 2997- 3001, 2014. 3. Grézl, F., Karafiát, M., & Vesely, K. (2014, May). Adaptation of multilingual stacked bottleneck neural network structure for new language. In Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on (pp. 7654-7658). IEEE..