Автоматический синтез речи – процесс генерации речевого

advertisement
Автоматический синтез речи – процесс генерации речевого сигнала.
Понятие синтеза речи используется в двух смыслах: как процесс
восстановления речевого сигнала по его параметрам (называемый также
ресинтезом сигнала) и как процесс генерации речевого высказывания по
произвольному тексту (в этом случае говорят о системах синтеза речи по
тексту).
При ресинтезе речевого сигнала осуществляется восстановление
ограниченного количества речевых образцов, хранящихся в компьютере в
цифровой форме. По сложившейся традиции устройства, с помощью которых
речевой сигнал в компрессированном и параметризованном виде
записывается сначала в цифровую память компьютера, а затем по
необходимости воспроизводится, называют синтезаторами речи. Однако в
этом случае о синтезе речи можно говорить только условно.
Система синтеза речи по тексту осуществляет преобразование
произвольного, не известного заранее текста в звучащую речь. В идеале такая
система должна имитировать деятельность человека, читающего письменное
сообщение любой степени сложности.
Человеку такая задача кажется естественной и простой. В реальности
же для автоматического синтеза речи по тексту необходимо решить ряд
лингвистических задач, основными из которых являются фонетическое
транскрибирование (ср., например, написание и произношение слов молоко –
малако, лестница – лесница, пюре – пюрэ) и интонационная разметка,
которая учитывает тип предложения: повествовательное, вопросительное или
восклицательное, а также эмоции, выражаемые через интонацию
высказывания. При синтезе речи по тексту решаются также задачи
акустической обработки сигнала.
Таким образом, система синтеза речи по тексту содержит два основных
блока (см. рисунок):
Блок лингвистической обработки текста, с помощью которого строится
фонетическая транскрипция, а также вычисляются необходимые
интонационные характеристики;
Блок генерации и цифровой обработки речевого сигнала, в котором на
основании созданной фонетической транскрипции и интонационной
разметки формируется речевой сигнал.
Рисунок. Общая функциональная схема системы синтеза речи по тексту
Генерация и цифровая обработка сигнала в современных синтезаторах
речи может осуществляться параметрическим методом (артикуляторным или
формантным) или конкатенативным (компиляционным) методом. Оба этих
способа синтеза требуют значительных вычислительных ресурсов и стали
возможны благодаря развитию и широкому использованию компьютерной
техники.
Интересно, что первые попытки создания «говорящей
машины» делались задолго до появления компьютеров. Такие
машины были механическими и основывались на
моделировании голосового аппарата человека. Так, в конце
XVIII века учёный Санкт-Петербургского университета
Х. Кранценштейн сконструировал механическую машину,
способную произносить пять гласных звуков русского языка: а,
о, у, и, э. Наиболее известный механический синтезатор речи
создал австрийский учёный В. Фон Кампелен, дополнив
синтезатор Кратценштейна моделями легких, голосовых связок
и ротовой полости. С помощью такой машины можно было
произвести около 20 речевых звуков. Машина Кемпелена
управлялась человеком-оператором, действия которого
напоминали игру органиста самого высокого уровня.
В современных параметрических синтезаторах моделируются
физические процессы образования речи либо результат этих процессов:
акустические
характеристики
речевой
волны.
Характеристики
речеобразования
(артикуляторные
либо
акустические)
задаются
определёнными правилами, описывающими значение и изменение
параметров речевого аппарата человека. На основе указанных параметров
формируется цифровая версия речевой волны, которая затем озвучивается.
В синтезаторах, использующих компиляционный метод, генерация
речевого сигнала осуществляется на основе выбора из акустической базы
данных и последующей компиляции («склейки») коротких отрезков речевого
сигнала. Полученный непрерывный сигнал затем при необходимости
обрабатывается для того, чтобы придать речевому высказыванию нужную
интонацию.
Качество синтезированной речи в компиляционных синтезаторах, как
правило, выше качества параметрического синтеза, поскольку в первом
случае не моделируются сложные процессы акустики речеобразования, а
используются готовые отрезки речевой волны.
Системы автоматического синтеза речи по тексту находят широкое
применение в человеко-машинных интерфейсах с устным вводом/выводом
информации; при речевом управлении различными техническими
устройствами; для организация информационно-справочных служб; для
создания устройств приема и озвучивания различных сообщений, например,
писем электронной почты по телефону; при разработке приспособлений и
компьютерных систем для помощи незрячим и слабовидящим; как помощь в
обучении иностранному языку и во многих других сферах деятельности
человека.
Цирульник Л.И.
Download