ЗЕРНОВ ПАВЕЛ СЕРГЕЕВИЧ

advertisement
На правах рукописи
ЗЕРНОВ
ПАВЕЛ СЕРГЕЕВИЧ
ИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДА
СЖАТИЯ РЕЧЕВЫХ ДАННЫХ ПРИ
ПЕРЕДАЧЕ ЭКСПРЕСС-СООБЩЕНИЙ ПО
ТЕЛЕКОММУНИКАЦИОННЫМ КАНАЛАМ
Специальность 05.13.01 – Системный анализ,
управление и обработка информации
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата технических наук
Санкт-Петербург
2009
Работа выполнена в Санкт-Петербургском государственном
университете телекоммуникаций им. проф. М.А. Бонч-Бруевича
Научный
руководитель
кандидат технических наук, доцент
Юрий Тихонович Бутыльский
Официальные
оппоненты
доктор технических наук, профессор
Дегтярев Владимир Михайлович
кандидат технических наук
Гусев Михаил Николаевич
Ведущее
предприятие
Санкт-Петербургский государственный
электротехнический университет «ЛЭТИ»
Защита состоится « 2 » июля 2009 года в 10 часов на заседании
диссертационного совета Д 219.004.02 при Санкт-Петербургском
государственном университете телекоммуникаций им. проф. М.А. БончБруевича по адресу: 191186 Санкт-Петербург, наб. р. Мойки, д.61.
С диссертацией можно ознакомиться в библиотеке университета.
Отзыв на автореферат в двух экземплярах, заверенных печатью
учреждения, просим направлять по указанному адресу на имя ученого
секретаря диссертационного отдела.
Автореферат разослан « 1 » июня 2009 г.
Ученый секретарь
диссертационного совета
кандидат технических наук, доцент
2
В.Х. Харитонов
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. В настоящее время, как средства общения и обмена
информацией, широкое распространение получили системы экспресссообщений (ЭС). ЭС являются видом оперативных коммуникационных услуг,
позволяющим двум пользователям создавать в сети Интернет сессии обмена
информацией на основе текстовых сообщений. Дополнительно, некоторые из
систем ЭС позволяют передавать голосовую информацию, на базе технологии
VoIP. В качестве терминалов могут использоваться персональные компьютеры
(стационарные, ноутбуки), беспроводные устройства (сотовые телефоны, КПК)
или другое интернет оборудование. Возможны различные комбинации этих
устройств.
ЭС имеют две основные особенности: предоставляют возможность обмена
текстовыми сообщениями в реальном масштабе и передают информацию о
присутствии пользователя. Высокой популярностью ЭС обязаны этим двум
особенностям, отличающим их от электронной почты и SMS сообщений и
позволяющим клиентам систем вести диалог путем набора текста на клавиатуре
терминала (ПК, КПК, мобильного телефона и т.д.). Для пользователей,
работающих в системе ЭС, характерно употребление единой терминологии.
Разговоры связаны общими интересами и обычно происходят на одном языке.
Для системы ЭС использование технологии VoIP, зачастую является
избыточным. Анализ существующих разновидностей технологий ЭС,
показывает возможность использования словаря для преобразования, как
текстовых сообщений, так и речи на передающей стороне и передаче в канал
связи индекса каждого обработанного слова. На приемной стороне по словарю
можно синтезировать в естественную речь индексы полученных из канала
связи слов. Таким образом, на базе системы ЭС возможно предоставление
услуги передачи речи, отличающейся сниженным объемом передаваемых в
канал связи данных, по сравнению с технологией VoIP.
Своими исследованиями в области цифровой обработки речевых сигналов
известны Л. Рабинер, Р. Шафер, С. Левинсон, А. Ланнэ (RusVox). Вопросы
синтеза речи освещены в работах В. Кучерова, Б. Лобанова, Г. Фанта, Дж.
Фланагана, М. Сапожникова. Теории обработки разговорной речи посвящены
работы X. Хуанга, А. Асеро, Х. Хона. Все эти наработки в области
распознавания и синтеза речи могут быть применены в системах ЭС, порождая
тем самым новый метод передачи речи, исключающий избыточность
существующих подходов.
Поэтому поставленная и решенная в диссертационной работе задача
является актуальной.
Целью работы и задачей исследования является повышение
эффективности использования канала связи, путем снижения объема
передаваемых в системе ЭС данных. Цель достигается путем решения
нижеперечисленных основных задач.
1. Анализа систем ЭС и выявления проблем связанных с избыточностью
применения существующих методов передачи речи в системах ЭС.
3
2. Исследования и разработки метода сжатия речевых сообщений в
системе ЭС.
3. Исследования и разработки модели обработки информации на
передающей и приемной сторонах в системе ЭС.
4. Исследования и разработки алгоритмов модели обработки информации
в системе ЭС.
5. Экспериментальной проверки разработанного метода, модели,
алгоритмов и сравнения с существующим методом.
Методы исследования. При проведении исследований в диссертационной
работе использовались методы теории обработки речевых сигналов,
вычислительной математики, программирования, теории телетрафика, теории
вероятностей.
В качестве инструмента исследования автором было разработано
приложение для обмена речевой информацией в системе ЭС. Данное
приложение использовалось для получения количественных оценок объема
передаваемых в канал связи данных и времени доставки пакетов ЭС, было
экспериментальной платформой для внедрения и применения разработанного
метода передачи речи.
Научная новизна. В данной работе предложен новый метод передачи ЭС,
модель обработки информации, модель процесса преобразования речи и ее
алгоритмы. Научная новизна заключается в разработке для систем ЭС нового
подхода, основанного на применении систем распознавания и синтеза речи,
функционирующих по словарю. Словарь позволяет преобразовывать
поступающую на передающей стороне речь в индексы слов, а на приемной
стороне, переданные через канал связи индексы слов синтезировать в речевой
сигнал. Исследование систем ЭС и разработка метода передачи речи, дает
толчок к созданию лингвистических моделей языка общения пользователей, в
рамках этих систем, тем самым, расширяя возможности систем ЭС.
Практическая
ценность
работы.
К
практической
ценности
разработанного метода можно отнести:
1. уменьшение объема передаваемой в канал связи информации и
снижение нагрузки на сеть;
2. обеспечения более эффективного, по сравнению с набором на
клавиатуре, способа ввода ЭС и более эффективного, по сравнению с чтением
на дисплее, способа восприятия ЭС;
3. совместная передача на базе протоколов системы ЭС как речевой, так и
текстовой информации в едином цифровом потоке.
Разработчикам,
инженерам,
операторам
предоставляется
новый
инструмент, позволяющий обмениваться как текстовой, так и голосовой
информацией в реальном масштабе времени. Математическим аппарат,
представленный в работе в виде модели обработки информации удобен и
доступен для инженерных расчетов в системах обмена информацией.
Разработанные средства также могут быть использованы в системах
требующих низкую скорость передачи данных, к примеру: в системах передачи
данных на подводных лодках, в шахтах или в туннелях.
4
Апробация работы. Результаты работы докладывались на:
 59 (май 2005) и 60 (май 2006) научно-технических конференциях
студентов, аспирантов и молодых специалистов СПбГУТ;
 58 (январь 2006), 59 (январь 2007), 60 (январь 2008), 61 (январь 2009)
научно-технических конференциях профессорско-преподавательского состава,
научных сотрудников и аспирантов СПбГУТ.
Основные практические результаты работы демонстрировались на
ежегодной конференции IBM Lotus Forum 25 сентября 2008 в городе Москве.
Основные положения, выносимые на защиту. К основным научным
результатам, которые получены лично автором, включены в диссертацию и
выносятся на защиту, относятся:
1. результаты анализа существующих систем ЭС и их особенностей;
2. предложенный метод передачи речи на базе системы ЭС;
3. разработанная модель обработки информации в системе ЭС;
4. созданные алгоритмы для модели обработки информации в системе
ЭС;
5. результаты экспериментальных проверок работы предложенного
метода для системы ЭС в режиме реального времени и оценок объема данных,
передаваемого в канал связи;
6. дальнейшие пути исследований:
 построение лингвистической модели языка, используемого в
системе ЭС;
 снижение требований к вычислительной мощности аппаратуры
клиентской части системы, за счет распознавания речи на выделенном
сервере;
 создание клиентской части системы на базе программируемой
логики в виде аппаратного решения;
 разработка клиентской части системы, работающей на
мобильных устройствах;
 исследования по применению созданной системы в работе на
низкоскоростных каналах связи, например инфразвуковых.
Личный вклад автора. Основные научные положения, теоретические и
практические выводы и результаты экспериментов, содержащиеся в
диссертационной работе, получены автором самостоятельно.
Публикации. По теме диссертации опубликовано 13 научных работ, в том
числе в 4 изданиях из перечня, рекомендуемого ВАК.
Структура и объем работы. Работа состоит из введения, 4 глав,
заключения, списка литературы, включающего 106 наименований. Работа
содержит 150 страниц машинописного текста, 34 рисунка, 12 таблиц.
СОДЕРЖАНИЕ РАБОТЫ
Во введении проведено обоснование актуальности, научной и
практической ценности решения задач связанных с ЭС, в основе архитектуры
5
которых заложено преобразование речевой информации на передающей и
приемной сторонах по словарю.
В первой главе вводится ряд определений и классификаций, проводится
анализ существующих систем ЭС. Исследуются особенности передачи речи на
базе ЭС. Рассматриваются используемые в системах ЭС протоколы,
производится их сравнение.
Сделаны выводы об актуальности рассмотрения систем ЭС и выявлен круг
проблем связанных с ними. Определена возможность сокращенной передачи
информации от отправителя к получателю с использованием выявленного
словаря. Отмечена проблема неэффективного ввода и восприятия информации
в системе ЭС. Намечены пути устранения избыточности существующих
методов передачи речи, предполагающие обработку информации на
передающей и принимающей сторонах по словарю. Отмечена необходимость
обеспечения совместной передачи как речевой, так и текстовой информации в
едином цифровом потоке.
Во второй главе рассматривается предложенный метод передачи речи для
системы ЭС (МПРЭС) в рамках ее архитектуры. Базовые положения МПРЭС
для передающей стороны:
 формирование входной информации в виде отдельных слов по словарю;
 введение в структуру передающей стороны словаря, достаточного для
обмена ЭС между определенной группой пользователей (словарь должен
присутствовать как на передающей, так и на приемной сторонах);
 определение произнесенного пользователем слова по словарю как
наиболее вероятного с помощью речевого распознавателя с большим словарем,
основанного на использовании лексических единиц размером меньше слова
(Sphinx4), разработанного в Университете Карнеги-Меллон (CMU), группой
Sphinx Group;
 формирование пакета ЭС, содержащего преобразованный по кодовой
таблице индекс слова (последовательность индексов слов).
Базовые положения МПРЭС для приемной стороны:
 преобразование
переданного
по
каналу
связи
индекса
(последовательности индексов) по кодовой таблице;
 извлечение текстового представления слова из словаря, согласно
полученному индексу;
 преобразование слова в речевой сигнал по словарю с помощью речевого
синтезатора, основанного на использовании лексических единиц размером
меньше слова (Festival), разработанного в Эдинбургском Университете, в
Центре Исследования Речевых Технологий (CSTR).
Для МПРЭС описан процесс преобразования речи. На рис. 1.а изображена
модель процесса преобразования речи (МППР) в ASCII коды, на рис. 1.б МППР
ASCII кодов в речь.
6
Микрофон
Речь
Пользователь
Система
распознавания
речи
Индекс слова
из словаря
Словарь
Система
кодирования
слов
Послед-сть
кодов
ASCII
Кодовая таблица
а)
Послед-сть
кодов
ASCII
Система
декодирования
слов
Система синтеза
речи
Индекс слова
из словаря
Кодовая таблица
Речь
Пользователь
Словарь
б)
Рис. 1. Предложенная МППР: а – речь в ASCII коды, б – ASCII коды в речь
На основе МПРЭС разработана сетевая архитектура системы ЭС (САЭС).
В САЭС выделяются четыре основные задержки:
 задержка на обработку речи;
 задержка синтеза речи;
 задержка помещения пакета в очередь;
 задержка очереди.
Проанализированы существующие системы распознавания и синтеза речи,
сформулированы требования для таких систем в рамках ЭС.
Требования, предъявляемые к системе распознавания речи:
 работа в реальном масштабе времени, т.е. распознавание речи в темпе
поступающего речевого сигнала;
 низкий процент ошибок распознавания слов (5% неверно распознанных
слов, является минимальным приемлемым для систем распознавания речи
процентом);
 словарь, достаточный для распознавания слов, используемых в общих
разговорах (по расчетам лингвистов, объем активного словаря, для
образованного человека составляет в среднем в 5000-10000 слов);
 распознавание слитной речи, т.е. возможность автоматического
разделения произнесенной фразы или предложения на слова с последующим
распознаванием по словарю;
 наличие в публичном доступе баз для распознавания русской речи;
 наличие в публичном доступе исходных кодов системы распознавания
для их модификации и адаптации под задачи ЭС, т.е. система должна быть
некоммерческой.
Требования, предъявляемые к системе синтеза речи:
7
 работа в реальном масштабе времени, т.е. синтез речи в темпе
поступающих индексов слов в словаре;
 синтез речи с качеством близким к реальной человеческой речи;
 клиент-серверная архитектура системы синтеза;
 наличие в публичном доступе баз, для синтеза русской речи;
 наличие в публичном доступе исходных кодов системы синтеза, для их
модификации и компиляции под задачи ЭС.
Согласно сформулированным выше требованиям произведен выбор
системы распознавания речи с большим словарем (Sphinx4) и системы синтеза
речи (Festival), основанные на использовании лексических единиц размером
меньше слова.
Сделаны выводы о необходимости создания модели обработки
информации на передающей и приемной сторонах для определения
возможности работы предлагаемой архитектуры в масштабе реального времени
и вычисления объема, передаваемых в канал связи данных.
В третьей главе рассмотрена модель обработки информации в системе ЭС
(МОИЭС) построенной согласно предлагаемому методу.
МОИЭС на передающей стороне является представлением процесса
преобразования речи в ASCII коды для системы ЭС. В настоящее время в
обработке речи успешно применяются стохастические модели сигнала, а
именно скрытые марковские модели (СММ). В основе выбранной в главе 2
системы распознавания речи Sphinx4, также заложены принципы описания
речевого сигнала с помощью СММ.
На рис. 2 изображен фрагмент МОИЭС на передающей стороне.
Предположим, что имеется некоторый словарь W из V слов, которые нужно
распознавать, и что каждое слово нужно моделировать отдельной СММ.
Предположим также, что для каждого слова из словаря имеется некоторое
обучающее множество, состоящее из K реализаций каждого слова
(произнесенного одним или несколькими дикторами). Реализация слова
представляет собой последовательность наблюдений, а сами эти наблюдения
являются некоторым подходящим представлением характеристик данного
слова (спектральных и/или временных). Для каждого такого слова v словаря
строится СММ  , т.е. определяется значения параметров модели  A, B,   ,
которые оптимизируют правдоподобия векторов наблюдения обучающей
последовательности для v -го слова.
Входным параметром МОИЭС является речевой сигнал S (сигнал,
формирующийся через микрофон на передающей стороне из слов,
произнесенных пользователем) длиной T
и интенсивностью N речи .
Поступающий речевой сигнал проходит предварительный спектральный
анализ, с целью получения векторов наблюдений O по его отсчетам.
8
Процесс распознавания речи,
характеризующейся коэффициентом реального времени RT
СММ слова №1 из словаря
1  ( A1 , B1 ,  1 )
Вычисление вероятности
P(O | 1 )
Послед-сть
наблюдений
(индексы
спектров)
...
O  O1 , O2 ,..., OT 
СММ слова №2 из словаря
2  ( A2 , B2 ,  2 )
Вычисление вероятности
P(O | 2 )
...
...
Индекс
распоз.
Выбор по максимуму слова
v*  arg max P(O, v )

1 v V

...
СММ слова №V из словаря
V  ( AV , BV ,  V )
Вычисление вероятности
P(O | V )
Словарь распознаваемых системой слов
W
, объемом V слов.
Для каждого слова в словаре описана
последовательность символов
наблюдения (кодов его спектра),
согласно акустической модели.
Рис. 2. Фрагмент МОИЭС на передающей стороне
На основе полученной после спектрального анализа последовательности
наблюдений O  O1 , O2 ,..., OT , инициируется процесс распознавания. При этом
выполняются следующие шаги:
вычисляются вероятности правдоподобия всех возможных моделей
(1)
PO | v  , 1  v  V ,
относительно последовательности наблюдений O произнесенного слова;
осуществляется выбор слова, вероятность правдоподобия модели которого
наибольшая, т. е.
v*  arg max P(O, v ) , 1  v  V ,
(2)
9
где  * - распознанное слово по словарю W .
Перед передачей в канал связи, индекс распознанного слова  проходит
специальное преобразование. Если произнесенное слово не распознано
системой, то преобразование производится над последовательностью индексов
O его спектров. Значения индекса слова или индексов спектров
пересчитываются по модулю 64, согласно (3)
v  v mod( 64) .
(3)
В дальнейшем это преобразование позволит заменить любой числовой
индекс на ASCII символ из кодовой таблицы, используемой в методе
кодирования base64.
Система распознавания речи Sphinx4 позволяет задать параметр K слов ,
количество одновременно выдаваемых индексов обработанных слов
поступившего речевого сигнала. Таким образом, при параметре K слов равном 1,
система распознавания речи выдает индекс каждого обработанного слова
отдельно. Если параметр K слов больше 1, то система выдает последовательности
индексов обработанных слов. В последовательности индексов обработанных
слов, могут входить как индексы распознанных слов, так и индексы спектров
нераспознанных слов.
Таким образом Vпослед. – объем передаваемой в канал связи
последовательности индексов распознанных слов вычисляется по формуле:
Vпослед.  Lк. расп. * K расп. 
K нерасп.
L
i 1
к .нерасп.
* Wi ,
(4)
где Lк . расп. – размер закодированного по кодовой таблице индекса распознанного
слова (для словаря размером 4096 слов – 2 байта); K расп. – количество индексов
распознанных слов в последовательности; Lк .нерасп. – размер закодированного по
кодовой таблице индекса спектра нераспознанного слова (для словаря размером
4096 слов – 1 байт); Wi – количество индексов спектров в нераспознанном i -м
слове; K нерасп. – количество нераспознанных слов в последовательности.
Выразим U – объем данных, передаваемый в канал связи процессом
преобразования речи за единицу времени, как отношение объема
сформированного на выходе процессом преобразования речи пакета
Vпакета  Vслуж.  Vпосллед. ко времени его формирования Tформир. (5):
U
N речи * (Vслуж.  Lк . расп. * K расп. 
K нерасп.
L
i 1
к .нерасп.
( K расп.  K нерасп. ) * (1  RT )
* Wi )
,
(5)
где N речи – темп речи на входе процесса преобразования речи; Vсл уж. – размер
блока служебных данных в передаваемом пакете ЭС; RT – коэффициент
реального времени, описывающий отношение времени распознавания
фрагмента речевого сигнала, к его длине.
В случае, когда в процессе преобразования речи по словарю были
определены все произнесенные слова, объем передаваемых в канал связи
данных вычисляется по формуле (6).
10
U
N речи * (Vслуж  Lк . расп. * K слов. )
K слов. * (1  RT )
,
(6)
Согласно требованиям, предъявляемым к системам распознавания речи,
процент нераспознанных слов не должен превышать 5%, что задает
вероятность распознавания слова равную p  0,95 и вероятность не
распознавания q  0,05 . Тогда согласно биномиальному распределению,
PK (K расп. ) – вероятность распознавания K расп. слов из последовательности
размером K слов. определяется по формуле (7).
K
K
K
K
,
(7)
PK (K расп. )  C K * p
*q
при этом математическое ожидание (7) записывается как mK  K слов * p , а
сл ов
расп.
слов
расп.
слов
расп.
слов
расп.
дисперсия DK  K слов.* q * p
Время обработки пакета ЭС Tпакета , характеризующее промежуток времени
с момента произношения пользователем на передающей стороне первого звука
из последовательности слов размером K слов , до момента начала воспроизведения
на приемной стороне синтезированной последовательности слов, можно
записать как (8).
Tпакета  Tформ ир.  Tсетевая  Tсинтеза ,
(8)
расп.
где Tформир. 
K слов * (1  RT )
– время формирования пакета ЭС из K слов слов на
N речи
передающей стороне, Tсетевая – время задержки пакета в сети IP, Tсинтеза – время
формирования синтезируемой последовательности K слов слов на приемной
стороне.
Сравним объемы передаваемых данных существующего метода и
предлагаемого для случая распознавания всех слов (6). Оптимальное
количество слов, в пакете ЭС, составляется 11–12 слов. При таком размере
пакета ЭС, объем передаваемых данных в единицу времени составляет порядка
0,13–0,12 кбит/с, что в 140 раз меньше величины объема данных,
передаваемого в канал связи с использование кодека на основе существующего
метода (17,92 кбит/с). При инкапсуляции в пакет ЭС индекса одного
распознанного слова, объем данных увеличивается до 1,23 кбит/с, что в 14,5 раз
меньше объема данных существующего способа передачи речи. Анализируя
время доставки пакетов, можно обратить внимание на большую задержку
доставки пакетов для предложенного метода, относительно требований
рекомендации G. 114, которая гласит, что для хорошего качества голоса
значение односторонней сквозной задержки не должно превышать 150 мс.
Время доставки пакета с одним индексом распознанного слова, составляет для
темпа речи 80 слов в минуту – 1,57 секунд, а для 120 слов в минуту – 1,11 с.
При увеличении количества индексов слов в пакете ЭС, время доставки
линейно увеличивается.
Согласно МОИЭС на передающей стороне, в процессе распознавания речи,
на этапе акустического моделирования производится оценка вероятностей
правдоподобия всех возможных моделей (1) выбор слова, вероятность
11
правдоподобия модели которого наибольшая (2). Эти вероятности обычно
вычисляются с помощью алгоритма Витерби (т. е. используется наиболее
правдоподобный путь), что требует выполнения количества вычислений,
выраженных формулой (9). При этом каждое вычисление подразумевает
выполнение операции умножения, операции сложения и операции вычисления
плотности наблюдений b(O ) :
C выч..  V * N 2 * T
,
(9)
где V – объем словаря, N – число состояний в СММ слова, T – число
сегментов или кадров речевого сигнала для неизвестного слова.
МОИЭС на приемной стороне является представлением процесса
преобразования ASCII кодов, поступающих из канала связи, в речевой сигнал
для системы ЭС. Компонент, реализующий процесс преобразования, включает
в себя систему синтеза речи. В качестве системы синтеза речи, для построения
модели, будет использоваться выбранная в гл. 2 система Festival.
На рис. 3 представлен фрагмент МОИЭС на приемной стороне. Входным
параметром МОИЭС является последовательность ASCII символов,
поступающих из канала связи. Согласно таблице, используемой в методе
кодирования/декодирования
информации
base64,
каждый
символ
последовательности преобразуется в числовой код. Таким образом, вся
пришедшая из канала связи последовательность текстовых символов
преобразуется в последовательность числовых кодов. Числовой код может
представлять как часть индекса слова в словаре W , так и часть
последовательности индексов спектров из акустической модели. В любом
случае, каждый числовой код приводится к десятичному значению, а затем вся
последовательность числовых кодов, в зависимости от содержащейся
информации, либо преобразуется в последовательность индексов спектров O ,
либо в индекс слова v из словаря W .
Если получена последовательность индексов спектров O  O1 , O2 ,..., OT  , то
она синтезируется в слово по акустической базе, как объединение всех спектров
в речевой сигнал. Если получен индекс слова v по словарю W , то происходит
извлечение представления слова в текстовом виде. Затем слово проходит
текстовый и фонетический анализ. Текстовый анализ подразумевает проверку
структура слова, нормализацию слова и его лингвистический анализ.
Фонетический анализ производит разбиение слова на фонетические единицы по
словарю, выделяет важные реплики в слове и проверяет корректность слова,
для получения максимально точного произношения.
Затем необходимо произвести оценку полученной последовательности
фонетических единиц слова, с точки зрения максимальной приближенности к
описывающему ее речевому сигналу из акустического словаря.
12
Процесс синтеза речи
N
Выч. расст.  d u ( j , T ) между реч.
j 1
сегм.  j и целью T для послед. 1
...
Слово из
словаря
N
N 1
Выч. расст.  d t ( j , j 1 ) между реч.
j 1
сегм.  j и  j 1 для послед. 1
Выч. расст.  d t ( j , j 1 ) между реч.
...
...
сегм.  j и целью T для послед.  2
N
Выч. расст.  d u ( j , T ) между реч.
j 1
сегм.
сегм.  j ии целью
целью TT для
для послед.
послед.
M2
N
N 1
j 1
j 1
d (1 , T )   du ( j , T )   dt ( j ,  j 1 )
N 1
Выч. расст.  d u ( j , T ) между реч.
j 1
Сложение расст. для послед-ти 1
j 1
Сложение расст. для послед-ти 2
N
сегм.  j и  j 1 для послед. 2
...
N 1
d ( 2 , T )   d u ( j , T )   d t ( j ,  j 1 )
j 1
N 1
j 1
Выч. расст.  d t ( j , j 1 ) между реч.
Сложение расст. для послед-ти  M
сегм.  j и  j 1 для послед.  M
d ( M , T )   d u ( j , T )   d t ( j , j 1 )
j 1
N
N 1
j 1
j 1
Акустическая модель языка, содержит
множество числовых индексов спектров
Рис. 3. Фрагмент МОИЭС на приемной стороне
13
N
N 1
j 1
j 1
d (, T )   d u ( j , T )   d t ( j , j 1 )
Выбор по минимуму
^
  arg min d (, T )

...
Синтез.
текст
Пусть  - речевой сегмент, чья фонетическая транскрипция p  p ( ) . Пусть
  1 , 2 ,..., N  объединение N речевых сегментов, общая фонетическая
транскрипция которых P  p1 , p2 ,..., p N . P является последовательностью M
фонетических единиц, и так как у каждого сегмента есть, по крайней мере, одна
фонетическая единица, считается что M  N .
Дисторсия или функция стоимости между последовательностью сегментов
 и целью T может быть выражены как сумма соответствующей стоимости
речевого сегмента и затрат перехода следующим образом:
N
N 1
j 1
j 1
d (  ,T )   d u (  j ,T )   d t (  j , j 1 ) ,
(10)
где d u ( j , T ) – стоимость речевого сегмента  j в пределах цели T , d t ( j , j 1 )
является стоимостью перехода в объединении речевых сегментов  j и  j 1 .
Оптимальная последовательность сегментов  может быть найдена как
минимум полной стоимости:
(11)
  arg min d (, T ) ,

по последовательностям со всем возможным числом сегментов.
Согласно МОИЭС на приемной стороне, в процессе синтеза речи,
производится оценка реализации последовательности сегментов  и
выбирается наименьшая (11). Оценки наиболее эффективно проводить с
использованием алгоритма Витерби, что требует выполнения количества
вычислений, выраженных формулой (12).
C выч..  V * N * M 2 * K ,
(12)
где V – количество слов в словаре системы, N – число возможных разложений
сегментов синтезируемого слова, M – число состояний в СММ синтезируемого
слова (количество фонетических единиц слова), K – число кандидатов из базы
системы для фонетической единицы.
При этом каждое вычисление (12) представляет расчет стоимости перехода
между соседними сегментами d t ( j , j 1 ) (операция вычитания и умножения),
расчет стоимость речевого сегмента  j в пределах цели T du ( j ,T ) (несколько
операций сложения, число зависит от количества признаков, которые
описывают сегмент) и выбор кандидата для фонетической единицы (несколько
операций сравнения, число зависит от количества параметров, которые
описывают кандидата). Формула (12) не учитывает технику отсечения,
применяемую
для
уменьшения
количества
рассматриваемых
последовательностей сегментов.
Результатом исследований является разработка МОИЭС на передающей и
приемной сторонах, в основу которой заложена система распознавания речи
Sphinx4 и система синтеза речи Festival. В рамках МОИЭС была доказана
возможность распознавания речи в системе ЭС в реальном масштабе времени, а
также произведен расчет объема передаваемых в канал связи данных и времени
доставки пакета ЭС. Сделаны выводы о возможности реализации МПРЭС на
14
существующей элементной базе. Разработанные алгоритмы для МОИЭС дают
возможность построения программы на языке Java реализующей практически
МПРЭС.
В четвертой главе показаны результаты экспериментальной проверки
разработанного на основе предлагаемого МПРЭС программно-аппаратного
комплекса. В главе приводятся результаты мониторинга объема передаваемых
данных в территориально распределенной сети компании ЗАО «Поликом Про»,
где производилось внедрение комплекса. На рис. 4 представлен отчет об объеме
полученной и отправленной информации за ноябрь 2008 года, построенный в
программе Netflow Analyzer, на основе статистических данных с Интернет
Контроль Сервера, на сетевом интерфейсе Cisco в направлении города Москва.
Делаются выводы о снижении общего объема передаваемой и получаемой по
сети информации, за счет перехода пользователей от VoIP телефонии к
голосовому общению на базе более экономного способа передачи речи,
основанного на предлагаемом методе для системы ЭС (см. таблицу).
Рис. 4. Объем переданных
и полученных данных через
московский сетевой интерфейс (ноябрь 2008г.)
15
Объем вход. и исх. информации в сети ЗАО «Поликом Про» через сетевые интерфейсы
в г. Москва и Челябинск по портам IBM Lotus Sametime и VoIP за три месяца
Объем данных, Мб
Сетевой
Порт
Тип
Сентябрь
% от
Октябрь
% от
Ноябрь
% от
интерсетевого
инфорвсего
всего
всего
фейс
интермации
объема
объема
объем
Cisco
фейса
а
MSK
IBM
вх.
31,19
<1
90,98
1
116,22
1
Lotus
исх.
40,54
<1
100,11
2
147,01
2
Sametime
VoIP
вх.
1596,01
25
800,53
12
418,01
7
исх.
2001,14
37
501,29
9
222,94
4
CHL
IBM
вх.
5,14
<1
20,13
<1
34,78
1
Lotus
исх.
2,01
<1
15,95
<1
27,69
1
Sametime
VoIP
вх.
580,66
19
250,36
9
200,61
7
исх.
201,37
9
115,89
4
110,34
4
В результате функционирования внедренного программно-аппаратного
комплекса в территориально распределенной сети компании ЗАО «Поликом
Про» (Санкт-Петербург, Москва, Челябинск) в течение трех месяцев, было
зафиксировано увеличение объема передаваемых и получаемых данных в
системе ЭС IBM Lotus Sametime, по исходящим данным на 2%, а по входящим
на 1%. Это свидетельствует об активном использовании комплекса для
передаче речи. При этом были получены следующие результаты (общее время
голосового общения сотрудников компании за период сентябрь-ноябрь 2008
постепенно возрастало):
 объем входящих голосовых VoIP данных по сетевому интерфейсу
московского офиса компании сократился в 3,8 раза, а исходящих в 9 раз;
 объем входящих VoIP данных в ноябре стал составлять 7% от общего
объема (против 25% в сентябре), а исходящих 4% (против 37% в сентябре);
 в челябинском офисе компании, объем входящих VoIP данных
снизились в 2,9 раза, а исходящих в 2 раза и составляет соответственно 7% и
4% от общего объема.
В заключении перечисляются основные результаты диссертационной
работы.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИОННОЙ РАБОТЫ
В процессе исследований в диссертационной работе проведены следующие
работы и получены основные результаты.
1. Анализ систем экспресс-сообщений, позволивший выявить метод
решения проблемы избыточности для существующей технологии передачи
речи в IP сети.
2. Предложен метод передачи речи в системе экспресс-сообщений
(МПРЭС), основанный на преобразовании речи по словарю, достаточного
объема для обмена сообщениями между определенной группой пользователей.
16
3. Разработана модель обработки информации в системе экспресссообщений (МОИЭС), основанная на речевом распознавателе с большим
словарем (Sphinx4) и речевом синтезаторе (Festival), использующими
лексические единицы размером меньше слова.
4. Проведено вычисление объема передаваемых в канал связи данных для
предложенного метода и его сравнение с объемом передаваемых в канал связи
данных для используемой в настоящее время технологии VoIP.
5. Доказана возможность работы модели обработки информации в
масштабе реального времени на существующей элементной базе.
6. Разработаны алгоритмы функционирования модели обработки
информации, создано программное и информационное обеспечение.
7. Произведена экспериментальная проверка разработанного на основе
предложенного метода программно-аппаратного комплекса, позволившего в
сети компании ЗАО «Поликом Про» на направлении Санкт-Петербург-Москва
снизить объем передаваемых голосовых данных с 37 до 6%, (в 9 раз), а
получаемых с 25 до 8% (в 3,8 раза) относительно общего объема.
8. Разработана концептуальная модель развития предложенного метода
передачи речи, связанная с построением лингвистической модели
используемого в системе экспресс-сообщений языка и исследованиями по
применению созданного программного и информационного обеспечения для
работы на низкоскоростных каналах связи.
СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ
1. Зернов, П.С. Передача мультимедийной информации в системе экспресс
сообщений на базе протокола XMPP / П.С. Зернов // 59-я СНТК: материалы /
ГОУВПО СПбГУТ.– СПб, 2005. – С. 27 – 31.
2. Зернов,
П.С. Проблемы безопасности алгоритма md5 при
аутентификации в системе экспресс сообщений на базе протокола XMPP /
П.С. Зернов // 59-я СНТК: материалы / ГОУВПО СПбГУТ.– СПб, 2005. – С. 34 –
37.
3. Зернов, П.С. Методы формирования информационного контента для
мобильных устройств на базе экспресс сообщений / П.С. Зернов // 58-я НТК:
материалы / ГОУВПО СПбГУТ.– СПб, 2006. – С. 27 – 28.
4. Зернов, П.С. Новый принцип формирования текстовых сообщений для
системы экспресс сообщений / П.С. Зернов // 60-я СНТК: материалы / ГОУВПО
СПбГУТ.– СПб, 2006. – С. 8 – 12.
5. Зернов, П.С. Особенности передачи бинарных данных в системе
экспресс сообщений на базе протокола XMPP / П.С. Зернов // 59-я НТК:
материалы / ГОУВПО СПбГУТ.– СПб, 2007. – С. 35 – 36.
6. Зернов, П.С. Подходы к обоснованию математической модели системы
экспресс сообщений / Ю.Т Бутыльский, П.С. Зернов // 59-я НТК: материалы /
ГОУВПО СПбГУТ.– СПб, 2007. – С. 36 – 37.
17
7. Зернов, П.С. Технология быстрого формирования текстовых сообщений
для системы экспресс сообщений / П.С. Зернов // Техника Связи. – 2007. – № 6.
– С. 52 – 55.
8. Зернов, П.С. Математическая модель системы экспресс сообщений с
совместной передачей текста и голосовой информации / П.С. Зернов // 60-я
НТК: материалы / ГОУВПО СПбГУТ.– СПб, 2008. – С. 34 – 35.
9. Зернов, П.С. Новый подход к передаче речи / П.С. Зернов // Технологии
и средства связи. – 2008. – № 2. С. 104 – 105 (из перечня ведущих
рецензируемых научных журналов и изданий, рекомендованных ВАК
Минобрнауки России).
10. Зернов, П.С. Синтез русской речи в системе экспресс-сообщений. /
П.С. Зернов // Технологии и средства связи. – 2008. – № 3. С. 58 – 60 (из
перечня ведущих рецензируемых научных журналов и изданий,
рекомендованных ВАК Минобрнауки России).
11. Зернов, П.С. Быстро и просто. / П.С. Зернов // Технологии и средства
связи – 2008. – № 4. С. 92 – 94 (из перечня ведущих рецензируемых научных
журналов и изданий, рекомендованных ВАК Минобрнауки России).
12. Зернов, П.С. Передача речи в системе экспресс-сообщений. /
П.С. Зернов // Технологии и средства связи – 2008. – № 5. С. 82 – 85 (из перечня
ведущих рецензируемых научных журналов и изданий, рекомендованных ВАК
Минобрнауки России).
13. Зернов, П.С. Математическая модель оценки трафика процесса
преобразования голосовых сообщений в системе экспресс-сообщений / П.С.
Зернов // 61-я НТК: материалы / ГОУВПО СПбГУТ.– СПб, 2009. – С. 57.
Подписано к печати 29.05.2009
Объем 1 печ. л. Тираж 80 экз. Зак. 22
Тип. СПбГУТ. 191186 СПб, наб. р. Мойки, 61
18
Download