УДК [004.934+004.056.5]:811.411.21 ( Евразийский национальный университет им. Л.Н.Гумилева

advertisement
УДК [004.934+004.056.5]:811.411.21
Е.Н. Сейткулов1, Г.В. Давыдов2, А. Потапович2
( Евразийский национальный университет им. Л.Н.Гумилева
2
Белорусский государственный университет информатики и радиоэлектроники)
1
ОБОСНОВАНИЕ МЕТОДА ФОРМИРОВАНИЯ КОМБИНИРОВАННЫХ
МАСКИРУЮЩИХ РЕЧЬ СИГНАЛОВ
Аннотация. Обосновывается метод формирования комбинированных маскирующих сигналов для
систем защиты речевой информации от утечки по акустическим каналам. Комбинированные маскирующие
сигналы включают «белый» шум в диапазоне частот от 125 до 6500 Гц и сигналы всплескового характера
(речеподобные сигналы). Соотношения между указанными видами сигналов выбирается исходя из языка
речевого сигнала, требующего защиты.
Ключевые слова: комбинированные маскирующие сигналы, «белый» шум, речеподобные сигналы,
разборчивость речи, восприятие речи.
Речевая информация, являясь результатом мыслительной деятельности человека, выступает
наиболее часто в виде первичной информации, которая в последующем находит отражение в виде
документов, решений, постановлений, а также направлений, определяющих развитие
определенных областей деятельности общества. На сегодняшний день речевая информация
требует первостепенных мер по ее защите, так как дальнейшие мероприятия по защите
информации, озвученной в результате деятельности человека, могут оказаться уже
малоэффективными, когда существуют на сегодняшний день весьма эффективные системы сбора
и обработки информации с использованием современных вычислительных средств и средств
беспроводной связи. Поэтому актуальность защиты речевой информации весьма велика и для ее
обеспечения необходима организация непрерывного совершенствующегося процесса.
Защита речевой информации предусматривает как применение организационных
мероприятий в первую очередь, так и использование технических средств защиты информации от
утечки по акустическим каналам, что можно обеспечить путем применения пассивных и активных
методов защиты речевой информации. Технические аспекты решения указанной задачи и анализ
существующих методов активной и пассивной защиты речевой информации рассмотрены в
работах [1, 2]. Однако, остается открытым вопрос выбора маскирующих сигналов для активной
защиты речевой информации от утечки по акустическим каналам. Наиболее часто для защиты
речевой информации используются маскирующие сигналы в виде «белого» или «розового» шума,
а также речеподобные сигналы, музыка или так называемые сигналы «речевой коктейль» - смесь
речевых сигналов многих дикторов.
Акустические характеристики помещений, такие как звукоизоляция, реверберация,
поглощение звука, влияют на разборчивость и слышимость речи в нем и за пределами помещений.
Существенное влияние на указанные параметры за пределами помещений оказывают
конструктивные дефекты и неоднородности в ограждающих элементах конструкций помещений,
такие как сквозные щели в стенах возле трубопроводов систем коммуникаций, а также
электроснабжения и разных систем сигнализации, включая пожарную и охранную. Места
размещения преобразователей на ограждающих конструкциях также влияют на защищенность
речевой информации с использованием активных методов защиты.
Формирование маскирующих речь сигналов необходимо выполнять с учетом следующих
основных акустических характеристик речевых сигналов: среднего уровня звукового давления
речи, темпа речи, уровней звукового давления в октавных и 1/3 октавных полосах частот. Для
математического описания речевого сигнала наиболее часто используемых следующие
математические модели: модель с волновыми уравнениями, описывающими распространение
акустических колебаний в речевом тракте; гармоническая модель речевого сигнала, состоящей из
сигналов синусоидальной формы плюс шум; модель речевого сигнала в виде набора отрезков
функций на основе вейвлет - коэффициентов; модель, основанная на теории модуляции и модель,
основанная на аппроксимации спектра набором постоянных составляющих в полосах частот [3].
Наиболее перспективной для решения задачи выбора маскирующих речь сигналов представляется
гармоническая модель речевого сигнала. Речевой сигнал моделируется набором гармонических
составляющих и шумом, что можно записать в виде уравнения
N
S ( t )  R( t )   Ak cos2  f  t   k  ,
k 1
где R(t) – шумовая компонента; Ак – амплитуда к-ой гармонической составляющей; f частота к-ой гармонической составляющей; φк - фаза к-ой гармонической составляющей; t – время.
В зависимости от вида фонемы в речевом сигнале может преобладать гармоническая
составляющая сигнала или шумовая. Для вокализованных фонем преобладает гармоническая
составляющая сигнала. При этом амплитуда гармонической составляющей превышает амплитуды
шумовой составляющей. На рисунке 1 представлены реализации записей речевых сигналов (“В
городе была большая библиотека”) и речевых сигналов с наложенным “ белым ” шумом для
различных соотношений сигнал/шум и ниже каждой реализации приведена соответствующая ей
сонограмма. Длительность записи составляла 2,6 с. Сонограммы представлены для диапазона
частот от 60 до 2000 Гц. На первой сонограмме, представленной под записью речевого сигнала
ясно видны спектральные составляющие сигнала и характер их изменения во времени.
Наложение “белого” шума на речевой сигнал выполнялось на персональном компьютере, а
соотношение сигнал/шум устанавливалось по среднеквадратичным значениям на всем интервале
записи. “Белый” шум был сформирован для диапазона частот от 60 до 8000 Гц. При соотношении
сигнал/шум -6 дБ как на реализации сигнал/шум, так и на ее сонограмме явно видны признаки
наличия речевого сигнала. При прослушивании фонограммы с соотношением сигнал/шум -6 дБ
речевой сигнал разборчиво прослушивается на фоне шумов.
Для сигнала с соотношением речь/шум -12 дБ признаки наличия речевого сигнала в
реализации просматриваются значительно хуже. Вместе с тем на сонограмме признаки наличия
речевого сигнала в записи видны достаточно четко. Просматривается первая, вторая и третья
форманты речевого сигнала. Прослушивание данной фонограммы позволяет разборчиво
прослушивать около 50% записи.
При соотношении сигнал/шум -20 дБ на реализации не видны признаки речевого сигнала, а
на соответствующей этой реализации сонограмме первая и вторая форманты речевого сигнала
просматриваются достаточно четко. На некоторых участках этой сонограммы просматриваются и
третьи форманты речевого сигнала, хотя не очень выразительно. Прослушивание этой записи
позволило установить 3-8 % правильно принятых речевых сигналов (слов), хотя некоторые слова
были приняты неуверенно. Однако, на основании не преднамеренного использования наиболее
часто употребляемых слов в обиходной речи – процессов ассоациативного мышления удалось
получить указанный процент правильно принятых слов.
Рис. 1. Реализации записей речь/шум и их сонограммы.
На рисунке 1 приведены временные реализации и соответствующие им сонограммы для
речевого сообщения “В городе была большая библиотека” при соотношениях сигнал/шум -6, -12 и
-20 дБ.
Таким образом, экспериментальные исследования показали, что при маскировании речевого
сигнала “белым” шумом при соотношении сигнал/шум -20 дБ на реализации суммарного сигнала
во временной области можно выделить временные участки, когда в суммарном сигнале
присутствует речевой сигнал (компоненты, содержащие гармонические составляющие) лишь
используя сонограмму реализации. Это может выступать в качестве признака, демаскирующего
конфиденциальную речь при защите ее маскирующими сигналами типа «белый» шум. Выделение
речевой составляющей из шума в этом случае может выполняться с использованием набора
узкополосых фильтров, настроенных на формантные составляющие вокализованных звуков, с
перестройкой соотношений между формантными составляющими, или уже известными
соотношениями присущие определенному диктору.
Для исключения такой возможности в маскирующие речь сигналы необходимо ввести
сигналы со свойствами характерными для речевых сигналов. Таким требованиям удовлетворяют
речеподобные сигналы, сформированные по базе аллофонов определенного диктора или ряда
дикторов, а также речеподобных сигналов нескольких дикторов в виде диалога. При
формировании диалоговой формы речеподобных сигналов могут быть использованы и различные
языки (например, русский, белорусский, казахский, украинский и др.). Маскирующие
речеподобные сигналы следует формировать с учетом вероятностных характеристик появления
определенных фонем в данном языке, а также длины слов, предложений, синтагм и фоноабзацев,
характерных для данного языка и с учетом индивидуальных особенностей произношения для
определенного диктора.
Таким образом, комбинированные маскирующие сигналы должны включать шумовую
компоненту (например, «белый» шум) и составляющую, содержащие ярко выраженные
вокализованные участки – речеподобные сигналы. При этом сигнал, который может быть принят
средствами разведки нарушителя, будет иметь следующий вид
N
M
k 1
l 1
Sc ( t )  R(t )   Ak cos2  f k  t   k   Rs ( t )  Rn ( t )   Al cos( 2  f l  t  l ) ,
где Rn(t) - шумовая компонента маскирующего шума; Rs(t) - шумовая компонента
речеподобного сигнала; Аl – амплитуда l-ой гармонической составляющей речеподобного сигнала;
- фаза l-ой гармонической составляющей речеподобного сигнала.
Эффективность защиты речевой информации комбинированными маскирующими
сигналами следует определять по параметрам разборчивости и слышимости речи, как
предлагается в работе [4]. В отличие от известных формантных методов оценки разборчивости
речи и методов, основанных на индексе артикуляции, дополнительно следует использовать
вероятностные характеристики.
Важным требованием к маскирующим сигналам является требования, чтобы они
формировались случайным образом, т. е. чтобы «белый» шум формировался за счет тепловых
шумов полупроводниковых или другой природы физических шумов. Кроме того «белый» должен
быть ограничен по частотному диапазону и простираться лишь на диапазон речевых сигналов, т.е.
на диапазон от 125 до 5600 Гц со спадом характеристик вне диапазона пропускания 12 дБ на
октаву. Эти требования обусловлены в первую очередь необходимостью исключения какой-либо
возможности шумоочистки перехваченных акустических сигналов. Применение сформированных
цифровым методом шумов вместо «белого» шума создает опасность того, что имеется
возможность применения шумоочистки. С другой стороны, и речеподобные сигналы,
сформированные с использованием генератора случайных чисел, должны базироваться на
тепловых шумах полупроводниковых приборов, а не на псевдослучайных последовательностях,
сформированных цифровыми устройствами.
На рисунке 2 приведены временная реализация речевого сигнала с наложенными
комбинированными маскирующими сигналами, состоящими из «белого» шума и речеподобных
сигналов в соотношении – 6 дБ (соотношение речеподобные сигналы/«белый» шум равно – 6 дБ),
соотношение речь/комбинированный маскирующий сигнал равно – 20 дБ. На этом же рисунке
ниже приведена сонограмма этой временной реализации.
речь/шум -20дБ + (- 6 дБ речеподобные сигналы)
Рис. 2. Реализации записи речь/шум -20 дБ и плюс -6 дБ речеподобных сигналов, а также ниже приведена
сонограмма этой записи.
На реализации записи речь/шум -20 дБ и плюс -6 дБ речеподобных сигналов видно наличие
речеподобных сигналов по всплескам амплитуда, а на сонограмме видны спектральные
составляющие речеподобных сигналов и маскируемой речи. При этом чрезвычайно сложно
разделить представленные спектральные составляющие на спектральные составляющие,
относящиеся к речеподобным сигналам и спектральные составляющие маскируемой речи.
Отличие последней сонограммы, представленной на рисунке 1, от сонограммы, представленной на
рисунке 2, заключается в наличии спектральных составляющих речеподобных сигналов на
сонограмме, показанной на рисунке 2. Это отличие обусловлено тем, что к сигналу, реализация
которого показана на рисунке 1 (последней), добавлен с уровнем – 6 дБ речеподобный сигнал.
Формирование маскирующих речь комбинированных сигналов рекомендуется путем
суммирования «белого» шума с речеподобными сигналами в соотношении (речеподобный
сигнал/«белый» шум) равный – 6 дБ. При этом речеподобные сигналы рекомендуется
формировать по базе аллофонов диктора, речевой сигнал которого необходимо защитить
комбинированными маскирующими сигналами [5-7]. Для защиты речевого сигнала,
представляющего диалог нескольких дикторов, комбинированные маскирующие сигналы
необходимо формировать с использованием речеподобных сигналов, созданных по базам
аллофонов всех дикторов, участвующих в диалоге.
Показателем защищенности речевой информации считают заданное значение разборчивости
речи. Исходными данными, необходимыми для анализа защищенности речевых сигналов,
являются уровень звукового давления речевых сигналов, звукоизоляция типовых элементов
ограждающих конструкций, уровень звукового давления фонового акустического шума и уровни
производственных вибраций ограждающих элементов конструкций помещений.
Для оценки степени защищенности речевой информации в настоящее время широко
известны критерии, устанавливающие численные нормативные значения отношений
«сигнал/шум» в октавных либо третьоктавных полосах частот в диапазоне речевого сигнала и
учитывающие вероятностные характеристики речевых сигналов, производственных акустических
шумов и маскирующих речь акустических сигналов.
Безопасность речи характеризуется как состояние, при котором передаваемая речь будет
либо не вразумительной или звуковой не более чем на каком-то конкретном очень небольшом
отрезке времени. Для очень высоких степеней безопасности речи, что происходит крайне редко,
предъявляются требования быть не только не понятной, но и не слышимой [4]. Численным
параметром, характеризующим защищенность речевой информации, является индекс
разборчивости речи, который определяется как функция от средневзвешенной суммы
соотношений сигнал/шум в 1/3 октавных полосах речевого диапазона частот следующим образом,
5000
SPI 
 L  f   L  f / 16,
ts
n
f 160
где сумма находится для каждой из 1/3 октавных полос со средней частотой f;
Lts(f) - переданный уровень речи до места нахождения нарушителя;
Ln(f) - уровень внешних шумов в месте нахождения нарушителя.
Значения в квадратных скобках для каждой полосы частот должны быть ограничено так,
чтобы оно не могло иметь значения меньше -32 дБ.
Если отношение сигнал-шум в конкретной полосе меньше -32 дБ, то это значение,
значительно, ниже порога слышимости и такие чрезвычайно низкие значения будут
ненадлежащим образом увеличивать показатель защищенности речи. Поэтому, необходимо,
ограничить значения разности уровней сигнал-шум в каждой 1/3 октавной полосе частот
значением не ниже -32 дБ.
По результатам экспериментальных исследований в работе [4] получены зависимости
разборчивости, слышимости интонации и слышимости речи в зависимости от индекса SPI,
которые представлены на рисунке 3.
Рис. 3. Часть слушателей, способных (а) слышать некоторые звуки речи, (б) слышать интонацию звуков
речи и (в) понять хотя бы одно слово.
Представленные на рисунке 3 зависимости характерны для случая, когда маскирующий
сигнал является «белым» шумом или другим каким-либо видом шумов. Введение в маскирующие
сигналы речеподобных сигналов позволяет повысить степень защищенности речевой информации
при тех же значениях SPI.
ЛИТЕРАТУРА
1. Давыдов Г., Попов В., Потапович А. // Наука и инновации. 2013. №6(124). С. 15-19.
2. Давыдов Г.В., Каван Д.М., Попов В.А. и др. // Доклады БГУИР. 2009 № 4. С. 49-54.
3. Голубинский А.Н. // Безопасность информационных технологий. 2009. № 2. С. 12-18.
4. Bradley, J.S. ; Gover, B.N. Designing and Assessing the Architectural Speech Security of Meeting Rooms
and Offices. Canada. 2006.
5. Давыдов Г.В. Защита речевой информации шумовым речеподобным сигналом / Г.В. Давыдов, В.А.
Попов, А.В. Потапович // Известия Белорусской инженерной академии. – 2000. – №1 (9) 71. – С. 146–148.
6. Воробьев, В.И. Синтез речеподобных сигналов / В.И. Воробьев, А.Г. Давыдов // Акустический
журнал. – 2002. – Т. 48 – №5. – С. 701–704.
7. Устройство защиты речевой информации от утечки по вибрационным и акустическим каналам: пат.
Респ. Беларусь №3053. МПК7 H 04K 3/00, G 10K 11/00 / В.И. Воробьев, А.Г. Давыдов, Г.В. Давыдов, А.И.
Ивонин, Д.В. Лещенко, Б.М. Лобанов, Л.М. Лыньков, В.А. Попов, А.В. Потапович // Офиц. бюл./ Нац. центр
интеллектуал. собственности. – 2006. – №5. – С. 184.
Сейтқұлов Е.Н., Давыдов Г.В., Потапович А.
Құрамдастырылған жасырылған сигналдарды қалыптастыру әдісінің дәлелдемесі
Түйіндеме. Сөздік ақпаратты акустикалық желілер арқылы жайылып кетуден қорғау жүйелері үшін
құрамдастырылған жасырылған сигналдарды қалыптастыру әдісі дәлелденеді. Құрамдастырылған
жасырылған сигналдар 125-6500 Гц жиілік диапазонындағы «ақ» шуылды және шолпыл мінездес
сигналдарды (сөйлеу тәріздес сигналдар) қамтиды. Көрсетілген сигнал түрлерінің қатынасы қорғауды қажет
ететін сөздік ақпараттың тіліне қарай таңдалады.
Түйін сөздер: құрамдастырылған жасырылған сигналдар, «ақ» шуыл, сөйлеу тәріздес сигналдар,
сөйлеу анықтығы, сөйлеуді қабылдау.
Seitkulov Е., Davydau G., Potapovich A.
Justification of the method of forming the combined masking speech signals
Summary. We justify the method of forming composite masking signal for systems protecting speech
information from leaking by acoustic channels. Combined masking signals include "white" noise in the frequency
range from 125 to 6500 Hz and a wavelet character signals (speech-like signals). The relations between these types
of signals are selected based on the language of the speech signal, requiring protection.
Key words: combined masking signals, "white" noise, speech-like signals, speech recognition, speech
perception.
Download