Представление и измерение звуковой информации в компьютере

advertisement
Представление звуковой информации в памяти компьютера
Некоторые значения уровней звука:
Звук – волновые колебания давления в упругой среде (воздухе, воде,
металле и т.д.). Для обозначения звука часто используют термин
«звуковая волна».
Порог слышимости
Основные параметры любых волн, и звуковых в том числе, - частота и
амплитуда колебаний. Частоту звука измеряют в герцах (Гц –
количество колебаний в секунду).
Шорох листьев, слабый ветер
10-20 дБ
Шёпот (на задней парте)
20-30 дБ
Человеческое ухо способно воспринимать звук в широком диапазоне
частот, от 16 Гц до 20 кГц. В нетехнических областях (например, в
музыке) вместо термина «частота» используют термин «тон».
Разговор средней громкости
50-60 дБ
Автомагистраль с интенсивным движением
80-90 дБ
Амплитуду звуковых колебаний называют звуковым давлением или
силой звука, эта величина характеризует воспринимаемую громкость
звука.
Авиадвигатели
120-130 дБ
Болевой порог
 140 дБ
Сила звука измеряется в паскалях (Па), при этом самые слабые, едва
различимые звуки имеют амплитуду 20 мкПа (210-5 Па – порог
слышимости). Самые сильные звуки, ещё не выводящие слуховые
органы из строя, могут иметь амплитуду до 200 Па (болевой порог).
Из-за такого широкого диапазона значений (максимальное и
минимальное значения отличаются на 6-7 порядков!) абсолютными
величинами звукового давления пользоваться неудобно, на практике
обычно используют логарифмическую шкалу децибелов.
Относительную силу звука, или уровень звука, определяют как
логарифм отношения абсолютной величины звукового давления к
величине порога слышимости, умноженный на некоторый постоянный
коэффициент.
L  20* lg
Pзв
Pпс
где L – уровень звука (в децибелах, обозначение - дБ), Рпс – порог
слышимости (210-5 Па), Рзв – давление измеряемого звука.
Свойства логарифмической шкалы децибелов:
- весь диапазон слышимых звуков составляет 0-140 дБ: 0 дБ – порог
слышимости, 140 дБ – болевой порог;
- человеческое ухо способно уловить различие в громкости, если звуки
отличаются по силе не менее, чем на 10%, что соответствует разнице в
уровнях примерно на 1 дБ;
0 дБ
Звукозапись – процесс сохранения информации о параметрах
звуковых волн. Способы хранения или записи звука разделяются на
аналоговые и цифровые. При аналоговой записи на носителе
размещается непрерывный «слепок» звуковой волны. Так, на
грампластинке пропечатывается непрерывная канавка, изгибы которой
повторяют амплитуду и частоту звука, а на магнитной ленте параметры
звука сохраняются в виде намагниченности рабочей поверхности, а
степень намагниченности непрерывно изменяется, повторяя параметры
звука.
В компьютерах применяется исключительно цифровая форма записи
звука. При цифровой записи звук необходимо подвергнуть временной
дискретизации и квантованию.
Временная дискретизация звука. Для того чтобы компьютер мог
обрабатывать звук, непрерывный звуковой сигнал должен быть
преобразован в цифровую дискретную форму с помощью временной
дискретизации. Непрерывная звуковая волна разбивается на
отдельные маленькие временные участки, для каждого такого участка
устанавливается определенная величина интенсивности звука. Такой
процесс называется оцифровкой звука.
Таким образом, непрерывная зависимость громкости звука от времени
A(t) заменяется на дискретную последовательность уровней громкости.
На графике это выглядит как замена гладкой кривой на
последовательность "ступенек".
1
Если звук записывается для нескольких источников воспроизведения
(колонки, колонки+сабвуфер и т.д.), то объем умножается на
соответствующий множитель.
Примеры:
1) Оценить информационный объем цифрового стереозвукового файла
длительность звучания 1 секунда при глубине кодирования звука 16 бит
и частоте дискретизации 24 кГц.
N =24000Гц *16 бит * 2(стереозвук!) * 1сек=768000 бит = 93,75 Кбайт.
Рис. Временная дискретизация звука
Качество полученного звука зависит от количества измерений уровня
громкости звука в единицу времени, т.е. частоты дискретизации. Чем
большее количество измерений производится за 1 секунду, тем выше
качество записанного звука.
Частота дискретизации звука – это количество измерений громкости
звука за одну секунду. Одно измерение в секунду соответствует частоте
1Гц, 1000 измерений в секунду – 1 кГц.
Частота дискретизации звука может лежать в диапазоне от 8000 до
48000 измерений громкости звука за одну секунду.
Глубина кодирования звука. Каждая звуковая карта характеризуется
количеством распознаваемых уровней громкости звука, которое зависит
от глубины кодирования звука. Глубина кодирования звука
(измеряется в битах) – это количество информации, которое
необходимо для кодирования одного значения громкости цифрового
звука. Если известна глубина кодирования, то количество уровней
громкости цифрового звука можно рассчитать. Пусть глубина
кодирования звука составляет 16 бит, тогда количество уровней
громкости звука будет равно N = 216 = 65536.
Очевидно, что 16-битные звуковые карты точнее кодируют и
воспроизводят звук, чем 8-битные. Качество звука в дискретной форме
может быть очень плохим (при 8 битах и частоте дискретизации 5,5 кГц)
и очень высоким (при 16 битах и частоте дискретизации 48 или 96 КГц).
Формула для расчета размера цифрового моноаудиофайла:
2) Какой минимальный объём памяти (в мегабайтах) потребуется для
хранения звукового сигнала длительностью 4 минуты, оцифрованного с
частотой дискретизации 44032 Гц при 16-разрядном квантовании
амплитуды?
N =44032Гц *16 бит * 240сек=169082880 бит ≈ 20,16 МБайт.
Звуковые форматы
Формат WAVE (WAV). Стандартный формат файлов для хранения
звука в системе Windows. Является специальным типом более общего
формата RIFF (Resource Interchange File Format). Файл RIFF составлен
из блоков, некоторые из которых могут, в свою очередь, содержать
другие вложенные блоки; перед каждым блоком данных помещается
четырехсимвольный идентификатор и длина. Звуковые файлы WAV,
как правило, более просты и имеют только один блок формата и один
блок данных. В первом содержится общая информация об
оцифрованном звуке (число каналов, частота дискретизации, характер
зависимости громкости и т.д.), а во втором — сами числовые данные.
Каждый отсчет занимает целое количество байт (например, 2 байта в
случае 12-битовых чисел, старшие разряды содержат нули).
При стереозаписи числа группируются парами для левого и правого
канала соответственно, причем каждая пара образует законченный
блок — для нашего примера его длина составит 4 байта. Такая
структурированность
позволяет
программному
обеспечению
оптимизировать процесс передачи данных при воспроизведении, но,
как в подобных случаях всегда бывает, выигрыш во времени приводит к
существенному увеличению размера файла.
V=M*I*t
где I - глубина звука (в битах); t - время звучания (в секундах); M частота дискретизации (в Гц).
Формат MP3 (более точно MPEG Layer3). Это один из форматов
хранения аудиосигнала, позднее утвержденный как часть стандартов
2
сжатого видео MPEG-1, MPEG-2, MPEG-4. Благодаря MP3 стало
возможным передавать по Интернету мультимедийную информацию,
потому что MPEG позволяет сжимать звуковые файлы (например, WAV)
в 8-12 раз без ощутимых потерь качества исходного звучания.
Так как произвольные звуковые данные обратимыми методами
сжимаются недостаточно хорошо, переходят к сжатию с потерями:
звуковая информация “подправляется” так, чтобы возникшие искажения
на слух были незаметны, но полученные данные лучше сжимались
традиционными
способами.
Такое
кодирование
называется
адаптивным, при сжатии задаётся битрейт – параметр, который
показывает, сколько килобит будет занимать запись одной секунды
звука. Приемы, применяемые для сжатия в MP3, опираются на
достаточно сложную математику, но зато обеспечивают очень
значительный эффект сжатия звуковой информации.
Этапы сжатия:
1) звуковые данные разделяются на небольшие фрагменты – фреймы;
2) в каждом фрейме звуковой сигнал раскладывается на гармонические
колебания (применяется косинусное преобразование MDCT, частный
случай преобразования Фурье), в результате получается набор
коэффициентов разложения;
3) дальнейшая обработка нацелена на максимально возможное
упрощение сигнала, спектр входного сигнала очищается от заведомо
неслышных составляющих - низкочастотных шумов и наивысших
гармоник; выполняется психоакустический анализ в диапазоне
слышимых частот, что позволяет исключить из исходного
аудиоматериала больше половины информации; именно на этом этапе
учитывается битрейт (обычно 128-160 Кбит/с)
4) на заключительном этапе кодирования производится сжатие уже
готового потока данных с использованием алгоритма Хаффмана.
Широкое распространение формата MP3 связано с тем, что его
разработчики не включили в формат никакой защиты или ограничений
на копирование и воспроизведение звука на самых различных
устройствах. Однако, каждый изготовитель нового программного или
аппаратного МРЗ-кодера обязан платить отчисления изобретателям
кодека. Такая ситуация не могла не вызывать недовольства среди
разработчиков и появились независимые разработки в области сжатия
звука, например форматы AAC и OGG.
Формат MIDI. Название MIDI есть сокращение от Musical Instrument
Digital Interface, т.е. цифровой интерфейс для музыкальных
инструментов. Это довольно старый (1983 г.) стандарт, объединяющий
разнообразное музыкальное оборудование (синтезаторы, ударные,
освещение). MIDI базируется на пакетах данных, каждый из которых
соответствует некоторому событию, в частности, нажатию клавиши или
установке режима звучания. Любое событие может одновременно
управлять несколькими каналами, каждый из которых относится к
определенному оборудованию.
Несмотря на свое изначальное предназначение, формат файла стал
стандартным для музыкальных данных, которые при желании можно
проигрывать с помощью звуковой карты компьютера безо всякого
внешнего MIDI-оборудования.
Главным преимуществом файлов MIDI является их очень небольшой
размер, поскольку это не детальная запись звука, а фактически
некоторый расширенный электронный эквивалент традиционной нотной
записи. Но это же свойство одновременно является и недостатком:
поскольку звук не детализирован, то разное оборудование будет
воспроизводить его по-разному, что в принципе может даже заметно
исказить авторский музыкальный замысел.
Формат MOD. Представляет собой дальнейшее развитие идеологии
MIDI-файлов. Известные как “модули программ воспроизведения”, они
хранят в себе не только “электронные ноты”, но и образцы
оцифрованного звука (сэмплы), которые используются как шаблоны
индивидуальных нот. Таким способом достигается однозначность
воспроизведения звука. К недостаткам формата следует отнести
большие затраты времени при наложении друг на друга шаблонов
одновременно звучащих нот.
RealAudio (.ra, .ram) – формат, разработанный для воспроизведения
звука в Интернете в реальном времени. Получающееся качество в
лучшем случае соответствует посредственной аудиокассете.
3
Download