Uploaded by Kenshi

ИУ7-52Б Глотов НИР РПЗ

advertisement
РЕФЕРАТ
Расчетно-пояснительная записка 27 с., 6 рис., 3 табл., 21 источн., 1 прил.
Ключевые слова: инструментальный WAV-файл, MIDI, конвертация инструментальных WAV-файлов в MIDI-формат, неотрицательное матричное разложение, вероятностные подходы, нейронные сети.
Цель работы — классификация известных методов конвертации инструментальных WAV-файлов в MIDI-формат.
Методы исследования: анализ, классификация.
Результат исследования — сформулированы критерии сравнения методов
конвертации WAV-файлов в формат MIDI, по критериям классифицированы
известные методы.
3
СОДЕРЖАНИЕ
РЕФЕРАТ
3
ОПРЕДЕЛЕНИЯ
6
ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ
7
ВВЕДЕНИЕ
8
1 Анализ предметной области
1.1 WAV-файлы . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 MIDI-файлы . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Введение в формат MIDI . . . . . . . . . . . . . . . . .
1.2.2 Структура MIDI-файлов . . . . . . . . . . . . . . . . . .
1.2.3 Монофонический режим воспроизведения . . . . . . . .
1.2.4 Полифонический режим воспроизведения . . . . . . . .
1.3 Конвертация инструментальных WAV-файлов в MIDI-формат
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
9
9
9
10
10
11
13
2 Существующие решения
2.1 Обзор методов конвертации инструментальных WAV-файлов в
формат MIDI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1 Неотрицательное матричное разложение . . . . . . . . . .
2.1.2 Вероятностные подходы . . . . . . . . . . . . . . . . . . . .
2.1.3 Нейронные сети . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Критерии сравнения методов конвертации инструментальных файлов формата WAV в формат MIDI . . . . . . . . . . . . . . . . . .
2.3 Классификация существующих методов конвертации инструментальных WAV-файлов в MIDI-формат . . . . . . . . . . . . . . . .
16
ЗАКЛЮЧЕНИЕ
24
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
26
4
16
17
19
20
22
23
ПРИЛОЖЕНИЕ А
27
5
ОПРЕДЕЛЕНИЯ
В настоящей расчетно-пояснительной записке применяют следующие термины с соответствующими определениями.
Инструментальный WAV-файл — файла формата WAV, который включает в
себя только звучание музыкальных инструментов
6
ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ
В настоящей расчетно-пояснительной записке применяют следующие сокращения и обозначения.
MIDI — Musical Instrument Digital Interface
RIFF — Resource Interchange File Format
LPCM — Linear pulse-code modulation
LPCM — Linear pulse-code modulation
VLV — Variable Length Values
В. П. — Вероятностные подходы
7
ВВЕДЕНИЕ
Способность конвертировать музыкальный звук в нотную запись является захватывающим примером человеческого интеллекта. Она включает в
себя восприятие (анализ сложных слуховых сцен), когнитивные способности
(распознавание музыкальных объектов), представление знаний (формирование
музыкальных структур) и вывод (проверка альтернативных гипотез). Автоматическая конвертация музыки, то есть разработка вычислительных алгоритмов
для преобразования сигналов инструментальной музыки в некоторую форму
музыкальной записи, является сложной задачей в области обработки сигналов и
искусственного интеллекта [1].
Целью работы является классификация известных методов конвертации
инструментальных WAV-файлов в MIDI-формат.
Для достижения поставленной цели требуется решить следующие задачи.
1) Провести анализ предметной области преобразования инструментальной
записи WAV-формата в стандарт цифровой звукозаписи MIDI.
2) Провести обзор существующих методов конвертации инструментальных
WAV-файлов в MIDI-формат.
3) Сформулировать критерии сравнения методов конвертации инструментальных файлов формата WAV в формат MIDI.
4) Классифицировать существующие методы конвертации инструментальных
WAV-файлов в MIDI-формат.
8
1 Анализ предметной области
1.1 WAV-файлы
Формат аудиофайла Waveform, часто называемый WAV или WAVE, является стандартом формата аудиофайла для хранения аудиопотока. Он построен
на формате-оболочке RIFF и хранит данные в виде блоков, каждый блок состоит из идентификатора и данных. WAV обычно используется для хранения
несжатого аудио, например, в формате линейной импульсно-кодовой модуляции
(LPCM). Несжатое содержимое означает, что файлы часто очень большие, но
существует ограничение по размеру в 4 ГБ аудиоданных на фрагмент данных
[1]. Формат был первоначально разработан Microsoft и IBM в 1991 году и совместим с большинством наиболее широко используемых операционных систем,
включая Windows, Macintosh и Linux [2]. Популярность WAV во многом связана
с его знакомством с аудиопрофессионалами и его относительно простой структурой [2]. Формат может использоваться для кодирования как цифрового, так
и нецифрового аудио, например, с несколькими пакетами музыкальной записи,
позволяющими создавать файлы WAV [3] [4] [5], а также быть целевым форматом
для действий по оцифровке.
Инструментальным WAV-файлом является файл формата WAV, который
включает в себя только звучание музыкальных инструментов. Соответственно,
неинструментальный WAV-файл может содержать любые звуки.
1.2 MIDI-файлы
1.2.1 Введение в формат MIDI
Протокол цифрового интерфейса музыкальных инструментов (MIDI) – это
отраслевой стандарт, определенный в начале 80-х годов для представления музыкальной информации [6] [7]. MIDI-система появилась из-за необходимости
стандартизации мультимедиа между синтезаторами. Этот стандарт был создан,
когда электронная музыка разрабатывалась консорциумом японских и американских производителей синтезаторов (Sequential Systems, Roland Corporation,
Yamaha, Kurzweil и т. д.). Вы можете бесплатно скачать миллионы популярных
9
песен в MIDI-версиях. Данный формат передает данные с помощью последовательных портов. В отличие от других форматов (таких как WAV и MP3),
MIDI-файл содержит не сам звук, а инструкции по его созданию, т. е. по сути,
это оцифрованная партитура.
1.2.2 Структура MIDI-файлов
MIDI-файлы содержат на «верхнем» уровне так называемые события. Каждое событие состоит из двух компонентов: MIDI-времени и MIDI-сообщения [8].
Эти пары время/сообщение следуют друг за другом в MIDI-файле. Значение
MIDI-времени – это время ожидания перед воспроизведением следующего сообщения в потоке данных MIDI-файла. Этот метод указания времени называется
дельта-временем, которое определяет продолжительность между двумя событиями.
MIDI-сообщения отправляются в виде последовательности из одного или
нескольких байтов. Первый байт - это командный (статусный) байт, за которым
часто следуют байты данных (DATA) с дополнительными параметрами. Командный байт определяет тип команды. Количество следующих байтов данных
зависит от типа сообщения. Например, следующие две команды имеют разное
количество байтов данных: FF 58 04 04 02 30 08 и 90 3C 28. Основными командами в MIDI-файлах являются Note-on (0×90) и Note-off (0×80), которые
позволяют запускать/останавливать воспроизведение одной музыкальной ноты.
Существует по крайней мере два режима воспроизведения, а именно монофонический и полифонический. В монофоническом режиме начало новой команды
Note-on (0×90) подразумевает завершение предыдущей ноты. В полифоническом
– несколько нот могут звучать одновременно, пока ноты не достигнут конца своей
огибающей затухания, или когда получены явные команды Note-off (0×80).
1.2.3 Монофонический режим воспроизведения
Значение времени выражается в количестве тиков. Однако шестнадцатеричное значение для записи значения времени не получается простым преобразованием количества тиков. Используется специальный формат VLV [6]. Обратите
внимание, что значения времени иногда имеют длину в два байта, а иногда – в
10
один байт. Использование более одного байта для дельта-времени подразумевает
большее значение времени. Например, вот некоторые данные из MIDI-файла для
монофонического режима воспроизведения (в шестнадцатеричном формате): 00
FF 58 04 04 02 30 08 00 FF 59 02 00 00 00 90 3C 28 81 00 90 3C 00 00 90 3C 1E
81 00 90 3C 00 00 90 43 2D 81 00 90 43 00 00 90 43 32 81 00 90 43 00 00 90 45 2D
81 00 90 45 00 00 90 45 32 81 00 90 45 00 00 90 43 23 82 00 90 43 00 00 90 41 32
81 00 90 41 00 00 90 41 2D 81 00 90 41 00 00 90 40 32 40 90 40 00 40 90 40 28 40
90 40 00 40 90 3E 2D 40 90 3E 00 40 90 3E 32 40 90 3E 00 40 90 3C 1E 82 00 90
3C 00 00 FF 2F 00.
Затем нужно посмотреть на заголовок MIDI-файла, чтобы понять, что
означают единицы измерения. В этом примере единицами измерения времени
являются 128 тиков в четвертной ноте, поэтому 128 тиков – это длительность
четвертной ноты, 256 – половинной ноты, а 64 – длительность восьмой ноты
(рис. 1.1).
Рисунок 1.1 – Количество тиков относительно длительности ноты
1.2.4 Полифонический режим воспроизведения
Рассмотрим список MIDI-событий: 00 90 40 40 00 90 43 40 81 00 80 43 00
00 90 45 40 81 00 80 45 00 00 80 40 00 00 90 3C 40 00 90 47 40 81 00 80 47 00 00
90 48 40 81 00 80 48 00 00 80 3C 40 [8]. На рисунке 1.2 изображен отрывок из
данной партитуры.
11
Рисунок 1.2 – Отрывок из партитуры
На рисунке 1.3 изображено MIDI-представление отрывка из данной партитуры.
Рисунок 1.3 – Отрывок из партитуры в MIDI-представлении
В таблице 1.1 приведено соответствие между MIDI-событием и событием,
связанным с нотой.
12
Таблица 1.1 – Соответствие MIDI-событий и событий, связанных с нотой
MIDI-событие Событие, связанные с нотой
00 90 40 30 Start of E4 note, pitch = 64
00 90 43 40
Start of G4 note, pitch= 67
81 00 80 43 00
End of G4 note, pitch= 67
00 90 45 40
Start of A4 note, pitch=69
81 00 80 45 00
End of A4 note, pitch=69
00 80 40 00
End of E4 note, pitch = 64
00 90 3C 40 Start of C4 note, pitch = 60
00 90 47 40
Start of B4 note, pitch= 71
81 00 80 47 00
End of B4 note, pitch= 71
00 90 48 40
Start of C5 note, pitch= 72
81 00 80 48 00
End of C5 note, pitch= 72
00 80 3C 40
End of C4 note, pitch = 60
1.3 Конвертация инструментальных WAV-файлов в
MIDI-формат
Успешная система конвертирования WAV-файлов в MIDI-формат позволила бы обеспечить широкий спектр взаимодействий между людьми и музыкой,
включая музыкальное образование (например, с помощью систем автоматического обучения игре на инструментах), создание музыки (например, диктовка
импровизированных музыкальных идей и автоматическое музыкальное сопровождение), производство музыки (например, визуализация музыкального контента
и интеллектуальное редактирование на основе контента), поиск музыки (например, индексирование и рекомендация музыки по мелодии, басу, ритму или
последовательности аккордов) и музыковедение (например, анализ джазовых
импровизаций и другой музыки без нотации). Таким образом, конвертация
инструментального WAV-файла в MIDI-формат – это технология, представляющая потенциал как экономического, так и социального воздействия [1].
Данная технология тесно связана с другими задачами обработки музыкаль13
ных сигналов [9], такими как разделение источников звука, что также включает
оценку и вывод исходных сигналов из наблюдений за смесью . Это также полезно
для многих высокоуровневых задач в MIR [10], таких как структурная сегментация, обнаружение кавер-версий песен и оценка сходства музыки, поскольку эти
задачи намного легче решать, когда известны музыкальные ноты. Таким образом,
конвертация инструментального WAV-файла в MIDI-формат обеспечивает
основное связующее звено между областями обработки музыкальных сигналов и
символьной обработки музыки (т. е., обработка нотной записи и моделирование
музыкального языка).
Существует несколько факторов, которые делают конвертацию инструментального WAV-файла в MIDI-формат особенно сложной задачей [1]:
1) Полифоническая музыка содержит смесь нескольких одновременных источников с различной высотой тона, громкостью и тембром, причем каждый
источник производит один или несколько музыкальных звуков. Вывод музыкальных атрибутов (например, высоты тона) из сигнала микширования
является чрезвычайно недооцененной проблемой.
2) Перекрывающиеся звуковые события часто демонстрируют гармонические
отношения друг с другом; для любого консонансного музыкального интервала основные частоты образуют целочисленные соотношения, так что их
гармоники перекрываются по частоте, что еще больше затрудняет разделение звуков. Взяв в качестве примера аккорд «до мажор», соотношение
основных частот его трех нот C : E : G составляет 4 : 5 : 6, а процент гармонических позиций, которые перекрываются другими нотами, составляет
46.7%, 33.3% и 60% для C, E и G, соответственно
3) Хронометраж музыкальных звуков определяется регулярной метрической
структурой музыки. В частности, музыканты уделяют пристальное внимание синхронизации включений и смещений между разными звуками, что
нарушает общее предположение о статистической независимости между
источниками, что в противном случае облегчает разделение.
Вышеуказанные ключевые проблемы часто не решаются в полной мере в
14
современных системах конвертации WAV-файлов в MIDI-формат, что приводит
к общим проблемам в выходных данных, таким как октавные ошибки, полутоновые ошибки, пропущенные ноты (в частности, при наличии плотных аккордов),
дополнительные ноты (часто проявляющиеся как гармонические ошибки при
наличии невидимых тембров) или объединенные или фрагментированные ноты
[11] [12].
15
2 Существующие решения
2.1 Обзор методов конвертации инструментальных
WAV-файлов в формат MIDI
Для задачи конвертации WAV-файлов в MIDI-формат было разработано
множество подходов. Большинство подходов были разработаны для достижения
определенной промежуточной цели. В зависимости от уровня абстракции и
структур, которые необходимо смоделировать для достижения таких целей,
подходы в целом можно разделить на четыре категории: frame-level, note-level,
stream-level и notation-level [1].
Конвертация в категории frame-level – это оценка количества и высоты нот,
которые одновременно присутствуют в каждом временном интервале (порядка
10 мс). Обычно это выполняется в каждом кадре независимо, хотя контекстная информация иногда учитывается путем фильтрации оценок высоты тона
на уровне кадра на этапе последующей обработки. Методы этой категории не
формируют концепцию музыкальных нот и редко моделируют какие-либо высокоуровневые музыкальные структуры. A большая часть существующих подходов
конвертации WAV-файлов в MIDI-формат работает на этом уровне.
Конвертация в категории note-level не только оценивает высоту тона в
каждом временном интервале, но и связывает оценки высоты тона с течением
времени в ноты.
Конвертация в категории stream-level нацелена на группировку оцененных тонов или нот в потоки, где каждый поток обычно соответствует одному
инструменту, и тесно связана с разделением звуков инструментов.
Конвертация в категории notation-level направлена на то, чтобы преобразовать инструментальное сопровождение в удобочитаемую музыкальную партитуру.
Конвертация на этом уровне требует более глубокого понимания музыкальных
структур, включая гармонические, ритмические и потоковые структуры.
На рисунке 2.1 приведен пример конвертации WAV-файлов в MIDI-формат
в категориях frame-level, note-level и stream-level.
16
Рисунок 2.1 – Пример конвертации WAV-файлов в MIDI-формат в категориях
frame-level, note-level и stream-level
2.1.1 Неотрицательное матричное разложение
Основная идея, лежащая в основе неотрицательного матричного разложения (НМР) и его вариантов, заключается в представлении заданного неотрица×N
тельного частотно-временного представления V ∈ RM
как произведение двух
≥0
M ×K
неотрицательных матриц: словарь D ∈ R≥0 и матрица активации A ∈ RK×N
≥0 .
Цель состоит в том, чтобы минимизировать расстояние (или расхождение) между
V и DA по отношению к D и A [1].
В контексте конвертации WAV-файлов в MIDI-формат обе неизвестные
матрицы имеют интуитивную интерпретацию: n-й столбец V , т. е. спектр в момент времени n, моделируется в НМР как линейная комбинация из K столбцов
17
D, и соответствующие K коэффициентов задаются n-м столбцом A. Учитывая
эту точку зрения, каждый столбец D часто упоминается как спектральный
шаблон и обычно представляет ожидаемое спектральное распределение энергии,
связанное с определенной нотой, сыгранной на определенном инструменте. Для
каждого шаблона соответствующая строка в A называется соответствующей
активацией и кодирует, когда и насколько интенсивно эта нота воспроизводится с течением времени. Учитывая неотрицательность ограничения, НМР дает
чисто конструктивное представление в том смысле, что спектральная энергия,
смоделированная одним шаблоном, не может быть отменена другим. На рисунке
2.2 проиллюстрирован пример НМР.
Рисунок 2.2 – Пример НМР. (a) Входная спектрограмма V , (b) Приближённая
спектрограмма DA, (с) Словарь D, (d) Матрица активации A
Кроме того, что рисунок 2.2 иллюстрирует принципы, лежащие в основе
НМР, он также указывает, почему конвертация WAV-файлов в MIDI-формат
является сложной задачей – действительно, обычная декомпозиция НМР редко
выглядела бы такой чистой, как на рисунке 2.2.
Свойства неотрицательного матричного разложения в рамках задачи конвертации WAV-файлов в MIDI-формат [13]:
1) Категория – stream-level.
18
2) Требование музыкальных пассажей от аудиофрагмента.
3) Поддержка полифонии.
4) Применимость к множеству музыкальных инструментов.
5) Трудность выражения того, что ноты часто имеют определенную временную эволюцию – например, начало ноты может иметь совершенно иные
спектральные свойства, чем нота в фазе затухания.
2.1.2 Вероятностные подходы
Гольдштейн [14] предложил метод вероятностного моделирования пиковых
частот для однократной оценки multiple fundamental frequency (F0). Учитывая значение F0, предполагается, что энергия присутствует в пределах целых
кратных F0 (в пределах гармоники). Вероятность каждого спектрального пика,
заданного F0, моделируется с использованием гауссова распределения отклонения частоты от соответствующей гармоники. Предполагается, что наилучшим
F0 является тот, который максимизирует вероятность генерации набора пиковых частот в наблюдаемых данных. Эта модель не учитывает наблюдаемые
пиковые амплитуды. Торнбург и Лейстиков [15] развили идею Гольдштейна о
вероятностном моделировании спектральных пиков. Учитывая предполагаемое
значение F0 и амплитуду его первой гармоники, формируется шаблон идеальных
гармоник с экспоненциально убывающими амплитудами. Тогда каждая идеальная гармоника однозначно ассоциируется не более чем с одним наблюдаемым
спектральным пиком. Это делит пики на две группы: нормальные пики (пики,
связанные с некоторыми гармониками) и паразитные пики (пики, не связанные
с гармониками). По вероятности каждого моделируется возможная связь между
пиком и гармоникой. Все возможные ассоциации отбрасываются, чтобы получить
общую вероятность, учитывая F0. Учитываются ложные пики в этой рецептуре
для повышения надежности. Лейстиков и др. [16] расширили вышеупомянутую работу до полифонического сценария. Методы моделирования и оценки
остаются прежними, за исключением того, что при формировании идеального
гармонического шаблона перекрывающиеся гармоники объединяются в одну
гармонику.
19
Свойства вероятностных подходов в рамках задачи конвертации WAVфайлов в MIDI-формат [17]:
1) Категория – frame-level.
2) Нет требования музыкальных пассажей от аудиофрагмента.
3) Поддержка полифонии.
4) Применимость к множеству музыкальных инструментов.
5) Поддержка временной эволюции ноты.
2.1.3 Нейронные сети
В последние годы нейронные сети (NNS) оказали значительное влияние
на проблему конвертации WAV-файлов в MIDI-формат и на обработку музыкальных сигналов в целом. NNS способны изучать нелинейную функцию (или
композицию функций) от входа к выходу с помощью алгоритма оптимизации,
такого как стохастический градиентный спуск [1].
Один из самых ранних подходов, основанных на нейронных сетях была
звуковой системой Маролта [18]. Центральным компонентом этого подхода было
использование сетей с временной задержкой (TD), которые напоминают сверточные сети в направлении времени, и были использованы для анализа выходных
данных адаптивных осцилляторов, чтобы отслеживать и группировать частичные сигналы на выходе банка фильтров гамматона. Хотя он был первоначально
опубликован в 2001 году, этот подход остается конкурентоспособным и все еще
фигурирует в сравнениях в более поздних публикациях [19].
В контексте недавнего возрождения нейронных сетей первая успешная
система была представлена Беком и Шедлом [20]. Одна из основных идей заключалась в том, чтобы использовать две спектрограммы в качестве входных
данных, чтобы сеть могла использовать как высокую временную (при оценке
положения начала ноты), так и высокое частотное разрешение (при разделении
нот в более низком частотном диапазоне).
20
Используя информацию, полученную из MIDI-файлов, рекуррентная сеть
обучается предсказывать активные ноты в следующий временной интервал, учитывая прошлое. Этот подход требует изучения и представления очень большого
совместного распределения вероятностей, т. е. вероятности для каждой возможной комбинации активных и неактивных нот во времени – обратите внимание,
что даже в одном кадре существует 288 возможных комбинаций нот на фортепиано. Обученная с использованием этой тщательной и обширной процедуры,
результирующая модель превосходит существующие модели с разумным запасом.
Современный метод конвертации WAV-файлов в MIDI-формат для фортепиано общего назначения был предложен Google Brain [21]. Объединяя и
расширяя идеи существующих методов, этот подход объединяет две сети (рис.
2.3): одна сеть используется для обнаружения наборов нот, а ее выходные данные
используются для информирования второй сети, которая фокусируется на определении длины нот. Это можно интерпретировать с вероятностной точки зрения:
поступления нот являются редкими событиями по сравнению с обнаружениями
активности нот по кадрам – разделение на две ветви сети, таким образом, может
быть интерпретировано как разделение представления относительно сложного
совместного распределения вероятностей по наборам и активности кадров на
вероятность по наборам и вероятность активности кадров.
Рисунок 2.3 – Google Brain’s Onset and Frames Network
21
Свойства нейронных сетей в рамках задачи конвертации WAV-файлов в
MIDI-формат [1]:
1) Категория – note-level.
2) Нет требования музыкальных пассажей от аудиофрагмента.
3) Поддержка полифонии.
4) Применимость к одному музыкальному инструменту.
5) Поддержка временной эволюции ноты.
6) Точность выше, чем в других методах.
2.2 Критерии сравнения методов конвертации
инструментальных файлов формата WAV в формат MIDI
В таблице 2.1 приведены критерии сравнения методов конвертации инструментальных файлов формата WAV в формат MIDI.
Таблица 2.1 – Критерии сравнения методов конвертации инструментальных
файлов формата WAV в формат MIDI
Критерий
Описание
frame-level
Относится ли метод к категории frame-level
note-level
Относится ли метод к категории note-level
stream-level
Относится ли метод к категории stream-level
notation-level
Относится ли метод к категории notation-level
Музыкальные пассажи
Требуются ли от аудиофрагментов музыкальные пассажи
Полифония
Применимость
Поддержка полифонии
Применимость к множеству музыкальных инструментов
Временная эволюция ноты Поддержка временной эволюции ноты
22
2.3 Классификация существующих методов
конвертации инструментальных WAV-файлов в
MIDI-формат
В таблице 2.2 представлена классификация существующих методов конвертации инструментальных WAV-файлов в MIDI-формат.
Таблица 2.2 – Классификация существующих методов конвертации инструментальных WAV-файлов в MIDI-форма
Критерий
НМР В. П. Нейронные сети
frame-level
Да
Да
Да
note-level
Да
Нет
Да
stream-level
Да
Нет
Нет
notation-level
Нет
Нет
Нет
Музыкальные пассажи
Да
Нет
Нет
Полифония
Да
Да
Да
Применимость
Да
Да
Нет
Временная эволюция ноты
Нет
Да
Да
23
ЗАКЛЮЧЕНИЕ
В ходе выполнения научно-исследовательской работы поставленная цель
была достигнута: были классифицированы известные методы конвертации инструментальных WAV-файлов в MIDI-формат.
В ходе выполнения научно-исследовательской работы были выполнены
задачи:
1) Проведен анализ предметной области преобразования инструментальной
записи WAV-формата в стандарт цифровой звукозаписи MIDI.
2) Проведен обзор существующих методов конвертации инструментальных
WAV-файлов в MIDI-формат.
3) Сформулированы критерии сравнения методов конвертации инструментальных файлов формата WAV в формат MIDI.
4) Классифицированы существующие методы конвертации инструментальных
WAV-файлов в MIDI-формат.
24
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1. Automatic Music Transcription: An Overview / E. Benetos [и др.] // IEEE
Signal Processing Magazine. — 2019. — Янв. — Т. 36. — С. 20—30. — DOI:
10.1109/MSP.2018.2869928.
2. Whibley S. WAV Format Preservation Assessment. // British Library: London,
UK. — 2016.
3. Bleep. Bleep FAQs; The File Types You Can Download: MP3, WAV and FLAC.
[Электронный ресурс]. — Режим доступа: https://bleep.com/faqs (дата
обращения: 24 декабря 2022 г.)
4. Juno Download. Welcome to Juno Download. [Электронный ресурс]. — Режим
доступа: http : / / www . junodownload . com / welcome _ to _ junodownload/
(дата обращения: 24 декабря 2022 г.)
5. Archive Team. WAV (Applications). File Formats Archive Team Wiki. [Электронный ресурс]. — Режим доступа: http://fileformats.archiveteam.
org/wiki/WAV_(Applications) (дата обращения: 24 декабря 2022 г.)
6. Heckroth J. A tutorial on MIDI and wavetable music synthesis. // Application
Note, Crystal division of Cirrus Logic. — 1998.
7. Matzkin J. A MIDI musical offering. // PC Magazine. — 1988.
8. Oliveira H. M. d. O. R. C. de. Understanding MIDI: A Painless Tutorial on
Midi Format. // arXiv preprint arXiv:1705.05322. — 2017.
9. Muller M. Signal processing for music analysis. // IEEE Journal of Selected
Topics in Signal Processing. — 2011. — Окт. — Т. 5.
10. M. Schedl E. G., Urbano J. Music information retrieval: Recent developments
and applications. // Foundations and Trends in Information Retrieval, — 2014. —
Т. 8.
11. Klapuri A. Signal Processing Methods for Music Transcription. // New York:
Springer. — 2006.
12. Benetos E. Automatic music transcription: challenges and future directions. //
Journal of Intelligent Information Systems. — 2013. — Дек. — Т. 41.
25
13. Smaragdis P., Brown J. Non-negative matrix factorization for polyphonic music
transcription //. — 11.2003. — С. 177—180. — ISBN 0-7803-7850-4. — DOI:
10.1109/ASPAA.2003.1285860.
14. Goldstein J. An optimum processor theory for the central formation of the pitch
of complex tones. // J. Acoust. Soc. Am. — 1973.
15. Thornburg H. D., Leistikow R. J. A new probabilistic spectral pitch estimatior:
extract and MCMC-approximate strategies. // Lecture Notes in Computer
Science. — 2005.
16. R. J. Leistikow H. T., Berger J. Bayesian identification of closely-spaced chords
from single frame STFT peaks. // Proc. 7th Int. Conf. Digital Audio Effects
(DAFx). — 2004.
17. Duan Z., Pardo B., Zhang C. Multiple Fundamental Frequency Estimation by
Modeling Spectral Peaks and Non-Peak Regions // Audio, Speech, and Language
Processing, IEEE Transactions on. — 2010. — Дек. — Т. 18. — С. 2121—2133. —
DOI: 10.1109/TASL.2010.2042119.
18. Marolt M. A connectionist approach to automatic transcription of polyphonic
piano music. // IEEE Transactions on Multimedia. — 2004. — Т. 6.
19. Ewert S., Sandler M. B. Piano transcription in the studio using an extensible
alternating directions framework. // IEEE/ACM Transactions on Audio, Speech,
and Language Processing. — 2016. — Т. 24.
20. Böck S., Schedl M. Polyphonic piano note transcription with recurrent neural
networks. // Proc. IEEE International Conference on Acoustics, Speech and
Signal Processing. — 2012.
21. C. Hawthorne E. E., Eck D. Onsets and frames: Dual-objective piano
transcription. // Proc. International Society for Music Information Retrieval
Conference. — 2018.
26
ПРИЛОЖЕНИЕ А
27
Download