EFFECTIVE AUDIO СOMPRESSION PARAMETERS RESEARCH


Cite item

Abstract

In the article the authors offer an original model in which audio signals are compressed on the basis of psychoacoustic properties of hearing: namely, sample length and sampling frequency of audio data that the authors refer to in frequency analysis. The necessary conditions are determined, which allow restoring the sound signal quite accurately, after its digital processing and application of frequency discrete orthogonal transformations to the samples of the primary digital signal. The researchers provide recommendations for values of the examined parameters so that compression could be effective, particularly, the conversion interval and the sampling frequency of the audio signal. The calculation for different frequency ranges of audio signals is performed. The ways for further research of the sampling frequency are identified that take into account psychoacoustic peculiarities of human hearing.

Full Text

Введение Главным ресурсом сжатия звукового сигнала (ЗС) является его естественная значительная избыточность. Различают статистическую и психоакустическую избыточность первичных цифровых сигналов [5]. Сокращение статистической избыточности базируется на учете свойств самих ЗС, а психоакустической - на учете особенностей слухового восприятия звука человеком. При этом сжатие производится в частотной области. Статистическая избыточность обусловлена наличием корреляционных связей между соседними отчетами ЗС при его дискретизации. Для ее уменьшения применяют достаточно сложные алгоритмы преобразования, которые позволяют уменьшить пропускную способность канала связи лишь на 15 … 30 %. Такое сжатие не может обеспечить все возрастающие требования, как к количеству, так к качеству передаваемой информации. Поэтому в последнее время в нашей стране и за рубежом уделяется большое внимание вопросам развития новых методов сжатия ЗС, основанных на использовании психоакустических свойств слуха человека. Наличие этой избыточности обнаруживается как субъективная психофизическая реакция человека. При скорости передачи цифровых потоков высококачественных ЗС сотни кбит/с человек способен со своими органами чувств сознательно обрабатывать лишь около 100 бит/с информации. Что свидетельствует о существенной психоакустической избыточности первичных цифровых ЗС и, следовательно, о возможности ее уменьшения. Наиболее перспективными оказались методы, учитывающие такие свойства слуха, как маскировка, предмаскировка и послемаскировка [5]. Целесообразно по каналу связи передавать лишь те части сигнала, которые ухо способно воспринять, а неслышимые составляющие можно отбросить. С целью уменьшения избыточности применяют сложные алгоритмы преобразования. При этом становится важно, чтобы все эти алгоритмы позволяли бы при обратном преобразовании восстанавливать исходные сигналы без искажений. Величина избыточности является функцией времени и определяется характером звукового сигнала. Вследствие этого современные способы сжатия ЗС предусматривают динамический анализ спектра реального сигнала путем применения к выборкам первичного цифрового сигнала частотных дискретных ортогональных преобразований (ДОП) [1; 9]. Причем, с увеличением длины выборки N коэффициент сжатия увеличивается. Вместе с тем, не менее перспективными могут быть и более короткие выборки. В известных источниках [4-5] приводятся попытки анализа и теоретического решения вопроса относительно величины длительности интервала преобразования , но однозначного решения до сих пор не получено. В свою очередь длина выборки N преобразования помимо длительности самого интервала преобразования зависит и от частоты дискретизации Fд первичного цифрового сигнала: . (1) Результаты анализа влияния на качество субъективного восприятия звука, приведенные в [5], позволяют сделать лишь качественный вывод: повышение качества субъективного восприятия звука с увеличением объясняется недостаточностью временного разрешения. Из сказанного следует, что задачу рационального выбора длины выборки N нельзя считать окончательно решенной. Уменьшение избыточности ЗС определяет важнейшие показатели систем с компрессией цифровых аудиоданных, вследствие чего требуются обоснованные рекомендации по использованию длины выборки и частоты дискретизации первичного цифрового сигнала. Исследование интервала преобразования Как известно [5], для начального цифрового представления ЗС с целью их дальнейшей обработки обычно используются принципы импульсно-кодовой модуляции (ИКМ). Поэтому будем считать, что первичный цифровой сигнал представляет собой последовательность ИКМ отсчетов, следующих с частотой дискретизации, удовлетворяющей требованию теоремы Котельникова. Чтобы в дальнейшем использовать психоакустические свойства ЗС для уменьшения его психоакустической избыточности, необходимо временные отсчеты преобразовать в спектральные составляющие. Будем также считать, что спектр сигнала получается путем применения к выборке первичного цифрового сигнала длиной в N временных отсчетов вещественного дискретного ортогонального преобразования, коэффициенты которого не коррелированы по величине, не зависят от начальной фазы и интерпретируются как частотные составляющие исходного аналогового сигнала. То есть исходный сигнал представляется последовательностью блоков спектральных выборок по N спектральных компонент (тонов) каждая. С целью выработки обоснованных рекомендаций относительно значений и необходимо определить условия, позволяющие считать их необходимыми и/или достаточными. Эти условия можно сформулировать следующим образом: а) обеспечивается возможность достаточно точного восстановления динамики изменения уровня спектральных компонент ЗС во времени; б) коэффициенты ДОП не должны, по крайней мере существенно, расходиться со спектральными компонентами, маскируемыми слуховым анализатором человека. Первое условие непосредственно связано с величиной интервала преобразования , которую целесообразно искать на основе статистической модели звуковых сигналов. Наиболее полной статистической моделью ЗС считается модель А.В. Римского-Корсакова [8], согласно которой сигнал звукового вещания по своим свойствам подобен стационарному случайному процессу, модулированному по амплитуде другим случайным процессом. Эта модуляция происходит с периодами, значительно превышающими периоды, как большинства музыкальных тонов, так и основных тонов речи. Кроме того, модулирующий процесс не коррелирован с модулируемым процессом. Преимуществом этой модели является достаточно полное и правильное качественное описание ЗС. Используя разные параметры для модулируемой и модулирующей составляющих математической модели, можно аппроксимировать ЗС различных жанров. В соответствии с моделью Римского-Корсакова, звуковой сигнал можно представить как где - случайный низкочастотный процесс с распределением , мало изменяющемся на интервале времени Т порядка 0,1 с; - стационарный гауссовский процесс с нулевым средним и единичной дисперсией. В общем случае нестационарный процесс, однако в дальнейшем нас будет интересовать поведение звукового сигнала на отрезке времени , значительно меньшим интервала стационарности . Поэтому допустимо считать, что распределение на отрезке времени не зависит от времени, но его параметры меняются в зависимости от жанра передаваемого фрагмента звуковой программы (речь, симфоническая или эстрадная музыка и т.п.). Рисунок 1. Интерпретация интервалов преобразования как последовательности спектральных выборок В ходе обработки цифровых аудиоданных производится периодическое с периодом преобразование N временных отсчетов в N коэффициентов ДОП (см. рисунок 1). При использовании частотных ДОП каждый блок из N его коэффициентов можно интерпретировать как мгновенный спектр (спектральную выборку) звукового сигнала. Тогда отвечает роли параметра, ответственного за точность восстановления той из составляющих динамики изменения уровня спектральных компонент, которая определяется низкочастотным модулирующим случайным процессом . То есть чем выше частота модуляции, тем меньше должен быть интервал преобразования. На этом основании и в соответствии с теоремой отсчетов Котельникова величину следует выбирать из условия , (2) где - верхняя частота спектра модулирующего случайного процесса . Согласно [3] частоту для музыкальных сигналов можно принять равной 65 Гц, а для речевых сигналов - 45 Гц, что вполне согласуется с положением модели Римского-Корсакова относительно частот модуляции процесса . Тогда в соответствии с выражением (2) получаем (3) Исследование частоты дискретизации Еще одним параметром эффективности сжатия ЗС, влияющим на качество субъективного восприятия восстановленного звука, является частота дискретизации первичного сигнала с целью повышения качественных показателей в современной высококачественной аудиоаппаратуре увеличивают до 96 и даже до 192 кГц [5-6]. Объясняют этот эффект недостаточным временным разрешением, обусловливающим неприятное звучание ошибок квантования, совершенно не учитывая при этом психоакустический аспект. Порог слышимости, формируемый слуховым анализатором человека, представляет собой совокупность участков взаимно немаскируемых спектральных компонент ЗС [11]. При этом одна и та же спектральная компонента время от времени становится то маскирующей, то маскируемой. То есть форма порога слышимости все время меняется. Рецепторами слуха воспринимается лишь часть спектральных компонент, определяемая разрешающей способностью слуха по частоте . Следовательно, для идеального моделирования порога слышимости, необходимо, чтобы разрешающая способность ДОП по частоте совпадала с разрешающей способностью слуха » 1 Гц. Последнюю величину моно оценить на основе строения человеческого уха [11]. Слуховой орган, воспринимающий звуковые колебания, состоит из базилярной пластинки, представляющей собой порядка 2ˑ104 слуховых струн разной длины и толщины, реагирующих на колебания различной частоты. Далее волосковые клетки слухового органа, преобразуют колебания базилярной пластинки в электрические потенциалы. Сопоставляя эти данные с диапазоном слышимых частот 20 … 2ˑ104 Гц, получаем » 1 Гц. Разрешающую способность частотных ДОП по частоте в зависимости от вида ДОП при неизменной длине выборки N можно определить: (4) или с учетом (1) , (5) где коэффициент пропорциональности K = 1 для дискретного преобразования Фурье (ДПФ, стандарты MPEG); K = 2 для дискретного косинусного преобразования (ДКП) (стандарт DOLBY AC-3) [5]. При фиксированном согласно (1) и (4) может быть уменьшена только за счет увеличения и в данном случае в раз, где . (6) Однако для обеспечения = 1 Гц при K = 1 в соответствии с (5) и с учетом (3) значение потребуется увеличить как минимум в 130 раз в случае музыкального сигнала и примерно в 90 раза в случае речевого сигнала. При K = 2 и той же коэффициент пересчета составит 65 и примерно 45, соответственно. Однако, при учете психоакустических особенностей слуха значение m можно уменьшить. Так, связующим звеном между частотой как параметром раздражения и частотой как параметром субъективного ощущения является высота тона. Более того, экспериментально установлено [11], что изменение частоты тона в определенных пределах на слух не ощущается, то есть высота тона не меняется. Эти пределы определены в [11] как минимально ощущаемая девиация при частотной модуляции, осуществляемой по синусоидальному закону. Поскольку меняется в пределах от до , величина является градацией раздражения и определяет ширину еще различимой ступени частоты (высоты тона на основной мембране внутреннего уха человека). Но тогда качество субъективного восприятия восстановленного звука вряд ли заметно ухудшится, если каждый коэффициент ДОП будет концентрировать энергию очень узкой полосы частот, в которой к тому же субъективное ощущение тона не зависит от его частоты. Для обеспечения коэффициент m в (6) будет определяться отношением , а новая частота дискретизации , необходимая для сохранения качества источника цифрового звука, будет равна (7) При этом соответствующая длина выборки (8) Теперь становится понятен механизм влияния частоты дискретизации на качество субъективного восприятия звука: с увеличением повышается степень соответствия разрешающей способности по частоте ДОП нелинейному характеру шкалы различимых градаций высоты тона на основной мембране внутреннего уха человека. При использовании спектрального анализа аудиоданных с помощью ДОП, для оценки частотного параметра значение достаточно выбрать из условия: (9) где и - соответственно, нижняя и верхняя граница рабочего диапазона частот звукового сигнала. Для оценки частоты длины выборки и частоты дискретизации воспользуемся аппроксимацией [2] кривой порога различимости частоты тона, полученной авторами в [10]. Результаты расчета, проведенного в соответствии с (7)-(9) и [10] для различных рабочих диапазонов частот звукового сигнала приведены в таблице 1. Таблица 1. Достаточные частота дискретизации и длина выборки при спектральном анализе аудиоданных с помощью ДОП Рабочий диапазон частот ЗС, кГц Область применения Частотная чувствительность слуха ДПФ (K = 1) ДКП (K = 2) Fд max, кГц N Fд max, кГц N 0,02 … 20 Звукозапись, стереофоническое вещание df = 1,5 Гц 1730 13330 865 6667 0,04 … 10 Мультимедиа приложения df = 2 Гц 970 7500 485 3750 0,3 … 3,4 Телефония df = 3 Гц 100 1132 50 566 При расчетах величина была принята в соответствии с (3) и составляла 7,7 мс. для музыкальных сигналов и 11 мс для телефонии. Кроме того, для простоты принята равной рассчитывалась по [10]. Как видно из результатов, приведенных в таблице 1, число отсчетов N в выборке и частота дискретизации . первичного ЗС довольно велики, что ведет к увеличению времени обработки аудиоданных. Выводы При сравнении полученных результатов с учетом психоакустического восприятия восстановленного звука со стандартами нетрудно заметить, что они превышают рекомендуемые величины. Так в стандартах MPEG значение N варьируется от 256 до 2048, а в стандарте Dolby AC-3 (А/52) - от 256 до 512 [5]. Время обработки звуковых сигналов можно значительно снизить, если первичный цифровой сигнал разделить банком цифровых фильтров на субполосные составляющие. При этом в каждом субполосном канале снизится до величины, равной удвоенной полосе пропускания соответствующего фильтра.
×

About the authors

Irina Alekseevna Stefanova

Povolzhskiy State University of Telecommunications and Informatics

Email: aistvt@mail.ru

Michael Aleksandrovich Stefanov

Povolzhskiy State University of Telecommunications and Informatics

Email: stefanov-m@yandex.ru

Vladimir Aleksandrovich Zabolotov

Povolzhskiy State University of Telecommunications and Informatics

Email: zabal-v37@mail.ru

References

  1. Elliot D., Rao K.R. Fast transform: Algorithm, analyses and applications. - N.Y.: Academic Press, 1982. - 318 р.
  2. Воскобойников Ю.Е. Регрессионный анализ данных в пакете Mathcad. М: Лань,2011 - 224 с.
  3. Горон И.Е. Радиовещание. М.: Связь, 1979. - 368 c.
  4. Колесников В.М. Спектральные методы сокращения избыточности высококачественных звуковых сигналов // Радио и телевидение ОИРТ. - 1989. - №2 - С. 35-39.
  5. Ковалгин Ю.А., Вологдин Э.И. Цифровое кодирование звуковых сигналов. СПб.: КОРОНА-принт, 2004. - 240 с.
  6. Ковалгин Ю.А Стереофоническое радиовещание и звукозапись, М: Горячая линия - Телеком, 2014. - 718 с.
  7. Моисеев М.Н. К вопросу о выборе интервала анализа при кодировании звуковых сигналов в частотной области // Техника средств связи. - Сер. ТРПА. 1989. - Вып. 2. - С. 51-57.
  8. Римский-Корсаков А. В. Статистические свойства радиовещательного сигнала // Акустический журнал. - 1960. - Т.6. - Вып. 3. - С. 360-369.
  9. Стефанова И.А. К выбору ортогональных преобразований для эффективного сжатия звуковых сигналов // Материалы IX РНК: тез. докладов - Самара, 2002. - С. 133-135.
  10. Стефанова И. А., Заболотов В.А. Аппроксимация порога различимости частоты тона. // Сибак //Сборник статей по материалам XVI МНПК - Новосибирск, 2018. - С. 52-56.
  11. Цвикер Э., Фельдкеллер Р. Ухо как приемник информации. Пер. с нем. М.: Связь, 1971, - 255 c.

Copyright (c) 2018 Stefanova I.A., Stefanov M.A., Zabolotov V.A.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies