METHOD OF COMPRESSION OF VOICE DATA WITHOUT A PAUSE BASED ON THE OPTIMAL LEVEL QUANTIZATION COEFFICIENTS OF THE EXPANSION PIECES OF SPEECH SIGNALS FOR EIGENVECTORS SUBBAND MATRIX

Evgeny Georgiyevich Zhilyakov; Жиляков Евгений Георгиевич; Sergey Pavlovich Belov; Белов Сергей Павлович; Alexander Sergeevich Belov; Белов Александр Сергеевич; Andrey Sergeevich Belov; Белов Андрей Сергеевич; Alexandra Alexandrovna Medvedeva; Медведева Александра Александровна

doi:10.18469/ikt.2017.15.1.02

METHOD OF COMPRESSION OF VOICE DATA WITHOUT A PAUSE BASED ON THE OPTIMAL LEVEL QUANTIZATION COEFFICIENTS OF THE EXPANSION PIECES OF SPEECH SIGNALS FOR EIGENVECTORS SUBBAND MATRIX

作者: Zhilyakov E.G.¹, Belov S.P.², Belov A.S.², Belov A.S.², Medvedeva A.A.²
隶属关系:
1. Belgorod State National Research University (NIU «BSU»)
2. Belgorod State National Research University
期: 卷 15, 编号 1 (2017)
页面: 14-18
栏目: Articles
URL: https://journals.eco-vector.com/2073-3909/article/view/56230
DOI: https://doi.org/10.18469/ikt.2017.15.1.02
ID: 56230

如何引用文章

全文:

详细
全文:
作者简介
参考
补充文件
统计

详细

Existing techniques of compression of speech sounds without pauses, using a coarse quantization level based on a psychoacoustic model, which results in the need for the so-called subband transforms segments (vectors) samples of speech signals, allowing to obtain the other vectors subvectors which reflect the frequency properties of the input vector in the selected ranges frequency axis. That component of the sub-vectors is quantized by the level of different steps, thus achieving the accounting frequency-selective properties of human hearing. Currently, for a subband common to use transformation process output sequences decimation FIR filters (finite impulse response) tuned to respective portions frequency axis. This procedure subband transform is not optimal in the sense of minimizing the approximation error spectra initial vectors to selected frequency ranges, which leads to increased errors in data recovery on the quantized values and, as a consequence, degradation of the reproduced speech. In this connection, the authors proposed the speech data compression method without pauses, created with the use of mathematical apparatus developed on the basis of eigenvectors subband matrix, allowing adequately formulate variational conditions and solve optimization of voice data processing tasks. The proposed method of speech compression without pauses allows data depending on the starting bit of said data samples provide compression ratios up to 12 times.

关键词

speech segment, speech data, the power distribution matrix of the subband, subband eigenvectors matrix information frequency intervals, quantizer codebooks quasioptimal compression ratio

全文:

Постановка задачи Проблема уменьшения объемов битовых представлений речевых данных при их хранении и передаче рассматривается в работах многих авторов, особенно специалистов в области телекоммуникаций, что подтверждается результатами анализа научно-технической литературы [1-4]. При этом отмечаются два основных аспекта: необходимость обнаружения с последующим их кодированием пауз, возникающих между отдельными словами и в режиме диалога занимающих до 60% длительности исходных звукозаписей, и сокращение объемов битовых представлений собственно звуков речи без пауз. Существующие методы сжатия звуков речи без пауз с использованием грубого квантования по уровню основываются на психоакустической модели, что приводит к необходимости применения так называемых субполосных преобразований отрезков (векторов) отсчетов речевых сигналов, позволяющих получить другие векторы, подвекторы которых отражают частотные свойства исходного вектора в выбранных диапазонах оси частот. Именно компоненты этих подвекторов подвергаются квантованию по уровню с различными шагами, чем достигается учет частотно-избирательных свойств человеческого слуха. В настоящее время для субполосного преобразования принято использовать процедуру прореживания выходных последовательностей КИХ-фильтров (фильтров с конечной импульсной характеристикой), настроенных на соответствующие участки оси частот. Такая процедура субполосного преобразования не является оптимальной в смысле минимума погрешностей аппроксимации спектров исходных векторов в выбранных частотных диапазонах, что приводит к увеличению погрешностей восстановления данных по квантованным значениям и, как следствие, к ухудшению качества воспроизводимой речи. В связи с этим, авторами предлагается метод сжатия речевых данных без пауз, созданный с применением разработанного математического аппарата на основе собственных векторов субполосных матриц, позволяющего адекватно сформулировать вариационные условия и решить оптимизационные задачи обработки речевых данных. Математические основы метода Осуществляется обработка отдельных отрезков (векторов отсчетов) сигнала речи: (1) в соответствии с выбранным равномерным разбиением полосы нормированных частот на интервалов вида: ; ; (2) одинаковой ширины. В основе сжатия данных используется свойство концентрации энергии речевых сигналов в малой доле частотной полосы, что позволяет использовать аппроксимацию , (3) где , (4) коэффициент при сумме выбирается из условия , что дает: , (5) где - множество частотных интервалов минимальной суммарной ширины, для которых выполняются условия ; (6) ; (7) где - множество информационных частотных интервалов, а - субполосная матрица, определяемая элементами: , ; . Выше было указано, что соответствующая некоторому частотному интервалу компонента вида (4) допускает представление ; , (8) где - собственные числа собственных векторов субполосной матрицы, принимающие значения . Подстановка (8) в (3) дает разложение по набору собственных векторов: , (9) где , . (10) Так как наборы собственных векторов предполагаются известными, то для восстановления исходного отрезка достаточно сохранять информацию о соответствующих коэффициентах разложения. Проведенные исследования показали, что мощность множества частотных интервалов ( ) почти для всех звуков русской речи удовлетворяет соотношению (11) Поэтому с учетом равенства получаем коэффициент сжатия за счет использования аппроксимации (3) (по количеству сохраняемых чисел): (12) Следующий шаг заключается в применении к коэффициентам разложения квантования по уровню с малым их количеством. В общем виде процедура квантования описывается следующим образом, если выполняется условие: (13) то положить (14) где - количество используемых уровней квантования. Проблема заключается в оптимальном выборе границ отрезков в (13) и значений в (14) в смысле минимизации погрешностей аппроксимации исходных данных квантованными значениями: (15) где - множество значений , удовлетворяющих условию (13). В результате проведенных исследований было показано, что при заданных отрезках в (13) минимум правой части (15) достигается на множестве уровней квантования, равных соответствующим средним значениям: (16) где - мощность множества (число попадающих в них значений ). Введем положительную неубывающую последовательность: (17) (18) причем и (19) Показано, что выполнение условий (20) (21) где , (22) а также выбор уровней квантования в виде (23) дает минимум погрешности аппроксимации квантованными значениями (24) когда выполняется условие (25) Реально вместо операции (24) следует использовать кодирование (26) имея в виду, что номера уровней квантования целесообразно обозначать двоичными числами разрядности р, так что (27) Таким образом, количество уровней квантования целесообразно выбирать из множества (2; 4; 8 …). В соответствии с этим в процессе проведения исследований был разработан алгоритм решения задачи (20), (21) с последовательным делением подпоследовательностей на две части, каждая из которых удовлетворяет этим условиям со своими параметрами и (так как деление на две последовательности любой длины несложно реализуется последовательным перебором). Использование стандартизованных последовательностей вида (17)-(19) позволяет не хранить значения уровней (23), а для восстановления данных использовать уровни из заранее сформированной кодовой книги, удовлетворяющей условию (28) где (29) Такие кодовые книги сформированы при = 2; 4; 8 с учетом всех звуков русской речи с усреднением по множеству дикторов. Для иллюстрации работоспособности и эффективности разработанных метода и алгоритма были проведены экспериментальные исследования, которые показали, что разборчивость речи сохраняется уже при = 2. Таким образом, с учетом необходимости сохранения знакового разряда и значения достигаемый максимальный коэффициент сжатия может быть равен (30) (в предположении 8-разрядности исходных отсчетов). То есть если достаточно велико, то . (31) Выводы В результате проведенных исследований было установлено, что предлагаемый метод сжатия речевых данных без пауз на основе оптимального квантования по уровню коэффициентов разложения отрезков речевых сигналов по собственным векторам субполосных матриц из m-информационных частотных интервалов с применением кодовых книг квазиоптимальных квантователей позволяет в зависимости от величины разрядности исходных отсчетов указанных сигналов обеспечить коэффициент сжатия до 12 раз. Необходимо также отметить, что с учетом сжатия пауз в речи, которые могут составлять более 60% от продолжительности диалога, общий коэффициент сжатия как за счет обнаружения и кодирования пауз, так и за счет квантования по уровню коэффициентов разложения отрезков речевых сигналов по собственным векторам субполосных матриц из m-информационных частотных интервалов может достичь величин 20- 25 раз.

参考

Сергиенко В.С., Баринов В.В. Сжатие данных, речи, звука и изображений в телекоммуникационных системах. М.: Радио Софт, 2009. - 360 с.
Сжатие данных в системах сбора и передачи информации. Под ред. В.А. Свириденко. М.: Радио и связь, 1985. - 184 с.
Сэломон Д. Сжатие данных, изображений и звука. М.: ТЕХНОСФЕРА, 2004. - 368 с.
Цифровая обработка и передача речи. Под ред. О.И. Шелухина. М.: Радио и связь, 2000. - 456 с.

补充文件

附件文件

动作

1. JATS XML

下载

用户名
密码
记住我

忘记您的密码?	注册

用户名
密码
记住我

忘记您的密码?	注册

METHOD OF COMPRESSION OF VOICE DATA WITHOUT A PAUSE BASED ON THE OPTIMAL LEVEL QUANTIZATION COEFFICIENTS OF THE EXPANSION PIECES OF SPEECH SIGNALS FOR EIGENVECTORS SUBBAND MATRIX

全文:

详细

关键词

全文:

作者简介

Evgeny Zhilyakov

Sergey Belov

Alexander Belov

Andrey Belov

Alexandra Medvedeva

参考

补充文件