METHOD OF COMPRESSION OF VOICE DATA WITHOUT A PAUSE BASED ON THE OPTIMAL LEVEL QUANTIZATION COEFFICIENTS OF THE EXPANSION PIECES OF SPEECH SIGNALS FOR EIGENVECTORS SUBBAND MATRIX

Abstract


Existing techniques of compression of speech sounds without pauses, using a coarse quantization level based on a psychoacoustic model, which results in the need for the so-called subband transforms segments (vectors) samples of speech signals, allowing to obtain the other vectors subvectors which reflect the frequency properties of the input vector in the selected ranges frequency axis. That component of the sub-vectors is quantized by the level of different steps, thus achieving the accounting frequency-selective properties of human hearing. Currently, for a subband common to use transformation process output sequences decimation FIR filters (finite impulse response) tuned to respective portions frequency axis. This procedure subband transform is not optimal in the sense of minimizing the approximation error spectra initial vectors to selected frequency ranges, which leads to increased errors in data recovery on the quantized values and, as a consequence, degradation of the reproduced speech. In this connection, the authors proposed the speech data compression method without pauses, created with the use of mathematical apparatus developed on the basis of eigenvectors subband matrix, allowing adequately formulate variational conditions and solve optimization of voice data processing tasks. The proposed method of speech compression without pauses allows data depending on the starting bit of said data samples provide compression ratios up to 12 times.

Full Text

Постановка задачи Проблема уменьшения объемов битовых представлений речевых данных при их хранении и передаче рассматривается в работах многих авторов, особенно специалистов в области телекоммуникаций, что подтверждается результатами анализа научно-технической литературы [1-4]. При этом отмечаются два основных аспекта: необходимость обнаружения с последующим их кодированием пауз, возникающих между отдельными словами и в режиме диалога занимающих до 60% длительности исходных звукозаписей, и сокращение объемов битовых представлений собственно звуков речи без пауз. Существующие методы сжатия звуков речи без пауз с использованием грубого квантования по уровню основываются на психоакустической модели, что приводит к необходимости применения так называемых субполосных преобразований отрезков (векторов) отсчетов речевых сигналов, позволяющих получить другие векторы, подвекторы которых отражают частотные свойства исходного вектора в выбранных диапазонах оси частот. Именно компоненты этих подвекторов подвергаются квантованию по уровню с различными шагами, чем достигается учет частотно-избирательных свойств человеческого слуха. В настоящее время для субполосного преобразования принято использовать процедуру прореживания выходных последовательностей КИХ-фильтров (фильтров с конечной импульсной характеристикой), настроенных на соответствующие участки оси частот. Такая процедура субполосного преобразования не является оптимальной в смысле минимума погрешностей аппроксимации спектров исходных векторов в выбранных частотных диапазонах, что приводит к увеличению погрешностей восстановления данных по квантованным значениям и, как следствие, к ухудшению качества воспроизводимой речи. В связи с этим, авторами предлагается метод сжатия речевых данных без пауз, созданный с применением разработанного математического аппарата на основе собственных векторов субполосных матриц, позволяющего адекватно сформулировать вариационные условия и решить оптимизационные задачи обработки речевых данных. Математические основы метода Осуществляется обработка отдельных отрезков (векторов отсчетов) сигнала речи: (1) в соответствии с выбранным равномерным разбиением полосы нормированных частот на интервалов вида: ; ; (2) одинаковой ширины. В основе сжатия данных используется свойство концентрации энергии речевых сигналов в малой доле частотной полосы, что позволяет использовать аппроксимацию , (3) где , (4) коэффициент при сумме выбирается из условия , что дает: , (5) где - множество частотных интервалов минимальной суммарной ширины, для которых выполняются условия ; (6) ; (7) где - множество информационных частотных интервалов, а - субполосная матрица, определяемая элементами: , ; . Выше было указано, что соответствующая некоторому частотному интервалу компонента вида (4) допускает представление ; , (8) где - собственные числа собственных векторов субполосной матрицы, принимающие значения . Подстановка (8) в (3) дает разложение по набору собственных векторов: , (9) где , . (10) Так как наборы собственных векторов предполагаются известными, то для восстановления исходного отрезка достаточно сохранять информацию о соответствующих коэффициентах разложения. Проведенные исследования показали, что мощность множества частотных интервалов ( ) почти для всех звуков русской речи удовлетворяет соотношению (11) Поэтому с учетом равенства получаем коэффициент сжатия за счет использования аппроксимации (3) (по количеству сохраняемых чисел): (12) Следующий шаг заключается в применении к коэффициентам разложения квантования по уровню с малым их количеством. В общем виде процедура квантования описывается следующим образом, если выполняется условие: (13) то положить (14) где - количество используемых уровней квантования. Проблема заключается в оптимальном выборе границ отрезков в (13) и значений в (14) в смысле минимизации погрешностей аппроксимации исходных данных квантованными значениями: (15) где - множество значений , удовлетворяющих условию (13). В результате проведенных исследований было показано, что при заданных отрезках в (13) минимум правой части (15) достигается на множестве уровней квантования, равных соответствующим средним значениям: (16) где - мощность множества (число попадающих в них значений ). Введем положительную неубывающую последовательность: (17) (18) причем и (19) Показано, что выполнение условий (20) (21) где , (22) а также выбор уровней квантования в виде (23) дает минимум погрешности аппроксимации квантованными значениями (24) когда выполняется условие (25) Реально вместо операции (24) следует использовать кодирование (26) имея в виду, что номера уровней квантования целесообразно обозначать двоичными числами разрядности р, так что (27) Таким образом, количество уровней квантования целесообразно выбирать из множества (2; 4; 8 …). В соответствии с этим в процессе проведения исследований был разработан алгоритм решения задачи (20), (21) с последовательным делением подпоследовательностей на две части, каждая из которых удовлетворяет этим условиям со своими параметрами и (так как деление на две последовательности любой длины несложно реализуется последовательным перебором). Использование стандартизованных последовательностей вида (17)-(19) позволяет не хранить значения уровней (23), а для восстановления данных использовать уровни из заранее сформированной кодовой книги, удовлетворяющей условию (28) где (29) Такие кодовые книги сформированы при = 2; 4; 8 с учетом всех звуков русской речи с усреднением по множеству дикторов. Для иллюстрации работоспособности и эффективности разработанных метода и алгоритма были проведены экспериментальные исследования, которые показали, что разборчивость речи сохраняется уже при = 2. Таким образом, с учетом необходимости сохранения знакового разряда и значения достигаемый максимальный коэффициент сжатия может быть равен (30) (в предположении 8-разрядности исходных отсчетов). То есть если достаточно велико, то . (31) Выводы В результате проведенных исследований было установлено, что предлагаемый метод сжатия речевых данных без пауз на основе оптимального квантования по уровню коэффициентов разложения отрезков речевых сигналов по собственным векторам субполосных матриц из m-информационных частотных интервалов с применением кодовых книг квазиоптимальных квантователей позволяет в зависимости от величины разрядности исходных отсчетов указанных сигналов обеспечить коэффициент сжатия до 12 раз. Необходимо также отметить, что с учетом сжатия пауз в речи, которые могут составлять более 60% от продолжительности диалога, общий коэффициент сжатия как за счет обнаружения и кодирования пауз, так и за счет квантования по уровню коэффициентов разложения отрезков речевых сигналов по собственным векторам субполосных матриц из m-информационных частотных интервалов может достичь величин 20- 25 раз.

About the authors

Evgeny Georgiyevich Zhilyakov

Belgorod State National Research University (NIU «BSU»)

Email: zhilyakov@bsu.edu.ru

Sergey Pavlovich Belov

Belgorod State National Research University

Email: belov@bsu.edu.ru

Alexander Sergeevich Belov

Belgorod State National Research University

Email: belov_as@bsu.edu.ru

Andrey Sergeevich Belov

Belgorod State National Research University


Alexandra Alexandrovna Medvedeva

Belgorod State National Research University

Email: medvedeva_aa@bsu.edu.ru

References

  1. Сергиенко В.С., Баринов В.В. Сжатие данных, речи, звука и изображений в телекоммуникационных системах. М.: Радио Софт, 2009. - 360 с.
  2. Сжатие данных в системах сбора и передачи информации. Под ред. В.А. Свириденко. М.: Радио и связь, 1985. - 184 с.
  3. Сэломон Д. Сжатие данных, изображений и звука. М.: ТЕХНОСФЕРА, 2004. - 368 с.
  4. Цифровая обработка и передача речи. Под ред. О.И. Шелухина. М.: Радио и связь, 2000. - 456 с.

Statistics

Views

Abstract - 19

PDF (Russian) - 1

Cited-By


Article Metrics

Metrics Loading ...

PlumX

Dimensions


Copyright (c) 2017 Zhilyakov E.G., Belov S.P., Belov A.S., Belov A.S., Medvedeva A.A.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies