METHOD OF COMPRESSION OF VOICE DATA WITHOUT A PAUSE BASED ON THE OPTIMAL LEVEL QUANTIZATION COEFFICIENTS OF THE EXPANSION PIECES OF SPEECH SIGNALS FOR EIGENVECTORS SUBBAND MATRIX
- 作者: Zhilyakov E.G.1, Belov S.P.2, Belov A.S.2, Belov A.S.2, Medvedeva A.A.2
-
隶属关系:
- Belgorod State National Research University (NIU «BSU»)
- Belgorod State National Research University
- 期: 卷 15, 编号 1 (2017)
- 页面: 14-18
- 栏目: Articles
- URL: https://journals.eco-vector.com/2073-3909/article/view/56230
- DOI: https://doi.org/10.18469/ikt.2017.15.1.02
- ID: 56230
如何引用文章
全文:
详细
全文:
Постановка задачи Проблема уменьшения объемов битовых представлений речевых данных при их хранении и передаче рассматривается в работах многих авторов, особенно специалистов в области телекоммуникаций, что подтверждается результатами анализа научно-технической литературы [1-4]. При этом отмечаются два основных аспекта: необходимость обнаружения с последующим их кодированием пауз, возникающих между отдельными словами и в режиме диалога занимающих до 60% длительности исходных звукозаписей, и сокращение объемов битовых представлений собственно звуков речи без пауз. Существующие методы сжатия звуков речи без пауз с использованием грубого квантования по уровню основываются на психоакустической модели, что приводит к необходимости применения так называемых субполосных преобразований отрезков (векторов) отсчетов речевых сигналов, позволяющих получить другие векторы, подвекторы которых отражают частотные свойства исходного вектора в выбранных диапазонах оси частот. Именно компоненты этих подвекторов подвергаются квантованию по уровню с различными шагами, чем достигается учет частотно-избирательных свойств человеческого слуха. В настоящее время для субполосного преобразования принято использовать процедуру прореживания выходных последовательностей КИХ-фильтров (фильтров с конечной импульсной характеристикой), настроенных на соответствующие участки оси частот. Такая процедура субполосного преобразования не является оптимальной в смысле минимума погрешностей аппроксимации спектров исходных векторов в выбранных частотных диапазонах, что приводит к увеличению погрешностей восстановления данных по квантованным значениям и, как следствие, к ухудшению качества воспроизводимой речи. В связи с этим, авторами предлагается метод сжатия речевых данных без пауз, созданный с применением разработанного математического аппарата на основе собственных векторов субполосных матриц, позволяющего адекватно сформулировать вариационные условия и решить оптимизационные задачи обработки речевых данных. Математические основы метода Осуществляется обработка отдельных отрезков (векторов отсчетов) сигнала речи: (1) в соответствии с выбранным равномерным разбиением полосы нормированных частот на интервалов вида: ; ; (2) одинаковой ширины. В основе сжатия данных используется свойство концентрации энергии речевых сигналов в малой доле частотной полосы, что позволяет использовать аппроксимацию , (3) где , (4) коэффициент при сумме выбирается из условия , что дает: , (5) где - множество частотных интервалов минимальной суммарной ширины, для которых выполняются условия ; (6) ; (7) где - множество информационных частотных интервалов, а - субполосная матрица, определяемая элементами: , ; . Выше было указано, что соответствующая некоторому частотному интервалу компонента вида (4) допускает представление ; , (8) где - собственные числа собственных векторов субполосной матрицы, принимающие значения . Подстановка (8) в (3) дает разложение по набору собственных векторов: , (9) где , . (10) Так как наборы собственных векторов предполагаются известными, то для восстановления исходного отрезка достаточно сохранять информацию о соответствующих коэффициентах разложения. Проведенные исследования показали, что мощность множества частотных интервалов ( ) почти для всех звуков русской речи удовлетворяет соотношению (11) Поэтому с учетом равенства получаем коэффициент сжатия за счет использования аппроксимации (3) (по количеству сохраняемых чисел): (12) Следующий шаг заключается в применении к коэффициентам разложения квантования по уровню с малым их количеством. В общем виде процедура квантования описывается следующим образом, если выполняется условие: (13) то положить (14) где - количество используемых уровней квантования. Проблема заключается в оптимальном выборе границ отрезков в (13) и значений в (14) в смысле минимизации погрешностей аппроксимации исходных данных квантованными значениями: (15) где - множество значений , удовлетворяющих условию (13). В результате проведенных исследований было показано, что при заданных отрезках в (13) минимум правой части (15) достигается на множестве уровней квантования, равных соответствующим средним значениям: (16) где - мощность множества (число попадающих в них значений ). Введем положительную неубывающую последовательность: (17) (18) причем и (19) Показано, что выполнение условий (20) (21) где , (22) а также выбор уровней квантования в виде (23) дает минимум погрешности аппроксимации квантованными значениями (24) когда выполняется условие (25) Реально вместо операции (24) следует использовать кодирование (26) имея в виду, что номера уровней квантования целесообразно обозначать двоичными числами разрядности р, так что (27) Таким образом, количество уровней квантования целесообразно выбирать из множества (2; 4; 8 …). В соответствии с этим в процессе проведения исследований был разработан алгоритм решения задачи (20), (21) с последовательным делением подпоследовательностей на две части, каждая из которых удовлетворяет этим условиям со своими параметрами и (так как деление на две последовательности любой длины несложно реализуется последовательным перебором). Использование стандартизованных последовательностей вида (17)-(19) позволяет не хранить значения уровней (23), а для восстановления данных использовать уровни из заранее сформированной кодовой книги, удовлетворяющей условию (28) где (29) Такие кодовые книги сформированы при = 2; 4; 8 с учетом всех звуков русской речи с усреднением по множеству дикторов. Для иллюстрации работоспособности и эффективности разработанных метода и алгоритма были проведены экспериментальные исследования, которые показали, что разборчивость речи сохраняется уже при = 2. Таким образом, с учетом необходимости сохранения знакового разряда и значения достигаемый максимальный коэффициент сжатия может быть равен (30) (в предположении 8-разрядности исходных отсчетов). То есть если достаточно велико, то . (31) Выводы В результате проведенных исследований было установлено, что предлагаемый метод сжатия речевых данных без пауз на основе оптимального квантования по уровню коэффициентов разложения отрезков речевых сигналов по собственным векторам субполосных матриц из m-информационных частотных интервалов с применением кодовых книг квазиоптимальных квантователей позволяет в зависимости от величины разрядности исходных отсчетов указанных сигналов обеспечить коэффициент сжатия до 12 раз. Необходимо также отметить, что с учетом сжатия пауз в речи, которые могут составлять более 60% от продолжительности диалога, общий коэффициент сжатия как за счет обнаружения и кодирования пауз, так и за счет квантования по уровню коэффициентов разложения отрезков речевых сигналов по собственным векторам субполосных матриц из m-информационных частотных интервалов может достичь величин 20- 25 раз.作者简介
Evgeny Zhilyakov
Belgorod State National Research University (NIU «BSU»)
Email: zhilyakov@bsu.edu.ru
Sergey Belov
Belgorod State National Research University
Email: belov@bsu.edu.ru
Alexander Belov
Belgorod State National Research University
Email: belov_as@bsu.edu.ru
Andrey Belov
Belgorod State National Research University
Alexandra Medvedeva
Belgorod State National Research University
Email: medvedeva_aa@bsu.edu.ru
参考
- Сергиенко В.С., Баринов В.В. Сжатие данных, речи, звука и изображений в телекоммуникационных системах. М.: Радио Софт, 2009. - 360 с.
- Сжатие данных в системах сбора и передачи информации. Под ред. В.А. Свириденко. М.: Радио и связь, 1985. - 184 с.
- Сэломон Д. Сжатие данных, изображений и звука. М.: ТЕХНОСФЕРА, 2004. - 368 с.
- Цифровая обработка и передача речи. Под ред. О.И. Шелухина. М.: Радио и связь, 2000. - 456 с.