МЕТОД СЖАТИЯ РЕЧЕВЫХ ДАННЫХ БЕЗ ПАУЗ НА ОСНОВЕ ОПТИМАЛЬНОГО КВАНТОВАНИЯ ПО УРОВНЮ КОЭФФИЦИЕНТОВ РАЗЛОЖЕНИЯ ОТРЕЗКОВ РЕЧЕВЫХ СИГНАЛОВ ПО СОБСТВЕННЫМ ВЕКТОРАМ СУБПОЛОСНЫХ МАТРИЦ


Цитировать

Полный текст

Аннотация

В работе предложен метод сжатия речевых данных без пауз на основе оптимального квантования по уровню коэффициентов разложения отрезков речевых сигналов по собственным векторам субполосных матриц из m-информационных частотных интервалов с применением кодовых книг квазиоптимальных квантователей, применение которого позволяет в зависимости от величины разрядности исходных отсчетов указанных сигналов обеспечить коэффициент сжатия до 12 раз.

Полный текст

Постановка задачи Проблема уменьшения объемов битовых представлений речевых данных при их хранении и передаче рассматривается в работах многих авторов, особенно специалистов в области телекоммуникаций, что подтверждается результатами анализа научно-технической литературы [1-4]. При этом отмечаются два основных аспекта: необходимость обнаружения с последующим их кодированием пауз, возникающих между отдельными словами и в режиме диалога занимающих до 60% длительности исходных звукозаписей, и сокращение объемов битовых представлений собственно звуков речи без пауз. Существующие методы сжатия звуков речи без пауз с использованием грубого квантования по уровню основываются на психоакустической модели, что приводит к необходимости применения так называемых субполосных преобразований отрезков (векторов) отсчетов речевых сигналов, позволяющих получить другие векторы, подвекторы которых отражают частотные свойства исходного вектора в выбранных диапазонах оси частот. Именно компоненты этих подвекторов подвергаются квантованию по уровню с различными шагами, чем достигается учет частотно-избирательных свойств человеческого слуха. В настоящее время для субполосного преобразования принято использовать процедуру прореживания выходных последовательностей КИХ-фильтров (фильтров с конечной импульсной характеристикой), настроенных на соответствующие участки оси частот. Такая процедура субполосного преобразования не является оптимальной в смысле минимума погрешностей аппроксимации спектров исходных векторов в выбранных частотных диапазонах, что приводит к увеличению погрешностей восстановления данных по квантованным значениям и, как следствие, к ухудшению качества воспроизводимой речи. В связи с этим, авторами предлагается метод сжатия речевых данных без пауз, созданный с применением разработанного математического аппарата на основе собственных векторов субполосных матриц, позволяющего адекватно сформулировать вариационные условия и решить оптимизационные задачи обработки речевых данных. Математические основы метода Осуществляется обработка отдельных отрезков (векторов отсчетов) сигнала речи: (1) в соответствии с выбранным равномерным разбиением полосы нормированных частот на интервалов вида: ; ; (2) одинаковой ширины. В основе сжатия данных используется свойство концентрации энергии речевых сигналов в малой доле частотной полосы, что позволяет использовать аппроксимацию , (3) где , (4) коэффициент при сумме выбирается из условия , что дает: , (5) где - множество частотных интервалов минимальной суммарной ширины, для которых выполняются условия ; (6) ; (7) где - множество информационных частотных интервалов, а - субполосная матрица, определяемая элементами: , ; . Выше было указано, что соответствующая некоторому частотному интервалу компонента вида (4) допускает представление ; , (8) где - собственные числа собственных векторов субполосной матрицы, принимающие значения . Подстановка (8) в (3) дает разложение по набору собственных векторов: , (9) где , . (10) Так как наборы собственных векторов предполагаются известными, то для восстановления исходного отрезка достаточно сохранять информацию о соответствующих коэффициентах разложения. Проведенные исследования показали, что мощность множества частотных интервалов ( ) почти для всех звуков русской речи удовлетворяет соотношению (11) Поэтому с учетом равенства получаем коэффициент сжатия за счет использования аппроксимации (3) (по количеству сохраняемых чисел): (12) Следующий шаг заключается в применении к коэффициентам разложения квантования по уровню с малым их количеством. В общем виде процедура квантования описывается следующим образом, если выполняется условие: (13) то положить (14) где - количество используемых уровней квантования. Проблема заключается в оптимальном выборе границ отрезков в (13) и значений в (14) в смысле минимизации погрешностей аппроксимации исходных данных квантованными значениями: (15) где - множество значений , удовлетворяющих условию (13). В результате проведенных исследований было показано, что при заданных отрезках в (13) минимум правой части (15) достигается на множестве уровней квантования, равных соответствующим средним значениям: (16) где - мощность множества (число попадающих в них значений ). Введем положительную неубывающую последовательность: (17) (18) причем и (19) Показано, что выполнение условий (20) (21) где , (22) а также выбор уровней квантования в виде (23) дает минимум погрешности аппроксимации квантованными значениями (24) когда выполняется условие (25) Реально вместо операции (24) следует использовать кодирование (26) имея в виду, что номера уровней квантования целесообразно обозначать двоичными числами разрядности р, так что (27) Таким образом, количество уровней квантования целесообразно выбирать из множества (2; 4; 8 …). В соответствии с этим в процессе проведения исследований был разработан алгоритм решения задачи (20), (21) с последовательным делением подпоследовательностей на две части, каждая из которых удовлетворяет этим условиям со своими параметрами и (так как деление на две последовательности любой длины несложно реализуется последовательным перебором). Использование стандартизованных последовательностей вида (17)-(19) позволяет не хранить значения уровней (23), а для восстановления данных использовать уровни из заранее сформированной кодовой книги, удовлетворяющей условию (28) где (29) Такие кодовые книги сформированы при = 2; 4; 8 с учетом всех звуков русской речи с усреднением по множеству дикторов. Для иллюстрации работоспособности и эффективности разработанных метода и алгоритма были проведены экспериментальные исследования, которые показали, что разборчивость речи сохраняется уже при = 2. Таким образом, с учетом необходимости сохранения знакового разряда и значения достигаемый максимальный коэффициент сжатия может быть равен (30) (в предположении 8-разрядности исходных отсчетов). То есть если достаточно велико, то . (31) Выводы В результате проведенных исследований было установлено, что предлагаемый метод сжатия речевых данных без пауз на основе оптимального квантования по уровню коэффициентов разложения отрезков речевых сигналов по собственным векторам субполосных матриц из m-информационных частотных интервалов с применением кодовых книг квазиоптимальных квантователей позволяет в зависимости от величины разрядности исходных отсчетов указанных сигналов обеспечить коэффициент сжатия до 12 раз. Необходимо также отметить, что с учетом сжатия пауз в речи, которые могут составлять более 60% от продолжительности диалога, общий коэффициент сжатия как за счет обнаружения и кодирования пауз, так и за счет квантования по уровню коэффициентов разложения отрезков речевых сигналов по собственным векторам субполосных матриц из m-информационных частотных интервалов может достичь величин 20- 25 раз.
×

Об авторах

Евгений Георгиевич Жиляков

Белгородский государственный национальный исследовательский университет

Email: zhilyakov@bsu.edu.ru

Сергей Павлович Белов

Белгородский государственный национальный исследовательский университет

Email: belov@bsu.edu.ru

Александр Сергеевич Белов

Белгородский государственный национальный исследовательский университет

Email: belov_as@bsu.edu.ru

Андрей Сергеевич Белов

Белгородский государственный национальный исследовательский университет

Александра Александровна Медведева

Белгородский государственный национальный исследовательский университет

Email: medvedeva_aa@bsu.edu.ru

Список литературы

  1. Сергиенко В.С., Баринов В.В. Сжатие данных, речи, звука и изображений в телекоммуникационных системах. М.: Радио Софт, 2009. - 360 с.
  2. Сжатие данных в системах сбора и передачи информации. Под ред. В.А. Свириденко. М.: Радио и связь, 1985. - 184 с.
  3. Сэломон Д. Сжатие данных, изображений и звука. М.: ТЕХНОСФЕРА, 2004. - 368 с.
  4. Цифровая обработка и передача речи. Под ред. О.И. Шелухина. М.: Радио и связь, 2000. - 456 с.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Жиляков Е.Г., Белов С.П., Белов А.С., Белов А.С., Медведева А.А., 2017

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах