METHOD OF COMPRESSION OF VOICE DATA WITHOUT A PAUSE BASED ON THE OPTIMAL LEVEL QUANTIZATION COEFFICIENTS OF THE EXPANSION PIECES OF SPEECH SIGNALS FOR EIGENVECTORS SUBBAND MATRIX

Evgeny Georgiyevich Zhilyakov; Жиляков Евгений Георгиевич; Sergey Pavlovich Belov; Белов Сергей Павлович; Alexander Sergeevich Belov; Белов Александр Сергеевич; Andrey Sergeevich Belov; Белов Андрей Сергеевич; Alexandra Alexandrovna Medvedeva; Медведева Александра Александровна

doi:10.18469/ikt.2017.15.1.02

МЕТОД СЖАТИЯ РЕЧЕВЫХ ДАННЫХ БЕЗ ПАУЗ НА ОСНОВЕ ОПТИМАЛЬНОГО КВАНТОВАНИЯ ПО УРОВНЮ КОЭФФИЦИЕНТОВ РАЗЛОЖЕНИЯ ОТРЕЗКОВ РЕЧЕВЫХ СИГНАЛОВ ПО СОБСТВЕННЫМ ВЕКТОРАМ СУБПОЛОСНЫХ МАТРИЦ

Авторы: Жиляков Е.Г.¹, Белов С.П.¹, Белов А.С.¹, Белов А.С.¹, Медведева А.А.¹
Учреждения:
1. Белгородский государственный национальный исследовательский университет
Выпуск: Том 15, № 1 (2017)
Страницы: 14-18
Раздел: Статьи
URL: https://journals.eco-vector.com/2073-3909/article/view/56230
DOI: https://doi.org/10.18469/ikt.2017.15.1.02
ID: 56230

Цитировать

Полный текст

Аннотация
Полный текст
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

В работе предложен метод сжатия речевых данных без пауз на основе оптимального квантования по уровню коэффициентов разложения отрезков речевых сигналов по собственным векторам субполосных матриц из m-информационных частотных интервалов с применением кодовых книг квазиоптимальных квантователей, применение которого позволяет в зависимости от величины разрядности исходных отсчетов указанных сигналов обеспечить коэффициент сжатия до 12 раз.

Ключевые слова

отрезок речевого сигнала, речевые данные, распределение энергии, субполосная матрица, собственные вектора субполосной матрицы, информационные частотные интервалы, кодовые книги квазиоптимальных квантователей, коэффициент сжатия

Полный текст

Постановка задачи Проблема уменьшения объемов битовых представлений речевых данных при их хранении и передаче рассматривается в работах многих авторов, особенно специалистов в области телекоммуникаций, что подтверждается результатами анализа научно-технической литературы [1-4]. При этом отмечаются два основных аспекта: необходимость обнаружения с последующим их кодированием пауз, возникающих между отдельными словами и в режиме диалога занимающих до 60% длительности исходных звукозаписей, и сокращение объемов битовых представлений собственно звуков речи без пауз. Существующие методы сжатия звуков речи без пауз с использованием грубого квантования по уровню основываются на психоакустической модели, что приводит к необходимости применения так называемых субполосных преобразований отрезков (векторов) отсчетов речевых сигналов, позволяющих получить другие векторы, подвекторы которых отражают частотные свойства исходного вектора в выбранных диапазонах оси частот. Именно компоненты этих подвекторов подвергаются квантованию по уровню с различными шагами, чем достигается учет частотно-избирательных свойств человеческого слуха. В настоящее время для субполосного преобразования принято использовать процедуру прореживания выходных последовательностей КИХ-фильтров (фильтров с конечной импульсной характеристикой), настроенных на соответствующие участки оси частот. Такая процедура субполосного преобразования не является оптимальной в смысле минимума погрешностей аппроксимации спектров исходных векторов в выбранных частотных диапазонах, что приводит к увеличению погрешностей восстановления данных по квантованным значениям и, как следствие, к ухудшению качества воспроизводимой речи. В связи с этим, авторами предлагается метод сжатия речевых данных без пауз, созданный с применением разработанного математического аппарата на основе собственных векторов субполосных матриц, позволяющего адекватно сформулировать вариационные условия и решить оптимизационные задачи обработки речевых данных. Математические основы метода Осуществляется обработка отдельных отрезков (векторов отсчетов) сигнала речи: (1) в соответствии с выбранным равномерным разбиением полосы нормированных частот на интервалов вида: ; ; (2) одинаковой ширины. В основе сжатия данных используется свойство концентрации энергии речевых сигналов в малой доле частотной полосы, что позволяет использовать аппроксимацию , (3) где , (4) коэффициент при сумме выбирается из условия , что дает: , (5) где - множество частотных интервалов минимальной суммарной ширины, для которых выполняются условия ; (6) ; (7) где - множество информационных частотных интервалов, а - субполосная матрица, определяемая элементами: , ; . Выше было указано, что соответствующая некоторому частотному интервалу компонента вида (4) допускает представление ; , (8) где - собственные числа собственных векторов субполосной матрицы, принимающие значения . Подстановка (8) в (3) дает разложение по набору собственных векторов: , (9) где , . (10) Так как наборы собственных векторов предполагаются известными, то для восстановления исходного отрезка достаточно сохранять информацию о соответствующих коэффициентах разложения. Проведенные исследования показали, что мощность множества частотных интервалов ( ) почти для всех звуков русской речи удовлетворяет соотношению (11) Поэтому с учетом равенства получаем коэффициент сжатия за счет использования аппроксимации (3) (по количеству сохраняемых чисел): (12) Следующий шаг заключается в применении к коэффициентам разложения квантования по уровню с малым их количеством. В общем виде процедура квантования описывается следующим образом, если выполняется условие: (13) то положить (14) где - количество используемых уровней квантования. Проблема заключается в оптимальном выборе границ отрезков в (13) и значений в (14) в смысле минимизации погрешностей аппроксимации исходных данных квантованными значениями: (15) где - множество значений , удовлетворяющих условию (13). В результате проведенных исследований было показано, что при заданных отрезках в (13) минимум правой части (15) достигается на множестве уровней квантования, равных соответствующим средним значениям: (16) где - мощность множества (число попадающих в них значений ). Введем положительную неубывающую последовательность: (17) (18) причем и (19) Показано, что выполнение условий (20) (21) где , (22) а также выбор уровней квантования в виде (23) дает минимум погрешности аппроксимации квантованными значениями (24) когда выполняется условие (25) Реально вместо операции (24) следует использовать кодирование (26) имея в виду, что номера уровней квантования целесообразно обозначать двоичными числами разрядности р, так что (27) Таким образом, количество уровней квантования целесообразно выбирать из множества (2; 4; 8 …). В соответствии с этим в процессе проведения исследований был разработан алгоритм решения задачи (20), (21) с последовательным делением подпоследовательностей на две части, каждая из которых удовлетворяет этим условиям со своими параметрами и (так как деление на две последовательности любой длины несложно реализуется последовательным перебором). Использование стандартизованных последовательностей вида (17)-(19) позволяет не хранить значения уровней (23), а для восстановления данных использовать уровни из заранее сформированной кодовой книги, удовлетворяющей условию (28) где (29) Такие кодовые книги сформированы при = 2; 4; 8 с учетом всех звуков русской речи с усреднением по множеству дикторов. Для иллюстрации работоспособности и эффективности разработанных метода и алгоритма были проведены экспериментальные исследования, которые показали, что разборчивость речи сохраняется уже при = 2. Таким образом, с учетом необходимости сохранения знакового разряда и значения достигаемый максимальный коэффициент сжатия может быть равен (30) (в предположении 8-разрядности исходных отсчетов). То есть если достаточно велико, то . (31) Выводы В результате проведенных исследований было установлено, что предлагаемый метод сжатия речевых данных без пауз на основе оптимального квантования по уровню коэффициентов разложения отрезков речевых сигналов по собственным векторам субполосных матриц из m-информационных частотных интервалов с применением кодовых книг квазиоптимальных квантователей позволяет в зависимости от величины разрядности исходных отсчетов указанных сигналов обеспечить коэффициент сжатия до 12 раз. Необходимо также отметить, что с учетом сжатия пауз в речи, которые могут составлять более 60% от продолжительности диалога, общий коэффициент сжатия как за счет обнаружения и кодирования пауз, так и за счет квантования по уровню коэффициентов разложения отрезков речевых сигналов по собственным векторам субполосных матриц из m-информационных частотных интервалов может достичь величин 20- 25 раз.

Список литературы

Сергиенко В.С., Баринов В.В. Сжатие данных, речи, звука и изображений в телекоммуникационных системах. М.: Радио Софт, 2009. - 360 с.
Сжатие данных в системах сбора и передачи информации. Под ред. В.А. Свириденко. М.: Радио и связь, 1985. - 184 с.
Сэломон Д. Сжатие данных, изображений и звука. М.: ТЕХНОСФЕРА, 2004. - 368 с.
Цифровая обработка и передача речи. Под ред. О.И. Шелухина. М.: Радио и связь, 2000. - 456 с.

Дополнительные файлы

Доп. файлы

Действие

1. JATS XML

Скачать

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Полный текст

Аннотация

Ключевые слова

Полный текст

Об авторах

Евгений Георгиевич Жиляков

Сергей Павлович Белов

Александр Сергеевич Белов

Андрей Сергеевич Белов

Александра Александровна Медведева

Список литературы

Дополнительные файлы