RESEARCH OF DECISION FUNCTION SENSITIVITY DURING FREQUENCY BAND DETECTION UNDER NOISE INFLUENCE


Cite item

Full Text

Abstract

Voice signal analysis and processing techniques are main directions in the field of voice technologies. Here the frequency analysis is widely used for voice signal processing. Various voice sounds differ by distribution of energy along a frequency axis. At the same time, there is a good reason to consider only frequency bands that possess the main energy of signal division that is so-called information frequency band. We propose to apply method for information frequency band detection based on comparison with adaptively defined threshold. It is clear that additive noise will change energy distribution over frequency domain. This work presents results of researches of information frequency band wrong detection probability value dependence on signal-to-noise ratio. In addition, we present results of comparison between proposed method and method based on energy part setting. Those obtained research results demonstrate the method based on using of adaptive threshold is resistant to additive noise.

Full Text

Речевые сообщения являются одной из наиболее часто используемых форм информационного обмена. Кроме непосредственного обмена речевыми сообщениями в настоящее время существенное значение приобрели технологии, обеспечивающие речевой информационный обмен на расстоянии, включая создание хранилищ речевых данных различного назначения, а также голосовое управление, преобразование речевых сообщений в текст и др. При реализации различных систем обработки речи, речевой сигнал подвергается анализу с целью выделения определенных признаков, необходимых для дальнейших преобразований. В настоящее время анализ речевых сигналов, как правило, осуществляется за счет перехода в частотную область и использования дискретного преобразования Фурье. Однако, следует иметь в виду, что дискретное преобразование Фурье является вариантом разложения сигналов по ортонормированному базису специального вида и не позволяет в полной мере описать распределение энергий отрезков РС по частотным интервалам. Адекватным подходом к анализу отрезков речевых сигналов является субполосный анализ, суть которого заключается в соотнесении свойств отрезков речевых сигналов с разбиением оси частот на интервалы конечной ширины [1]. Одной из субполосных характеристик отрезков речевых сигналов в субполосном анализе является значение энергии, сосредоточенной в заданном r-ом частотном диапазоне, которая может быть вычислена, не переходя в частотную область, с использованием выражения [2]: . (1) Здесь - субполосная матрица для r-го частотного диапазона, элементы которой определяются по формуле: Вычисление значения энергии в частотном интервале можно ускорить, если использовать представление вида: , (3) где - собственные числа субполосной матрицы Ar; - скалярные произведения (проекции) , (4) - значения собственных векторов субполосной матрицы Ar. Используя свойства собственных векторов и чисел субполосных матриц, соотношения (4) можно преобразовать к виду , , (5) где . (6) а значения собственных векторов субполосной матрицы с элементами вида: (7) При этом предполагается использовать следующее разбиение частотной оси: , (8) где R - число интервалов, на которые разбивается ось частот; N - длительность отрезка анализа (отсчетов). Описанная конфигурация частотных интервалов представлена на рис. 1. Рис.1. Конфигурация частотных интервалов «без перекрытия» Для ускорения вычисления скалярных произведений (5) может быть использован алгоритм быстрого преобразования Фурье (БПФ). Рис. 2. Фрагмент речевого сигнала, порожденного звуком «а» (fd=16 кГц, N=256) Исследование особенностей распределения энергии по частотным интервалам для различных звуков русской речи показало, что разные звуки русской речи имеют различное распределение. На рис. 2-7 представлены фрагменты речевых сигналов, соответствующих различным звукам русской речи, записанным при частоте дискретизации fd = 16 кГц и разрядности кода 16 бит, а также распределение энергии по частотным интервалам для этих фрагментов. Рис. 3. Распределение энергии фрагмента речевого сигнала, порожденного звуком «а» (fd=16 кГц, N=256, R=128) Рис. 4. Фрагмент речевого сигнала, порожденного звуком «р» (fd = 16 кГц, N = 256) Рис. 5. Распределение энергии фрагмента речевого сигнала, порожденного звуком «р» (fd = 16 кГц, N = 256, R = 128) Рис. 6. Фрагмент речевого сигнала, порожденного звуком «ч» (fd = 16 кГц, N = 256) Рис. 7. Распределение энергии фрагмента речевого сигнала, порожденного звуком «ч» (fd = 16 кГц, N = 256, R = 128) Из приведенных рисунков видно, что основная энергия одних звуков речи сосредоточена в низкочастотной области, у других - основная энергии сосредоточена в области средних частот. Кроме того, отличается количество интервалов, в которых содержится основная энергия речевого сигнала. Очевидно, что те интервалы, в которых сосредоточена большая доля энергии и влияют на звучание отрезка сигнала. Такие интервалы логично называть информационными. Ранее к информационным частотным интервалам предлагалось относить такие частотные интервалы с наибольшей долей энергии, для которых выполнялось неравенство [3]: . (9) Здесь выполняется неравенство: (10) где - анализируемый отрезок сигнала, m - заданное значение доли энергии сигнала, - упорядоченные по убыванию значения энергий сигнала, попадающих в заданные частотные интервалы, то есть , k = 1 … R , (11) где - значения энергий сигнала, попадающих в заданные частотные интервалы, определяемые с помощью (3). При использовании данного подхода необходимо выбрать требуемую задаваемую долю энергии m, значение которой зависит от решаемой задачи. Экспериментальные исследования показали, что данный параметр целесообразно выбирать из интервала 0,8 … 0,99. Однако от выбора значения доли энергии будет зависеть, сколько и какие интервалы будут отнесены к информационным, а какие - к неинформационным. В рамках данной работы в качестве информационных частотных интервалов предлагается выбирать те частотные интервалы, энергия которых превышает среднее значение энергии, приходящееся на интервал заданной ширины анализируемого отрезка сигнала. Рис. 8. Фрагмент речевого сигнала, порожденного звуком «а» (fd = 16 кГц, N = 256) Пусть нулевая гипотеза H0 - частотный интервал анализируемого отрезка сигнала не является информационным. Тогда конкурирующая гипотеза H1 - частотный интервал анализируемого отрезка сигнала является информационным. В качестве решающего правила предлагается использовать неравенство: . (12) Если условие (12) выполняется, то гипотеза H0 отвергается и анализируемый частотный интервал целесообразно обрабатывать как информационный. В противном случае, гипотеза H0 принимается, и анализируемый частотный интервал принимается как неинформационный. Рис. 9. Распределение энергии фрагмента речевого сигнала, порожденного звуком «а» (fd = 16 кГц, N = 256, R = 128) Рис. 10. Фрагмент речевого сигнала, порожденного звуком «р» (fd = 16 кГц, N = 256) Рис. 11. Распределение энергии фрагмента речевого сигнала, порожденного звуком «р» (fd = 16 кГц, N = 256, R= 128) На рис. 8-13 представлены фрагменты речевых сигналов, соответствующих различным звукам русской речи, а также распределение энергии по частотным интервалам. Рис. 12. Фрагмент речевого сигнала, порожденного звуком «ч» (fd = 16 кГц, N = 256) Рис. 13. Распределение энергии фрагмента речевого сигнала, порожденного звуком «ч» (fd = 16 кГц, N = 256, R = 128) Как видно, из рис. 8-13, частотные интервалы, определенные как информационные в соответствии с выражением (9)-(10) (на рисунках отмечены звездочкой), практически все совпадают с информационными частотными интервалами, определенными на основе соотношения (12) (на рисунках интервалы, энергия которых превышает порог, представленный прямой линией). Однако воздействие шума на анализируемые фрагменты сигналов может привести к неверному определению информационных частотных интервалов. На рис. 14-17 представлены фрагменты речевых сигналов и распределение энергии по частотным интервалам с указанием информационных, до и после воздействия шума. Рис. 14. Фрагмент речевого сигнала, порожденного звуком «а» без шума (fd = 16 кГц, N = 256) Рис. 15. Распределение энергии фрагмента речевого сигнала, порожденного звуком «а» без шума (fd = 16 кГц, N = 256, R = 128) Рис. 16 Фрагмент речевого сигнала, порожденного звуком «а» с добавлением шума (fd = 16 кГц, N = 256) Сравнение результатов, представленных на рис. 15 и 17 показывает, что в случае добавления шума вид распределения энергии по частотным интервалам меняется незначительно, но при этом использование метода, основанного на задании основной доли энергии, приводит к тому, что частотные интервалы, определенные ранее как неинформационные, теперь относятся к информационным. В свою очередь, при использовании предлагаемого подхода, основанного на сравнении с адаптивным пороговым значением, информационные интервалы определяются таким же образом, как и при отсутствии шума. Рис. 17. Распределение энергии фрагмента речевого сигнала, порожденного звуком «а» с добавлением шума (fd = 16 кГц, N = 256, R = 128) Для выявления чувствительности определения информационных частотных интервалов к воздействию аддитивного шума были оценены вероятности ошибочного определения информационных частотных интервалов для различных звуков русской речи при разных отношениях «шум/сигнал». При этом оценивались две вероятности: вероятность ошибок первого и второго рода: , (13) , (14) где - число частотных интервалов, ошибочно отнесенных к информационным; - число неинформационных частотных интервалов, использованных для исследования; - число частотных интервалов, верно отнесенных к информационным; - число информационных частотных интервалов, использованных для исследования. Информационные и неинформационные частотные интервалы, используемые для исследования, определялись при отсутствии шумов. В таблицах 1 и 2 представлены результаты оценки вероятностей первого и второго рода при использовании разных подходов к определению информационных частотных интервалов для различных длительностей отрезков анализа. Таблица 1. Значения вероятностей ошибочного принятия решения при различных значениях отношения «шум/сигнал» (N = 128) Отношение «шум/сиг-нал» Pош1 Pош2 метод 1 m = 0,9 метод 2 метод 1 m = 0,9 метод 2 0,1 0,1300 0,0132 0,0079 0,0026 0,2 0,1282 0,0287 0,0294 0,0052 0,3 0,1253 0,0424 0,0804 0,0083 0,4 0,1253 0,0559 0,1900 0,0119 0,5 0,1282 0,0689 0,3055 0,0164 0,6 0,1329 0,0815 0,3942 0,0235 0,7 0,1385 0,0939 0,4599 0,0362 0,8 0,1445 0,1061 0,5091 0,0553 0,9 0,1507 0,1182 0,5467 0,0794 1,0 0,1568 0,1299 0,5757 0,1060 Таблица 2. Значения вероятностей ошибочного принятия решения при различных значениях отношения «шум/сигнал» (N = 256) Отношение «шум/сиг-нал» Pош1 Pош2 метод 1 m = 0,9 метод 2 метод 1 m = 0,9 метод 2 0,1 0,0774 0,0142 0,0081 0,0028 0,2 0,0771 0,0289 0,0296 0,0058 0,3 0,0762 0,0447 0,0825 0,0088 0,4 0,0773 0,0605 0,1987 0,0124 0,5 0,0809 0,0762 0,3146 0,0170 0,6 0,0862 0,0916 0,4017 0,0242 0,7 0,0923 0,1065 0,4658 0,0367 0,8 0,0991 0,1210 0,5136 0,0555 0,9 0,1059 0,1349 0,5498 0,0791 1,0 0,1127 0,1485 0,5779 0,1053 В таблицах 1 и 2 под методом 1 понимается метод, основанный на (9)-(10), а под методом 2 - метод, основанный на использовании (12). Из результатов, представленных в таблицах видно, что метод 2, основанный на адаптивном определении порогового значения, более устойчив к воздействию на отрезок сигнала аддитивными помехами. Использование данного метода позволит обеспечить определение информационных частотных интервалов с вероятностью ошибочного принятия решения не более 0,15. Наиболее опасными являются ошибки второго рода, когда информационные частотные интервалы ошибочно относятся к неинформационным. Как видно, из результатов, представленных в таблицах 1 и 2 при любых параметрах отношения «шум/сигнал» и длительности отрезка анализа вероятность ошибки второго рода меньше у метода, основанного на использовании адаптивного порогового значения. Кроме того, результаты исследования показывают, что изменение длительности отрезка анализа не оказывает существенного влияния на устойчивость предлагаемого метода к появлению аддитивных шумов. Таким образом, целесообразно использовать предлагаемый подход к определению информационных частотных интервалов при решении задач анализа и обработки речевых сигналов.
×

About the authors

Evgeny Georgiyevich Zhilyakov

Belgorod State National Research University

Email: zhilyakov@bsu.edu.ru

Sergey Pavlovich Belov

Belgorod State National Research University

Email: belov@bsu.edu.ru

Aleksandra Aleksandrovna Medvedeva

Belgorod State National Research University

Email: medvedeva_aa@bsu.edu.ru

Aleksandr Vasilievich Kurlov

Belgorod State National Research University

Email: kurlov@bsu.edu.ru

Petr Georgiyevich Likholob

Belgorod State National Research University

Email: likholob@bsu.edu.ru

References

  1. Жиляков Е.Г., Белов С.П., Черноморец А.А. Вариационные методы анализа сигналов на основе частотных представлений // Вопросы радиоэлектроники. Т.4. - Вып.1, 2010. - С. 10-25.
  2. Жиляков Е.Г., Белов С.П., Белов А.С., Фирсова А.А. О сегментации речевых сигналов на однородные отрезки // Научные ведомости БелГУ. Серия Экономика. Информатика. Т.34 - №7-1. - 2015. - С. 194-199.
  3. Жиляков Е.Г., Белов С.П., Белов А.С., Фирсова А.А., Глушак А.В. Об эффективности различных подходов к сегментации речевых сигналов на основе обнаружения пауз // Научные ведомости БелГУ. Серия Информатика. Т.7. - № 14-1-1, 2010. - С. 187-193.

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2016 Zhilyakov E.G., Belov S.P., Medvedeva A.A., Kurlov A.V., Likholob P.G.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies