ABOUT THE METHOD FOR HIDDEN CODING OF CONTROL INFORMATION TO SPEECH DATA

Abstract


Currently, the industry's creation of information, educational and entertainment content for audio information inquiries, movies and music are widely used spoken language. In this connection there is the problem of providing automatic control of the use of speech and in particular to prevent unauthorized actions with it. In many ways, this control is advantageously carried out in a secretive mode, where information about the processes of encoding and appropriate action available only to a specific group of persons. The authors have to solve this problem, we propose a method of adaptive hidden coding control information, providing for a given error probability of high secrecy. The method is to use the power properties of the voice data, the mathematical basis is used as an orthogonal basis of eigenvectors sub-band matrix instead of a pseudo-random sequence (PRS), which is widely used at present in the hidden coding control information. The studies found that the proposed method of sub-band projections has a higher level of secrecy of information control over the method of spreading since it causes less change in the proportion of the energy of speech segment data. Minimizing variations in energy band of the portion where the coding is not carried out, it is achieved through the use of sub-band projections found for sub-band matrix of eigenvectors whose eigenvalues are close to unity.

Full Text

Постановка задачи Для человека представляется естественным осуществлять информационный обмен, используя устную речь и визуальное отображение предметов, явлений или процессов. Индустрия создания информационного, образовательного и развлекательного контента применяет устную речь для звукового сопровождения информационных справок, фильмов и музыкальных композиций. Это приводит к росту потоков информации, содержащей речь. В связи с этим возникает проблема обеспечения автоматического контроля за использованием речи и, в частности, предотвращения несанкционированных действий с ней. Иными словами, речь стоит рассматривать с двух позиций: не только как объект, в котором осуществляют скрытное кодирование, обеспечивающее хранение и передачу контрольной информации о контенте, но и как объект, который сам представляет собой контрольную информацию. Контрольная информация может представлять собой сведения о лицах, предметах, фактах, событиях, явлениях и процессах, представленные в цифровой форме. Исходя из этого, для обеспечения автоматического контроля речевых данных необходимо решение ряда задач: подтверждение идентичности полученной информации; идентификация личности; распознавание; определение целостности речи; защита речи от несанкционированного доступа; хранение, при котором невозможно обнаружить контрольную информацию, если не знать о её существовании. Со многих точек зрения для речевых данных это целесообразно осуществлять в скрытном режиме, когда информация о процессах скрытного кодирования и соответствующих действиях доступна только определенному кругу лиц. Мера скрытности характеризует способность информации не быть обнаруженной в процессе информационного обмена. Для решения задач, приведенных выше, можно воспользоваться принципом стеганографии, а в случаях аудиоданных - цифровой стеганографией, когда контент и информация контроля представляются в цифровой форме. В основе не очень широкого круга существующих алгоритмов стеганографии используются различные приемы кодирования контрольной информации, среди которых можно выделить: использование наименьшего значащего разряда [1], кодирование на основе расширения спектра [2-3] и некоторые другие. Отметим, что развитие методов цифровой стеганогорафии направлено на повышение скрытности контрольной информации, выражаемую например, через степень искажения, с сохранением стойкости кодирования внедряемой информации к внешним разрушающим воздействиями. Авторами для решения указанной проблемы предлагается метод адаптивного скрытного кодирования контрольной информации, обеспечивающий при заданной вероятности ошибки высокую скрытность. Суть метода заключается в использовании энергетических свойств речевых данных, математической основой которого является применение в качестве ортогонального базиса собственных векторов субполосной матрицы [4] вместо псевдослучайной последовательности (ПСП), широко применяемой в настоящее время при скрытном кодирования контрольной инфомации. Математические основы Пусть - отрезок речевых данных, являющийся цифровым представлением фрагмента устной речи, зафиксированной в дискретные моменты времени на выходе микрофона. На рисунке 1 представлена огибающая отрезка речевых данных, порожденных звуком «о», в количестве отчетов, взятых с частотой дискретизации = 8 кГц. Рис. 1. Отрезок речевых данных, порожденный звуком «о» Известно, что у большинства звуков русской речи энергия частотных компонент содержится в малой доле частотной полосы [5]. Это энергетическое свойство можно положить в основу модели восприятия речи человеком. Отметим, что процедуры анализа и синтеза сигналов в соответствии с некоторым разбиением области частот (см. рис. 2) на совокупность интервалов принято называть субполосными. Рис. 2. Разбиение частотной полосы Характеристику, оценивающую часть энергии , сосредоточенной в частотной субполосе (рис. 2) возможно определить из соотношения [4]: , (1) где - приходящаяся на частотную полосу часть энергии отрезка речевых данных; - индекс, обозначающий порядковый номер частотной субполосы из возможных; - трансформанта Фурье: , (2) где - отсчеты анализируемого отрезка речевых данных; - длительность отрезка речевых данных. В качестве инструмента, позволяющее производить вычисления энергии, не переходя в частотную область, предлагается использовать математический аппарат субполосных матриц [4; 6]: , (3) где - субполосная матрица, определяемая элементами: ,; (4) , ; (5) , , (6) где - позиция элемента в строке матрицы; - позиция элемента в столбце матрицы; - левая граница субполосы ; - правая граница субполосы . Исследования показали, что речевые данные, порожденные устной речью - это цифровое представление нестационарного, сложно-модулированного сигнала, порождаемого последовательностью звуков языка или их отсутствием. В ходе экспериментов было выявлено, что, с течением времени, у речевых данных не только изменяются временное представление, но и распределение энергии по частотной полосе. При этом существуют моменты, когда соотношение долей энергии, содержащейся в частотной полосе, практически не изменяется. Эта закономерность выполняется, если отрезки речевых данных получены в одних и тех же условиях: для одного и того же звука при длительности отрезков анализа до 20 мс; для фрагмента где речевой сигнал стационарен; при одинаковом разбиении полосы частот (см. рис. 2). Эти свойства изменения частотного распределения энергии необходимо учитывать при скрытном кодировании контрольной информации в отрезках речевых данных. Оптимальными, с позиции учета свойств речевых данных, являются решающие правила с адаптивным определением порога по энергии отрезка данных и учитывающие распределение энергии по частотной полосе. Для определения частотной субполосы , в которой можно осуществить скрытное кодирование, предлагается решающее правило (7), зависящее от энергии анализируемого отрезка и от распределения энергии по частотной полосе: , (7) где - энергия отрезка речевых данных. Рис. 3. Спектр отрезка речевых данных, порожденных звуком «о» В равенстве (7) предлагается использовать близость энергии субполосы к среднему значению, приходящейся на частотную полосу отрезка данных. Также стоит отметить, что доля энергии любого из отрезков, принадлежащего звуку русской речи, сосредоточена в изменяющейся от звука к звуку малой части частотной полосы. На рис. 3 представлена огибающая спектра, являющаяся результатом оценки трансформант Фурье отрезка данных (см. рис. 1). Анализ рис. 3 показывает, что трансформанты Фурье с большей энергией сосредоточены в частотной полосе , при этом распределение энергии трансформант Фурье неоднородно. В данном диапазоне присутствуют узкие субполосы (см. рис. 3, полосы I-VII), энергия которых превышает среднее значение энергии, приходящееся на частотный интервал). Следовательно, для синтеза в малой части частотной полосы необходимо использовать сигнал, обладающий высокой частотной концентрацией. Для решения этой задачи воспользуемся собственными векторами субполосной матрицы, соответствующими единичным собственным числам. Субполосная матрица симметрична и положительно определенна, поэтому для нее можно найти собственных векторов и соответствующих им собственных чисел [4]: , (8) также справедливо , (9) где - -ый элемент собственного вектора субполосной матрицы ; - собственное число соответствующее собственному вектору субполосной матрицы, принимающее значение: . Использование собственных векторов, энергия которых сконцентрирована в заданной частотной полосе, позволяет повысить избирательность в частотной области при реализации задач анализа/синтеза. Для обеспечения избирательности, целесообразно использовать собственные вектора, собственные числа которых близки к единице (). Свойство соответствия собственных чисел собственным векторам, как критерия, применяемого при отборе векторов обладающих заданной концентрацией энергии, вытекает из следствия равенства Парсеваля (1). Следствие определяет пропорциональность доли энергии собственного вектора значению собственного числа ему соответствующего. Спектр одного из множества векторов, собственное число которого близко к единице, приведен на рис. 4. Заметим, что количество собственных чисел близких к единице зависит от ширины субполосы (6), то есть от способа разбиения частотной оси (10). Для реализации метода скрытного кодирования предлагается использовать разбиение вида ; r = 2; 3 … R ; (10) ; . Следует также отметить, что для разбиения (10) во всех частотных субполосах имеется пара собственных векторов субполосной матрицы, собственные числа которых близки к единице. Рис. 4. Спектр собственного вектора субполосной матрицы , в области трансформант Фурье К еще одному важному свойству собственных векторов субполосной матрицы, найденных для одной субполосы, можно отнести условие ортонормальности: . (11) Это свойство позволяет решить еще одну важную проблему анализа речевых сигналов, а именно, оценить вклад энергии вектора в отрезок данных. Такую операцию естественно называть частотной фильтрацией, а значение скалярного произведения собственного вектора на отрезок данных - субполосной проекцией: . (12) Субполосную проекцию можно использовать в задачах анализа и синтеза. Метод расширения спектра. К методам, обладающим высокой скрытностью и устойчивостью к воздействию шума, можно отнести кодирование на основе расширения спектра модулированным гармоническим сигналом [2-3]: , ; (13) , , (14) где - отрезок речевых данных с закодированной информацией; - коэффициент пропорциональности; - кодируемый символ контрольной информации; - бит контрольной информации - объем контрольной информации в битах; - псевдослучайная последовательность модулируемая гармоническим сигналом: , , , (15) где - псевдослучайная последователь-ность (ПСП), описываемая нормальным законом распределения ; - отрезок данных, соотвествующий гармоническому сигналу с центральной частотой . Коэффициент пропорциональности, определяющий скрытность контрольной информации и учитывающий энергию шума, в работах [2-3] рекомендовано выбирать как . (16) Декодирование контрольной информации методом расширения спектра осуществляется путем определения знаков проекций для отрезка данных и сохраненного отрезка модулированной случайной последователь-ности [6-7]: , , (17) где - символ декодируемый методом расширения спектра информации; - бит декодируемый методом расширения спектра. Основным недостатком метода расширения спектра является вероятность ошибки, возникающей при декодировании бит контрольной информации. Как будет показано далее вероятность ошибки на бит (BER) может достигать 0,3. Появление такой высокой вероятности ошибки вызвано корреляцией отрезка речевых данных с ПСП. Одним из способов уменьшения вероятности ошибки, являеться спользование модуляции гармонического сигнала ПСП для формирования сигнально-кодовой конструкции (СКК). Модуляция частично концентрирует энергию относительно центральной частоты . Но использование модуляции не позволяет полность сконцентрировать всю энергию ПСП в заданной полосе частот (см. рис. 5), что все равно приводит к изменению отрезка речевых данных во всей частотной области. Рис. 5. Спектр СКК в области трансформант Фурье для метода расширения спектра Также к недостатку метода можно отнести необходимость хранения ПСП, которая отвечает за передаваемый символ, или правила, по которому ПСП будет сформирована, а также хранение центральной частоты . Метод субполосных проекций. Исходя из приведенных выше соотношений (3)-(8), предлагается модель, осуществляющая скрытное кодирование бит контрольной информации в отрезок речевых данных : ; , , (18) где - операция выделения знака; - количество собственных векторов, собственные числа которых близки к единице. Декодирование контрольной информации осуществляется путем определения знаков проекций для собственных векторов субполосной матрицы , найденных для пространства : , ; , (19) где - символ декодируемый методом субполосных проекций; - бит декодируемый методом субполосных проекций. Кодирование, осуществляемое путем изменения знака субполосной проекции, позволяет использовать для скрытного кодирования энергетические свойства отрезка речевых данных. Использование субполосных проекций, полученных для векторов, собственные числа которых близки к единице, минимизирует их влияние на частотную полосу в тех местах, где скрытное кодирование не осуществляется. Результаты компьютерного моделирования Исходные данные. Компьютерное моделирование метода субполосных проекций и метода расширения спектра, реализовывалось в системе Matlab. Для этого была сформирована следующая база: - для формирования контрольной информации генерировалась бинарная случайная последовательность , содержащая элементов с одинаковым количеством нулевых и единичных бит [7]. Из полученной бинарной последовательности формировались символы (14); - была сформирована база отрезков речевых данных, соответствующая буквам русского языка, обладающая характеристиками: количество значений = 256; разрядностью = 16; частотой дискретизации = 8кГц; всего количество тестовых отрезков речевых данных составило ; - при помощи генератора Фибоначчи [7], была сформирована ПСП (), применяемая в методе расширения спектра. Последовательность разделена на некоррелированных отрезков длиной в = 256 значений; - в качестве модели шума используется белый гауссов шум, энергия которого равномерно распределена в частотной области с нулевым математическим ожиданием. Последовательность разделена на некоррелированных отрезков длиной в = 256 значений. Оценка скрытности. Для оценки скрытности контрольной информации, закодированной в отрезке речевых данных, использовалось выражение , (20) где - число проанализированных отрезков речевых данных. Моделирование осуществлялось следующим образом: - согласно разбиению частотной оси (10) анализировался каждый отрезок данных с целью выбора субполосы , удовлетворяющей решающему правила (7); - осуществлялось скрытное кодирование в субполосе символа методом субполосных проекций (20); - оценивалась энергия, вносимая методом субполосных проекций при кодировании символа: , (21) - оценивалась скрытность метода субполосных проекций (20); - осуществлялось скрытное кодирование на центральной частоте субполосы символа методом расширения спектра (13), с коэффициентом пропорциональности (21); - оценивалась скрытность метода расширения спектра (20). Степень искажения контролируемой информации (отрезка речевых данных), усредненная для каждого звука, соответствующего букве русского алфавита, сведена в таблицу 1. Моделирование показало, что у метода расширения спектра степень искажения достигает 7,1, а для метода субполосной проекции данный параметр не превышает 2,69. Иными словами при использование метода субполосных проекций изменения в энергии речевых данных практически равны нулю. Таким образом, для уменьшения степени искажения контролируемой информации для скрытного кодирования целесообразно использовать метод субполосных проекций. Оценка стойкости контрольной информации к воздействию шума. Значение вероятности ошибки на бит (BER), вычислялось согласно выражению: , (22) где - количество ошибочно принятых бит из всего объема контрольной информации; M - объем контрольной информации. Оценивалась ошибка, возникающая в результате воздействия шума: , (23) где: - соотношение шум/сигнал в разах; - отрезок речевых данных, содержащий контрольную информацию; - отрезок речевых данных, содержащий контрольную информацию, после воздействия шума. Таблица 1. Степень искажения контролируемой информации Буква метод субполосных проекций метод расширения спектра 1 2 3 а 1,91 3,0 б 1,85 2,8 в 1,97 1,9 г 1,69 1,8 д 2,08 2,4 е 2,11 2,2 ж 2,36 5,0 з 2,34 3,0 и 1,94 1,9 й 1,55 1,9 к 2,69 7,1 л 1,35 2,0 м 1,76 2,3 н 1,65 1,8 о 1,81 3,2 п 1,24 4,2 р 1,70 4,9 с 1,80 5,6 т 1,94 6,0 у 1,85 2,1 ф 2,28 6,6 х 1,22 5,6 ц 2,48 5,4 ч 1,98 5,7 ш 1,97 4,3 щ 2,04 6,9 ы 1,31 2,5 э 2,05 2,0 ю 4,7 я 2,41 2,5 Среднее значение 1,78 3,8 Стоит отметить, что в качестве модели использовался белый гаусов шум, энергия которого равномерно распределена в частотной области с нулевым математическим ожиданием. Для каждого соотношения «шум/сигнал» осуществлялось усреднение результатов по каждой букве. Также в ходе моделирования проводилась проверка направленная на то, чтобы шум, применяемый в методе расширения спектра, максимально отличался (имел корреляцию близкую к нулю) от шума, участвующего в оценке стойкости. Результаты компьютерного моделирования, представленные в виде кривых помехоустойчивости (см. рис. 6) с номерами I (метод расширения спектра) и II (метод субполосных проекций), показывают вероятности ошибок на бит при различных соотношениях «шум/сигнал». Рис. 6. Графики зависимостей вероятности ошибки на бит (BER) от отношения «шум/сигнал» для метода расширения спектра и метода субполосных проекций Численные результаты оценки появления ошибочного бита при декодировании контрольной информации в условии воздействия шума, представлены в таблице 2. В результате вычислительных экспериментов удалось установить, что контрольная информация закодированная предлагаемым метод субполосных проекций обладает в 18 раз большей стойкостью по сравнению с методом расширения спектра, при наиболее распространенном воздействии шума с соотношении «шум/сигнал» 0,001. Исследования частично финансировались в рамках грантов РФФИ №15-07-01463 и №15-07-01570 Таблица 2. Значения вероятности ошибки Характеристика Вероятность ошибки Отношение «шум/сигнал», метода расширения спектра метод субполосных проекций 1 2 3 0,0010 0,370828 0,021937 0,0100 0,370966 0,067710 0,1000 0,374175 0,180317 1,0000 0,394746 0,334562 Выводы В результате проведенных исследований установлено, что предлагаемый метод субполосных проекций обладает высоким уровнем скрытности контрольной информации по сравнению с методом расширения спектра, так как вызывает меньшие изменения в доле энергии отрезка речевых данных. Минимизация изменения в энергии той части полосы, где кодирование не осуществлялось, достигается за счет использования субполосных проекций, найденных для собственных векторов, собственные числа которых близки к единице. В предложенном методе изменения энергии близки к нулю, в методе расширения спектра не превышают 1%. Сравнение проводилось при учете равенства энергии добавляемых сигналов (энергии их проекций). Метод субполосных проекций обладает на порядок меньшей вероятностью ошибки декодирования контрольной информации. Этот показатель достигается за счет скрытного кодирования контрольной информации в узкой полосе, а, следовательно, и воздействие шума с равномерным распределением в частотной области меньше. Стоит отметить, что энергия шума с равномерным распределением, воздействующая на СКК в методе субполосных проекций, обратно пропорциональна ширине субполосы. Иными словами: чем уже субполоса, тем меньшая энергия шума оказывает влияние на СКК. Также важно для повышения помехоустойчивости отбирать для скрытного кодирования СКК, обладающие большей энергией. Исследования показали, что применение субполосных проекций для скрытного кодирования контрольной информации позволяет обеспечить высокую скрытность при небольшой вероятности ошибки, возникающей в результате воздействия шума. Также отличительным свойством метода является безошибочное декодирование контрольной информации, в случае если речевые данные не подвергались изменению.

About the authors

Evgeny Georgiyevich Zhilyakov

Belgorod State National Research University

Email: zhilyakov@bsu.edu.ru

Vladimir Petrovich Pashintsev

North Caucasus Federal University

Email: pashintsevp@mail.ru

Sergey Pavlovich Belov

Belgorod State National Research University

Email: belov@bsu.edu.ru

Petr Georgiyevich Likholob

Belgorod State National Research University

Email: likholob@bsu.edu.ru

References

  1. Алексеев А.П., Аленин А.А. Скрытая передача данных в звуковых файлах формата WAV // Инфокоммуникационные технологии. Т.8, №3, 2010. - С.101-106.
  2. Vercoe B.L. Csound: A Manual for the Audio-Processing System. MIT Media Lab, Cambridge 1995.
  3. Dutoit T., Marques F. Applied Signal Processing A MATLAB TM-Based Proof of Concept 2009.
  4. Жиляков Е.Г. Вариационные метода анализа и построения функций по эмпирическим данным. Белгород: Изд-во БелГУ, 2007.
  5. Жиляков Е. Г., Девицина C.Н., Лихолоб П.Г. Определение возможного объема внедряемой информации при скрытой передаче меток в речевых данных // Научные ведомости БелГУ. Серия «Информатика». Вып. 23/1, №13 (132), 2012. - С. 222-227.
  6. Жиляков Е.Г. Белов С.П., Черноморец А.А. Вариационные методы анализа сигналов на основе частотных представлений // Вопросы радиоэлектроники. Серия ЭВТ. Вып. 1, 2010. - С. 10-26.
  7. Иванов М.А., Чугунков И.В. Теория, применение и оценка качества генераторов псевдослучайных последовательностей // Вопросы радиоэлектроники. Серия ЭВТ. Вып. 1, 2003. - 240 с.

Statistics

Views

Abstract - 29

PDF (Russian) - 2

Cited-By


Article Metrics

Metrics Loading ...

PlumX

Dimensions


Copyright (c) 2015 Zhilyakov E.G., Pashintsev V.P., Belov S.P., Likholob P.G.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies