BIOMETRICS: A PREDICTION OF DURATION OF VOICE-FREQUENCY SOUNDS OF CONJOINT SPEECH


Cite item

Full Text

Abstract

The article considered the problem of division the conjoint speech into sounds, definition of their parametres and formation the bases of sounds characteristic for a voice of the individual person. It is offered to build a distribution of lengths of voice-frequency sounds and to predict the most probable length of one sound of conjoint speech on it.

Full Text

Введение. Механизм классификатора «тон/шум», построенный на линейном предсказании речи, на данный момент времени используется в большинстве современных вокодеров. К сожалению, качество принятия решений линейным предсказателем «тон/шум» низкое. Причина низкого качества состоит в покадровой обработке. В одном кадре может содержаться как тон, так и часть шума. Существует большая вероятность того, что автокорреляционная функция на таком промежутке даст на выходе неверное значение. Классификация «тон/шум» Автомат должен более надежно классифицировать фрагменты звука на тональные и шумовые. Для этого автомат должен обладать инфор мацией об ожидаемой длине звука в конкретной речи конкретного человека. На рис. 1 приведен пример звукового файла с результатом классификации «тон/шум». Из рисунка видно, что появляются тональные участки разной длины. Алгоритм, осуществляющий данную классификацию, использует покадровую обработку сигнала, что вызывает случаи, на ко -торых кадр может содержать одновременно тон и шум. На подобных участках кадра автокорреляционная функция становится неустойчивой, и велика ошибка в определении периода основного тона. Чтобы свести эту ошибку к минимуму, необходимо четко определять границы тона, при этом каждый раз уточняя необходимые параметры. Было произведено исследование по работе алгоритма линейного предсказателя на классификацию «тон/шум» на нескольких фразах разных людей. При десяти повторных произношениях, представленной на рис. 1 фразы алгоритм выдал несколько отличных друг от друга участков «тон/ шума». В целом, все аудиозаписи выявили общие тоновые и шумовые участки, иногда подобные, иногда разделенные. В данном примере кадр был взят длинной в 256 отсчетов. Постоянная потеря участков такой длины искажает биометрию пользователя и сказывается в задачах аутентификации человека по голосу. Рис. 1. Распределение «тон/шум» на фразе «Мишка косолапый» «Инфокоммуникационные технологии» Том 12, № 3, 2014 Калашников Д.М. 73 Рис. 2. Автокорреляционная функция на а) тоновом участке б) шумовом участке На рис. 2 приведен пример поведения автокорреляционной функции на чистом тоновом кадре и на плохо обусловленном. Из рис. 2 видно, что вытекает потребность к переходу к непокадровой обработке сигнала, в которой будет присутствовать постоянное уточнение тонового участка. При автоматическом вычислении машина ищет наибольшую вершину от точки отсчета, после чего считает количество отсчетов между этими точками. В случае как на рис. 2б, произойдет ошибка - период основного тона вычислится неверно, так как кадр является шумовым, и тональная периодичность отсутствует. На подобном кадре могут содержаться и тоновые составляющие, которые при обычной линейной обработке будут безвозвратно утеряны. На данный момент эффективного фрагментатора слитной речи на звуки не существует. Одна из причин, затрудняющая решение этой задачи, заключается в том, что не создано эффективных прогнозистов ожидаемой длины очередного звука слитной речи. Для того чтобы создать прогнозиста времени звуков, необходимо знать статистику их распределения. Простейшим способом получения этой статистики является использование классического линейного предсказателя «тон/шума» [1]. На рис. 3 приведена блок-схема алгоритма классификатора тон/шум. Сигнал проходит обработку на линейном предсказателе, выдает ошибку и значение периода основного тона. Впоследствии ошибка проходит на пороговый классификатор и заносится в базу шумов, на которой учится нейросетевой корректор «тон/шума». Постоянное поступление сигнала способствует накоплению базы, что дает постоянное уточнение порогов за счет непрерывного обучения нейронной сети. Континуально-дискретная модель распределениязначенийожидаемой длины последовательностей тональных звуков слитной речи Был проделан следующий эксперимент, состоящий в анализе 30-минутного речевого аудиофайла, прочитанного одним диктором. Далее зву Рис. 3. Алгоритм классификатора «тон/шум» «Инфокоммуникационные технологии» Том 12, № 3, 2014 74 Калашников Д.М. ковой файл был разбит на тональные звуковые фрагменты. Гистограмма распределений интервалов длительности тональных фрагментов звука приведена на рис. 4. На рис. 4 дана аппроксимация гистограммы смесью из шести нормальных законов распределений значений длин интервалов. Аппроксимация осуществлена, опираясь на зрительное восприятие. Мы видим, что наиболее вероятное значения длин одного, двух, трех и т.д. звуков кратно друг другу. Это условие может быть записано следующей системой уравнений ЕЮ = СВио; Е(Т2) - 2СБио ; Е(Тп) = пС1 Био ? (1) где ЕЮ - математическое ожидание нормальных распределений. Очевидно, что с увеличением статистики распределений точность определения средней длины звука будет увеличиваться. На рис. 5 приведена гистограмма распределений, полученных при 30-минутном непрерывном чтении текста женщиной. Из рис. 5 видно, что средняя длина звука несколько другая, но так же сохраняется и есть возможность ее выделения. Статистическая модель предсказателя длины звуков существенно упрощается, если принять гипотезу одинаковых значений среднеквадритче-ских отклонений распределений длин звуков: и. - Ç_)» - ... - {_) - CJ г « 1 2 П Био (2) Еще одним параметром статистической модели является отношение значений максимумов нормальных распределений. Из рис. 4 видно, что наибольшим является первое распределение, а <0l« ІР0 Ü» { Рис. 4. Смесь нормальных законов распределения значений длительности звуков тональной слитной мужской речи Рис. 5. Смесь нормальных законов распределения значений длительности звуков тональной слитной женской речи «Инфокоммуникационные технологии» Том 12, № 3, 2014 Калашников Д.М. 75 последующее уменьшается. Значения Рх,Р2,..,Рп монотонно убывают, однако Pl+P2+... + P6* 1. (3) Последнее обусловлено тем, что каждое из нормальных распределений появляется со своей вероятностью. Сумма всех вероятностей событий должна быть единичной. Оценить вероятность появления кажого из шести нормальных законов можно путем выделения равных интервалов вокруг математических ожиданий и подсчета попавших в эти интервалы значений: 1 £(7})+СТ -(E(Tt)-tf Pt=-J= І е 2-2 dt. (4) Cr-v/2Ж ЕІТ^-ст В (4) принят интервал размером в два среднеквадратических отклонения от математического ожидания. Вычисления (4) могут быть проведены однократно, так как отношения рассматриваемых вероятностей не зависят от диктора, являясь параметрами языка, на котором говорит диктор: р р р -t = Ki’ у=Кп у- = Кі . (5) Г 1 2 -* и Суперпозиция нормальных законов распределения может быть представлена как АРі + + ••• + А>% « 1, (6) . -щтр-о2 где (р{ =-і и - число распре-о42п делений. Таким образом, опираясь на вышеописанную статистическую модель, можно создать достаточно эффективные предсказатели длин звуков слитной речи. Эта модель должна постоянно подстраиваться по своим параметрам при анализе речи. По мнению автора, человек способен надежно предсказывать интервалы звуков, опираясь на 2-3 слова, произнесенные диктором. Искусственный автомат, предсказывающий длину звука, должен работать, опираясь на статистику порядка 20-30 слов, произнесенных диктором. Вопрос определения шума как в отдельности и накапливании базы образов шумов является не менее важным. Опираясь на его знание, с увеличением статистики точность определения границ тона становится выше. При произношении слов диктором могут возникнуть помехи со стороны, что повлияет на участки звука, и из-за этого автомат может посчитать это за тон, что скажется на точности вычисления математического ожидания периода основного тона. Заключение Суть проводимых исследований заключается в построении автомата по вычислению средней длины звука и его привязке к классификатору «тон/шум». Их взаимная работа будет способна уточнять параметры и накапливать базу по мере поступления сигнала.
×

About the authors

D. M Kalashnikov

Email: riderofthesun@gmail.com

References

  1. Грей М. Линейное предсказание речи. М.: Связь, 1980. - 154 с.
  2. Иванов А.И. Идентификация человека по особенностям его голоса. Пенза: ПНИЭИ, 2011. -С. 25-28
  3. Иванов А. И. Подсознание искусственного интеллекта: программирование автоматов нейросетевой биометрии языком их обучения. Пенза: ПНИЭИ, 2012. - 125 с.
  4. Волчихин В.И., Иванов А.И., Фунтиков В.А., Малыгина Е.А. Перспективы использования искусственных нейронных сетей с многоуровневыми квантователями в технологии биометрико-нейросетевой аутентификации // Известия вузов. Поволжский регион. Технические науки. №4(28), 2013. - С. 88-99.
  5. Rabiner L.R., Jang B.H. Fundamentals of speech recognition. New Jersey: Prentice Hall PTR, Englewood Cliffs, 1993. - 507 с.
  6. Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи. М. Радио и связь, 2000. - 456 с.
  7. Гришин В.М., Калашников Д.М. Речевой фрагментатор для нейросетевого биометрического вокодера // Безопасность информационных технологий. №8, 2012. - С. 73-76.

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2014 Kalashnikov D.M.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies