PHONEMIC TRANSCRIPTION METHODS FOR THE SDR SYSTEM


Cite item

Full Text

Abstract

Two phonemic transcription methods are described and compared in this paper. The first method is based on graph theory and the second method uses hidden Markov model (HMM). These methods are used in the spoken document retrieval (SDR) system. These two methods are compared on work time and effectiveness of search of spoken documents by text query. Values of precision and recall which are obtained by these methods are shown.

Full Text

Введение Качество работы современных информационных систем существенно зависит от применяемых методов контекстного поиска. Существующие методы поиска ориентированы в основном на обработку текстовых документов. В то же время все большее распространение получают кол -лекции мультимедийных, в том числе речевых, документов. Примерами таких документов являются радио- и видеоновости, аудиокниги, записи лекций, доклады конференций и т.п. Задача кон -текстного поиска речевых документов по текстовому или устному запросу относится к области Spoken Document Retrieval (SDR). Основными этапами работы SDR-системы являются: распознавание речи, индексирование и поиск документов, релевантных запросу [1]. При этом ошибки, возникающие на этапе распознавания, снижают эффективность SDR-системы в целом. Качество распознавания речи в основном зависит от используемого метода, количества и качества обучающих акустических данных, качества записи речевых документов, а также числа дикторов [3]. Улучшить качество распознавания речи можно переходом к распознаванию подслов [4] или фонов/фонем [5], что позволяет не зависеть от объема словаря, используемого при распознавании слов. Другой подход, позволяющий повысить эффективность SDR-системы, основан на использовании методов поиска, учитывающих ошибки распознавания речевых единиц [2; 6]. Так, в [2] результат фонемного распознавания корректируется на основе статистики ошибок, связанных с пропуском, заменой и добавлением фонем. Метод, изложенный в [6], использует фонемное транскрибирование текстового представления распознанных речевых документов и запросов пользователя, что позволяет учитывать сходство произношения речевых единиц. В данной работе анализируются два метода получения фонемных транскрипций слов, которые позволяют повысить эффективность контекстного поиска речевых документов. Данные методы частично учитывают сходство произношения речевых единиц и статистику ошибок распознавания слов речевых документов. Первый метод основан на теории графов, во втором методе используется скрытая марковская модель. Постановка задачи Транскрибирование представляет собой запись слов посредством некоторого алфавита, которая осуществляется для передачи особенностей произношения. Пусть задан алфавит фонем {ф*} и слово Wj представлено в виде последовательности букв V{V2 •••vm. Тогда задача фонемного транскрибирования заключается в построении соответствующей последовательности фонем для слова /(^2-0 = 9 іФ2-Ф„- (1) «Инфокоммуникационные технологии» Том 11, № 4, 2013 Прозоров Д.Е., Яшина А.Г 63 Алгоритм поиска Речевой документ dk коллекции D будем рассматривать как фразу \|fdk, состоящую из распознанных слов {wif* записанных слитно (без пробелов и знаков препинания). Текстовый запрос Q является набором ключевых слов {w.. Задача SDR сводится к поиску документов dk таких, что argmaxF(dk, Q), (2) где функция F вычисляет оценку релевантности документа dk&D запросу Q. Определим функцию F как F(dk,Q) = (3) где h - пороговое значение, t - количество слов запроса, L^dk,,vjf) - нормированная длина наибольшей общей подпоследовательности фразы и слова w® А> - (4) - длина наибольшей общей подпоследовательности фразы и слова wj, а /(wf ) -длина слова w®. Значения вычисляются посредст вом алгоритма поиска наибольшей общей подстроки [7], модифицированного для обработки фонемных последовательностей. В разработанном алгоритме используется вспомогательная матрица A размерности (i? +1)(^ +1), где R - длина фразы i|/*, а К - длина слова . Элементы матрицы A определяются рекуррентным соотношением «о,* = 0> к = 0,...,К; аг,о =°. г = 0,...,Я; (5) где параметр X. соответствует мере близости между (r + 1) - элементом фразы У*** и (k + 1)-эле-ментом слова w®. Тогда /(^;wö)=max(a^). (6) Каждое слово фразы или запроса представ- (W- W- W- І W- • сг ',с2', :;CNl ), где Cj‘ -J-ая - фонема слова wt. Соответственно, фонемное транскрибирование слова Щ заключается в полу- (Wj Wj W, I Су 1 ,C2 ). Фонемное транскрибирование с использованием дерева вариантов фонем (метод TREE) В данном методе фонемного транскрибирования слово рассматривается как последовательность комбинаций букв, по которой строится последовательность фонем. Каждая j-ая фонема определяется на основе j-ой и (j - 1)-ой комбинации букв и (j - 1)-ой фонемы слова. Для получения фонемного представления слова строится дерево возможных вариантов T. Вершины i-го уровня дерева T соответствуют возможным вариантам i-ой фонемы слова. Каждой дуге приписывается метка Яі = -Кф,-і І 1 I J/). (7) где P - условная вероятность, Ф/ - i-ая фонема, а Sj - i-ая комбинация букв слова. На рис. 1 приведен пример дерева возможных вариантов фонем для слова «кот». Рис. 1. Пример дерева возможных вариантов фонемного представления слова «кот» Фонемное транскрибирование заключается в нахождении пути от корневой вершины до одного из листьев дерева T, который содержит дуги с максимальным значением произведения меток. Пусть М — ^т^, j — - множество пу тей от корневой вершины до листьев дерева T, где z - число листьев. Тогда вершины, принадлежащие пути rrij с максимальным произведением меток Яі > представляют фонемную транскрипцию слова iV _ argmax Y\q\mj), (8) i-\ «Инфокоммуникационные технологии» Том 11, № 4, 2013 64 Прозоров Д.Е., Яшина А.Г. где - число дуг пути ntj. Подробное описа ние алгоритма построения дерева приведено в [6]. Фонемное транскрибирование на основе скрытой марковской модели (метод HMM) Для решения задачи фонемного транскрибирования можно использовать скрытую марковскую модель (Hidden Markov Model, HMM) [8], в которой наблюдаемые последовательности являются буквенными значениями слова, а скрытые состояния - фонемами. Для описания HMM требуется определение значений N - число состояний модели, M - число различных наблюдаемых реализаций, вероятностных мер A, B и л. Величины A и B соответствуют распределениям вероятностей переходов между состояниями и появления наблюдаемых реализаций в конкретном состоянии, соответственно. Мера 71 задает начальное распределение вероятностей состояний. Начальные параметры HMM определяются на основе статистических данных полученных при обработке словаря, который содержит слова в буквенном представлении и соответствующие им фонемные последовательности. Состояния HMM определяются алфавитом фонем, а наблюдения -возможными буквенными значениями, которые были выделены при сопоставлении значений фонемного и буквенного представлений слов из словаря. Начальное распределение вероятностей состояний вычисляется как частота появления фонем в словаре. Матрица A определяется вероятностями переходов между фонемами в слове. Элементы матрицы соответствуют значениям вероятностей р(ф; I Фу) и вычисляются как частоты появления последовательностей фонем Ф,Ф7-в словах словаря. Матрица B определяется условными вероятностями соответствия фо нем возможным буквенным значениям, которые вычисляются на основе используемого словаря. Для обучения HMM применяется алгоритм Баума-Уэлча [8]. Эксперимент Для проведения эксперимента разработана SDR-система на языке C#, использующая библиотеку pocketsphinx 0.7 [9] для распознавания речи и реализацию HMM [10]. Эксперимент заключался в выполнении поиска в коллекции [11], состоящей из 620 речевых документов. Эффективность поиска оценивалась посредством значений показателей полноты R (recall) и точности P (precision), которые усреднялись по 250 запросам, составленным на основе содержания речевых документов. Таблица 1. Показатели эффективности поиска Буквенное представление Фонемное представление R Р метод TREE метод НММ R Р R Р 46,9 48,2 57,09 50,51 58,2 49,3 В таблице 1 приведены результаты поиска, полученные на основе фонемного представления слов (методы TREE и HMM), а также без использования фонемного транскрибирования (буквенное представление). Результаты (см. таблицу 1) иллюстрируют возможность повышения эффективности контекстного поиска речевых документов при использовании методов фонемного транскрибирования. Оба метода фонемного транскрибирования содержат этап предварительной обработки. Так, в методе TREE требуется вычислить вероятности Р(фг._! \Si_J, Р(фг-1 Фг_і) и Р(фг к) на основе обучающего множества. Метод HMM, в свою очередь, включает этап обучения модели. В эксперименте использовалось обучающее множество, включающее речевые документы и соответствующие им фонемные транскрипции. Для сравнения эффективности рассмотренных алгоритмов фонемного транскрибирования использовалась коллекция из 620 речевых документов, содержащая 9422 слова. В таблице 2 приведено время, затрачиваемое на этапы предварительной обработки и транскрибирования коллекции документов рассмотренными методами. Таблица 2. Временные затраты при обработке кол лекции речевых документов Метод TREE НММ Время предварительной обработки, с 1,43 22,78 Время транскрибирования, с 38,04 9,46 Общее время, с 39,47 32,24 Выводы Фонемное транскрибирование текстов, полученных в результате распознавания речевых документов, позволяет повысить эффективность контекстного поиска SDR-систем примерно на «Инфокоммуникационные технологии» Том 11, № 4, 2013 65 23% по показателю полноты и на ~3,5% по показателю точности (см. таблицу 1). При использовании методов TREE и HMM достигаются сравнимые значения полноты и точности контекстного поиска (см. таблицу 1). Метод TREE проигрывает методу HMM в 4 раза по времени фонемного транскрибирования речевых документов и выигрывает в 15,9 раза на этапе предварительной обработки. Дальнейшее направление работы связано с разработкой параллельной реализации метода TREE и повышением эффективности контекстного поиска посредством учета ошибок распозн
×

References

  1. Kompatsiaris Y., Hobson P. Semantic Multimedia and Ontologies: Theory and Applications. Springer, 2008. - 290 p.
  2. Wechsler M. New Approaches to Spoken Document Retrieval // Information Retrieval. Vol. 3, 2000. - P. 173-188.
  3. Jones G., Foote J., Jones K.S., Young S. Video mail retrieval using voice: An overview of the stage-2 system // Electronic Workshops in Computing, Glasgow. Springer, 1995. - P. 7-7.
  4. Glavitsch U. The First Approach to Speech Retrieval // Technical Reports 238, ETH Zürich, Institute of Inofmation Systems, 1995. - 51 p.
  5. Ng K., Zue V.W. Phonetic Recognition for spoken document retrieval // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing. Vol. 1, 1998. - P. 325-328.
  6. Яшина А.Г. Алгоритм контекстного поиска речевых аудиофайлов на основе фонемного сравнения слов // Advanced Science. №1, 2012. - С. 73-85. http://www.vyatsu.ru /uploads/file/ 1210/1_(2).pdf
  7. Кормен Т., Лейзерсон Ч., Ривест Р., Штайн К. Алгоритмы. Построение и анализ. М.: ИД «Вильямс», 2005. - 1290 с.
  8. Рабинер Л.Р. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи. // ТИИЭР. Т. 77, № 2, 1989. - C. 86-120.
  9. CMU Sphinx. Open Source Toolkit For Speech Recognition // http://cmusphinx.sourceforge.net
  10. Accord.Net Framework // http://code.google. com/p/accord/
  11. FestLang // http://sourceforge.net/projects/ festlang.berlios

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2013 Prozorov D.E., Yashina A.G.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies