EXTRACTION OF PHONEMES FROM THE MERGED SPEECH AND THEIR IDENTIFICATION


Cite item

Full Text

Abstract

In this paper, we propose a method for determining the location of phonological formants that is not associated with the analysis of the amplitude spectrum and provides their isolation in the merged speech. The formants selected on this basis are grouped into phonemes, the correspondence of which to a particular sound is determined by the minimum distance from the base phonemes. A table of basic phonemes of vowels and several consonants is compiled. The regularity of the location of the basic phonemes and their binding to the coordinates of the location on the main membrane of the cortical organ is revealed. The results of the work are intended for creating autonomous automated speech recognition systems.

Full Text

Введение Несмотря на высокую скорость развития вы- числительной техники и информационных тех- нологий, основные проблемы речевых приложе- ний до сих пор остаются актуальными. Основной причиной существующих проблем в распознава- нии речи является видимая сложность структуры речевого сигнала, содержащего огромное разно- образие фонетических единиц языка, интонацион- ных окрасок и личностных особенностей говоря- щего. В результате речевые сигналы достаточно сложно детально исследовать и описывать с по- мощью математических моделей. Показательным является фактическое отсутствие систем распоз- навания русской речи со сверхбольшим словарем [1]. Наименьшим элементом речи является звук, который, как правило, в изолированном виде не существует. Точного определения понятия звука речи нет. Его, скорее всего, можно сравнивать с рукописной буквой [2]. Типизированные зву- ки речи в технике связи называются фонемами. Фонема - наименьшая звуковая единица данного языка, дифференцирующая слова и их формы и существующая в речи в целом ряде конкретных звуков - оттенков. Реализация фонемы, ее вари- ант, обусловленный конкретным фонетическим окружением, назван аллофоном. Речевой сигнал представляет реакцию резо- нансной системы голосового тракта на возбуж- дение его одним или несколькими генераторами звуковых колебаний. Основные резонаторы обра- зуются полостями рта и глотки, а в ряде случаев и носовой полостью. Области концентрации энер- гии в спектре звука речи, образуемые в том чис- ле и основными резонаторами, называются фор- мантами. Форманта, определяющая восприятие конкретного звука речи, называется фонологиче- ской формантой [2]. Кинематика речевого трак- та в большинстве случаев позволяет произвести не более трех локальных сужений одновремен- но - на губах, кончике языка и в районе нёбной занавески. Это дает основания утверждать, что смысловая информация в речевом сигнале пере- дается (для вокализованных звуков) параметрами первых трех формант [3]. Однако выделение фонологических формант вызывает значительную трудность, так как рече- вой тракт представляет собой многорезонансную систему, поэтому временной сигнал на его вы- ходе есть результат наложения большого числа затухающих гармонических колебаний, а спектр амплитуд характеризуется множеством максиму- мов, которые являются ложными формантами, нехарактерными для данной фонемы [2; 4]. Кро- ме того, формантный максимум может раздваи- ваться, ложная форманта может иметь уровень выше основной [2]. Дополнительно спектраль- ные составляющие основного тона часто маски- руют первую форманту. Поиски признаков и выделение инвариант- ных к диктору и контексту фонем продолжались вплоть до 90-х годов, но успеха не имели в том смысле, что ни одна из существующих в настоя- щее время систем распознавания речи результаты этих изысканий не использует. Отсутствие успе- ха в поиске локализованных во времени фонем объясняют тем фактом, что в естественной речи органы речеобразования практически никогда не занимают положений, характерных для изоли- рованно произнесенных звуков, а лишь обозна- чают движение в нужном направлении, то есть речевой аппарат готовится к произнесению не- которых звуков заранее. Этот эффект называется коартикуляцией. Взаимовлияние фонем не огра- ничивается соседями, а может распространяться на несколько соседних фонем и даже на целое слово. В связи с этим, «используя аналогию с атомами, а лучше с квантами, можно заметить, что фонема скорее имеет “волновую” природу, то есть ее признаки “размазаны” по протяженному во времени отрезку, причем признаки различных фонем накладываются друг на друга» [5]. Дан- ные факторы приводят к отсутствию в общем случае соответствия фонетических символов и спектральных распределений, что доказано раз- личными опытами и исследованиями. Между спектральной и фонетической функциями мо- жет быть установлено однозначное соответствие только при строгой стабилизации акустических условий и одном дикторе [6]. Для выбора произнесенной диктором фоне- мы используется многоступенчатая обработка на этапах предварительного выделения группы аллофонов, распознавания слов и морфем (наи- меньшая единица языка, имеющая некоторый смысл), лексического и смыслового контроля. На каждом этапе выполняется сложная обработ- ка с использованием нейронных сетей, динами- ческого программирования, скрытых и неодно- родных марковских моделей и других методов. Целью методов обработки является нахождение имеющегося в базе данных образа, наиболее близкого к анализируемому образу фонемы, мор- фемы, слова и предложения. Многообразие спектров фонем в слитной речи, сложность выделения фонологических формант и большие успехи в создании полосных вокоде- ров привели российских исследователей Вар- шавского Л.А. и Литвака И.М. к гипотезе о том, что фонетическое качество звуков определяется уровнем соотношений мощности в спектральных полосах, а форманты являются лишь доступным для речеобразующего аппарата способом до- стижения необходимых полосных соотношений. В начале 60-х годов была сформирована на осно- ве большого экспериментального материала те- ория расчета разборчивости речи, принявшая за основу полосное представление речевого сигна- ла, исключавшая из рассмотрения форманты [7]. «Тонотопическая организация» перифериче- ской слуховой системы, при которой информа- ция о спектральных компонентах, выделенная улиткой, проходит до соответствующих отделов центральной нервной системы, не перемешива- ясь, принята за доказательство того, что ампли- тудный спектр сигнала является основой для рас- познавания речи человеком и, следовательно, для автоматических систем распознавания речи [5]. В связи с этими факторами в настоящее время в подавляющем большинстве систем распознава- ния для последующей обработки используется преобразование временного электрического сиг- нала в спектр Фурье. В то же время положению о «волновой» при- роде фонемы противоречат результаты испыта- ний, в которых «несмотря на огромное разно- образие артикуляционных движений в связной речи и непрерывный характер речевых сигналов, говорящие на данном языке способны субъек- тивно расчленять речь на фонемы. Фонетисты дают транскрипцию связной речи, используя разработанные для этой цели фонетические ал- фавиты» [4]. Кроме того, многочисленные видео- граммы фраз связной речи [2, см. рисунки 6.25 и 10.30] показывают наличие достаточно выражен- ных границ между фонемами. Прослушивание слитной речи по частям также показывает, что органы слуха распознают звук речи в самом на- чале произношения звука, когда инструменталь- ные характеристики не выделяют достоверные признаки фонемы. Проведенные автором экспе- рименты на гласных звуках показали, что иден- тификация звука происходит при длительности отрезка не менее 10…12 мс на всем протяжении звука по видеограмме. Так как основу распознавания звуков речи человеком и, следовательно, автоматическими системами распознавания речи составляет ам- плитудный спектр, не акцентируется внимание на том факте, что улитка, являющаяся главным элементом периферической слуховой системы, не обладая сильными резонансными свойствами, представляет скорее линию задержки или вре- менной анализатор [5]. Известно, что под воздействием входного зву- кового сигнала в улитке возникают две бегущие волны. Одна волна возникает в основной мем- бране, скорость распространения которой вдоль мембраны равна 50 мм/мс в непосредственной близости от овального окна, и, уменьшаясь по экспоненциальному закону, достигает у гелико- тремы значения 1,5 мм/мс. Скорость другой зву- ковой волны, распространяемой в перилимфе, в среднем равна 1500 мм/мсек. В связи с этим ло- гично предположить, что на чувствительные клет- ки воздействуют два сигнала, при этом в каждой точке мембраны имеется различный временной сдвиг между воздействующими сигналами [8]. В зависимости от характера взаимодействия эле- ментов кортиевого органа на чувствительные клетки возможно суммарное или разностное воз- действие сигналов. При разностном воздействии в точке мембраны, для которой задержка между сигналами равна периоду определенной частоты, происходит частичная компенсация сигнала дан- ной частоты и, соответственно, уровня общего сигнала. При суммарном воздействии частичная Рисунок 1. Спектр звука «а» из слога «АО» компенсация происходит в точке мембраны, для которой задержка между сигналами равна полу- периоду частоты. Вполне вероятно, что, исполь- зуя данный механизм, слуховой аппарат выделяет из спектра частот частотные группы, которые яв- ляются фонологическими формантами. Целью исследования стало определение воз- можности выделения фонологических формант в слитной речи на основе сложения или вычитания речевых сигналов с различным временным сдви- гом и выявление закономерностей в организации системы распознавания звуков речи. Результаты экспериментов Определение возможности выделения фоно- логических формант выполнялось моделирова- нием преобразований в среде Matlab. Анализу подвергались гласные звуки «а», «о», «у» и «и», произносимые в слогах группой из 5 дикторов, в состав которой входили двое мужчин, две жен- щины и ребенок. Речевой сигнал после оцифров- ки с тактовой частотой 8000 кГц поступал на об- работку. Сигнал после фильтрации различными видами фильтров разделялся на два канала. В од- ном из каналов производилась его задержка на значения, равные полупериодам частот в диапа- зоне от 200 Гц до 3500 Гц. После суммирования сигналов они разбивались на участки по 2,5 мс, на которых вычислялся средний уровень сигнала. На участках длительностью 25 мс с шагом 25 мс фиксировался минимальный уровень, ко- торый выводился на результирующий график. В процессе анализа были испытаны варианты использования фильтров верхних частот, поло- совых фильтров с полосой пропускания 200 Гц и фильтров, имеющих амплитудно-частотную характеристику (АЧХ), близкую к АЧХ точек ос- новной мембраны. Сравнительные испытания Рисунок 2. График функций суммарных сигналов первой и второй формант звука «А» из слога «АО» показали, что применение имитаторов фильтров мембраны дает лучший результат. На рисунке 1 показан амплитудный спектр звука «а» из слога «ао», выполненный полосовы- ми фильтрами с полосой пропускания 200 Гц на участке длительностью 75 мс. На спектре гармо- ники импульсов основного тона фактически за- маскировали первую форманту, создав неопреде- ленность в распознавании звука. На рисунке 2 показаны графики функций сум- марных сигналов, прошедших мембранные филь- тры со средними частотами 750 Гц (форманта F1) и 1275 Гц (форманта F2). Следует отметить, что функция выделила только две фонологические форманты 725 Гц и 1000 Гц, исключив из рас- смотрения ложные форманты в области 300 Гц и 2300 Гц, которые идентифицируют звук «и», а также колебания на 450 Гц, 525 Гц и 640 Гц. Так как в амплитудном спектре присутствуют ча- стоты, комбинация которых может принадлежать звукам «у», «о», «а» и «и», автоматизированной системе распознавания пришлось бы проводить дополнительный анализ. Аналогичный результат показала обработка остальных анализируемых звуков различных дикторов. В процессе выполнения работы было выдви- нуто предположение, что указанной обработке подвергаются и согласные звуки, в том числе взрывные, которые опознаются с достаточной степенью надежности по амплитудно-частотному спектру [3]. Для проверки данного предположе- ния был проведен анализ нескольких согласных звуков («С», «Ш», «Д», «Б», «Х») в непрерывной речи. На рисунке 3 показан спектр области первой форманты звука «Ш» из слова «САША», вы- полненный полосовыми фильтрами с полосой Рисунок 3. Спектр области первой форманты звука «ш» из слова «САША» Рисунок 4. График функций суммарных сигналов первой и второй формант звука «ш» из слова «САША» Рисунок 5. Контуры, охватывающие большинство точек зависимости частоты первой форманты от частоты второй для девяти английских гласных звуков пропускания 200 Гц на участке, длительностью 75 мс. По данному спектру достаточно сложно выделить фонологическую форманту. На рисунке 4 показаны графики функций сум- марных сигналов, прошедших фильтры высоких частот с частотой среза 1500 Гц (форманта F1) и 4100 Гц (форманта F2). Созданные функции вы- делили только два минимума, соответствующие фонологическим формантам с частотами 2900 Гц и 5200 Гц, что не противоречит положению, что наибольшая степень управляемости акустиче- ских характеристик речевого сигнала при сосре- доточенном возмущении может быть достигнута лишь относительно пары резонансов [3]. В связи с этим можно предположить, что произведено выделение двух фонологических формант и по- добная обработка речевого сигнала может выпол- няться в слуховом органе уже на первичном этапе обработки. Приняв за основу предположение, что в ре- чевой информации фонемы кодируются двумя фонологическими формантами и их выделение выполняется в кортиевом органе, рассмотрим возможную связь фонемных областей с физиче- скими характеристиками органов слуха. При рассмотрении спектрограмм русских зву- ков от различных дикторов выяснилось, что от- клонения от средних спектрограмм подчиняются Рисунок 6. Стилизованное представление графика девяти английских гласных звуков Рисунок 7. График разностей высот тона формант девяти английских гласных звуков нормальному закону распределения в каждой из полос, равных в масштабе мел. Таким образом, решение задачи распознавания по существу трак- туется как решение задачи выбора одного из по- лезных сигналов на основе смеси сигнала и по- мехи [2]. В [9] отмечены контуры областей для девяти английских гласных. Копия указанного графика приведена на рисунке 5. При анализе данного графика можно обратить внимание на тот факт, что координаты пары формант для каждого звука группируются в некоторые области. Если отметить с некоторой степенью досто- верности данные области и их центры, то можем прийти к следующему графику, представленному на рисунке 6. При рассмотрении рисунка 6 автором было сделано предположение, что одним из факторов распознавания речевых звуков является разность по частоте между первой и второй формантами. С этой целью был составлен график зависимости звука от расстояния между формантами в размер- ности высоты тона в мелах. Перевод частоты в Рисунок 8. Высоты тона первых и вторых формант центров областей девяти английских гласных звуков Рисунок 9. Графики расположения частот на мембране кортиевого органа высоту тона выполнялся по зависимости [2, см. рисунок 5.1]. Результат приведен на рисунке 7. Из графика видно, что разности формант боль- шинства гласных звуков укладываются в сетку 200 мел. При учете факта достаточно грубого выделения областей звуков и их центров данная зависимость заставляет обратить на себя особое внимание. На рисунке 8 первые и вторые форманты цен- тров областей размещены по возрастанию их мелодической высоты тона. На данном графике точки, соответствующие первым формантам, за- чернены. Из графика видно, что частоты центров в основном имеют различное значение, при этом точки, соответствующие вторым формантам, рас- полагаются в промежутках точек первых фор- мант, соблюдая имеющуюся дистанцию. Учитывая, что для характеристики звуков речи используются различные системы параметров, оценивающие речь по различным критериям, ав- тор посчитал, что в качестве основы анализа сле- дует использовать геометрические характеристи- ки органов слуха, в частности расположение на кортиевом органе чувствительных клеток. В литературе опубликовано несколько различ- ных графиков расположения частот на мембране кортиевого органа. Автором было проведено срав- нение зависимостей, выведенных на основе из- мерений амплитудных характеристик смещений базилярной мембраны, выполненных Bekesy G. [4, см. рисунок 4.6], графика пороговых значений девиации частоты [10, см. рисунок. 12.4] и графи- ка естественных шкал основной мембраны вну- треннего уха [10, см. рисунок 13.2]. Выведенные зависимости изображены на рисунке 9. На нем сплошной линией изображена зависимость, опре- деленная по графику пороговых значений, штри- ховой линией - по графику естественных шкал, пунктирной линией - по измерениям Bekesy G. На рисунке 9 график по [10, см. рисунок 12.4] смещен по оси расстояния на 5,5 мм, а график по [10, см. рисунок 13.2] смещен на 3,4 мм. По графикам видно, что в рассматриваемом диапазоне частот 200…4000 Гц результаты равны с точностью до постоянной. Этот факт может сви- детельствовать о том, что используются различ- ные точки отсчета и/или авторы используют раз- личные критерии для определения характерных точек. Учитывая идентичность характеристик, для дальнейшей работы использую функцию, по- строенную на основе пороговых значений девиа- ции частоты [10]. Перевод графика разностей высот тона фор- мант по рисунку 7 в размерность расстояний показывает, что расстояния между формантами одного звука укладываются в основном в сетку 2 мм. Расстояние в 2 мм, превышающее отрезок влияния, равный 1,3 мм [10], обеспечивает четкое независимое восприятие формант и допускает ошибку в произношении или выделения форман- ты практически до 100 Гц при правильной иден- тификации звука речи слуховым органом. Минимальная величина ступени ощущения высоты тона, определяемая слушателем при прослушивании тестового сигнала, зависит от уровня тестового сигнала. Установлено, что для сигнала с уровнем 80 фон ступень соответствует 37 мкм по основной мембране кортиевого орга- на [10], а для уровня 70 дБ соответствует 52 мкм [8]. Предполагая, что шаг расположения формант связан со ступенями ощущения высоты тона, на основании графика по рисунку 8, переведенного в расстояния, вычисляю гистограмму расстояний между первыми 37 точками. В связи с ограничен- ным материалом гистограммы строю для трех параметров: 37 мкм для максимальной чувстви- тельности, 52 мкм в соответствии с [8] и 74 мкм, исходя из предположения, что расстояние меж- Рисунок 10. Гистограммы расстояний между точками формант для интервалов анализа 37, 52 и 74 мкм ду формантами располагается в сетке с шагом, равным двум ощущениям высоты тона по [10]. Полученные гистограммы приведены на рисун- ке 10. На рисунке гистограмма с шагом 74 мкм изображена сплошной линией, с шагом 52 мкм - точечной, с шагом 37 мкм - штриховой линией. Гистограммы показывают, что наиболее веро- ятное расстояние между точками базовых фор- мант находится в области 74…104 мкм. На основе [10] примем, что шагом ощущения высоты тона является фиксированная группа из четырех клеток, занимающая на основной мем- бране отрезок в 9 × 4 = 36 мкм. Для надежного распознавания высоты тона необходимо, что- бы при слабом звуке расстояние между точка- ми анализа было не меньше удвоенной ступени распознавания высоты тона при понижении чув- ствительности. Шаг анализа высоты тона принят равным 36 × 3 = 108 мкм достаточно условно по следующим соображениям: он в два раза больше 52 мкм, определенных в [8], обеспечивает разделение формант по высо- те тона; 20 последовательных участков составляют 2,16 мм, которые были приняты ранее за сетку расстояний между формантами одного звука; фиксированные группы из четырех клеток с шагом три группы образуют базовую сетку ана- лиза основных формант, удовлетворяющую усло- виям предыдущих положений. Исходя из указанных положений, сформиро- вана таблица расположения базовых формант. При построении таблицы выяснилось, что в сетку 2,16 мм попадают разности формант только 6 английских гласных из 9, но остальные укла- дываются в сетку 1,08 мм при минимальном рас- стоянии не менее 3 мм. Дополнительно в таблицу Таблица. Взаимное расположение базовых формант на основной мембране кортиевого органа 1 2 3 4 5 6 7 8 9 10 0 И Б i1 У Ы u1 u2 i2 10 i3 I1 u3 Э ɔ1 20 I2 U1 U2 О ε1 30 U3 ɔ2 I3 ε2 У Λ1 ɔ3 u1 ɔ1 œ1 40 А ε3 a1 О Λ2 50 œ2 ɔ2 a2 Λ3 ɔ3 u2 œ3 60 a3 U1 a1 70 А Б a2 U2 u3 Λ1 Х 80 a3 Ы Λ2 Я С 90 U3 Λ3 Д œ1 100 Э ε1 110 œ2 I1 Я œ3 120 И i1 ε2 130 I2 Ш Д i2 140 I3 ε3 150 i3 160 170 Ш С 180 190 Х включены форманты шести гласных звуков рус- ского языка [11] и согласные звуки, параметры которых определены в процессе проведения работ. С целью лучшей визуализации таблица при- ведена в размерности принятого шага анализа высоты тона, равного 0,108 мм, и со смещен- ным началом отсчета расстояния. Цифры рядом с фонетическим знаком обозначают порядковый номер аллофона, подчеркнутые знаки отмечают размещение вторых формант данного аллофона. По частотным координатам гласных звуков в та- блице сформирован показанный на рисунке 11 суммарный график с исходными и табличными частотами базовых формант. На рисунке 11 знаками «+» отображены ис- ходные данные, знаками «*» - русские гласные звуки, знаками «о» - результаты преобразова- ний. Сводный график показывает достаточно высокую степень совпадения частот. Для первой форманты несовпадение не превышает 10 Гц, для второй - не более 80 Гц. Координаты звука ɔ3 были смещены преднамеренно после деталь- ного рассмотрения рисунка 5. При выполнении дальнейших работ полученные в результате пре- образований фонемы условно назовем базовыми фонемами. С целью проведения дальнейшего анализа строю график расположения первых формант и расстояний между формантами в размерности принятого шага анализа высоты тона. График представлен на рисунке 12. Анализ данного гра- фика показывает следующее: при близком расположении первых формант разность вторых формант разных звуков значи- тельно отличается; первые форманты одинакового звука распо- лагаются на некотором расстоянии друг от друга при одинаковой разности формант. Указанные свойства базовых фонем обеспе- чивают высокую помехоустойчивость речевого сигнала и правильное выделение звука при зна- чительном различии размеров органов артику- ляции у мужчин, женщин и детей. Установлено, что на фонемном уровне потенциально возможно обнаружить около 75 % и исправить около 37,2 % одиночных ошибок и восстановить до 75 % про- пущенных артикуляционных признаков [3]. С целью определения возможности распо- знавания звуков в слитной речи было проведено выделение фонологических формант предложен- ным методом и вычисление дистанции текущих фонем от базовых фонем различных звуков. Гра- фик дистанций звуков от базовых фонем в слове «САША» представлен на рисунке 13. На рисунке сплошной толстой линией изо- бражена текущая дистанция звука «С», штрих- пунктирной - звука «А», пунктирной - звука «Ш». Для сравнения тонкой линией изображена текущая дистанция звука «О», отсутствующая в данном слове. С целью наглядности на графике не показаны дистанции произнесенных звуков от базовых фонем остальных звуков. Показания сняты с шагом 25 мс, длительность окна анализа составляет 25 мс. Рисунок 11. Сводный график расположения гласных звуков в координатах частот первой и второй формант Рисунок 12. График расположения первых формант звуков и расстояний между формантами данного звука Из графика видно четкое выделение звука по минимальной дистанции, относительная ста- бильность дистанции на всем участке произно- шения звука и короткий переход от звука к звуку продолжительностью не более 25 мс. Автором был проведен ряд экспериментов по анализу йотированных звуков «Я» и «Ё». Спек- тральный анализ ряда слов с указанными зву- ками, выполненный полосовыми фильтрами с полосой пропускания 200 Гц, показал наличие изменяемой в течение 100…150 мсек форманты. Для звука «Я» форманта изменялась от 1900 Гц до 1500 Гц с последующей фиксацией в данной области. При этом в течение всего времени про- изношения звука «Я» на участках длительностью 12,5-25 мс слышался только этот звук. Данный эффект проявлялся как для начального располо- жения звука (слово «ЯБЛОКО»), так и внутри слова (слово «ДЯДЯ»). Рисунок 13. График дистанций звуков от базовых фонем в слове «САША» Рисунок 14. График дистанций звуков от базовых фонем в слове «ДЯДЯ» График дистанций звуков от базовых формант для слова «ДЯДЯ» представлен на рисунке 14. Данный график показывает выделение звука «Я» на всем протяжении его произношения. Обсуждение результатов Ряд исследований, выполненных отечествен- ными и зарубежными физиологами [3], конста- тируют различия в обработке слуховым анали- затором человека речевых и неречевых звуков. Следовательно, в речевом сигнале имеется пара- метр, который отсутствует в естественных при- родных звуках, в том числе издаваемых живыми организмами, и по которому слуховой анализатор определяет необходимость особой обработки звукового сигнала. Установлено, что в речевом тракте наиболь- шая степень управляемости акустических харак- теристик речевого сигнала может быть достигнута лишь относительно пары резонансов. Если предположить, что эти два резонанса создают пару фонологических формант и их образова- ние и поддержание в требуемом состоянии яв- ляется целью системы управления по созданию акустического образа фонемы, то получим пере- дачу речевой информации двухтональным много- частотным аналоговым сигналом, аналогичным сигналу DTMF, используемому для набора теле- фонного номера. Для безошибочного приема информации не- обходимо, чтобы кодовое расстояние между бли- жайшими фонемами было не менее двух частот- ных групп, равных 90 мелам и соответствующих зонам влияния на кортиевом органе [10]. При соблюдении указанного условия в речевом диа- пазоне частот может разместиться до 70 взаимно независимых двухчастотных фонем (без учета возможной реализации в речевом аппарате). Ко- личество речевых звуков в большинстве языков находится в диапазоне 35…46 фонем, что может служить одним из подтверждений правильности выбранного направления исследований. Выявленные достаточно узкие диапазоны ча- стот для первых формант гласных звуков могут служить основанием считать, что для кодирова- ния используется фиксированная сетка частот. На основании изложенного были определены четы- ре условия, которым должна удовлетворять кодо- вая таблица речевой информации. Физическая реализуемость при статическом и динамическом состоянии речевого аппарата. Расстояние между двумя частотами одной фонемы не менее двух частотных групп. Кодовое расстояние между ближайшими фонемами не менее двух частотных групп. Сетка частот должна обеспечивать досто- верную различимость ближайших частот, то есть расстояние между ними должно быть не менее двух ступеней ощущения высоты тона. По результатам анализа вариантов размеще- ния кодовой таблицы и с учетом долговременной стабильности ее для субъекта, а также идентич- ности для разных языков была принята гипотеза о том, что указанная таблица присуща только че- ловеку - при этом каждой частоте соответствует отдельная группа чувствительных клеток, рас- положенных на определенном расстоянии от ге- ликотремы. С учетом указанных условий и была разработана таблица «Взаимное расположение базовых формант на основной мембране кортие- вого органа». При составлении кодовой таблицы использованы материалы [9; 11] и согласные зву- ки, параметры которых определены в процессе проведения работ. Звуки в русской речи имеют длительность от 30 до 200 мс [2]. Следовательно, речевая инфор- мация передается двухчастотными посылками со стабильными в течение 30-200 мс частотами на фоне общего сигнала с относительно широким спектром частот. Такая комбинация параметров в природных звуках встречается достаточно редко и может служить отличительным признаком ре- чевого сигнала. Наличие в улитке двух бегущих волн вызы- вает повышение и уменьшение уровня сигнала в точках мембраны в соответствии с разностью фаз пришедших в данную точку сигналов. При этом для широкополосного сигнала уменьшение или увеличение среднего уровня возникает в точках, соответствующих присутствующим стабильным по частоте сигналам. Указанный способ позволяет выделять частотные посылки различной длитель- ности. В [4; 10] экспериментально установлено, что слух способен не только выделять из спектра частот шума единственную частотную группу, но и определять наличие и местоположение провала в спектре шума. Моделирование данного процес- са на слогах и словах русской речи показало: наличие для большинства звуков двух сиг- налов с мало изменяемыми в течение 25-200 мс частотами; возможность выделения указанных сигна- лов методом суммирования и вычитания двух по- токов речевого сигнала с различным сдвигом по времени; соответствие выделенных частот фонологи- ческим формантам; устранение в большинстве случаев коарти- куляции и четкое выделение границы фонем при идентификации выделенных фонем по вычис- ленным дистанциям от базовых фонем; стабильную идентификацию фонем, выде- ляемых при испытаниях йотированных и соглас- ных звуков, базовыми фонемами данного звука. Согласно «квантовой гипотезе» Стивенса К.Н., каждый класс звуков любого языка порождает- ся множеством конфигураций речевого тракта, относительно которых акустические характери- стики устойчивы, то есть мало изменяются при изменении конфигурации тракта в пределах за- данного множества форм [3]. Целью системы управления речевым трактом является создание двух фонологических формант требуемой длительности, определяющих задан- ную фонему. В модели идеальных целей, пред- ложенной Хенке (Henke) в 1966 г. [3], значения признаков задаются скачком и сохраняются в течение некоторого промежутка времени, тогда как двигательный аппарат непрерывно отраба- тывает заданные цели. Случаи коартикуляции, проявляющиеся в акустических характеристиках речевых сигналов, свидетельствуют об ограни- ченных способностях системы управления ком- пенсировать взаимные возмущения акустических характеристик звуков в слитном потоке речи или об отсутствия потребности в такой компенсации в некоторых случаях. Однако в любом случае система управления артикуляцией стремится создать такую форму речевого тракта, которая обеспечила бы дости- жение желаемых акустических характеристик. Возникающие при этом ложные форманты ока- зываются подвергнутыми модуляциям различ- ного вида и при обработке речевого сигнала не воспринимаются слуховым аппаратом в качестве фонологических формант. Управляемая коартикуляция, имеющая место при переходах от согласного звука к гласному и при произношении йотированных звуков (в рус- ской речи), обеспечивает формирование для ряда звуков фонологических формант, которые не мо- гут быть получены при статическом состоянии гортани. Широкополосное возбуждение и многорезо- нансный голосовой тракт создают широкополос- ный речевой сигнал, содержащий ложные фор- манты и переходные процессы, свойственные конкретному диктору. С точки зрения распозна- вания речи указанные характеристики являются помехой, которую существующие системы рас- познавания устраняют при помощи сравнения с базой образов помех, содержащих речевую ин- формацию. По литературным данным, количество сведе- ний, вводимых в начало речеобразующего тракта и управляющих изменениями его конфигурации, не превосходит 50 бит/сек, а для ввода звуко- вой информации в системы распознавания при- нято использовать канал со скоростью не менее 64 000 бит/сек. В результате системе приходится выполнять обработку информации, превосходя- щую полезную почти в 100 раз. Учитывая выяв- ленные различия раздельной обработки речевых и неречевых звуков слуховым анализатором, сле- дует признать, что анализ амплитудного спектра менее всего подходит для распознавания речево- го сигнала, о чем свидетельствуют многочислен- ные трудности в организации данного процесса и отсутствие значимых результатов [1]. Выводы Результаты представленной работы позволяют сделать следующие выводы. Основой передачи речевой информации в русской речи является двухтональный много- частотный сигнал с фиксированной базовой сеткой частот. Две частоты данного сигнала яв- ляются фонологическими формантами фонемы конкретного звука. Диктор при произношении звука настраива- ет свой речевой аппарат на формирование двух частот, максимально соответствующих требу- емым базовым формантам. Слуховой аппарат присваивает принятой фонеме значение базовой фонемы, находящейся от нее на минимальном кодовом расстоянии. Фонологические форманты базовых фонем закреплены за определенными областями кортие- вого органа, и их взаимное расположение связано с величинами ступени ощущения высоты тона и отрезками влияния, при этом определенной об- ласти соответствует только одна фонологическая форманта. Широкий спектр речевого сигнала несет, кроме фонологических формант, информацию об эмоциях диктора и приспособлении его речевого аппарата к передаче информации с минимально возможными для данного диктора искажениями. Голосовое, шумовое и импульсное воз- буждение голосового тракта и управляемая ко- артикуляция предназначены для формирования максимально возможного количества фонем в ограниченном частотном диапазоне речевого сигнала. Форманты йотированных звуков (русской речи) и ряда согласных звуков не могут быть получены при статическом состоянии гортани и формируются при коартикуляции. Составленная в процессе выполнения работы таблица, естественно, должна подвергаться уточ- нениям и дополнениям на основе объективных и полноразмерных испытаний. Заданный в табли- це шаг достаточно условен, но принцип привяз- ки фонологических формант к геометрическим характеристикам кортиевого органа и наличие определенного расстояния между базовыми фо- немами, связанного с величиной ступени ощуще- ния высоты тона и отрезками влияния, являются очевидными. Предполагается, что фактическое расположе- ние фонем при соблюдении граничных условий может различаться в зависимости от языка, диа- лекта и т. п. Вероятно, что основа закладывается до рождения ребенка на основе разговоров мате- ри и формируется примерно до трехлетнего воз- раста. Для взрослого человека дополнительное формирование базовых фонем происходит при освоении им иностранных языков. Принимая во внимание, что основную часть спектра речевого сигнала составляют ложные форманты, переходные процессы и индивиду- альные особенности дикторов, и учитывая выяв- ленные различия раздельной обработки речевых и неречевых звуков слуховым анализатором [3], автор считает, что анализ амплитудного спектра менее всего подходит для распознавания речево- го сигнала. Исследования в данном направлении следует продолжить для выявления реального механизма выделения речи в слуховом аппарате человека и создания соответствующей автомати- ческой системы распознавания.
×

About the authors

V. O Leleytner

Joint-stock Company «Poligon»

Email: lel@ufacom.ru
Ufa, Russian Federation

References

  1. Кипяткова И.С., Ронжин А.Л. Карпов А.А. Автоматическая обработка разговорной русской речи. СПб.: Санкт-Петербургский институт информатики и автоматизации РАН, 2013. 314 с
  2. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Госиздат. по вопросам связи и радио, 1963. 452 с
  3. Сорокин В.Н. Теория речеобразования. М.: Радио и связь, 1985. 312 с
  4. Фланаган Д.Л. Анализ, синтез и восприятие речи. М.: Связь, 1968. 396 с
  5. Тампель И.Б., Карпов А.А. Автоматическое распознавание речи. СПб.: Университет ИТМО, 2016. 140 с
  6. Вокодерная телефония. Методы и проблемы / под ред. А.А. Пирогова. М.: Связь, 1974. 536 с
  7. Галунов В.И., Гарбук В.И. Акустическая теория речеобразования и система фонетических признаков. СПб.: Санкт-Петербургский государственный университет; Санкт-Петербургский НИИ уха, горла, носа и речи. URL: https://studylib.ru/doc/3831855/akusticheskaya-teoriya-recheobrazovaniya-i-sistema (дата обращения: 14.02.2021)
  8. Цвикер Э., Фельдкеллер Р. Ухо как приемник информации М.: Связь, 1971. 255 с
  9. Foulkes J.D. Computer identification of vowel types // JASA. 1961. Vol. 33, no. 1. Р. 7-11 (приводится по [2])
  10. Фельдкеллер Р., Цвикер Э. Ухо как приемник информации. М.: Связь, 1965. 104 с
  11. Fant G. Acoustic theory of speech production: with calculations based on x-ray studies of Russian articulations // Mouton & Co, s’-Gravenhage, 1960 (приводится по [2])

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2021 Leleytner V.O.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies