РАСПОЗНАВАНИЕ РЕЧЕВЫХ СООБЩЕНИЙ РАДИООБМЕНА В АВИАЦИИ НА БАЗЕ КОРРЕЛЯЦИОННОГО АНАЛИЗА


Цитировать

Полный текст

Аннотация

В работе рассматривается задача распознавания речевых сообщений фразеологического радиообмена в гражданской авиации. Во введении обосновывается актуальность данной задачи. Далее представлены методы исследования, базирующиеся на корреляционном анализе. Наконец, приводятся описание эксперимента и результаты работы алгоритмов распознавания на базе корреляционного анализа. Были записаны различные варианты звуковых сигналов для пяти речевых сообщений и построены спектральные представления таких сигналов. Спектральное преобразование может быть получено либо с использованием специализированного программного обеспечения, либо на основе преобразования Фурье сигнала во временной области. Для получения более универсального эталонного сигнала и устранения влияния помех было произведено усреднение спектральных составляющих одного и того же речевого сообщения, записанного несколько раз. В действительности, использовались три спектра одного и того же речевого сообщения для усреднения. Такое усреднение спектра по трем обучающим составляющим обеспечило получение эталонного образца для каждой фразы, позволив при этом сократить влияние аддитивных белых гауссовых шумов на эталонную запись. В дальнейшем на основе корреляционного анализа были посчитаны связи между тестовыми фразами и всеми эталонами. На базе этих связей построена корреляционная матрица эталонных фраз. Исследования показали, что фразы, произнесенные одним человеком, оказались сильно-коррелированными. Анализ показал, что выбор класса (содержания речевого сообщения) при решении задачи распознавания, соответствующего наиболее близкому к единице значению коэффициента корреляции, обеспечивает свыше 90% правильных распознаваний на тестовой выборке, содержащей в общей сложности 100 фраз, по 20 на каждую фразу. При этом следует отметить, что при записи тестовых сообщений в качестве фона дополнительно присутствовала аддитивная белая гауссова помеха, воспроизводимая другим аудиоустройством. В случае же анализа информации без искусственно генерируемого шума, вероятность правильных распознаваний для тестовой выборки из 100 фраз, по 20 на каждую фразу, составила 100%.

Полный текст

ВВЕДЕНИЕ Одной из важных систем обеспечения качественного управления взлетом, полетом и посадкой воздушного судна является фразеологический радиообмен. При этом, в отличие от обычной разговорной речи, связь и обмен информацией во время фразеологического радиообмена осуществляются с использованием стандартных типовых фраз, в гражданской авиации на территории Российской федерации определенных Федеральными авиационными правилами [1]. При этом часто условия приема на борту могут быть затруднены в силу различных факторов: напряженного состояния пилота (или члена экипажа), присутствия дополнительных шумов в принимаемом сигнале и т.д. Попытки уточнить информацию приводят к тому, что осуществляется повторная передача одного и того же сообщения, что сокращает скорость канала передачи информации и в ряде критических ситуаций может быть неприемлемо. Транспортные системы в настоящее время развиваются все более и более стремительно. В их числе воздушный транспорт, наземный транспорт и водный транспорт. Если на наземном транспорте уже протестировано достаточно большое число различных современных технологий, включая различные автоматические системы мониторинга состояния водителя [2], то в системах воздушного транспорта распространены беспилотные летательные средства, для которых, однако, зачастую требуется согласование плана полета. На беспилотном наземном транспорте активно используются технологии искусственного интеллекта, в том числе различные системы распознавания. При этом важной становится визуальная информация. Для систем воздушного транспорта важна информация, помогающая осуществлять полет и поступающая от диспетчеров пунктов управления воздушным движением (УВД). Как правило, это голосовые сообщения. Потенциально применение систем автоматического распознавания позволяет снизить загруженность с «человека за рулём» вне зависимости от типа транспорта. Подобного рода прикладные задачи связаны с цифровой обработкой сигналов и обеспечением качественной связи. Обработка сигналов выполняется системами искусственного интеллекта и технического зрения, направленными на анализ изображений, выделение ориентиров, извлечение из них информации о местоположении, одновременное позиционирование и построение карт [3-5]. Однако такие системы в большей степени направлены на развитие автономных транспортных средств. Сегодня такие аппараты используются лишь для решения узкоспециализированных задач и, как правило, выполняются полностью в автономном режиме, т.е. при отсутствии человека внутри. В связи с этим к таким транспортным средствам априори предъявляются меньшие требования по безопасности. Вместе с тем широкое применение пассажирского транспорта связано с определенными рисками. Немаловажным фактором здесь является физическая и эмоциональная нагрузка на «человека за рулем». Применительно к авиации речь идет о нагрузке на пилотов. Радиообмен является неотъемлемой частью работы пилота гражданской авиации (ГА), с которой он сталкивается постоянно. Фразеологический радиообмен подразумевает обмен короткими типовыми сообщениями, например, между экипажем воздушного судна (ВС) и диспетчерским пунктом для постоянного контроля обстановки на земле и в воздухе. На данный момент радиообмен не стабилен, присутствует множество помех, ухудшающих восприятие сообщения и его правильное понимание. Для повышения безопасности полета обмен данными должен быть максимально качественным, пилот должен мгновенно реагировать на принятую от наземных служб информацию, а для этого необходимо свести к минимуму запросы на повтор сообщения. Несмотря на то, что Федеральными авиационными правилами (ФАП) [1] установлены ограничения на участках по связи с Органами управления воздушным движением (УВД), радиообмен является неотъемлемой частью любого полета и оказывает определенное воздействие на пилотов. Действительно, правильный прием и трактовка сообщений в ходе фразеологического радиообмена являются важным элементом спокойствия как пилота, так и воздушной обстановки. При этом чаще всего полученные сообщения могут приниматься в условиях сильных помех, что также требует систем подавления, работающих в режиме реального времени. Базой работы таких систем служат различные алгоритмы, разработка и исследование которых могут повысить эффективность распознавания и фильтрации речевых сообщений (РС). Поэтому важно иметь на борту вспомогательные системы, которые могли бы определять фразы из сообщения в соответствии с некоторыми заранее известными классами. В связи с этим существует задача распознавания речевых сообщений радиообмена. Несмотря на то, что в настоящее время для решения задач распознавания речи активно применяются нейросетевые технологии [6], при ограниченном числе эталонов наивысшую точность может обеспечивать корреляционный алгоритм [7]. В данной работе исследуется распознавание на базе спектров эталонных фраз, произнесенных одним диктором. Целью настоящей работы является исследование эффективности распознавания в различных условиях: при наличии шума в сигнале, при отсутствии (минимизации) шума в сигнале. При этом к сигналам не применяются алгоритмы предварительной обработки, например, фильтрации, позволяющие потенциально повысить качество постобработки. МЕТОДЫ ИССЛЕДОВАНИЙ Поскольку речевые сообщения можно представить как временные ряды, то к ним можно применять методы цифровой обработки сигналов, в том числе на базе случайных процессов [8-10]. Запись речевого сообщения осуществлялась в условиях, имитирующих слабый уровень дополнительных помех (искусственно был сгенерирован шум, отношение среднего уровня сигнала к дисперсии шума приблизительно равно 3). Кроме того, были записаны также 20 тестовых сообщений без шума. Эталонные образцы, все 3 записи, происходили также в условиях без генерации искусственного белого шума. Для записи РС использовалась бесплатная программа AudaCity. Данное программное обеспечение позволяет на основе записанного звукового файла, построить его спектральные составляющие: 255 значений спектра. При этом приведение значений спектра [дБ] в [В] позволяет получить временное представление сигнала в абсолютных значениях. Для построения автокорреляционных функций (АКФ) записанных сигналов можно воспользоваться следующей связью амплитудного спектра сигнала с его энергетическим спектром (спектральной плотностью мощности) , (1) где - энергетический спектр сигнала, - операция вычисления модуля, - спектр сигнала. Определив дисперсию сигнала, как значение АКФ в нулевой момент времени (при нулевом сдвиге), можно с помощью обратного преобразования Фурье рассчитать значения АКФ в соответствии с выражением на базе связи АКФ и энергетического спектра (1) , (2) где - значение АКФ в нулевой момент времени (при нулевом сдвиге). На рис. 1 показаны АКФ первой (а) и второй (б) тестовых фраз, полученных в результате расчетов (2). Следует отметить, что на рис. 1 по оси oY представлены нормированные значения сигнала, а по оси oX - дискретные номера интервалов времени с шагом 0.15 с. Из представленных графиков видно, например, что фраза из рис. 1б оказывается гораздо более коррелированна с собой (отсчеты фразы друг с другом), чем фраза из рис. 1а. Это может быть использовано при корреляционном анализе для различения гипотез о фразах. Все исследуемые в данной работе фразы будут рассмотрены далее. По временным отсчетам речевого сигнала с помощью преобразования Фурье могут быть построены спектры для каждого сообщения, показывающие составляющие для 255 различных частот в диапазоне от 86 Гц до 22 кГц. Характеристики эталонной фразы были построены путем усреднения трех речевых сигналов на каждой частотной составляющей. Тестовые фразы записывались одним и тем же диктором по 20 раз. Всего для исследования было выбрано пять фраз, представленных в табл. 1. На рис. 2 представлена усредненная эталонная фраза во временной (а) и частотной области (б). По оси oY - уровень сигнала в дБ, по оси oX - время в с (а) и частота в Гц (б). Затем для проверки корреляционных связей была рассчитана корреляционная матрица для всех пяти исследуемых фраз , (3) где - коэффициент корреляции между i-й и j-й фразами. Здесь Фi - это выборка составляющих спектра для i-й фразы, - среднее значение в выборке спектральных составляющих для i-й фразы, - среднее отклонение в выборке спектральных составляющих для i-й фразы. Аналогично и для j-й фразы. Следует отметить, что в силу того, что анализируется спектральное представление голоса одного и того же диктора, все произнесенные диктором фразы имеют сильную корреляционную связь. В ходе эксперимента, как видно из таблицы 1, анализировалось распознавание 20 образцов каждой фразы. При этом считалась корреляция отсчетов выборки спектра распознаваемой фразы и каждого эталона. Таким образом, при распознавании 5 фраз были посчитаны 5 коэффициентов корреляции для каждого тестового образца. Например, расчеты для 5 различных тестовых фраз представлены ниже. Поиск коэффициентов корреляции выполняется по формуле: (4) где индексы «э» и «т» введены для указания на характеристику эталонной и тестовой фразы соответственно. Рассчитанная по выражению (3) корреляционная матрица эталонов выглядит следующим образом (табл. 2). После расчета пяти параметров по выражению (4) решение об отнесении тестового образца к одному из классов производится на основе максимума корреляции (5) Таким образом, выражение (5) позволяет определить класс наиболее вероятного сообщения. РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЙ И ИХ ОБСУЖДЕНИЕ Рассмотренный выше алгоритм построения корреляционной матрицы эталонов может быть применен и к тестовым сообщениям. В частности, для пяти разных тестовых фраз получены следующие характеристики (табл. 3). Исследование для записанных сигналов без шума показали абсолютную точность корреляционного анализа. Результаты представлены в табл. 4. Анализ представленных результатов показывает, что, несмотря на сильную корреляцию между различными фразами, максимальные значения коэффициентов корреляции позволяют правильно распознать фразу. В табл. 5 представлены характеристики распознавания для всего тестового набора фраз. Как видно из табл. 5, доля правильных распознаваний составляет не менее 90%, несмотря на то, что здесь корреляционные алгоритмы применялись для зашумленных речевых сигналов. Однако следует отметить, что была достаточно маленькая тестовая выборка. Общая доля правильных распознаваний считалась как отношение числа верных распознаваний на всей тестовой выборке (вне зависимости от класса) к общему числу тестовых фраз и составила 91%. При этом не наблюдается большого разброса для разных фраз. Вместе с тем, следует учитывать присутствие белого шума при записи тестовых образцов (отношение сигнал/шум порядка 3). ЗАКЛЮЧЕНИЕ Таким образом, в работе исследованы характеристики распознавания речевых сообщений фразеологического радиообмена гражданской авиации на русском языке на базе корреляционного анализа спектрального представления сигналов. Получена достаточно высокая точность для тестовой выборки - 91% (9% неправильных распознаваний на все фразы).
×

Об авторах

Н. А Андриянов

Финансовый университет при Правительстве Российской Федерации

Email: nikita-and-nov@mail.ru
Москва, Россия

Список литературы

  1. Приказ Минтранса РФ от 26 сентября 2012 г. № 362 «Об утверждении Федеральных авиационных правил «Порядок осуществления радиосвязи в воздушном пространстве Российской Федерации»
  2. Козловский А.И., Порватов И.Н., Подольский М.С. Обзор автомобильных систем оперативного контроля состояния водителя. Результаты собственных исследований // Науковедение. 2013. № 6, С. 1-12.
  3. Гонсалес Р. Цифровая обработка изображений / Р. Гонсалес, Р. Вудс, М.: Техносфера 2012. - 1104 с.
  4. Nemoto, Takuma and Onodera, Keichi and Mohan, Rajesh Elara and Iwase, Masami and Wood, Kristin. An Application of the Simultaneous Localization and Mapping (SLAM) Method Based on the Unscented Kalman Filter (UKF) to a Reconfigurable Quadruped Robot with Crawling Locomotion // 2018 International Conference on Reconfigurable Mechanisms and Robots - Pp. 1-8
  5. Альгирдас Руйбис. Беспилотные летательные аппараты: новейшие разработки // ВКС. 2016. №3-4 (88-89) - С. 94-96.
  6. Казачкин, А. Е. Методы распознавания речи, современные речевые технологии / А. Е. Казачкин. - Текст : непосредственный // Молодой ученый. - 2019. - № 39 (277). - С. 6-8.
  7. Красовская И.К., Смирнов М.Н., Смирнова М.А. Корреляционный метод в задаче распознавания речи // Процессы управления и устойчивость. 2016. №1. Т. 3. С. 409-413.
  8. Андриянов Н.А., Гаврилина Ю.Н. Обнаружение и различение сигналов, моделируемых авторегрессиями с изменяющимися свойствами // В сборнике: 28-я Международная Крымская конференция «СВЧ-техника и телекоммуникационные технологии» (КрыМиКо’2018). Материалы конференции. 2018. С. 356-360.
  9. Андриянов Н.А. Обзор методов прогнозирования временных рядов // Современные проблемы проектирования, производства и эксплуатации радиотехнических систем. 2018. № 11. С. 147-151.
  10. Андриянов Н.А., Булдаковский А.И., Рисухин К.В. Анализ корреляционных функций речевых сообщений фразеологического радиообмена на русском языке // В книге: Актуальные проблемы физической и функциональной электроники. Материалы 22-й Всероссийской молодежной научной школы-семинара. 2019. С. 79-82.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Андриянов Н.А., 2021

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах