RECOGNITION OF RADIO EXCHANGE VOICE MESSAGES IN AVIATION BASED ON CORRELATION ANALYSIS

N. A Andriyanov; Андриянов Н. А

doi:10.37313/1990-5378-2021-23-1-91-96

RECOGNITION OF RADIO EXCHANGE VOICE MESSAGES IN AVIATION BASED ON CORRELATION ANALYSIS

作者: Andriyanov N.A¹
隶属关系:
1. Financial University under the Government of the Russian Federation
期: 卷 23, 编号 1 (2021)
页面: 91-96
栏目: Articles
URL: https://journals.eco-vector.com/1990-5378/article/view/88560
DOI: https://doi.org/10.37313/1990-5378-2021-23-1-91-96
ID: 88560

如何引用文章

全文:

详细
全文:
作者简介
参考
补充文件
统计

详细

The paper considers the problem of speech messages recognition in phraseological radio exchange for tasks of civil aviation. The introduction substantiates the relevance of this problem. The following are research methods based on correlation analysis. Finally, a description of the experiment and the results of the recognition algorithms based on correlation analysis are given. Various variants were recorded for five speech messages and spectral representations of such signals were constructed. Spectral transform can be obtained either using specialized software or based on the Fourier transform of the signal in the time domain. To obtain a more universal reference signal and eliminate the influence of interference, the spectral components of the same speech message recorded several times were averaged. In fact, three spectra of the same speech message were used for averaging. This spectrum averaging over three training components provided a reference sample of phrases or patterns for each phrase, and reduced the influence of additive white Gaussian noise in the reference. Later, on the basis of correlation analysis, the connections between test phrases and all patterns were calculated. On the basis of these connections, a correlation matrix of reference phrases is built. Research has shown that phrases spoken by one person were highly correlated. The analysis showed that the choice of the class (the content of the speech message) when solving the recognition problem corresponding to the value of the correlation coefficient closest to one provides over 90% of correct recognitions on a test sample containing a total of 100 phrases, 20 for each phrase. It should be noted that, when recording test messages, an additive white Gaussian noise was additionally present as a background, reproduced by another audio device. In the case of information analysis without artificially generated noise, the probability of correct recognition for a test sample of 100 phrases, 20 for each phrase, is 100% when using correlation analysis.

关键词

radio phraseology, civil aviation, statistical analysis, correlation analysis, pattern recognition, signal spectrum

全文:

ВВЕДЕНИЕ Одной из важных систем обеспечения качественного управления взлетом, полетом и посадкой воздушного судна является фразеологический радиообмен. При этом, в отличие от обычной разговорной речи, связь и обмен информацией во время фразеологического радиообмена осуществляются с использованием стандартных типовых фраз, в гражданской авиации на территории Российской федерации определенных Федеральными авиационными правилами [1]. При этом часто условия приема на борту могут быть затруднены в силу различных факторов: напряженного состояния пилота (или члена экипажа), присутствия дополнительных шумов в принимаемом сигнале и т.д. Попытки уточнить информацию приводят к тому, что осуществляется повторная передача одного и того же сообщения, что сокращает скорость канала передачи информации и в ряде критических ситуаций может быть неприемлемо. Транспортные системы в настоящее время развиваются все более и более стремительно. В их числе воздушный транспорт, наземный транспорт и водный транспорт. Если на наземном транспорте уже протестировано достаточно большое число различных современных технологий, включая различные автоматические системы мониторинга состояния водителя [2], то в системах воздушного транспорта распространены беспилотные летательные средства, для которых, однако, зачастую требуется согласование плана полета. На беспилотном наземном транспорте активно используются технологии искусственного интеллекта, в том числе различные системы распознавания. При этом важной становится визуальная информация. Для систем воздушного транспорта важна информация, помогающая осуществлять полет и поступающая от диспетчеров пунктов управления воздушным движением (УВД). Как правило, это голосовые сообщения. Потенциально применение систем автоматического распознавания позволяет снизить загруженность с «человека за рулём» вне зависимости от типа транспорта. Подобного рода прикладные задачи связаны с цифровой обработкой сигналов и обеспечением качественной связи. Обработка сигналов выполняется системами искусственного интеллекта и технического зрения, направленными на анализ изображений, выделение ориентиров, извлечение из них информации о местоположении, одновременное позиционирование и построение карт [3-5]. Однако такие системы в большей степени направлены на развитие автономных транспортных средств. Сегодня такие аппараты используются лишь для решения узкоспециализированных задач и, как правило, выполняются полностью в автономном режиме, т.е. при отсутствии человека внутри. В связи с этим к таким транспортным средствам априори предъявляются меньшие требования по безопасности. Вместе с тем широкое применение пассажирского транспорта связано с определенными рисками. Немаловажным фактором здесь является физическая и эмоциональная нагрузка на «человека за рулем». Применительно к авиации речь идет о нагрузке на пилотов. Радиообмен является неотъемлемой частью работы пилота гражданской авиации (ГА), с которой он сталкивается постоянно. Фразеологический радиообмен подразумевает обмен короткими типовыми сообщениями, например, между экипажем воздушного судна (ВС) и диспетчерским пунктом для постоянного контроля обстановки на земле и в воздухе. На данный момент радиообмен не стабилен, присутствует множество помех, ухудшающих восприятие сообщения и его правильное понимание. Для повышения безопасности полета обмен данными должен быть максимально качественным, пилот должен мгновенно реагировать на принятую от наземных служб информацию, а для этого необходимо свести к минимуму запросы на повтор сообщения. Несмотря на то, что Федеральными авиационными правилами (ФАП) [1] установлены ограничения на участках по связи с Органами управления воздушным движением (УВД), радиообмен является неотъемлемой частью любого полета и оказывает определенное воздействие на пилотов. Действительно, правильный прием и трактовка сообщений в ходе фразеологического радиообмена являются важным элементом спокойствия как пилота, так и воздушной обстановки. При этом чаще всего полученные сообщения могут приниматься в условиях сильных помех, что также требует систем подавления, работающих в режиме реального времени. Базой работы таких систем служат различные алгоритмы, разработка и исследование которых могут повысить эффективность распознавания и фильтрации речевых сообщений (РС). Поэтому важно иметь на борту вспомогательные системы, которые могли бы определять фразы из сообщения в соответствии с некоторыми заранее известными классами. В связи с этим существует задача распознавания речевых сообщений радиообмена. Несмотря на то, что в настоящее время для решения задач распознавания речи активно применяются нейросетевые технологии [6], при ограниченном числе эталонов наивысшую точность может обеспечивать корреляционный алгоритм [7]. В данной работе исследуется распознавание на базе спектров эталонных фраз, произнесенных одним диктором. Целью настоящей работы является исследование эффективности распознавания в различных условиях: при наличии шума в сигнале, при отсутствии (минимизации) шума в сигнале. При этом к сигналам не применяются алгоритмы предварительной обработки, например, фильтрации, позволяющие потенциально повысить качество постобработки. МЕТОДЫ ИССЛЕДОВАНИЙ Поскольку речевые сообщения можно представить как временные ряды, то к ним можно применять методы цифровой обработки сигналов, в том числе на базе случайных процессов [8-10]. Запись речевого сообщения осуществлялась в условиях, имитирующих слабый уровень дополнительных помех (искусственно был сгенерирован шум, отношение среднего уровня сигнала к дисперсии шума приблизительно равно 3). Кроме того, были записаны также 20 тестовых сообщений без шума. Эталонные образцы, все 3 записи, происходили также в условиях без генерации искусственного белого шума. Для записи РС использовалась бесплатная программа AudaCity. Данное программное обеспечение позволяет на основе записанного звукового файла, построить его спектральные составляющие: 255 значений спектра. При этом приведение значений спектра [дБ] в [В] позволяет получить временное представление сигнала в абсолютных значениях. Для построения автокорреляционных функций (АКФ) записанных сигналов можно воспользоваться следующей связью амплитудного спектра сигнала с его энергетическим спектром (спектральной плотностью мощности) , (1) где - энергетический спектр сигнала, - операция вычисления модуля, - спектр сигнала. Определив дисперсию сигнала, как значение АКФ в нулевой момент времени (при нулевом сдвиге), можно с помощью обратного преобразования Фурье рассчитать значения АКФ в соответствии с выражением на базе связи АКФ и энергетического спектра (1) , (2) где - значение АКФ в нулевой момент времени (при нулевом сдвиге). На рис. 1 показаны АКФ первой (а) и второй (б) тестовых фраз, полученных в результате расчетов (2). Следует отметить, что на рис. 1 по оси oY представлены нормированные значения сигнала, а по оси oX - дискретные номера интервалов времени с шагом 0.15 с. Из представленных графиков видно, например, что фраза из рис. 1б оказывается гораздо более коррелированна с собой (отсчеты фразы друг с другом), чем фраза из рис. 1а. Это может быть использовано при корреляционном анализе для различения гипотез о фразах. Все исследуемые в данной работе фразы будут рассмотрены далее. По временным отсчетам речевого сигнала с помощью преобразования Фурье могут быть построены спектры для каждого сообщения, показывающие составляющие для 255 различных частот в диапазоне от 86 Гц до 22 кГц. Характеристики эталонной фразы были построены путем усреднения трех речевых сигналов на каждой частотной составляющей. Тестовые фразы записывались одним и тем же диктором по 20 раз. Всего для исследования было выбрано пять фраз, представленных в табл. 1. На рис. 2 представлена усредненная эталонная фраза во временной (а) и частотной области (б). По оси oY - уровень сигнала в дБ, по оси oX - время в с (а) и частота в Гц (б). Затем для проверки корреляционных связей была рассчитана корреляционная матрица для всех пяти исследуемых фраз , (3) где - коэффициент корреляции между i-й и j-й фразами. Здесь Фi - это выборка составляющих спектра для i-й фразы, - среднее значение в выборке спектральных составляющих для i-й фразы, - среднее отклонение в выборке спектральных составляющих для i-й фразы. Аналогично и для j-й фразы. Следует отметить, что в силу того, что анализируется спектральное представление голоса одного и того же диктора, все произнесенные диктором фразы имеют сильную корреляционную связь. В ходе эксперимента, как видно из таблицы 1, анализировалось распознавание 20 образцов каждой фразы. При этом считалась корреляция отсчетов выборки спектра распознаваемой фразы и каждого эталона. Таким образом, при распознавании 5 фраз были посчитаны 5 коэффициентов корреляции для каждого тестового образца. Например, расчеты для 5 различных тестовых фраз представлены ниже. Поиск коэффициентов корреляции выполняется по формуле: (4) где индексы «э» и «т» введены для указания на характеристику эталонной и тестовой фразы соответственно. Рассчитанная по выражению (3) корреляционная матрица эталонов выглядит следующим образом (табл. 2). После расчета пяти параметров по выражению (4) решение об отнесении тестового образца к одному из классов производится на основе максимума корреляции (5) Таким образом, выражение (5) позволяет определить класс наиболее вероятного сообщения. РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЙ И ИХ ОБСУЖДЕНИЕ Рассмотренный выше алгоритм построения корреляционной матрицы эталонов может быть применен и к тестовым сообщениям. В частности, для пяти разных тестовых фраз получены следующие характеристики (табл. 3). Исследование для записанных сигналов без шума показали абсолютную точность корреляционного анализа. Результаты представлены в табл. 4. Анализ представленных результатов показывает, что, несмотря на сильную корреляцию между различными фразами, максимальные значения коэффициентов корреляции позволяют правильно распознать фразу. В табл. 5 представлены характеристики распознавания для всего тестового набора фраз. Как видно из табл. 5, доля правильных распознаваний составляет не менее 90%, несмотря на то, что здесь корреляционные алгоритмы применялись для зашумленных речевых сигналов. Однако следует отметить, что была достаточно маленькая тестовая выборка. Общая доля правильных распознаваний считалась как отношение числа верных распознаваний на всей тестовой выборке (вне зависимости от класса) к общему числу тестовых фраз и составила 91%. При этом не наблюдается большого разброса для разных фраз. Вместе с тем, следует учитывать присутствие белого шума при записи тестовых образцов (отношение сигнал/шум порядка 3). ЗАКЛЮЧЕНИЕ Таким образом, в работе исследованы характеристики распознавания речевых сообщений фразеологического радиообмена гражданской авиации на русском языке на базе корреляционного анализа спектрального представления сигналов. Получена достаточно высокая точность для тестовой выборки - 91% (9% неправильных распознаваний на все фразы).

作者简介

N. Andriyanov

Financial University under the Government of the Russian Federation

Email: nikita-and-nov@mail.ru
Moscow, Russia

参考

Приказ Минтранса РФ от 26 сентября 2012 г. № 362 «Об утверждении Федеральных авиационных правил «Порядок осуществления радиосвязи в воздушном пространстве Российской Федерации»
Козловский А.И., Порватов И.Н., Подольский М.С. Обзор автомобильных систем оперативного контроля состояния водителя. Результаты собственных исследований // Науковедение. 2013. № 6, С. 1-12.
Гонсалес Р. Цифровая обработка изображений / Р. Гонсалес, Р. Вудс, М.: Техносфера 2012. - 1104 с.
Nemoto, Takuma and Onodera, Keichi and Mohan, Rajesh Elara and Iwase, Masami and Wood, Kristin. An Application of the Simultaneous Localization and Mapping (SLAM) Method Based on the Unscented Kalman Filter (UKF) to a Reconfigurable Quadruped Robot with Crawling Locomotion // 2018 International Conference on Reconfigurable Mechanisms and Robots - Pp. 1-8
Альгирдас Руйбис. Беспилотные летательные аппараты: новейшие разработки // ВКС. 2016. №3-4 (88-89) - С. 94-96.
Казачкин, А. Е. Методы распознавания речи, современные речевые технологии / А. Е. Казачкин. - Текст : непосредственный // Молодой ученый. - 2019. - № 39 (277). - С. 6-8.
Красовская И.К., Смирнов М.Н., Смирнова М.А. Корреляционный метод в задаче распознавания речи // Процессы управления и устойчивость. 2016. №1. Т. 3. С. 409-413.
Андриянов Н.А., Гаврилина Ю.Н. Обнаружение и различение сигналов, моделируемых авторегрессиями с изменяющимися свойствами // В сборнике: 28-я Международная Крымская конференция «СВЧ-техника и телекоммуникационные технологии» (КрыМиКо’2018). Материалы конференции. 2018. С. 356-360.
Андриянов Н.А. Обзор методов прогнозирования временных рядов // Современные проблемы проектирования, производства и эксплуатации радиотехнических систем. 2018. № 11. С. 147-151.
Андриянов Н.А., Булдаковский А.И., Рисухин К.В. Анализ корреляционных функций речевых сообщений фразеологического радиообмена на русском языке // В книге: Актуальные проблемы физической и функциональной электроники. Материалы 22-й Всероссийской молодежной научной школы-семинара. 2019. С. 79-82.

补充文件

附件文件

动作

1. JATS XML

下载

用户名
密码
记住我

忘记您的密码?	注册

用户名
密码
记住我

忘记您的密码?	注册