ANALYSIS OF THE STATE OF AIRCRAFT CREW MEMBER BY THE SPEECH USING GAUSSIAN MODELS OF MIXTURES

N. A Andriyanov; Андриянов Н. А; V. E Dementiev; Дементьев В. Е

doi:10.37313/1990-5378-2021-23-1-97-102

ANALYSIS OF THE STATE OF AIRCRAFT CREW MEMBER BY THE SPEECH USING GAUSSIAN MODELS OF MIXTURES

作者: Andriyanov N.A¹, Dementiev V.E²
隶属关系:
1. Financial University under the Government of the Russian Federation
2. Ulyanovsk State Technical University
期: 卷 23, 编号 1 (2021)
页面: 97-102
栏目: Articles
URL: https://journals.eco-vector.com/1990-5378/article/view/88561
DOI: https://doi.org/10.37313/1990-5378-2021-23-1-97-102
ID: 88561

如何引用文章

全文:

详细
全文:
作者简介
参考
补充文件
统计

详细

The work is devoted to the study of the effectiveness of the application of models of Gaussian mixtures for the recognition of abnormal deviations in the speaker’s speech. The practical application of the developed algorithms for revealing the emotional state of the crew member by the phrase uttered by such crew member is proposed. The spectral characteristics of the speech signal are used as the main criterion for distinguishing using the Gaussian mixture model. In connection with a rather small sampling step in frequency and, accordingly, with the presence of 255 frequency components in the signal spectrum, it is proposed to compress the spectrum to 10 components. This approach made it possible to reduce the number of key parameters in the Gaussian model to 10, which, in turn, made it possible to simplify the analysis process when constructing multivariate distributions. To assess the quality of the proposed algorithm, test phrases were recorded. At the same time, various psychological states of the speaker were imitated. We used both simple unregulated speech structures and messages regulated in accordance with the Federal Aviation Rules when conducting radio exchange in civil aviation on the territory of the Russian Federation. Taking into account the limitations on the prior knowledge of the model and clustering by spectral characteristics, all recordings of the model were made by one speaker. Three classes of the speaker’s emotional state were considered. At the output, the recognition system put such marks as a calm state, a tired state, a stressful state. Various states were artificially simulated during data preparation. On a test sample of 48 messages, a Gaussian model of 3 components and 10 parameters without preliminary training immediately allowed to achieve a result of about 65%, while the probability of recognizing the correct class with 3 equal classes a priori is 33%. As further research, it is proposed to apply preliminary training using neural networks or correlation algorithms. This approach will allow further clustering at a deeper level, when, for example, the gender of the speaker is determined, a typical message of the radio exchange is determined, and then the emotional state of the speaker is revealed.

关键词

spectral analysis, speech emotional state recognition, data mining, flight safety, Gaussian mixture model

全文:

ВВЕДЕНИЕ Обеспечение безопасности полетов является главным приоритетом современной гражданской авиации. Сложно переоценить роль этой задачи в условиях, когда на борту самолета находится множество людей. Однако по статистике [1] около 80% авиакатастроф в Российской Федерации происходят по причине человеческого фактора, и лишь 20% случаев приходится на отказы авиационной техники. Понятно, что помимо глобальных факторов, связанных с неправильным поведением экипажа в критических ситуациях, нехваткой летной практики, важную роль играет и психологический фактор. В каком состоянии пилот начинает рейс? Потенциально выявление и предупреждение некоторых отклонений в состоянии пилота в ходе предполетной проверки может дополнительно снизить риски. В мире существуют специальные подходы и организации, способствующие реализации системы мониторинга состояния экипажа [2-4]. Однако в настоящее время не существует достаточно эффективной системы выявления усталости или состояний психологического отклонения у членов экипажа. Подобные системы, например, реализуются при мониторинге состояния водителя с помощью искусственного интеллекта и задач компьютерного зрения [5-7]. В частности, решаются задачи распознавания закрытых глаз, сигнализирующих об усталости водителя. Интеллектуальный анализ данных также может быть успешно применен и для распознавания отклонений в голосе членов экипажа воздушного судна (ВС). Попытка имитации диалогов пилота в различных условиях рассмотрена в работе [8]. Однако авторами рассматривается лишь моделирование ограниченного числа фраз сообщений фразеологического радиообмена. При этом имитируется голос уже непосредственно с борта ВС. Более того, получение достаточной обучающей выборки в данной ситуации довольно критично, поскольку нужно записывать голос пилота и отдавать на анализ экспертам. Адекватная оценка классификации, проведенной экспертами, будет возможна лишь спустя время после выполнения полета. При этом будет требоваться достаточно сложный дополнительный анализ. Заметим, что одним из вариантов быстрой кластеризации данных является применение моделей гауссовых смесей [9-10]. При этом не требуется предварительно знать, к какому классу относится то или иное сообщение. Понятно, что такая система будет уступать хорошо обученным под выявление важных параметров отклонения психологического состояния, но может значительно сократить время реализации в условиях подготовки достаточной обучающей выборки. Целью данной работы является исследование применения гауссовых моделей смесей для выявления стандартных и аномальных сообщений одного и того же диктора по спектральному представлению данного сигнала. Таким образом, важно, что при подходе анализа спектральных характеристик речевые сообщения при кластеризации без учителя относятся к одному и тому же диктору. Действительно, спектр сообщений, произнесенных различными дикторами, особенно разного пола, будет сильно отличаться, и при автоматическом выборе параметров для классификации наиболее вероятным будет разделение именно по голосу. МЕТОДЫ ИССЛЕДОВАНИЙ Задача исследования заключалась в оценке состояния человека по голосу. Для этого необходимо было подготовить исходную базу данных для анализа. Одним и тем же диктором произносились, как фразы по установленной форме радиообмена, так и свободные вольные фразы. Дополнительный шум искусственно при записи не добавлялся. Дополнительной предобработки с записями по эквалайзингу и фильтрации также не выполнялось. Для удобства оценки в отсутствии экспертов в области психологии все выражения записывались трижды в различных состояниях. При этом предпринималась попытка повторения одной и той же фразы в стандартном режиме, в заторможенном режиме с паузами (имитация усталости), в обрывистом, неспокойном режиме (имитация психологического отклонения). Таким образом, было создано 3 класса сообщений: стандарт, усталость, нервозность. Использовалась стандартная бесплатная программа для работы с аудио сигналами «AudaCity». Данное программное обеспечение позволяет формировать спектр сигнала в диапазоне от 86 Гц до 22 кГц. Однако данный подход обеспечивает 255 составляющих частотного спектра, что достаточно много для модели гауссовых смесей. Простым усреднением было выполнено схлопывание спектра до 10 компонент. При этом частота выбиралась в середине участка, а значение на заданной частоте получалось по выражению (1) , (1) где - число компонент для усреднения (25 для первых 9 новых компонент, 30 для последней новой компоненты), - номер частотной компоненты, с которой начинается усреднение, - уровень сигнала на -й частотной составляющей. Таким образом, после усреднения получается 10 компонент. Значения данных компонент и будут являться параметрами модели (в 10 измерениях). На основе 10-мерной плотности распределения вероятностей будут формироваться определенные классы. При этом будем считать, что заранее известно точное число классов, а именно 3. Рассмотрим на примере одномерного случая модель гауссовых смесей более подробно. Поскольку случайные значения сигналов на частотных составляющих наиболее точно могут быть описаны с помощью нормального распределения, применение такой модели целесообразно для решения поставленной задачи. Пусть классифицируемый объект описывается одним параметром , например, уровнем сигнала на частоте . При аппроксимации случайной величины с помощью гауссова распределения можно перейти к выражению плотности распределения вероятностей (ПРВ) , (2) где - математическое ожидание или среднее значение случайной величины , а - среднеквадратичное отклонение случайной величины . Теперь допустим, что, кроме значения сигнала на частотной составляющей , добавляются еще значения сигнала на частотных составляющих , и эти значения описываются случайными величинами . Тогда размерность ПРВ увеличивается до . Однако основным преимуществом нормального распределения (2) является удобство его представления в многомерной форме (3) ,(3) где , , , - матрица, обратная к . Поскольку все параметры учитываются лишь в степени экспоненты, то выражение (3) может быть заменено произведением выражений для одномерных ПРВ (2) в том случае, если между случайными величинами отсутствует корреляция. Следует отметить, что для рассматриваемой задачи такое упрощение недопустимо, поскольку существует связь между составляющими частотного спектра, близко расположенными к друг другу. На рис. 1 представлен пример плотности распределения вероятностей для нормального распределения при нулевом математическом ожидании и единичной дисперсии. Как видно из рис. 1, величине соответствует наиболее вероятное значение, равное 0. Поскольку представлен одномерный вариант, то описывается лишь точка на оси oX. При добавлении второго параметра каждый объект будет уже описываться точкой на плоскости, а ПРВ будет представляться в трехмерном пространстве. Таким образом, можно использовать сечения для анализа 10 параметров одного и того же объекта (фразы). Модель гауссовых смесей применяется для кластеризации, когда разным значениям случайной величины соответствуют разные классы объектов. На рис. 2 показана плотность распределения такой модели, содержащей 3 типа объектов. Пунктиром показаны отдельные распределения для таких объектов, характеризующихся одним параметром. При этом суммарная фигура строится таким образом, чтобы ее площадь, как и для отдельных ПРВ компонент, была равна 1. Наличие нескольких пиков на графике ПРВ позволяет выполнять автоматическую кластеризацию путем простого расчета расстояния точки от каждого пика и выборе минимального расстояния для определения класса, т.е., к какому пику ближе значение параметра неизвестного объекта, к тому классу его и будет относить модель смесей. РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЙ И ИХ ОБСУЖДЕНИЕ Для получения анализируемых данных использовалась стандартное звукозаписывающее устройство типа «TASCAM время DR-40». Фразы произносились одним и тем же диктором в обычном режиме, а также в режиме стрессового состояния (после комплекса упражнений) и в режиме усталости (перед сном в конце дня). Полученные в ходе экспериментов записи были проанализированы в «AudaCity» для спектрального представления, затем спектр был разделен на 10 участков, для которых происходило усреднение. Фразы использовались для перспективного выявления усталости у экипажа. И стандартные записи могут быть использованы как эталоны при дальнейшем анализе на борту, выявляющем расхождения от эталонов. Выбранные для эксперимента речевые сообщения представляют как стандартные фразы радиообмена, так и фразы более свободной формы. Далее приведены 8 фраз, используемые при анализе. 1) MAY DAY, MAY DAY, MAY DAY (Фраза №1); 2) Внимание экипаж, сдвиг ветра, уходим на второй круг (Фраза №2); 3) Внимание экипаж, карта аварийных проверок, пожар правого двигателя (Фраза №3); 4) 1013 ГПа установлено, набираю эшелон 80 (Фраза №4); 5) Здравствуйте, как дела? (Фраза №5); 6) Добрый день, температура в пункте прибытия плюс двадцать (Фраза №6); 7) Я командир воздушного судна Diamond 40NG (Фраза №7); 8) Предполетная проверка связи. Раз, два, три. (Фраза №8). Каждая фраза была записана по 2 раза в каждом состоянии. Это позволило получить выборку из 48 звуковых сообщений. Соответственно в исходной выборке было по 16 сообщений каждого класса. На рис. 3 представлены примеры спектров, полученных при произнесении Фразы №1 в различных режимах. Из рис. 3 видно, что различные условия произнесения фраз приводят к появлению различных спектров. Это и было использовано при применении гауссовых моделей смесей. В табл. 1 показаны результаты распознавания для всех 3-х классов. Анализ полученных результатов показывает, что применение гауссовых моделей смесей для данных фраз обеспечило долю правильных распознаваний среди 3 классов порядка 65%. ЗАКЛЮЧЕНИЕ Таким образом, в работе исследованы алгоритмы автоматической кластеризации состояния диктора по произнесенному сообщению на базе моделей гауссовых смесей. Для тестовой выборки был получен средний результат 65%. Добиться повышения качества можно, дополнительно используя корреляционный анализ для предварительного определения того, какая фраза произнесена. А затем из отсортированных фраз уже производить более глубокую кластеризацию. Это и составляет планы будущих исследований.

作者简介

N. Andriyanov

Financial University under the Government of the Russian Federation

Email: nikita-and-nov@mail.ru
Moscow, Russia

V. Dementiev

Ulyanovsk State Technical University

Email: dve@ulntc.ru
Ulyanovsk, Russia

参考

Авиакатастрофы и человеческий фактор. Инфографика. Электронный ресурс. Режим доступа: https://jets.ru/business-aviation/aviakatastrofy_i_chelovecheskiy_faktor_infografika_ (дата обращения: 29.11.2020).
Stephens Ch., Harrivel A., Prinzel L., Comstock R., Abraham N., Pope A., Wilkerson J., Kiggins D. Crew State Monitoring and Line-Oriented Flight Training for Attention Management // International Symposium on Aviation Psychology, 2017, p. 1-6
Harrivel, A. R., Stephens, C. L., Milletich, R. L., Heinich, C. M., Last, M. C., Napoli, N. J., Pope, A. T. (2017). Prediction of Cognitive States during Flight Simulation using Multimodal Psychophysiological Sensing. Paper presented at the American Institute of Aeronautics and Astronautics, SciTech, Grapevine, Texas.
Электронный ресурс. Commercial Aviation Safety Team. (2014a). Airplane State Awareness Joint Safety Analysis Team Interim Report. Режим доступа: http://www.skybrary.aero/index.php/Commercial_Aviation_Safety_Team_%28CAST%29_Reports (дата обращения: 29.11.2020).
Электронный ресурс. Режим доступа: https://www.sowa.pro/ (дата обращения: 29.11.2020).
Гладких А.А., Андриянов Н.А., Волков А.К. Сравнительный анализ результатов трансфера обучения нейросетей при решении задачи распознавания объектов на рентгеновских снимках багажа // Современные проблемы проектирования, производства и эксплуатации радиотехнических систем. Сборник научных трудов. Ульяновск, 2020. С. 107-110.
Andriyanov N.A., Volkov Al.K., Volkov An.K., Gladkikh A.A., Danilov S.D. Automatic X-ray image analysis for aviation security with limited computing resources // IOP Conference Series: Materials Science and Engineering. Krasnoyarsk Science and Technology City Hall of the Russian Union of Scientific and Engineering Associations. 2020. С. 52009.
Андриянов Н.А., Исаев М.В. Спектральный анализ сообщений экипажа воздушного судна, сделанных в различных условиях // Современные проблемы проектирования, производства и эксплуатации радиотехнических систем. Сборник научных трудов. 2019. С. 118-123.
Андриянов Н.А., Дементьев В.Е. Обзор применения гауссовых моделей в статистической обработке данных // Современные проблемы проектирования, производства и эксплуатации радиотехнических систем. Сборник научных трудов. Ульяновск, 2020. С. 91-96.
Рахманенко И.А. Алгоритмы и программные средства верификации диктора по произвольной фразе: Диссертация на соискание ученой степени кандидата технических наук, Томск, ТУСУР, 2017. - 111 с.

补充文件

附件文件

动作

1. JATS XML

下载

用户名
密码
记住我

忘记您的密码?	注册

用户名
密码
记住我

忘记您的密码?	注册