АНАЛИЗ СОСТОЯНИЯ ЧЛЕНА ЭКИПАЖА ВОЗДУШНОГО СУДНА ПО ЕГО РЕЧИ НА БАЗЕ ГАУССОВЫХ МОДЕЛЕЙ СМЕСЕЙ
- Авторы: Андриянов Н.А1, Дементьев В.Е2
-
Учреждения:
- Финансовый университет при Правительстве Российской Федерации
- Ульяновский государственный технический университет
- Выпуск: Том 23, № 1 (2021)
- Страницы: 97-102
- Раздел: Статьи
- URL: https://journals.eco-vector.com/1990-5378/article/view/88561
- DOI: https://doi.org/10.37313/1990-5378-2021-23-1-97-102
- ID: 88561
Цитировать
Полный текст
Аннотация
Работа посвящена исследованию эффективности применения моделей гауссовых смесей для распознавания аномальных отклонений в речи диктора. Предложено практическое применение разрабатываемых алгоритмов для выявления эмоционального состояния члена экипажа по произнесенной им фразе. В качестве основного критерия для различения с помощью модели гауссовых смесей используются спектральные характеристики речевого сигнала. В связи с достаточно небольшим шагом дискретизации по частоте и соответственно с наличием 255 частотных составляющих в спектре сигнала предложено сжатие спектра до 10 составляющих. Такой подход позволил сократить число ключевых параметров в гауссовой модели до 10, что, в свою, очередь, позволило упростить процесс анализа при построении многомерных распределений. Для оценки качества предлагаемого алгоритма были записаны тестовые фразы. При этом имитировались различные психологические состояния диктора. Использовались как простые нерегламентированные речевые конструкции, так и сообщения, регулируемые в порядке Федеральных авиационных правил при проведении радиообмена в гражданской авиации на территории Российской Федерации. С учетом ограничений на предварительные знания модели и кластеризации по спектральным характеристикам все записи модели были выполнены одним диктором. Были рассмотрены три класса эмоционального состояния диктора. На выходе система распознавания ставила такие метки, как спокойное состояние, усталое состояние, стрессовое состояние. Различные состояния искусственно имитировались в процессе подготовки данных. На тестовой выборке из 48 сообщений гауссова модель из 3 компонент и 10 параметров без предварительного обучения сразу позволила достичь результата порядка 65%, в то время как вероятность распознать верный класс при 3-х равных классах априори составляет 33%. В качестве дальнейших исследований предложено применение предварительного обучения с использованием нейронных сетей или корреляционных алгоритмов. Такой подход позволит выполнять дальнейшую кластеризацию на более глубоком уровне, когда, например, определяется пол диктора, определяется типовое сообщение радиообмена, а затем уже выявляется эмоциональное состояние диктора.
Полный текст
ВВЕДЕНИЕ Обеспечение безопасности полетов является главным приоритетом современной гражданской авиации. Сложно переоценить роль этой задачи в условиях, когда на борту самолета находится множество людей. Однако по статистике [1] около 80% авиакатастроф в Российской Федерации происходят по причине человеческого фактора, и лишь 20% случаев приходится на отказы авиационной техники. Понятно, что помимо глобальных факторов, связанных с неправильным поведением экипажа в критических ситуациях, нехваткой летной практики, важную роль играет и психологический фактор. В каком состоянии пилот начинает рейс? Потенциально выявление и предупреждение некоторых отклонений в состоянии пилота в ходе предполетной проверки может дополнительно снизить риски. В мире существуют специальные подходы и организации, способствующие реализации системы мониторинга состояния экипажа [2-4]. Однако в настоящее время не существует достаточно эффективной системы выявления усталости или состояний психологического отклонения у членов экипажа. Подобные системы, например, реализуются при мониторинге состояния водителя с помощью искусственного интеллекта и задач компьютерного зрения [5-7]. В частности, решаются задачи распознавания закрытых глаз, сигнализирующих об усталости водителя. Интеллектуальный анализ данных также может быть успешно применен и для распознавания отклонений в голосе членов экипажа воздушного судна (ВС). Попытка имитации диалогов пилота в различных условиях рассмотрена в работе [8]. Однако авторами рассматривается лишь моделирование ограниченного числа фраз сообщений фразеологического радиообмена. При этом имитируется голос уже непосредственно с борта ВС. Более того, получение достаточной обучающей выборки в данной ситуации довольно критично, поскольку нужно записывать голос пилота и отдавать на анализ экспертам. Адекватная оценка классификации, проведенной экспертами, будет возможна лишь спустя время после выполнения полета. При этом будет требоваться достаточно сложный дополнительный анализ. Заметим, что одним из вариантов быстрой кластеризации данных является применение моделей гауссовых смесей [9-10]. При этом не требуется предварительно знать, к какому классу относится то или иное сообщение. Понятно, что такая система будет уступать хорошо обученным под выявление важных параметров отклонения психологического состояния, но может значительно сократить время реализации в условиях подготовки достаточной обучающей выборки. Целью данной работы является исследование применения гауссовых моделей смесей для выявления стандартных и аномальных сообщений одного и того же диктора по спектральному представлению данного сигнала. Таким образом, важно, что при подходе анализа спектральных характеристик речевые сообщения при кластеризации без учителя относятся к одному и тому же диктору. Действительно, спектр сообщений, произнесенных различными дикторами, особенно разного пола, будет сильно отличаться, и при автоматическом выборе параметров для классификации наиболее вероятным будет разделение именно по голосу. МЕТОДЫ ИССЛЕДОВАНИЙ Задача исследования заключалась в оценке состояния человека по голосу. Для этого необходимо было подготовить исходную базу данных для анализа. Одним и тем же диктором произносились, как фразы по установленной форме радиообмена, так и свободные вольные фразы. Дополнительный шум искусственно при записи не добавлялся. Дополнительной предобработки с записями по эквалайзингу и фильтрации также не выполнялось. Для удобства оценки в отсутствии экспертов в области психологии все выражения записывались трижды в различных состояниях. При этом предпринималась попытка повторения одной и той же фразы в стандартном режиме, в заторможенном режиме с паузами (имитация усталости), в обрывистом, неспокойном режиме (имитация психологического отклонения). Таким образом, было создано 3 класса сообщений: стандарт, усталость, нервозность. Использовалась стандартная бесплатная программа для работы с аудио сигналами «AudaCity». Данное программное обеспечение позволяет формировать спектр сигнала в диапазоне от 86 Гц до 22 кГц. Однако данный подход обеспечивает 255 составляющих частотного спектра, что достаточно много для модели гауссовых смесей. Простым усреднением было выполнено схлопывание спектра до 10 компонент. При этом частота выбиралась в середине участка, а значение на заданной частоте получалось по выражению (1) , (1) где - число компонент для усреднения (25 для первых 9 новых компонент, 30 для последней новой компоненты), - номер частотной компоненты, с которой начинается усреднение, - уровень сигнала на -й частотной составляющей. Таким образом, после усреднения получается 10 компонент. Значения данных компонент и будут являться параметрами модели (в 10 измерениях). На основе 10-мерной плотности распределения вероятностей будут формироваться определенные классы. При этом будем считать, что заранее известно точное число классов, а именно 3. Рассмотрим на примере одномерного случая модель гауссовых смесей более подробно. Поскольку случайные значения сигналов на частотных составляющих наиболее точно могут быть описаны с помощью нормального распределения, применение такой модели целесообразно для решения поставленной задачи. Пусть классифицируемый объект описывается одним параметром , например, уровнем сигнала на частоте . При аппроксимации случайной величины с помощью гауссова распределения можно перейти к выражению плотности распределения вероятностей (ПРВ) , (2) где - математическое ожидание или среднее значение случайной величины , а - среднеквадратичное отклонение случайной величины . Теперь допустим, что, кроме значения сигнала на частотной составляющей , добавляются еще значения сигнала на частотных составляющих , и эти значения описываются случайными величинами . Тогда размерность ПРВ увеличивается до . Однако основным преимуществом нормального распределения (2) является удобство его представления в многомерной форме (3) ,(3) где , , , - матрица, обратная к . Поскольку все параметры учитываются лишь в степени экспоненты, то выражение (3) может быть заменено произведением выражений для одномерных ПРВ (2) в том случае, если между случайными величинами отсутствует корреляция. Следует отметить, что для рассматриваемой задачи такое упрощение недопустимо, поскольку существует связь между составляющими частотного спектра, близко расположенными к друг другу. На рис. 1 представлен пример плотности распределения вероятностей для нормального распределения при нулевом математическом ожидании и единичной дисперсии. Как видно из рис. 1, величине соответствует наиболее вероятное значение, равное 0. Поскольку представлен одномерный вариант, то описывается лишь точка на оси oX. При добавлении второго параметра каждый объект будет уже описываться точкой на плоскости, а ПРВ будет представляться в трехмерном пространстве. Таким образом, можно использовать сечения для анализа 10 параметров одного и того же объекта (фразы). Модель гауссовых смесей применяется для кластеризации, когда разным значениям случайной величины соответствуют разные классы объектов. На рис. 2 показана плотность распределения такой модели, содержащей 3 типа объектов. Пунктиром показаны отдельные распределения для таких объектов, характеризующихся одним параметром. При этом суммарная фигура строится таким образом, чтобы ее площадь, как и для отдельных ПРВ компонент, была равна 1. Наличие нескольких пиков на графике ПРВ позволяет выполнять автоматическую кластеризацию путем простого расчета расстояния точки от каждого пика и выборе минимального расстояния для определения класса, т.е., к какому пику ближе значение параметра неизвестного объекта, к тому классу его и будет относить модель смесей. РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЙ И ИХ ОБСУЖДЕНИЕ Для получения анализируемых данных использовалась стандартное звукозаписывающее устройство типа «TASCAM время DR-40». Фразы произносились одним и тем же диктором в обычном режиме, а также в режиме стрессового состояния (после комплекса упражнений) и в режиме усталости (перед сном в конце дня). Полученные в ходе экспериментов записи были проанализированы в «AudaCity» для спектрального представления, затем спектр был разделен на 10 участков, для которых происходило усреднение. Фразы использовались для перспективного выявления усталости у экипажа. И стандартные записи могут быть использованы как эталоны при дальнейшем анализе на борту, выявляющем расхождения от эталонов. Выбранные для эксперимента речевые сообщения представляют как стандартные фразы радиообмена, так и фразы более свободной формы. Далее приведены 8 фраз, используемые при анализе. 1) MAY DAY, MAY DAY, MAY DAY (Фраза №1); 2) Внимание экипаж, сдвиг ветра, уходим на второй круг (Фраза №2); 3) Внимание экипаж, карта аварийных проверок, пожар правого двигателя (Фраза №3); 4) 1013 ГПа установлено, набираю эшелон 80 (Фраза №4); 5) Здравствуйте, как дела? (Фраза №5); 6) Добрый день, температура в пункте прибытия плюс двадцать (Фраза №6); 7) Я командир воздушного судна Diamond 40NG (Фраза №7); 8) Предполетная проверка связи. Раз, два, три. (Фраза №8). Каждая фраза была записана по 2 раза в каждом состоянии. Это позволило получить выборку из 48 звуковых сообщений. Соответственно в исходной выборке было по 16 сообщений каждого класса. На рис. 3 представлены примеры спектров, полученных при произнесении Фразы №1 в различных режимах. Из рис. 3 видно, что различные условия произнесения фраз приводят к появлению различных спектров. Это и было использовано при применении гауссовых моделей смесей. В табл. 1 показаны результаты распознавания для всех 3-х классов. Анализ полученных результатов показывает, что применение гауссовых моделей смесей для данных фраз обеспечило долю правильных распознаваний среди 3 классов порядка 65%. ЗАКЛЮЧЕНИЕ Таким образом, в работе исследованы алгоритмы автоматической кластеризации состояния диктора по произнесенному сообщению на базе моделей гауссовых смесей. Для тестовой выборки был получен средний результат 65%. Добиться повышения качества можно, дополнительно используя корреляционный анализ для предварительного определения того, какая фраза произнесена. А затем из отсортированных фраз уже производить более глубокую кластеризацию. Это и составляет планы будущих исследований.×
Об авторах
Н. А Андриянов
Финансовый университет при Правительстве Российской Федерации
Email: nikita-and-nov@mail.ru
Москва, Россия
В. Е Дементьев
Ульяновский государственный технический университет
Email: dve@ulntc.ru
Ульяновск, Россия
Список литературы
- Авиакатастрофы и человеческий фактор. Инфографика. Электронный ресурс. Режим доступа: https://jets.ru/business-aviation/aviakatastrofy_i_chelovecheskiy_faktor_infografika_ (дата обращения: 29.11.2020).
- Stephens Ch., Harrivel A., Prinzel L., Comstock R., Abraham N., Pope A., Wilkerson J., Kiggins D. Crew State Monitoring and Line-Oriented Flight Training for Attention Management // International Symposium on Aviation Psychology, 2017, p. 1-6
- Harrivel, A. R., Stephens, C. L., Milletich, R. L., Heinich, C. M., Last, M. C., Napoli, N. J., Pope, A. T. (2017). Prediction of Cognitive States during Flight Simulation using Multimodal Psychophysiological Sensing. Paper presented at the American Institute of Aeronautics and Astronautics, SciTech, Grapevine, Texas.
- Электронный ресурс. Commercial Aviation Safety Team. (2014a). Airplane State Awareness Joint Safety Analysis Team Interim Report. Режим доступа: http://www.skybrary.aero/index.php/Commercial_Aviation_Safety_Team_%28CAST%29_Reports (дата обращения: 29.11.2020).
- Электронный ресурс. Режим доступа: https://www.sowa.pro/ (дата обращения: 29.11.2020).
- Гладких А.А., Андриянов Н.А., Волков А.К. Сравнительный анализ результатов трансфера обучения нейросетей при решении задачи распознавания объектов на рентгеновских снимках багажа // Современные проблемы проектирования, производства и эксплуатации радиотехнических систем. Сборник научных трудов. Ульяновск, 2020. С. 107-110.
- Andriyanov N.A., Volkov Al.K., Volkov An.K., Gladkikh A.A., Danilov S.D. Automatic X-ray image analysis for aviation security with limited computing resources // IOP Conference Series: Materials Science and Engineering. Krasnoyarsk Science and Technology City Hall of the Russian Union of Scientific and Engineering Associations. 2020. С. 52009.
- Андриянов Н.А., Исаев М.В. Спектральный анализ сообщений экипажа воздушного судна, сделанных в различных условиях // Современные проблемы проектирования, производства и эксплуатации радиотехнических систем. Сборник научных трудов. 2019. С. 118-123.
- Андриянов Н.А., Дементьев В.Е. Обзор применения гауссовых моделей в статистической обработке данных // Современные проблемы проектирования, производства и эксплуатации радиотехнических систем. Сборник научных трудов. Ульяновск, 2020. С. 91-96.
- Рахманенко И.А. Алгоритмы и программные средства верификации диктора по произвольной фразе: Диссертация на соискание ученой степени кандидата технических наук, Томск, ТУСУР, 2017. - 111 с.
Дополнительные файлы
