Speech-based emotion recognition of the distant student with adaptive intellectual information technologies

Christina Yuryevna Brester; Брестер Кристина Юрьевна; Sofya Romanovna Vishnevskaya; Вишневская Софья Романовна; Olga Ernestovna Semenkina; Семенкина Ольга Эрнестовна

Speech-based emotion recognition of the distant student with adaptive intellectual information technologies

Authors: Brester C.Y.¹, Vishnevskaya S.R.², Semenkina O.E.¹
Affiliations:
1. Siberian State Aerospace University named after academician M.F. Reshetnev
2. Siberian State Aerospace University
Issue: Vol 15, No 3 (2014)
Pages: 35-41
Section: Articles
Published: 15.06.2014
URL: https://journals.eco-vector.com/2712-8970/article/view/504032
ID: 504032

Cite item

Full Text

Abstract
Full Text
About the authors
References
Supplementary files
Statistics

Abstract

To overcome the negative sides of distance education and to develop the communicative competence of the distant student, it is necessary to improve the interactive dialogue systems, in particular, to realize the opportunity of speaker state recognition. Although lots of excellent results have already been achieved in this sphere, there are some open questions. Recently scientists have developed various program systems which are good at extracting numerical characteristics from speechsignals. Unfortunately, the amount of features might be huge that becomes a challenge for classification models. Therefore it is significant to determine relevant features from data sets. In this paper we consider the feature selection procedure that is based on the adaptive multi-objective evolutionary algorithm and investigate its efficiency in combination with different classification models. Generally, the feature selection procedure can be organized as a wrapper approach or a filter one. Compared with the wrapper approach, the second technique requires less computational resources and also demonstrates good results. Therefore in this research we implemented the feature selection procedure according to the scheme of the filter approach. Furthermore, to avoid choosing the genetic algorithm settings we developed a self-adaptive modification of the conventional multi-objective genetic algorithm. Due to application of the self-adaptive heuristic optimization procedure it became possible not only to improve the performance of involved classifiers but also to reduce the number of selected features essentially. Obtained results demonstrate high performance of the developed algorithmic scheme and imply the reasonableness of its usage in the dialogue system modules for recognition of student emotions distantly.

Keywords

distance education, intellectual dialogue system, emotion recognition, adaptive multi-objective genetic algorithm, classifier

Full Text

Введение. С развитием современных информационных и телекоммуникационных технологий широкое распространение получило дистанционное обучение как один из вариантов получения высшего образования. На данный момент это современный и популярный вариант подготовки специалистов как в России, так и во всем мире. Среди преимуществ дистанционного образования выделяют не только его мобильность и возможность выполнения заданий в любое удобное время, но и индивидуализацию процесса обучения. Однако стоит отметить, что дистанционное образование в существующей его форме подменяет живое общение шаблонным в виде «диалога с компьютером», что негативно сказывается на развитии диалогического общения учащихся, формировании и формулировании мысли на профессиональном языке. Для России дистанционное обучение является новым образовательным стандартом, появившимся совсем недавно, но уже успевшим завоевать свое место в педагогической среде. Дистанционные программы позволяют снизить затраты на проведение обучения, повысить качество образования за счет применения современных технологий (например объемных электронных библиотек), создать единую образовательную среду. Сейчас в нашей стране действуют более 70 центров дистанционного образования, причем это не только высшее, но также среднее, постдипломное образование и различные курсы, семинары, тренинги. В последние годы Правительством РФ неоднократно подчеркивалась приоритетность развития данной формы обучения. В процесс дистанционного образования активно внедряются различные средства информационных технологий и массовых телекоммуникаций, в числе которых интеллектуальные диалоговые системы (ИДС), позволяющие эмулировать общение студента с преподавателем. Однако ИДС должны не просто отвечать на вопросы шаблонными фразами, а вести беседу на естественном языке, подстраиваясь под особенности пользователя, его эмоциональное состояние. Несостоятельность человеко-машинного диалога лишает студента живого общения, которое, как показывают психологи, формирует самостоятельное мышление. Кроме того, одной из ключевых проблем дистанционного обучения является проблема аутентификации пользователя при проверке знаний. Поскольку до сих пор не предложено оптимальных технологических решений, большинство дистанционных программ по-прежнему предполагает очную экзаменационную сессию. Для преодоления недостатков ИДС, функционирующих в системах дистанционного обучения, и для повышения качества данной формы образования в целом, предлагается разработать и внедрить эффективные методы распознавания обучающегося и его психоэмоционального состояния по речи. Постановка задачи. Распознавание обучающегося и его эмоционального состояния предполагает наличие выборочных данных, на основе которых и производится процедура идентификации. На сегодняшний день широкое распространение получили программные системы, специализирующиеся на анализе акустических характеристик речевого сигнала, поэтому извлечение числовых параметров, описывающих речь пользователя, не представляет сложности. Однако количество акустических характеристик достаточно велико, и использование всего набора данных в процессе распознавания является нерациональным: атрибуты могут иметь низкий уровень вариации, коррелировать друг с другом или содержать зашумленные данные, снижающие точность проектируемой на их основе системы. Поэтому важной задачей в процессе идентификации обучающегося и его эмоций является извлечение информативной подсистемы признаков, используемых алгоритмами распознавания. Задача распознавания пользователя диалоговой системы (дистанционного студента), его персональных характеристик (эмоциональное состояние и т. п.) представляет собой задачу классификации (обучение с учителем). Разрабатываемый подход. Нередко стандартные методы извлечения информативных признаков (метод главных компонент, факторный анализ [1]) демонстрируют свою неэффективность при работе с базами данных, вектор признаков которых имеет высокую размерность. Именно в таких случаях целесообразным является разработка методов, основанных на привлечении эвристических оптимизационных процедур [2]. В общем случае процедура отбора информативных признаков может быть построена по одной из двух схем [3]: 1. Первая схема (со встроенным классификатором) базируется на оптимизации критерия, отражающего точность классификации на фиксированном наборе признаков. Для оценки данного критерия используется классификационная модель, чем и объясняются высокие вычислительные и временные затраты при применении данного подхода. 2. Схема «фильтр» оперирует метриками, характеризующими релевантность набора признаков. В качестве критериев могут быть использованы внутри- и межклассовое расстояние, энтропия, мера несостоятельности и пр. [4]. Данный подход соответствует этапу предобработки данных и не требует сведений об эффективности классификатора на текущем наборе признаков, за счет чего и является более выгодным в смысле вычислительных ресурсов. В работе [5] было показано, что, несмотря на использование первой схемой информации о релевантности набора признаков для привлекаемого классификатора, подход «фильтр» также может демонстрировать сопоставимые по эффективности результаты работы. Кроме того, учитывая объемы баз данных, которыми может быть представлена задача распознавания эмоций, приходим к выводу, что наиболее приемлемой является реализация подхода «фильтр». В качестве критериев, описывающих качество извлеченной подсистемы информативных признаков, были выбраны внутри- (англ. Intra-class distance - IA) и межклассовое расстояния (англ. Inter-class distance - IE): 1 k nr IA = -ZZ d ( prj, pr ) ^ min, (1) n r=1 j=1 36 Математика, механика, информатика IE = - Z nrd ( pr, p ) ^ max, n r=1 (2) Ьг = A/“ , г \P\ N (4) где pj - j-й экземпляр класса r; p - центральный пример набора данных; d(...,... ) обозначает евклидову метрику; pr и nr соответствуют центральному примеру класса r и числу экземпляров в нем. Для решения поставленной оптимизационной задачи был выбран многокритериальный генетический алгоритм (ГА), реализующий адаптивную модификацию метода Strength Pareto Evolutionary Algorithm (SPEA) [6]. Известно, что генетические алгоритмы требуют настройки большого количества параметров, в том числе и выбора типа генетических операторов. В предложенной модификации наиболее подходящий на текущем поколении для решаемой задачи вариант оператора выбирается автоматически [7; 8]. Бинарные строки кодируют извлекаемые признаки следующим образом: 1 - информативный признак, 0 - неинформативный признак. Далее приведена общая схема адаптивной модификации метода SPEA: 1. Инициализация начальной популяции P0(t = 0). 2. Копирование в промежуточное внешнее множество индивидов, чьи векторы решений недоминируемы относительно Pt. 3. Удаление из промежуточного внешнего множества ( P' ) индивидов, доминируемых относительно P ' . 4. Если мощность P' больше заданного значения, то применение механизма кластеризации для устранения схожих индивидов. 5. Формирование внешнего множества из индивидов P'. 6. Применение генетических операторов: селекция, скрещивание, мутация. 7. Проверка выполнения критерия останова: если выполняется - завершить работу алгоритма, иначе -перейти к п. 2. На шаге 6 необходима настройка генетических операторов [9; 10]: требуется выбрать один из вариантов скрещивания, определить вероятность мутации. В данном методе применяется турнирная селекция (причем отбор индивидов производится не только из текущей популяции, но и из внешнего множества), поэтому задача выбора эффективного типа селекции отсутствует [11]. Вариант адаптивного оператора мутации [12] был заимствован из статьи Дариди: = 0,11375 Pm = 240 + 2‘ , (3) где pг - число индивидов во внешнем множестве, сгене-рированных при участии i-го типа оператора скрещива-ния; |p| - мощность внешнего множества; nt - число индивидов в текущей популяции, сгенерированных с помощью i-го типа оператора; N - мощность популяции. Для каждого варианта оператора скрещивания вычисляется его «пригодность» qt по формуле (5): T-1 T - k q- = Z -г b, (5) k=0 k +1 где T - интервал адаптации; k = 0 соответствует последнему поколению в интервале адаптации; k = 1 - предыдущему и т. д. Через каждые T поколений осуществляется попарное сравнение «пригодности» вариантов скрещивания с целью перераспределения ресурсов, согласно правилу (6): 0, if nг < N , s, = nг - N int(---min), if (n, - h • L) <N . , f \ I I / mm h- L, otherwise, где t - номер текущего поколения, для которого рассчитывается вероятность мутации. Для реализации адаптивного оператора скрещивания были применены идеи коэволюционного ГА [13; 14]. На каждом поколении генерирование новой популяции осуществляется всеми типами скрещивания: вариантам оператора выделяются ресурсы (доля индивидов популяции, генерируемых конкретным типом скрещивания на текущем поколении) в зависимости от числа индивидов во внешнем множестве, сгенерированных при помощи данного варианта скрещивания: где si - размер ресурса (количество индивидов), отдаваемого i-м алгоритмом каждому победившему его алгоритму; hi - число поражений алгоритма в попарных сравнениях; Nmin - минимально допустимый размер подпопуляции; L - размер штрафа для проигравших алгоритмов. Параметр Nmin предназначен для поддержания разнообразия вариантов оператора; L - для перераспределения ресурсов. Результатом работы многокритериального ГА является множество несравнимых между собой точек -аппроксимация множества Парето. После завершения работы алгоритма для каждой бинарной строки из внешнего множества получаем подсистему признаков, используемых для обучения классификатора. Таким образом, финальное решение о принадлежности объекта к тому или иному классу принимается ансамблем классификаторов по правилу большинства. Разрабатываемый подход был исследован с привлечением следующих классификаторов: - полносвязный персептрон (англ. Multilayer Per-ceptron - MLP) с одним скрытым слоем; для обучения использовался алгоритм обратного распространения ошибки; - машины опорных векторов (англ. Support Vector Machine - SVM), для обучения которых применялся метод последовательной минимальной оптимизации Дж. Платта; - логистическая регрессия (англ. Logistic Regression - Logit); - радиально-базисная нейронная сеть с функцией Гаусса (англ. Radial Basis Function Network - RBF); - наивный Байесовский классификатор (англ. Naive Bayes); 37 Вестник СибГАУ. 2014. № 3(55) - деревья решений, для построения которых использовался алгоритм J48 (модификация метода C4.5); - ансамбль деревьев решений (англ. Random Forest); - бэггинг (англ. Bagging); - аддитивная логистическая регрессия (англ. Additive Logistic Regression - LogitBoost); - алгоритм генерирования правил 1R (англ. One Rule). В ходе тестирования были использованы реализации данных алгоритмов в программной системе Weka 3.6.10 [15]. Результаты исследования разработанного подхода. На практике для оценки результатов работы классификатора нередко используют матрицу неточностей (англ. confusion matrix), столбцы которой соответствуют экспертным решениям (истинное значение класса), а строки - предсказаниям классификатора (табл. 1). Размерность матрицы N x N, где N - число различных классов в выборке. Таблица 1 Общий вид матрицы неточностей Действительные значения Класс 1 Класс2 Классдт cö К м Е б Й і Класс 1 a11 a12 a1N Класс2 a21 a22 a2N (Й t з d s w с n е £ Классдт a1N a2N aNN recall^ = Z a-l (7) precision; = Л11 Z a j (8) Чем выше точность и полнота, тем качество работы классификатора лучше. Однако при решении практических задач редко удается добиться максимальных значений обеих метрик одновременно. Поэтому часто используют такой показатель, как F-score, объединяющий в себе информацию и о точности, и о полноте классификатора: F-score = 2 • Recall • Рrecision Recall+Рrecision ’ (9) где Recall = Z recall, Precision = Z precision . l і Исследование эффективности предложенного подхода проводилось с использованием баз данных Berlin [16], SAVEE [17] и LEGO [18], содержащих характеристики голосовых записей на немецком, английском и английском языках соответственно (табл. 2). При анализе каждой аудиозаписи с помощью программных систем OpenSMILE [19] и Praat [20] было получено 384 признака: максимальное, минимальное, среднее значения или среднеквадратическое отклонение акустических характеристик, описывающих речевой сигнал, его высоту, вибрации, интенсивность и т. п. Описание используемых баз данных Таблица 2 Матрица неточностей демонстрирует работу алгоритма и позволяет оценить его эффективность для каждого класса, содержащегося в выборке. Для этого вводятся специальные метрики - полнота и точность, определяемые следующим образом. Пусть построена матрица неточностей A = (aij), тогда полнотой в пределах класса l (англ. recall) назовем величину, равную доле экземпляров данного класса, найденных классификатором, относительно всех примеров данного класса в тестовой выборке: Название базы данных Язык Объем базы данных Классы Berlin немецкий 535 Нейтрально, злость, страх, счастье, грусть, скука, отвращение SAVEE (Surrey Audio-Visual Expressed Emotion) английский 480 Злость, отвращение, страх, счастье, грусть, удивление, нейтрально LEGO английский 4827 Нейтрально, злость, тишина / шум Точностью в пределах класса l (англ. precision) назовем величину, равную доле примеров в тестовой выборке, действительно принадлежащих классу l относительно всех экземпляров, которые были отнесены к данному классу: lj Для сравнения эффективности работы классификаторов на полном и сокращенном наборе признаков была использована процедура кроссвалидации: каждая выборка случайным образом делились на 6 стратифицированных частей. На этапе отбора информативных признаков генетическому алгоритму было выделено следующее количество ресурсов: 100 индивидов и 100 поколений. Настраиваемые параметры приняли следующие значения: размер внешнего множества - 30, время адаптации - 5 поколений, размер штрафа - 10 индивидов и «социальная карта» - 10 индивидов. В табл. 3 представлен пример матрицы неточностей, полученной при классификации экземпляров базы данных Berlin с помощью машин опорных векторов на полном наборе признаков. Точность и полнота системы в целом приняли следующие значения: Precision = 82,14 %, Recall = = 81,28 %. Тогда показатель F-score равен: a ll 38 Математика, механика, информатика F-score = 2 • 81,28 '82,14 = 81,71 %. (10) 81,28 + 82,14 Подобным образом были вычислены значения показателя F-score в остальных экспериментах. Табл. 4 содержит результаты классификации на полном и сокращенном наборе признаков для трех баз данных. При этом число признаков, используемых алгоритмом классификации, для базы данных Berlin было сокращено в среднем с 384 до 182,2, для SAVEE - до 178,3, для LEGO - до 180,9. Анализ полученных результатов показал, что разработанная методика в большинстве случаев позволяет не только повысить качество работы классификатора, но и существенно сократить количество признаков, используемых при распознавании эмоций говорящего (приблизительно в два раза). Причем для некоторых классификаторов улучшение показателя F-score составляет десятки процентов (до 44 % для ансамбля деревьев решений на базе данных SAVEE). Следует также заметить, что ухудшение в работе классификаторов SVM, Logit и LogitBoost для базы данных LEGO невелико - около 1 %. В большинстве же экспериментов предложенный метод отбора информативных признаков демонстрирует свою высокую эффективность. Пример матрицы неточностей для базы данных Berlin, полученной на полном наборе признаков с помощью машин опорных векторов Таблица 3 Действительные значения Счастье Нейтрально Злость Грусть Страх Скука Отвращение Точность в пределах класса, % Предсказанные значения Счастье 49 2 14 0 10 0 2 63,64 Нейтрально 1 70 0 0 0 9 0 87,50 Злость 13 0 113 0 3 0 1 86,92 Грусть 0 0 0 52 2 7 1 83,87 Страх 7 1 0 1 53 1 2 81,54 Скука 0 6 0 7 0 64 3 80,00 Отвращение 1 0 0 2 1 0 43 91,49 Полнота в пределах класса, % 69,01 88,61 88,98 83,87 76,81 79,01 82,69 Результаты тестирования предложенного подхода Таблица 4 Berlin SAVEE LEGO F-score, % Улучшение, % F-score, % Улучшение, % F-score, % Улучшение, % Все признаки После ГА Все признаки После ГА Все признаки После ГА MLP 82,87 82,26 -0,74 61,72 63,58 3,01 67,53 71,70 6,18 SVM 81,71 82,14 0,53 59,22 60,77 2,62 70,81 69,88 -1,31 Logit 80,04 82,15 2,64 57,20 63,46 10,95 70,75 69,82 -1,31 RBF 68,93 71,59 3,85 43,27 44,15 2,03 52,61 61,31 16,53 Naive Bayes 66,91 67,45 0,81 43,64 45,53 4,33 57,00 59,43 4,26 J48 50,15 51,96 3,60 42,46 47,79 12,55 57,55 64,90 12,77 Random Forest 54,69 73,43 34,27 38,60 55,73 44,38 65,47 68,47 4,58 Bagging 60,60 63,29 4,43 42,99 52,91 23,07 67,53 68,06 0,79 Logit Boost 66,66 71,21 6,82 49,08 52,22 6,40 67,66 67,04 -0,92 OneR 29,20 29,20 0,00 30,41 30,41 0,00 59,01 59,01 0,00 39 Вестник СибГАУ. 2014. N 3(55) Заключение. Для повышения качества дистанционного образования необходимо совершенствовать диалоговые системы, являющиеся ключевым звеном человеко-машинной коммуникации. В данной статье обосновывается актуальность задачи распознавания эмоций дистанционного студента как основной возможности персонализации ответов ИДС, а также предлагается подход для ее решения, сочетающий в себе работу классификатора с процедурой извлечения информативных признаков, основанной на применении адаптивного многокритериального ГА. В ходе экспериментов была продемонстрирована высокая эффективность реализованной алгоритмической схемы, что является основанием ее возможного внедрения в модули диалоговых систем, функционирующих в сфере дистанционного образования. Процесс удаленного обучения практически лишен «живого» общения, что негативно сказывается на коммуникативных навыках студента. Распознавание персональных характеристик обучающегося, его психоэмоционального состояния представляет собой актуальное направление развития диалоговых систем, необходимых для организации дистанционного образования. Во-первых, ориентация на студента, учет его эмоций позволят сделать процесс обучения менее искусственным, что, в свою очередь, поможет вызвать дополнительный интерес к данной форме образования. Кроме того, использование информации о пользователе ИДС позволяет строить более точные модели для распознавания речи человека. Описанный в статье подход может быть распространен на задачи идентификации личности студента, его пола и возраста, которые также имеют место в процессе удаленного обучения. Интеграция интеллектуальных модулей в диалоговую систему, предназначенных для распознавания психоэмоционального состояния человека, сводится к внедрению блоков, реализующих акустический анализ голосового сигнала, и алгоритма обучения системы, примеры которого также представлены в данной статье.

References

Прикладная статистика: Классификации и снижение размерности: справ. изд. / С.А. Айвазян [и др.]; под ред. С.А. Айвазяна. М.: Финансы и статистика, 1989, 607 с.
Brester C., Semenkin E., Sidorov M., Minker W. Self-adaptive multi-objective genetic algorithms for feature selection // Proceedings of International Conference on Engineering and Applied Sciences Optimization (OPT-i’14). 2014. P. 1838-1846.
Kohavi R., John G.H. Wrappers for feature subset selection // Artificial Intelligence, 97. 1997. P. 273-324.
Venkatadri M., Srinivasa Rao K. A multiobjective genetic algorithm for feature selection in data mining // International J. of Computer Science and Information Technologies. 2010. Vol. 1, no. 5. P. 443-448.
Brester C., Sidorov M., Semenkin E. Acoustic Emotion Recognition: Two Ways of Features Selection Based on Self-Adaptive Multi-Objective Genetic Algorithm // Proceedings of the Intern. Conf. on Informatics in Control, Automation and Robotics (ICINCO). 2014. P. 851-855.
Zitzler E., Thiele L. Multiobjective evolutionary algorithms: A comparative case study and the strength pareto approach // Evolutionary Computation, IEEE Transactions on. 1999. Vol. 3, no. 4. P. 257-271.
Semenkin E., Semenkina M. Self-configuring Genetic Algorithm with Modified Uniform Crossover Operator // Advances in Swarm Intelligence: Lecture Notes in Computer Science 7331. Springer-Verlag, Berlin Heidelberg, 2012. P. 414-421.
Семенкина М.Е. Самоадаптивные эволюционные алгоритмы проектирования информационных технологий интеллектуального анализа данных // Искусственный интеллект и принятие решений. 2013. № 1. С. 13-23.
Khritonenko D.I., Semenkin E.S. Distributed selfconfiguring evolutionary algorithms for artificial neural networks design // Вестник СибГАУ. 2013. № 4 (50). С. 112-116.
Stanovov V.V., Semenkin E.S. Self-adjusted evolutionary algorithms based approach for automated design of fuzzy logic systems // Вестник СибГАУ. 2013. № 4 (50). С. 148-152.
Eiben A.E., Hinterding R., Michalewicz Z. Parameter control in evolutionary algorithms // IEEE Transactions on Evolutionary Computation. 1999. 3(2). Рp. 124-141.
Daridi F., Kharma N., Salik, J. Parameterless genetic algorithms: review and innovation // IEEE Canadian Review. 2004. (47). P. 19-23.
Sergienko R., Semenkin E. Competitive Cooperation for Strategy Adaptation in Coevolutionary Genetic Algorithm for Constrained Optimization // IEEE World Congress on Computational Intelligence (WCCI’2010). Barcelona, Spain, 2010. P. 1626-1631.
Сергиенко Р. Б. Исследование эффективности коэволюционного генетического алгоритма условной оптимизации // Вестник СибГАУ. 2009. № 3. С. 31-36.
Hall M. [et al.]. The WEKA Data Mining Software: An Update, SIGKDD Explorations. 2009. Vol. 11, iss. 1.
Burkhardt F. [et al.]. A database of german emotional speech // In Interspeech. 2005. P. 1517-1520.
Haq S., Jackson P. Machine Audition: Principles, Algorithms and Systems, chapter Multimodal Emotion Recognition // IGI Global, Hershey PA. Aug. 2010. P. 398-423.
Schmitt A., Ultes S., Minker W. A parameterized and annotated corpus of the cmu let’s go bus information system // In Intern. Conf. on Language Resources and Evaluation (LREC). 2012.
Eyben F., Wöllmer M., Schuller B. Opensmile: the munich versatile and fast opensource audio feature extractor // Proceedings of the Intern. Conf. on Multimedia, 2010. ACM. P. 1459-1462.
Boersma P. Praat, a system for doing phonetics by computer // Glot international. 2002. 5(9/10). P. 341-345.

Supplementary files

Supplementary Files

Action

1. JATS XML

Download

Username
Password
Remember me

Forgot password?	Register

Username
Password
Remember me

Forgot password?	Register

Speech-based emotion recognition of the distant student with adaptive intellectual information technologies

Full Text

Abstract

Keywords

Full Text

About the authors

Christina Yuryevna Brester

Sofya Romanovna Vishnevskaya

Olga Ernestovna Semenkina

References

Supplementary files