Intent Extraction from Text by Using Global Feature Matrix to Improve Man Machine Interaction

封面

如何引用文章

全文:

详细

Interaction between man and machine is the future of technology. Different mechanisms and mediums are used for this interaction such as voice, signals, pictures, videos, text etc. Text is one of the most popular mediums of interaction and has gained popularity over past decades. It is used for making predictions of stock market, analysis of people’s opinion, identification of group of people with similar interests etc. In this research, the focus is to identify and analyze the intent of the written text and used it to prepare an appropriate machine response to text. There are several systems available that uses semi-automatic mechanisms for interaction with humans such as the online customer care services for banks and the telecommunication industry. Different models and algorithms are used for this semi-automatic interaction. This study works on the design of a fully automated system for extracting the intents from the text, prepare an appropriate response and use the intent to do the prediction of the text. The results of the research are detailed in the methodology and experiment sections of the paper.

全文:

Введение

Взаимодействие между человеком и машиной представляет собой будущее развития технологий. Человек становится зависимым от машины в выполнении повседневных действий. Ожидается, что в будущем машины будут соответствовать уровню интеллекта человека. Для взаимодействия с машинами используются различные механизмы, такие как голос, сигналы, действия, текст и т.д. Взаимодействие с машинами, использующими текст, является основной темой данного исследования. Анализ текста – это часть обработки естественного языка, которая включает модели и механизмы, используемые для идентификации и извлечения из него важной информации. Анализ текста и его классификация находят применение в различных областях. Читатель часто оказывается сбитым с толку, особенно в случаях с коммерческими организациями, когда те пытаются определить намерения своих клиентов по электронной почте или посредством обратной связи. Это стать еще более затруднительным, если с клиентом взаимодействует машина.

Извлечение смысла из текста – это механизм для определения взглядов клиента. Это тип извлечения информации, который включает в себя идентификацию ограниченной части текста и сохранение ее в структурированной форме. Структурирование информации в семантической форме облегчает процесс ее дальнейшего вывода компьютерной программой. В этой работе извлечение смысла было выполнено на основе текста, используемого для взаимодействия между человеком и машинным агентом. Тема взаимодействия касалась онлайн-покупок. Машинный алгоритм был сконструирован для извлечения смысла из текста, написанного человеком, путем проведения анализа предложений из текста по отдельности.

Типичное предложение состоит из информации, которая включает в себя намерение и контекст. Намерение – это цель или то, что человек хочет сделать. Контекст – это остальные элементы, связанные с намерением. Человеку легче понять смысл текста, но для машин это довольно сложная задача, поскольку машины воспринимают предложение как последовательность слов. Для этого требуется, чтобы машина научилась понимать слова в предложениях и определять смысл текста. Это полезно для улучшения механизма веб-поиска и контроля автоматической обработки сообщений машинами. Текстовое сообщение обычно состоит из длинных предложений с обычным и нетрадиционным речевым содержанием.

Во время взаимодействия люди ведут себя по-разному. Некоторым требуется подробная информация, в то время как для других достаточно просто основной информации по теме. Очень распространенным методом является подготовка отдельного словаря, в котором фиксируются намерения человека, и увеличение объема данных. Увеличение объема данных – это процесс искусственного генерирования новых данных из уже имеющейся информации. Цель состоит в увеличении количества данных для обучения алгоритмической программы. В таких приложениях, как классификация изображений и обработка сигналов, увеличение объема данных удовлетворяет потребность в большом количестве данных. В рамках разработанной методологии была создана глобальная матрица признаков, которая послужила словарем для обучения программы.

Научные труды, связанные с данной работой

История анализа намерений на основе текста восходит к началу 60-х годов. В 1963 году Ф. Мостеллер и Д. Уоллес изучали проблему авторства в тексте. Они заметили, что лингвистические особенности текста предоставляют информацию об авторе текста. Стиль текста помогает определить намерения автора текста [1]. В 1989 году Г. Альтман и Х. Швиббе проанализировали текст и заметили разницу между количеством слов при формулировании вопросов и ответов. Они предположили, что разница в семантике вопросов и ответов является причиной разницы в количестве слов [2]. В 1997 году С. Хохрайтер и Ш. Юрген использовали методы глубокого обучения и долговременную и кратковременную память для анализа текста на уровне предложений с целью распознавания сущностей и моделирования языка [3].

В 2005 году И. Грейвс и Ш. Юрген проанализировали смысл текста с использованием прямой и обратной модели LSTM (Long short-term memory). Они заметили, что обратная модель LSTM генерирует правильный контекст после добавления в текст некоторой важной параметрической информации [4]. Позже, в 2008 году, Сяо Ли и соавторы использовали методы, основанные на графах, чтобы узнать намерения пользователя из текстового документа [5].

В 2010 году Р. Рехурек и П. Сойка проанализировали намерение в трех различных корпусах текста, которые включают вопросы, ответы и их совокупность. Они отфильтровывали слова с частотой повтора менее 5. Аналогичным образом из текста были отфильтрованы ненужные цифры, знаки препинания и другие символы, чтобы уменьшить его объем перед проведением анализа намерений [6]. В 2011 году Р. Коллоберт и соавторы использовали нейронную сеть для встраивания последовательности слов со слоем CRF в верхней части сети [7].

Позже, в 2012 году, Ч.К. Джеки и Сяо Ли проанализировали намерение из текста, используя методы кластеризации. Они автоматически обнаружили шаблоны намерения в тексте [8]. В 2013 году для идентификации намерений в тексте пользователей приложения был применен семантический разбор [9]. В 2014 году В. Гупта и соавторы классифицировали текстовое сообщение на такие классы, как намерение совершить покупку и классы намерений, не связанных с покупкой текста [10]. В 2015 году Ц. Ванг и др. изучили намерения пользователей по тексту Twitter. Они использовали полууправляемый подход для категоризации твитов пользователей [11]. В том же году Ф. Кути и др. проанализировали реакцию людей на похожие вопросы. Они наблюдали за чрезмерной нагрузкой вопросов на поведение пользователей, рассчитали время ответа и спрогнозировали характеристики их поведения [12]. В 2016 году Х. Хашеми и др. создал систему обнаружения намерений с использованием метода глубоких нейронных сетей [13]. Позже, в 2016 году, Д.Д. Кастро и др. проанализировали четыре распространенные реакции клиента во время взаимодействия, такие как чтение, ответ, удаление без прочтения и просто удаление сообщения [14].

В том же году П. Рамарао и др. разработали поисковую систему для идентификации электронной почты и содержания текста в ней [15]. Следуя той же области исследований, М. Саппелли и др. определил неполную категорию для извлечения намерений из текста, относящуюся к обмену информацией, составлению расписания, планированию и социальной коммуникации [16]. В 2017 году Л. Янг и др. представили модель извлечения намерений из документов в корпорации. Они прогнозировали поведение пользователя при получении текста и его интенсивность [17]. М.М. Аббаси и др. проанализированы логические характеристики текста, выявлена роль эмоций для определения полярности текстового документа и предложены различные методы анализа текста и его обобщения [18-27]. В 2018 году С. Нисиои и др. проанализировали содержание словаря, используемого заказчиком в среде планирования ресурсов предприятия (ERP). Он предоставляет модель для очистки и извлечения соответствующего намерения из текста [28].

В 2021 году Альджуайд Х. и др. применили методы анализа настроений для выявления важных цитат в статье. Они предложили механизм цитирования статей в хронологическом порядке, основанный на их важности и релевантности документу [29]. В 2022 году С. Сурана и др. использовали технологии машинного обучения в документе для идентификации изображений в нем и извлечения текста, который отражает намерение представить эти изображения в документе [30]. В 2023 году Ихсан И. и др. использовал метод опорных векторов для понимания и извлечения причин цитирования исследовательских статей в разделе литературы новой статьи и для классификации цитат в различных группах на основе их ранга [31].

Методология

Анализ начинается с определения основных компонентов и особенностей текста. Компьютерная программа, созданная в ходе этой работы, использует метод обучения под наблюдением, чтобы извлечь смысл, который автор вложил в текст, сгенерировать признаки намерения и затем классифицировать их под разными названиями. Методы обучения под наблюдением требуют некоторых предварительных знаний о содержании текста для первоначального обучения программе.

Например, если текст посвящен онлайн-покупкам, то основными темами, представляющими интерес для взаимодействия клиентов с машиной, могут быть их заказы, жалобы, платежи и другая информация о продуктах. Знание слов, часто используемых для демонстрации конкретного смысла текста автора, является предварительным условием для разработки алгоритма, способного автоматически извлекать этот смысл и классифицировать текст на основе его извлечения.

Наш контролируемый алгоритм обучения (supervised learning algorithm) начинается с набора данных D=x1,y1,............,xn,yn, где каждый xi является «входным вектором особенности», а yi – соответствующей «выходным вектором категории». Мы предположили, что эти точки данных взяты из некоторого неизвестного распределения P, поэтому xi,yiP, где мы имеем xi,yi независимыми и одинаково распределенными. Формально мы можем заключить, что:

D=x1,y1,............,xn,ynRd×C,

где n – размер нашего набора данных, Rd представляет d-мерное пространство особенности, xi представляет вектор объектов ith примера, yi представляет категорию или выходные данные ith примера, а C – это пространство всех возможных меток или категория пространства.

Нашу цель контролируемого машинного обучения можно резюмировать как нахождение функции h:RdC, такой, чтобы для каждой новой пары ввода/вывода x,y, выбранной из P, мы имели hxy.

Чтобы проверить эффективность предложенной нами модели извлечения смысла из текста с использованием глобальной матрицы, мы использовали алгоритм контролируемого обучения под названием «матрица ошибок», результаты которого подробно описаны в разделе «Результаты и обсуждение» этой статьи. Четырьмя основными компонентами для обработки матрицы ошибок являются TP (Истинно положительный результат), FN (Ложно отрицательный результат), FP (Ложно положительный результат) и TN (Истинно отрицательный результат).

Среди них два компонента, TP (Истинно положительный) и TN (Истинно отрицательный), разъясняют, что значения истинности и что результаты классификации, полученные с помощью нашей модели, релевантными или правильными, тогда как FN (Ложно отрицательный) и FP (Ложно положительный) детализируют ошибки или неправильную классификацию, допущенные матрицей ошибок при классификации текста. Эти четыре компонента используются для расчета показателя эффективности и классификационной способности алгоритма. Этими показателями эффективности являются Точность измерений (Accuracy), Отзыв (Recall), Точность результата измерений (Precision) и F- Меру (F-Measure).

Эксперимент

Для эксперимента был выбран текст на тему онлайн-покупок. Были загружены текстовые документы из разных онлайн-блогов, таких как: «https:// frenzyshopper.ru/shopping-forums/»,«https://pikabu.ru/tag/покупки%20в%20интернете/hot», «https://www.gsconto.com/ru/blogs/show/gsconto», «https://blog.onex. am/onlineshopping-rus», «https://pochtaglobal.ru/blog/» и т.д.

На таблице 1 ниже представлена глобальная матрица особенности характеристик текста об онлайн-покупках. Она содержит наиболее часто используемые слова для онлайн-покупок вместе с их синонимами.

 

Таблица 1. Глобальная матрица особенности онлайн-покупок

Глобальная матрица особенности для онлайн-покупок

Особенность (Features)

Синоним слова

Категория

Желаю

Быстро

Качество

https://www.labinform.ru/pub/ruthes/

https://synonyms.su/

 

Заказ

Карта

Ошибка

Сделки

Успешным

Неудачной

Платеж

Пожалуйста

Любезно

Предоставьте

Информация

Опаздываю

Не работаю

Плохо

Жалоба

 

Вектор особенности (feature vector) на рисунке выше представляет список слов, используемых покупателями во время онлайн-покупок. Вектор особенности (feature vector) включает краткий список слов, обычно используемых для представления конкретных намерений клиента в письменном тексте об онлайн-покупках. Глобальный словарь содержит синонимы слов из вектора особенности (feature vector). Эти синонимы были извлечены из онлайн-базы данных «https:// synonymonline. ru/ vocabulary. html» и «https://www.labinform.ru/pub/ruthes/» использование API’s.

Затем программа была обучена извлекать и классифицировать слова из письменного текста по назначенным классам или категориям, с использованием содержимого глобальной матрицы особенности.

На этапе тестирования текст был предварительно обработан перед определением его смысла. Предварительная обработка включает в себя удаление из него знаков препинания и стоп-слов. Затем предварительно обработанный текст был сегментирован на последовательности предложений, и каждое предложение было дополнительно разделено на слова с применением алгоритма максимального объединения (Max Pooling).

Выделенные слова были лемматизированы. Лемматизация – это процесс преобразования слов в их корневую или начальную форму. Обученная программа создала новую локальную матрицу признаков, которая содержит список предложений, список слов в каждом предложении и частоту встречаемости слов векторов признаков в тексте. Каждый раз, когда алгоритм обучает следующий текст, матрица локальных особенностей обновляется. Программа сравнивает содержимое матрицы локальных признаков с глобальными.

Результаты и обсуждение

Как объяснялось ранее, для эксперимента по извлечению смысла текста были выбраны тексты из разных блогов об онлайн-покупках. Цель тестирования разных текстов разными пользователями - определить производительность и точность предложенного алгоритма на разных текстах. Возможность классификации и точность алгоритма для пяти различных текстов об онлайн-покупках представлены ниже в таблице 2.

 

Таблица 2. Анализ результатов с использованием матрицы ошибок

Кол. пред.

Кат.

Т

R

P

F-Мер

85

Заказ

85%

75%

71%

80%

50

Информация

81%

68%

72%

69%

110

Заказ

70%

77%

69%

72%

52

Жаловаться

75%

81%

77%

69%

120

Информация

71%

65%

74%

71%

 

Где «Кол. пред.» представляет количество предложений в тексте, «Кат.» представляет классификацию, «T» представляет точность измерений (Accuracy), «R» представляет отзыв (Recall), «P» представляет точность результата измерений (Precision) и «F- Мер» представляет F- Меру (F-Measure).

Для дальнейшего анализа и определения производительности машинной программы рассчитывается матрица ошибок и ее параметры, их результаты представлены в таблице 2 с использованием таких характеристик матрицы ошибок, как точность, прецизионность, отзыв и F-мера. Эти особенности матрицы ошибок отражают высокий процент истинной классификации намерений пользователей в тексте машинным алгоритмом. Машинный алгоритм хорошо работает при классификации намерений пользователя по различным классам глобальной матрицы особенностей. Частота употребления слов, отражающих намерения клиента, в различных предложениях текста представлена на рисунке 1 ниже.

 

Рисунок 1. Частота слов, отражающих смысл исследуемого текста пользователя

 

На рисунке 1 выше показано извлечение намерений и их классификация во время анализа предложений программой. Некоторые предложения содержат больше слов, которые представляют намерения пользователя, другие предложения - меньше. Например, для классификации текста в категории «Жаловаться», представленной на графике желтым цветом, первые три предложения содержат больше намерений пользователя, затем в последующих предложениях наблюдается их небольшое уменьшение , а потом к концу текста намерение в предложениях снова возрастает. На приведенном выше графике прослеживается механизм классификации намерений пользователя в тексте с помощью машины.

Заключение

В статье представлена модель улучшеннного взаимодействия между человеком и машиной. Модели, ранее предложенные исследователями, в основном, касаются извлечения смысла из электронных писем или из статического текста. Алгоритм, представленный в этом исследовании, работает с динамическим текстом, и по мере роста текста способность алгоритма к классификации совершенствуется. Модель обеспечивает основу для перевода машины из полуавтоматического в полностью автоматизированный режим с использованием методологии контролируемого обучения. Результаты эксперимента демонстрируют высокую точность извлечения намерений и их отнесения к соответствующему классу. Результаты матрицы локальных особенностей можно наблюдать во время каждой итерации алгоритма над предложением. В будущем программа будет протестирована на разнородных типах текста, и акцент будет смещен с контролируемых механизмов обучения на неконтролируемые.

×

作者简介

Mohsin Abbasi

Udmurt State University

编辑信件的主要联系方式.
Email: mohsinmanshadabbasi@gmail.com

PhD in Technical Science, Associate Professor of the Theoretical Foundations of Computer Science Department

俄罗斯联邦, Izhevsk

Anatoly Beltiukov

Udmurt State University

Email: belt.udsu@mail.ru

Doctor in Physics & Mathematical Sciences, Professor, Head of the Theoretical Foundations of Computer Science Department

俄罗斯联邦, Izhevsk

参考

  1. Mosteller F., Wallace L.D. Inference in an authorship problem. Journal of the American Statistical Association, 1963, vol. 58, no. 302, pp. 275–309.
  2. Altmann G., Schwibbe H. Das Menzerathsche Gesetz in Informations verarbeitenden Systemen. Hildesheim: Georg Olms Verlag, 1989, 132 p.
  3. Hochreiter S., Jrgen S. Long short-term memory. Neural Computation, 1997, vol. 9, no. 8, pp. 1735–1780.
  4. Graves I., Jrgen S. Frame wise phoneme classification with bidirectional LSTM and other neural network architectures. Neural Networks, 2005, vol. 18, no. 5, pp. 602–610.
  5. Li X., Ye-Yi W., Alex A. Learning query intent from regularized click graphs. Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 2008, pp. 339–346.
  6. Rehurek R., Sojka P. Software framework for topic modelling with large corpora. Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks. Malta, Valletta: Sponsored by European Land Registration Authority (ELRA), 2010, pp. 45–50.
  7. Collobert R. et al. Natural language processing (almost) from scratch. Journal of Machine Learning Research, 2011, vol. 12, pp. 2493–2537.
  8. Jackie C.K., Li X. Sequence clustering and labeling for unsupervised query intent discovery. Web Search and Data Mining, 2012, pp. 383–392.
  9. Hwang H. et al. Activity inference for constructing user intention model. Computer Science and Information Systems, 2013, vol. 10, no. 2, pp. 767–778.
  10. Gupta V. et al. Identifying purchase intent from social posts. Proceedings of the International AAAI Conference on Web and Social Media, 2014, vol. 8, no. 1, pp. 180–186.
  11. Wang J. et al. Mining user intents in Twitter: a semi-supervised approach to inferring intent categories for tweets. Proceedings of the AAAI Conference on Artificial Intelligence, 2015, pp. 318–324.
  12. Kooti F. et al. Evolution of conversations in the age of email overload. 24th International World Wide Web Conference, 2015, pp. 603–613.
  13. Hashemi H.B., Siaee A.A., Kraft R. Query intent detection using convolutional neural networks. Proceedings of WSDM QRUMS Workshop, 2016, pp. 691–697.
  14. Castro D.D. et al. You’ve got mail, and here is what you could do with it!: Analyzing and predicting actions on email messages. International Conference On Web Search And Data Mining (WSDM 2016), 2016, vol. 16, pp. 307–316.
  15. Ramarao P. et al. InLook: Revisiting email search experience. Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR ’16). New York: ACM, 2016, pp. 1117–1120.
  16. Sappelli M. et al. Assessing email intent and tasks in email messages. Information Sciences, 2016, vol. 358, pp. 1–17.
  17. Yang L. et al. Characterizing and predicting enterprise email reply behavior. Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR ’17). New York: ACM, 2017, pp. 235–244.
  18. Beltiukov A.P., Abbasi M.M. Logical analysis of emotions in text from natural language. Bulletin of Udmurt University. Mathematics. Mechanics. Computer Science, 2019, vol. 29, no. 1, pp. 106–116.
  19. Abbasi M.M., Beltiukov A.P. Identifying the strength of emotions in relation with the topic of text using Word space. Proceedings of the 21th International Workshop on Computer Science and Information Technologies. Austria, Vienna: Atlantis, 2019, vol. 3, pp. 1–5.
  20. Abbasi M.M. et al. Analysis of emotions from texts for management of society. Infokommunikacionnye tekhnologii, 2019, vol. 2, no. 17, pp. 246–254. (In Russ.)
  21. Abbasi M.M., Beltiukov A.P. Summarizing emotions from text using Plutchik wheel of emotion. Proceedings of the 7th All Russian Conference on Information Technology for Intelligent Decision-Making Support (ITIDS). Ufa, 2019, vol. 166, pp. 291–294.
  22. Abbasi M.M., Beltiukov A.P. Analyzing emotions from text corpus using word space. Proceedings of the 19th International Workshop on Computer Science and Information Technologies (CSIT`2018). Varna: Industry 4.0, 2018, pp. 90–94
  23. Abbasi M.M., Beltiukov A.P. Analysis of sentiment and emotion from text written in Russian language. Informacionnye tekhnologii intellektual’noj podderzhki prinyatiya reshenij (ITIDS’2017): materialy 5 Vserossijskoj konferencii. Ufa, 2017, vol. 1, no. 1, pp. 42–47. (In Russ.)
  24. Abbasi M.M. Tools for emotional analysis of texts in the process of control and modeling in complex systems. Problemy upravleniya i modelirovaniya v slozhnyh sistemah: materialy XX Mezhdunarodnoj konferencii. Samara, 2018, pp. 236–242. (In Russ.)
  25. Abbasi M.M., Beltiukov A.P. Text pre-processing mechanism before sentiment analysis. Informacionnye tekhnologii intellektual’noj podderzhki prinyatiya reshenij (ITIDS’2018): materialy VI Vserossijskoj konferencii, Ufa, 2018, pp. 13–17. (In Russ.)
  26. Abbasi M.M., Beltiukov A.P. Information technologies for changing the style of text for its emotional modification. Informacionnye tekhnologii i sistemy: materialy VII Mezhdunarodnoj nauchnoj konferencii. Hanty-Mansijsk, 2019. pp. 137–142. (In Russ.)
  27. Abbasi M.M., Beltiukov A.P. Summarizing emotions from text using Plutchik wheel of emotion. Proceedings of the 7th All Russian Conference on Information Technology for Intelligent Decision-Making Support (ITIDS). Ufa, 2019, vol 166, pp. 291–294.
  28. Nisioi S., Bucur A., Liviu P. Lexical analysis and content extraction from customer-agent interactions. Proceedings of the 2018 EMNLP Workshop WNUT: the 4th Workshop on Noisy User-Generated Text, 2018, pp. 132–136.
  29. Aljuaid H. et al. Important citation identification using sentiment analysis of intent citations. Telematics and Informatics, 2021, vol. 56, pp.1–16.
  30. Surana S. et al. Text extraction and detection from images using machine learning techniques: A research review. 2022 International Conference on Electronics and Renewable Systems (ICEARS). India, Tuticorin, 2022, pp. 1201–1207. doi: 10.1109/ICEARS53579.2022.9752274
  31. Ihsan I. et al. Improving intent citation reason extraction and classification using supervised machine learning techniques. Computer Speech & Language, 2023, vol. 82, no. 9, pp. 101526.

补充文件

附件文件
动作
1. JATS XML
2. Figure 1. Frequency of words reflecting the meaning of the user's researched text

下载 (224KB)

版权所有 © Abbasi M.M., Beltiukov A.P., 2024

Creative Commons License
此作品已接受知识共享署名-非商业性使用-禁止演绎 4.0国际许可协议的许可。