Извлечение смысла из текста с использованием глобальной матрицы для лучшего взаимодействия между человеком и машиной
- Авторы: Аббаси М.М.1, Бельтюков А.П.1
-
Учреждения:
- Удмуртский государственный университет
- Выпуск: Том 21, № 4 (2023)
- Страницы: 74-82
- Раздел: Новые информационные технологии
- URL: https://journals.eco-vector.com/2073-3909/article/view/635120
- DOI: https://doi.org/10.18469/ikt.2023.21.4.11
- ID: 635120
Цитировать
Полный текст
Аннотация
Взаимодействие между человеком и машиной представляет собой технологическое будущее. Для взаимодействия с машинами используются различные механизмы, такие как голос, сигналы, действия, текст и т.д. Взаимодействие с машинами, использующими текст, является основной темой данного исследования. Текстовый анализ приобрел популярность за последние десятилетия. Он находит применение в различных областях, таких как прогнозирование тенденций фондового рынка, анализ общественного мнения, идентификация групп людей со схожими интересами и т.д. В этом исследовании основное внимание уделяется изучению смысла текста для достижения лучшего взаимодействия человека и машины. Это взаимодействие включает автоматическую идентификацию потребностей или намерений автора текста и соответствующую реакцию машины на намерения автора. Были предложены различные модели и алгоритмы полуавтоматического взаимодействия между человеком и машиной. Распространенные примеры полуавтоматического взаимодействия машинных агентов можно наблюдать в онлайн-системах для обслуживания клиентов банков и телекоммуникационной отрасли. Это исследование направлено на разработку полностью автоматизированной модели с целью извлечения смысла из текста и использования намерений автора для прогнозирования идей последующих текстов.
Ключевые слова
Полный текст
Введение
Взаимодействие между человеком и машиной представляет собой будущее развития технологий. Человек становится зависимым от машины в выполнении повседневных действий. Ожидается, что в будущем машины будут соответствовать уровню интеллекта человека. Для взаимодействия с машинами используются различные механизмы, такие как голос, сигналы, действия, текст и т.д. Взаимодействие с машинами, использующими текст, является основной темой данного исследования. Анализ текста – это часть обработки естественного языка, которая включает модели и механизмы, используемые для идентификации и извлечения из него важной информации. Анализ текста и его классификация находят применение в различных областях. Читатель часто оказывается сбитым с толку, особенно в случаях с коммерческими организациями, когда те пытаются определить намерения своих клиентов по электронной почте или посредством обратной связи. Это стать еще более затруднительным, если с клиентом взаимодействует машина.
Извлечение смысла из текста – это механизм для определения взглядов клиента. Это тип извлечения информации, который включает в себя идентификацию ограниченной части текста и сохранение ее в структурированной форме. Структурирование информации в семантической форме облегчает процесс ее дальнейшего вывода компьютерной программой. В этой работе извлечение смысла было выполнено на основе текста, используемого для взаимодействия между человеком и машинным агентом. Тема взаимодействия касалась онлайн-покупок. Машинный алгоритм был сконструирован для извлечения смысла из текста, написанного человеком, путем проведения анализа предложений из текста по отдельности.
Типичное предложение состоит из информации, которая включает в себя намерение и контекст. Намерение – это цель или то, что человек хочет сделать. Контекст – это остальные элементы, связанные с намерением. Человеку легче понять смысл текста, но для машин это довольно сложная задача, поскольку машины воспринимают предложение как последовательность слов. Для этого требуется, чтобы машина научилась понимать слова в предложениях и определять смысл текста. Это полезно для улучшения механизма веб-поиска и контроля автоматической обработки сообщений машинами. Текстовое сообщение обычно состоит из длинных предложений с обычным и нетрадиционным речевым содержанием.
Во время взаимодействия люди ведут себя по-разному. Некоторым требуется подробная информация, в то время как для других достаточно просто основной информации по теме. Очень распространенным методом является подготовка отдельного словаря, в котором фиксируются намерения человека, и увеличение объема данных. Увеличение объема данных – это процесс искусственного генерирования новых данных из уже имеющейся информации. Цель состоит в увеличении количества данных для обучения алгоритмической программы. В таких приложениях, как классификация изображений и обработка сигналов, увеличение объема данных удовлетворяет потребность в большом количестве данных. В рамках разработанной методологии была создана глобальная матрица признаков, которая послужила словарем для обучения программы.
Научные труды, связанные с данной работой
История анализа намерений на основе текста восходит к началу 60-х годов. В 1963 году Ф. Мостеллер и Д. Уоллес изучали проблему авторства в тексте. Они заметили, что лингвистические особенности текста предоставляют информацию об авторе текста. Стиль текста помогает определить намерения автора текста [1]. В 1989 году Г. Альтман и Х. Швиббе проанализировали текст и заметили разницу между количеством слов при формулировании вопросов и ответов. Они предположили, что разница в семантике вопросов и ответов является причиной разницы в количестве слов [2]. В 1997 году С. Хохрайтер и Ш. Юрген использовали методы глубокого обучения и долговременную и кратковременную память для анализа текста на уровне предложений с целью распознавания сущностей и моделирования языка [3].
В 2005 году И. Грейвс и Ш. Юрген проанализировали смысл текста с использованием прямой и обратной модели LSTM (Long short-term memory). Они заметили, что обратная модель LSTM генерирует правильный контекст после добавления в текст некоторой важной параметрической информации [4]. Позже, в 2008 году, Сяо Ли и соавторы использовали методы, основанные на графах, чтобы узнать намерения пользователя из текстового документа [5].
В 2010 году Р. Рехурек и П. Сойка проанализировали намерение в трех различных корпусах текста, которые включают вопросы, ответы и их совокупность. Они отфильтровывали слова с частотой повтора менее 5. Аналогичным образом из текста были отфильтрованы ненужные цифры, знаки препинания и другие символы, чтобы уменьшить его объем перед проведением анализа намерений [6]. В 2011 году Р. Коллоберт и соавторы использовали нейронную сеть для встраивания последовательности слов со слоем CRF в верхней части сети [7].
Позже, в 2012 году, Ч.К. Джеки и Сяо Ли проанализировали намерение из текста, используя методы кластеризации. Они автоматически обнаружили шаблоны намерения в тексте [8]. В 2013 году для идентификации намерений в тексте пользователей приложения был применен семантический разбор [9]. В 2014 году В. Гупта и соавторы классифицировали текстовое сообщение на такие классы, как намерение совершить покупку и классы намерений, не связанных с покупкой текста [10]. В 2015 году Ц. Ванг и др. изучили намерения пользователей по тексту Twitter. Они использовали полууправляемый подход для категоризации твитов пользователей [11]. В том же году Ф. Кути и др. проанализировали реакцию людей на похожие вопросы. Они наблюдали за чрезмерной нагрузкой вопросов на поведение пользователей, рассчитали время ответа и спрогнозировали характеристики их поведения [12]. В 2016 году Х. Хашеми и др. создал систему обнаружения намерений с использованием метода глубоких нейронных сетей [13]. Позже, в 2016 году, Д.Д. Кастро и др. проанализировали четыре распространенные реакции клиента во время взаимодействия, такие как чтение, ответ, удаление без прочтения и просто удаление сообщения [14].
В том же году П. Рамарао и др. разработали поисковую систему для идентификации электронной почты и содержания текста в ней [15]. Следуя той же области исследований, М. Саппелли и др. определил неполную категорию для извлечения намерений из текста, относящуюся к обмену информацией, составлению расписания, планированию и социальной коммуникации [16]. В 2017 году Л. Янг и др. представили модель извлечения намерений из документов в корпорации. Они прогнозировали поведение пользователя при получении текста и его интенсивность [17]. М.М. Аббаси и др. проанализированы логические характеристики текста, выявлена роль эмоций для определения полярности текстового документа и предложены различные методы анализа текста и его обобщения [18-27]. В 2018 году С. Нисиои и др. проанализировали содержание словаря, используемого заказчиком в среде планирования ресурсов предприятия (ERP). Он предоставляет модель для очистки и извлечения соответствующего намерения из текста [28].
В 2021 году Альджуайд Х. и др. применили методы анализа настроений для выявления важных цитат в статье. Они предложили механизм цитирования статей в хронологическом порядке, основанный на их важности и релевантности документу [29]. В 2022 году С. Сурана и др. использовали технологии машинного обучения в документе для идентификации изображений в нем и извлечения текста, который отражает намерение представить эти изображения в документе [30]. В 2023 году Ихсан И. и др. использовал метод опорных векторов для понимания и извлечения причин цитирования исследовательских статей в разделе литературы новой статьи и для классификации цитат в различных группах на основе их ранга [31].
Методология
Анализ начинается с определения основных компонентов и особенностей текста. Компьютерная программа, созданная в ходе этой работы, использует метод обучения под наблюдением, чтобы извлечь смысл, который автор вложил в текст, сгенерировать признаки намерения и затем классифицировать их под разными названиями. Методы обучения под наблюдением требуют некоторых предварительных знаний о содержании текста для первоначального обучения программе.
Например, если текст посвящен онлайн-покупкам, то основными темами, представляющими интерес для взаимодействия клиентов с машиной, могут быть их заказы, жалобы, платежи и другая информация о продуктах. Знание слов, часто используемых для демонстрации конкретного смысла текста автора, является предварительным условием для разработки алгоритма, способного автоматически извлекать этот смысл и классифицировать текст на основе его извлечения.
Наш контролируемый алгоритм обучения (supervised learning algorithm) начинается с набора данных , где каждый xi является «входным вектором особенности», а yi – соответствующей «выходным вектором категории». Мы предположили, что эти точки данных взяты из некоторого неизвестного распределения P, поэтому , где мы имеем независимыми и одинаково распределенными. Формально мы можем заключить, что:
,
где n – размер нашего набора данных, Rd представляет d-мерное пространство особенности, xi представляет вектор объектов ith примера, yi представляет категорию или выходные данные ith примера, а C – это пространство всех возможных меток или категория пространства.
Нашу цель контролируемого машинного обучения можно резюмировать как нахождение функции , такой, чтобы для каждой новой пары ввода/вывода , выбранной из P, мы имели .
Чтобы проверить эффективность предложенной нами модели извлечения смысла из текста с использованием глобальной матрицы, мы использовали алгоритм контролируемого обучения под названием «матрица ошибок», результаты которого подробно описаны в разделе «Результаты и обсуждение» этой статьи. Четырьмя основными компонентами для обработки матрицы ошибок являются TP (Истинно положительный результат), FN (Ложно отрицательный результат), FP (Ложно положительный результат) и TN (Истинно отрицательный результат).
Среди них два компонента, TP (Истинно положительный) и TN (Истинно отрицательный), разъясняют, что значения истинности и что результаты классификации, полученные с помощью нашей модели, релевантными или правильными, тогда как FN (Ложно отрицательный) и FP (Ложно положительный) детализируют ошибки или неправильную классификацию, допущенные матрицей ошибок при классификации текста. Эти четыре компонента используются для расчета показателя эффективности и классификационной способности алгоритма. Этими показателями эффективности являются Точность измерений (Accuracy), Отзыв (Recall), Точность результата измерений (Precision) и F- Меру (F-Measure).
Эксперимент
Для эксперимента был выбран текст на тему онлайн-покупок. Были загружены текстовые документы из разных онлайн-блогов, таких как: «https:// frenzyshopper.ru/shopping-forums/»,«https://pikabu.ru/tag/покупки%20в%20интернете/hot», «https://www.gsconto.com/ru/blogs/show/gsconto», «https://blog.onex. am/onlineshopping-rus», «https://pochtaglobal.ru/blog/» и т.д.
На таблице 1 ниже представлена глобальная матрица особенности характеристик текста об онлайн-покупках. Она содержит наиболее часто используемые слова для онлайн-покупок вместе с их синонимами.
Таблица 1. Глобальная матрица особенности онлайн-покупок
Глобальная матрица особенности для онлайн-покупок | ||
Особенность (Features) | Синоним слова | Категория |
Желаю Быстро Качество | https://www.labinform.ru/pub/ruthes/
| Заказ |
Карта Ошибка Сделки Успешным Неудачной | Платеж | |
Пожалуйста Любезно Предоставьте | Информация | |
Опаздываю Не работаю Плохо | Жалоба |
Вектор особенности (feature vector) на рисунке выше представляет список слов, используемых покупателями во время онлайн-покупок. Вектор особенности (feature vector) включает краткий список слов, обычно используемых для представления конкретных намерений клиента в письменном тексте об онлайн-покупках. Глобальный словарь содержит синонимы слов из вектора особенности (feature vector). Эти синонимы были извлечены из онлайн-базы данных «https:// synonymonline. ru/ vocabulary. html» и «https://www.labinform.ru/pub/ruthes/» использование API’s.
Затем программа была обучена извлекать и классифицировать слова из письменного текста по назначенным классам или категориям, с использованием содержимого глобальной матрицы особенности.
На этапе тестирования текст был предварительно обработан перед определением его смысла. Предварительная обработка включает в себя удаление из него знаков препинания и стоп-слов. Затем предварительно обработанный текст был сегментирован на последовательности предложений, и каждое предложение было дополнительно разделено на слова с применением алгоритма максимального объединения (Max Pooling).
Выделенные слова были лемматизированы. Лемматизация – это процесс преобразования слов в их корневую или начальную форму. Обученная программа создала новую локальную матрицу признаков, которая содержит список предложений, список слов в каждом предложении и частоту встречаемости слов векторов признаков в тексте. Каждый раз, когда алгоритм обучает следующий текст, матрица локальных особенностей обновляется. Программа сравнивает содержимое матрицы локальных признаков с глобальными.
Результаты и обсуждение
Как объяснялось ранее, для эксперимента по извлечению смысла текста были выбраны тексты из разных блогов об онлайн-покупках. Цель тестирования разных текстов разными пользователями - определить производительность и точность предложенного алгоритма на разных текстах. Возможность классификации и точность алгоритма для пяти различных текстов об онлайн-покупках представлены ниже в таблице 2.
Таблица 2. Анализ результатов с использованием матрицы ошибок
Кол. пред. | Кат. | Т | R | P | F-Мер |
85 | Заказ | 85% | 75% | 71% | 80% |
50 | Информация | 81% | 68% | 72% | 69% |
110 | Заказ | 70% | 77% | 69% | 72% |
52 | Жаловаться | 75% | 81% | 77% | 69% |
120 | Информация | 71% | 65% | 74% | 71% |
Где «Кол. пред.» представляет количество предложений в тексте, «Кат.» представляет классификацию, «T» представляет точность измерений (Accuracy), «R» представляет отзыв (Recall), «P» представляет точность результата измерений (Precision) и «F- Мер» представляет F- Меру (F-Measure).
Для дальнейшего анализа и определения производительности машинной программы рассчитывается матрица ошибок и ее параметры, их результаты представлены в таблице 2 с использованием таких характеристик матрицы ошибок, как точность, прецизионность, отзыв и F-мера. Эти особенности матрицы ошибок отражают высокий процент истинной классификации намерений пользователей в тексте машинным алгоритмом. Машинный алгоритм хорошо работает при классификации намерений пользователя по различным классам глобальной матрицы особенностей. Частота употребления слов, отражающих намерения клиента, в различных предложениях текста представлена на рисунке 1 ниже.
Рисунок 1. Частота слов, отражающих смысл исследуемого текста пользователя
На рисунке 1 выше показано извлечение намерений и их классификация во время анализа предложений программой. Некоторые предложения содержат больше слов, которые представляют намерения пользователя, другие предложения - меньше. Например, для классификации текста в категории «Жаловаться», представленной на графике желтым цветом, первые три предложения содержат больше намерений пользователя, затем в последующих предложениях наблюдается их небольшое уменьшение , а потом к концу текста намерение в предложениях снова возрастает. На приведенном выше графике прослеживается механизм классификации намерений пользователя в тексте с помощью машины.
Заключение
В статье представлена модель улучшеннного взаимодействия между человеком и машиной. Модели, ранее предложенные исследователями, в основном, касаются извлечения смысла из электронных писем или из статического текста. Алгоритм, представленный в этом исследовании, работает с динамическим текстом, и по мере роста текста способность алгоритма к классификации совершенствуется. Модель обеспечивает основу для перевода машины из полуавтоматического в полностью автоматизированный режим с использованием методологии контролируемого обучения. Результаты эксперимента демонстрируют высокую точность извлечения намерений и их отнесения к соответствующему классу. Результаты матрицы локальных особенностей можно наблюдать во время каждой итерации алгоритма над предложением. В будущем программа будет протестирована на разнородных типах текста, и акцент будет смещен с контролируемых механизмов обучения на неконтролируемые.
Об авторах
Мохсин Маншад Аббаси
Удмуртский государственный университет
Автор, ответственный за переписку.
Email: mohsinmanshadabbasi@gmail.com
к.т.н., доцент кафедры теоретических основ информатики (ТОИ)
Россия, ИжевскАнатолий Петрович Бельтюков
Удмуртский государственный университет
Email: belt.udsu@mail.ru
д.ф.-м.н., профессор, заведующий кафедрой ТОИ
Россия, ИжевскСписок литературы
- Mosteller F., Wallace L.D. Inference in an authorship problem // Journal of the American Statistical Association. 1963. Vol. 58, no. 302. P. 275–309.
- Altmann G., Schwibbe H. Das Menzerathsche Gesetz in Informations verarbeitenden Systemen. Hildesheim: Georg Olms Verlag, 1989. 132 p.
- Hochreiter S., Jrgen S. Long short-term memory // Neural Computation. 1997. Vol. 9, no. 8. P. 1735–1780.
- Graves I., Jrgen S. Frame wise phoneme classification with bidirectional LSTM and other neural network architectures // Neural Networks. 2005. Vol. 18, no. 5. P. 602–610.
- Li X., Ye-Yi W., Alex A. Learning query intent from regularized click graphs // Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 2008. P. 339–346.
- Rehurek R., Sojka P. Software framework for topic modelling with large corpora // Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks. Malta, Valletta: Sponsored by European Land Registration Authority (ELRA), 2010. P. 45–50.
- Natural language processing (almost) from scratch / R. Collobert [et al.] // Journal of Machine Learning Research. 2011. Vol. 12. P. 2493–2537.
- Jackie C.K., Li X. Sequence clustering and labeling for unsupervised query intent discovery // Web Search and Data Mining. 2012. P. 383–392.
- Activity inference for constructing user intention model / M. Hwang [et al.] // Computer Science and Information Systems. 2013. Vol. 10, no.2. P. 767–778.
- Identifying purchase intent from social posts / V. Gupta [et al.] // Proceedings of the International AAAI Conference on Web and Social Media. 2014. Vol. 8, no. 1. P. 180–186.
- Mining user intents in Twitter: a semi-supervised approach to inferring intent categories for tweets / J. Wang [et al.] // Proceedings of the AAAI Conference on Artificial Intelligence. 2015. P. 318–324.
- Evolution of conversations in the age of email overload / F. Kooti [et al.] // 24th International World Wide Web Conference. 2015. P. 603–613.
- Hashemi H.B., Siaee A.A., Kraft R. Query intent detection using convolutional neural networks // Proceedings of WSDM QRUMS Workshop, 2016. P. 691–697.
- You’ve got mail, and here is what you could do with it!: Analyzing and predicting actions on email messages / D.D. Castro [et al.] // International Conference On Web Search And Data Mining (WSDM 2016). 2016. Vol. 16. P. 307–316.
- InLook: revisiting email search experience / P. Ramarao [et al.] // Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR ’16). New York: ACM, 2016. P. 1117–1120.
- Assessing email intent and tasks in email messages / M. Sappelli [et al.] // Information Sciences. 2016. Vol. 358. P. 1–17.
- Characterizing and predicting enterprise email reply behavior / L. Yang [et al.] // Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR ’17). New York: ACM, 2017. P. 235–244.
- Beltiukov A.P., Abbasi M.M. Logical analysis of emotions in text from natural language // Bulletin of Udmurt University. Mathematics. Mechanics. Computer Science. 2019. Vol. 29, no. 1. P. 106–116.
- Abbasi M.M., Beltiukov A.P. Identifying the strength of emotions in relation with the topic of text using Word space // Proceedings of the 21th International Workshop on Computer Science and Information Technologies. Austria, Vienna: Atlantis, 2019. Vol. 3. P. 1–5.
- Анализ эмоций из текстов для управления обществом / М.М. Аббаси [и др.] // Инфокоммуникационные технологии. 2019. Т. 2, № 17. С. 246–254.
- Abbasi M.M., Beltiukov A.P. Summarizing emotions from text using Plutchik wheel of emotion // Proceedings of the 7th All Russian Conference on Information Technology for Intelligent Decision-Making Support (ITIDS). Ufa, 2019. Vol. 166. P. 291–294.
- Abbasi M.M., Beltiukov A.P. Analyzing emotions from text corpus using word space // Proceedings of the 19th International Workshop on Computer Science and Information Technologies (CSIT`2018). Varna: Industry 4.0, 2018. P. 90–94.
- Abbasi M.M., Beltiukov A.P. Analysis of sentiment and emotion from text written in Russian language // Информационные технологии интеллектуальной поддержки принятия решений (ITIDS’2017): материалы 5 Всероссийской конференции. Уфа, 2017. Т. 1, № 1. С. 42–47.
- Аббаси M.M. Инструменты Эмоционального анализ текстов в процесс управления и моделирования в сложных системах // Проблемы управления и моделирования в сложных системах: материалы XX Международной конференции. Самара, 2018. С. 236–242.
- Аббаси M.M., Белтюков А.П. Механизм предварительной обработки текста перед анализом настроений // Информационные технологии интеллектуальной поддержки принятия решений (ITIDS’2018): материалы VI Всероссийской конференции. Уфа, 2018. С. 13–17.
- Aббаси M.M., Белтюков А.П. Информационные технологии изменения стилистики текста для его эмоциональной модификации // Информационные технологии и системы: материалы VII Международной научной конференции. Ханты-Мансийск, 2019. C. 137–142.
- Abbasi M.M., Beltiukov A.P. Summarizing emotions from text using Plutchik wheel of emotion // Proceedings of the 7th All Russian Conference on Information Technology for Intelligent Decision-Making Support (ITIDS). Ufa, 2019. Vol. 166. P. 291–294.
- Nisioi S., Bucur A., Liviu P. Lexical analysis and content extraction from customer-agent interactions // Proceedings of the 2018 EMNLP Workshop WNUT: the 4th Workshop on Noisy User-generated Text. 2018. P. 132–136.
- Important citation identification using sentiment analysis of intext citations / H. Aljuaid [et al.] // Telematics and Informatics. 2021. Vol. 56. P. 1–16.
- Text extraction and detection from images using machine learning techniques: A research review / S. Surana [et al.] // 2022 International Conference on Electronics and Renewable Systems (ICEARS). India, Tuticorin, 2022. P. 1201–1207. doi: 10.1109/ICEARS53579.2022.9752274
- Improving intext citation reason extraction and classification using supervised machine learning techniques / I. Ihsan [et al.] // Computer Speech & Language. 2023. Vol. 82, no. 9. P. 101526.
Дополнительные файлы
