LINGUISTIC PRINCIPLES OF ACADEMIC KNOWLEDGE SYSTEMIZATION AND ORGANIZATION FOR ITS EXTRACTION FROM THE DATA BASE OF THE EXPERT SYSTEM


Cite item

Full Text

Abstract

The article discusses the issues of the systemacy of terms representation in the applied models of academic knowledge organization. The linguistic principles of modeling the academic knowledge of a particular domain as a terminological network and its organization in the data base for its extraction while working with the expert system are defined. The step-by-step algorithm of knowledge systemization and the related data is described based on the example of the editor regime of the developed expert system. The variants of academic concepts correlation are considered. The article also reasons the significance of differentiation of the categories of academic concepts and the types of systemic relations between them, the indication of the grammatical forms of terms, the direction of the vectors of the systemic relations and other information for the accuracy and completeness of data extraction.

Full Text

ВВЕДЕНИЕ Прикладные модели репрезентации знания, существующие в наши дни, характеризуются различными принципами построения, сферой применения и назначением. При этом каждая из них отличается своим набором преимуществ и недостатков [1]. Среди прочих разновидностей интеллектуальных систем, основанных на данных моделях (среди которых семантические сети, фреймовые структуры и т.д. [2]), экспертная система считается одной из наиболее удобных для работы со знаниями определенной научной области. Одной из значимых структурных составляющих архитектуры экспертной системы является база знаний [3; 4].Последняя включает обширные знания специалистов определенной предметной области[5], в связи с чем экспертная система может выступать в качестве консультанта при решении определенного набора задач, которые обусловлены ее функциональными возможностями и делает знания доступными для аудитории как специалистов, так и неспециалистов. Следовательно, такая система способна обрабатывать большие объемы информации, представленные в базе данных, и сообщать в качестве ответа необходимые сведения в конкретной предметной области. Подобного рода системы могут значительно облегчить работу человеческих экспертов в таких различных научных и профессиональных сферах деятельности, как право, военное дело, медицина, химия, банковское дело [6; 7; 8; 9]. Данный список, бесспорно, может быть продолжен, поскольку экспертные системы сегодня используются в различных областях знания [10]. ЛИНГВИСТИЧЕСКИЕ ПРИНЦИПЫ СИСТЕМАТИЗАЦИИ Ввиду наличия разных подходов к созданию экспертных систем, решаемых ими задач, значимым является то, какие принципы лежат в основе систематизации и представления знания, для того чтобы пользователь мог продуктивно взаимодействовать с экспертной системой и извлекать необходимые данные. В ходе исследования для апробации результатов нами была спроектирована «Экспертная система в области астрофизики», которая основана на сетевой модели представления научного знания и использует разработанные нами лингвистические принципы построения терминологических сетей [11]. В то время как под семантической сетью понимается «маркированный граф, в котором вершины соответствуют определенным фактам, а дуги означают отношения или ассоциации между различными фактами» [12: 11], терминологическая сеть является ее разновидностью, где связи устанавливаются только между научными понятиями конкретной области научного или профессионального знания, выражаемых терминами [13]. Базовыми элементами терминологической сети являются вершины и дуги между ними, где первыми выступают понятия и их термины, относящиеся к разным категориям, а вторыми - разные типы семантических отношений между ними. Более сложными ее структурными составляющими являются частотные сочетания вершин конкретных категорий, связанные определенным типом системных отношений, которые представляют собой продуктивные модели сопряженности понятий, обладающие прототипической структурой и характеризующиеся спецификой языковой репрезентации[14]. Моделирование организации понятий посредством терминологической сети в этой связи позволяет выявить положение каждого понятия в системе научного знания, а также установить круг смежных терминов, непосредственно связанных друг с другом семантическими отношениями, и характер их соотнесенности, что способствует точному и более полному извлечению данных из базы знаний экспертной системы. Как мы отмечали ранее, одними из основополагающих принципов систематизации и представления знания в экспертной системе, являются дифференциация категорий вершин и типов системных отношений терминологической сети. При этом категоризация вершин отражает естественную стратификацию терминов в соответствии с базовыми категориями научных понятий, являющихся универсальными для разных наук [15]. В соответствии с представленной концепцией, категории передаваемых терминами понятий детерминируется материальной или нематериальной сущностью референта, а также его природой - естественной или искусственной. К таковым, в частности, относятся категории Естественный объект (например, астероид), Механизм (например, космический аппарат), Процесс (например, термоядерный синтез), Характеристика (например, светимость) и др. Последнее представляется важным для сопоставления референтов, принадлежащих к одной категории, и извлечения сведений об их сходствах и отличиях. Значимым аспектом построения терминологической сети является и то, что учитываемая типология системных отношений отражает существующий характер корреляции только между элементами научного знания, исключая множество других семантических отношений, которые выделяются для построения семантических сетей вообще. Каждый тип системных отношений указывает на различный характер взаимосвязи двух смежных понятий, передаваемых терминами, которые можно рассматривать как переменные. Соответственно, соотносимые посредством разных типов системных отношений вершины терминологической сети представлены в базе знаний экспертной системы как смежные. Значимым принципом для извлечения знания в этой связи является корреляция типов системных отношений с перечнем вопросов, которые потенциально могут быть заданы экспертной системе. Так, например, системному отношению LocOn (репрезентирует связь между двумя референтами, один из которых является местом расположения другого) соответствует вопрос «Где находится?» и т.д. Таким образом, каждая отдельная вершина имеет свой собственный набор смежных вершин, с которыми она связана системными отношениями разных типов, что делает возможным извлечение сведений о данном понятии посредством постановки стандартных вопросов в специальном диалоговом режиме работы экспертной системы и осуществления поиска на основе введенных исходных данных и параметрах о взаимосвязанных вершинах. Экспертная система, являясь эффективным средством предоставления необходимых сведений и информации в конкретной области научного или профессионального знания, обладает развернутой базой данных, включающей информацию разного характера. Сведения о взаимосвязанных понятиях, которые вносятся в базу знаний онтоинженером, могут быть получены из текстов научной направленности (среди которых фрагменты статей, монографии, словари и другие электронные и текстовые специализированные источники), а также непосредственно от специалистов в предметной области. В разработанной нами экспертной системе наполнение базы данных, систематизация и представление научного знания осуществляется с помощью режима редактора, который также позволяет вносить правки и дополнения. Данный режим представляет собой раздел программы для ввода текстовых данных (слов, словосочетаний, предложений (без ограничения количества символов)), указания отношений между понятиями, сохранения соотносимых с каждым понятием сведений, а также прочей информации онтоинженером, заполняющим базу знаний. На основе внесенных понятий и разметки системных отношений между ними формируется сетевая структура в виде графа. При этом значимым принципом, который также необходимо принимать во внимание является то, что одна вершина потенциально может быть связана не одним, а несколькими разными типами системных отношений с другой. Преимущественно между смежными вершинами обнаруживается лишь один тип системных отношений, однако в отдельных случаях для конкретных понятий одновременно существуют и могут быть выявлены 2 и еще реже 3 типа системных отношений, показывающих разный характер их корреляции. Так, например, парой таких системных отношений могут выступать PO и LocIn, поскольку один и тот же объект может одновременно осмысливаться как структурное составляющее другого и как объект, находящийся внутри него, что также представляется важным для более точного извлечения данных. Для ввода понятий и соотносимых с ними сведений, указания перечня категорий и связей в режиме редактора предусмотрены соответствующие подразделы. Подраздел «Категории» предназначен для внесения фиксированного набора категорий и подкатегорий вершин, к которым относятся научные понятия. При этом,в то время как перечень категорий является достаточно универсальным, подкатегории характеризуются гораздо большим разнообразием и вариативностью в рамках разных областей знания. В подразделе «Типы связей» представлена возможность для ввода и редактирования установленного нами в ходе более ранних исследований заданного набора типов системных отношений, которые существуют между элементами научного знания. При этом заполняются не только предусмотренные поля для названия типа и описания специфики системного отношения, но также поле «Формулировка», значение которого используется в фильтрах при извлечении данных о сходствах и отличиях в режимах «Сравнить», а также указании типа атрибута при поиске на основе исходных данных в режиме «Искать по атрибутам» экспертной системы. Важным аспектом является тот факт, что значение данного поля может совпадать для разных типов системных отношений, тем самым объединяя их в кластер, что необходимо при извлечении данных сразу о нескольких смежных вершинах. Подраздел «Понятия» предназначен для формирования языкового реестра, ввода терминов, вербализующих научные понятия, и соотносимых с ними данных. В данной вкладке наверху представлена строка для ввода термина и его поиска в языковом реестре. Ниже представлен сам языковой реестр в виде таблицы, где отображаются список внесенных терминов, расположенных в алфавитном порядке, и соотносимые с ними данные с возможностью редактирования и удаления из реестра, а также отображения в языковом реестре слов всех категорий или слов только одной или нескольких категорий. При внесении нового понятия открывается окно карточки ввода нового термина с возможностью выбора при помощи соответствующих столбцов подстановки основной и дополнительной категории вершины, которые присваиваются каждому добавляемому понятию, а в их рамках подкатегории, с которой он соотносится. Обязательным условием является выбор только основной категории, поскольку дополнительная категория характерна лишь для весьма ограниченного перечня элементов научного знания и присваивается в исключительных случаях. При включении нового понятия в базу данных также указывается информация о его синонимах и англоязычных эквивалентах, научное определение, а также примеры употребления в контексте, сведения о которых можно извлечь при работе с режимом «Посмотреть в словаре». Наряду с присвоением категории еще одним значимым лингвистическим принципом представления знания в базе знания экспертной системы для его корректного извлечения является учет морфологии вносимых терминов. В этой связи при создании или редактировании карточки понятия предусмотрено не только поле для ввода нового термина, но также поля для его падежных форм в единственном и множественном числе, что необходимо для корректного вывода ответов экспертной системы на поставленные пользователем вопросы. Значимым аспектом в этой связи также является учет приоритетности формы единственного или множественного числа вносимого термина, поскольку существуют термины, которые могут использоваться преимущественно в форме множественного числа, а не единственного, например, термин нанотехнологий частицы Януса (также янус-частицы, частицы-янусы, «двуликие» частицы, форма единственного числа возможна, однако она появилась позже, используется редко и в словарях термин представлен во множественном числе). Также следует отметить, что ряд терминов функционирует в языке только в единственном или множественном числе, что также необходимо принимать во внимание для грамматически правильного вывода ответов экспертной системой. По этой причине данные поля карточки ввода нового термина являются необязательными для заполнения. Инструмент «приоритет» реализован для полей единственного и множественного числа именительного падежа, которые равнозначны по статусу. Одно из данных полей может оставаться пустым в силу вышеназванных причин, но одно должно быть заполнено обязательно. Если заполнено только одно поле, то приоритет может не указываться. Таким образом, выбор приоритета формы числа при внесении в базу данных нового термина определяет форму, которая будет отображаться в языковом реестре и в режиме словаря. После добавления нового термина и сохранения данных о нем становится возможным его систематизация и установление семантических связей со смежными элементами научного знания уже представленными в базе данных экспертной системы. Механизм добавления системных отношений реализован в отдельном окне подраздела карточки термина, где также существует возможность поиска термина, с которым устанавливается связь, в языковом реестре. На данном этапе значимым аспектом является и учет категории связываемого понятия. Так, например, если одно из смежных понятий относится к категории Характеристика (например, масса, светимость и т.д.), то для данного понятия необходимо также заполнения полей «значение» и «единица измерения», поскольку для разных референтов одно и то же свойство может иметь разные значения. Данные сведения могут являться решающими при сравнении двух референтов и извлечении информации об их сходствах и отличиях при наличии общих свойств. При установлении нового системного отношения со смежным понятием необходимым условием является указание типа связи и заполнение поля «Подтверждение», где указывается текстовый фрагмент из научного источника, содержащий оба смежных термина, между которыми устанавливается связь, а также вербализатор данного системного отношения конкретного типа. Значение данного поля также выводится в ответах экспертной системы на вопросы пользователя при извлечении данных об интересующем феномене и является доказательством их точности и истинности. Значимым принципом здесь также является указание вектора системного отношения и его направленности от первого понятия ко второму или от второго к первому, поскольку он определяет роль каждого из двух взаимосвязанных понятий, например, какой из двух референтов является частью, а какой целым по отношению друг к другу для системного отношения PO (связи между холонимом и меронимом, например, спиральной галактикой с перемычкой и балджем), что представляется весьма существенным для корректности извлечения данных. Список всех связей, установленных с конкретным понятием, отображается в карточке его термина с указанием, смежного понятия, типа и вектора системного отношения и текста подтверждения с возможностью редактирования и удаления. При этом, как уже отмечалось одна вершина может быть связана как одним типом связи с разными вершинами, так и разными типами связей с одной вершиной. Не менее важным лингвистическим принципом является и учет приоритетности формы числа смежных терминов при установлении связи между ними. Этот приоритет не связан с приоритетом формы числа при сохранении первичных данных добавляемого понятия в карточке термина и его представленности в языковом реестре. Указание данного приоритета необходимо, поскольку одно и то же понятие по отношению к смежным понятиям в одном случае может репрезентироваться термином в форме единственного числа, а в другом формой множественного числа. Данный приоритет имеет значение для точности вывода форм терминов в ответах во всех режимах работы экспертной системы. Важным аспектом является и то, что все вводимые данные о корреляции элементов знания сохраняются относительно как первого, так и второго понятия. ВЫВОДЫ Таким образом, особенности системного представления и организации знания в базе данных оказывают непосредственное влияние на то, какие сведения могут быть получены при работе с экспертной системой. Основополагающими принципами в этой связи является учет конкретной типологии элементов научного знания и связей между ними. Перечень типов системных отношений находится в прямой корреляции с вопросами, которые потенциально могут быть адресованы экспертной системе и корректностью извлекаемых данных при выводе ответов, а также результатов сравнения референтов и поиска на основе исходных данных. Дифференциация понятий по категориям необходима как на этапе систематизации и построения сетевой модели предметной области, так и при сопоставлении элементов научного знания, извлечении данных об их сходствах и отличиях, внесении сведений определенного типа, соотносимых с конкретной категорией понятия, их уточнении на этапе установления системных отношений. В разработанной нами экспертной системе систематизация знания и внесение соотносимых с ним сведений в базу данных осуществляется пошагово с помощью специального режима редактора. При установлении связей в ней сохраняется информация о соотнесенности первого и второго понятий, формах их терминов, типе системного отношения между ними, направленности вектора, тексте-подтверждении, значения категориально-обусловленных полей. Точность и полнота ответов при извлечении данных в определенной степени зависят от учета морфологических особенностей терминологических единиц и направленности вектора связи.
×

About the authors

Maxim Nikolayevich Latu

Pyatigorsk State University

Email: Laatuu@yandex.ru
Ph.D. in philology, associate professor of West European Languages and Cultures Department, Director of Applied Linguistics, Terminology Studies and Linguistic Cognitive Technologies Research Center of Pyatigorsk State University

Aina Novrdievna Mantsaeva

Chechen State University

Email: klaramantsaeva@yandex.ru
Ph.D. in philology, associate professor of The English Language Department, Chechen State University Grozny, Russia

Petimat Masudovna Zekieva

Chechen State Pedagogical University

Email: sekieva@mail.ru
Ph.D. in philology, associate professor of Foreign Language Department, Chechen State Pedagogical University Grozny, Russia

References

  1. Товштейн, М. Я., Сунгатуллин, Л. И. Возможность применения онтологической модели автомобиля в базе знаний // Социально-экономические и технические системы: исследование, проектирование, оптимизация. - 2016. - №2 (69). - С.52- 62.
  2. Морозова, В. А., Паутов, В. И. Представление знаний в экспертных системах. - Екатеринбург: Изд-во Урал.ун-та, 2017. - 120 с.
  3. Гаврилов, А. В. Системы искусственного интеллекта: Учеб. пособие: в 2-х ч. - Новосибирск: Изд-во НГТУ, 2001. - Ч. 1. - 67 с.
  4. Джарратано, Дж. Экспертные системы: принципы разработки и программирование. - М.: «Вильямс», 2007. - 1152 с.
  5. Ahmed, I. M., Mahmoud, A. M., Aref, M., Salem, A.-B. M. A study on expert systems for diabetic diagnosis and treatment // Recent advances in information science. Proceedings of the 7th European computing conference, Dubrovnik, Croatia, June 25-27, 2013. - P. 363-367.
  6. Ahmed, I.M., Alfonse, M., Aref, M., Salem, A.-B.M. Reasoning techniques for diabetics expert systems. Procedia Computer Science. 2015/ - Vol. 65. - P. 813-820.
  7. Garcia, M. A., Gandhi, A. J., Singh, T., Duarte, L., Shen, R., Dantu M., Ponder S., Ramirez H. Esdiabetes (an expert system in diabetes) // Journal of Computing Sciences in Colleges. - 2001. 16 (3). - P. 166-175.
  8. Aliferis, C. F., Miller, R. A. On the heuristic nature of medical decision-support systems. Methods of Information in Medicine. 1995. - Vol. 34. - P. 5-14.
  9. Shabut, A. M., Tania, M. H., Lwin, K. T., Evans, B. A., Yusof, N. A., Abu-Hassan, K. J., Hossain, M. A. An intelligent mobile-enabled expert system for tuberculosis disease diagnosis in real time // Expert Systems with Applications. 2018. Vol. 114 P. 65-77.
  10. Atanasova, I., Krupka, J. Architecture and design of expert system for quality of life evaluation // InformaticaEconomica. 2013. - Vol. 17 (3). - P. 28-35.
  11. Лату, М. Н., Моногарова, А. Г., Левит, А.А., Гукосьянц, О. Ю., Князев, Н. А., Камышникова, Д. А. Программа для ЭВМ «Экспертная система в области астрофизики». №2020610518 от 15.01.2020.
  12. Бабкин, Э. А., Козырев, О. Р., Куркина, И. В. Принципы и алгоритмы искусственного интеллекта. - Н. Новгород: НГТУ, 2006. - 132 с.
  13. Мальковский, М. Г., Соловьев, С. Ю. Терминологические сети // Материалы II Международной научно-технической конференции «Открытые семантические технологии проектирования интеллектуальных систем (OSTIS-2012)». - Минск: БГУИР, 2012. - С. 77-82.
  14. Лату, М. Н. Особенности языковой репрезентации продуктивных моделей сопряженности понятий // Известия Самарского научного центра РАН. Социальные, гуманитарные, медико-биологические науки. - 2019. Том 21. - №6. - С. 46-51.
  15. Гринев-Гриневич, С. В. Терминоведение. - М.: Академия, 2008. - 304 с.

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2020 Latu M.N., Mantsaeva A.N., Zekieva P.M.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies