К вопросу об упорядочении многоуровневой семантической сети на дереве семантической классификации


Цитировать

Полный текст

Аннотация

Рассматривается проблема представления глубинной семантики слов, предложений, повествований и текстов на естественном языке в рамках такой формы представления данных, как семантические сети. Предлагается модель многоуровневой семантической сети слов, в которой узлы и дуги графа слов включают графы вложенных в неё семантических сетей сем. Предложен способ представления соответствий между уровнями семантической сети на уровне слов и на уровне сем на основе матриц, содержащих тождественные аргументы элементов значений слов естественного языка. Затрагивается вопрос об упорядочении многоуровневой семантической сети на векторизованной семантической классификации данных. Делается вывод о необходимости продолжения данного исследования с учетом необходимости разработки программы для генерации матриц описания глубинной семантики слов.

Полный текст

В работе рассматривается проблема представления глубинной семантики единиц естественного языка с учетом важности такой формы представления данных, как семантическая сеть, а также проблема упорядочения данных семантической сети как средство обеспечения прозрачности и более качественной работы с семантическими сетями. Учитывается вопрос о трансформации семантического графа узлов и дуг, являющихся составными объектами, включающими графы семантической сети более низкого уровня, с возможностью осуществления его перегруппировки в граф семантической сети иного по форме предложения. На сегодняшний день широко распространены и разрабатываются методы и схемы представления лингвистических данных, такие как онтологии, реляционные базы данных, семантические и лингвистические классификации, многомерные базы данных, OLAP-системы, фреймы, правила порождающих грамматик и правила логического вывода на основе декларативных языков программирования [1-4]. В частности, одной из наиболее фундаментальных форм представления лингвистических данных является семантическая сеть. Семантические сети показывают себя весьма эффективным средством представления языка, особенно по отношению к небольшим объемам данных и предметным областям. Различными исследователями по-разному решается проблема обеспечения непротиворечивости и смысловой связности в рамках более крупных семантических сетей. Семантические сети активно используются в качестве формы представления данных в различных лексических, грамматических, семантических и иных модулях лингвистического программного обеспечения. Однако важным, до конца не решенным вопросом является представление многоуровневой семантики различных единиц языка: сем, слов, предложений, повествований и текстов, исследование возможностей перегруппировки дуг и узлов графа более низкого уровня в структуры более высокого уровня. Актуальность решения упомянутой выше проблемы состоит в необходимости освоения новых возможностей семантических трансформаций разного рода над единицами естественного языка, а также необходимости сделать семантические сети более прозрачными через использование их проекций на упорядоченные множества данных. Проблема представления и упорядочения многоуровневых глубинных семантических данных с привлечением семантических сетей рассматривается на стыке таких наук, как лингвистика, компьютерная лингвистика, искусственный интеллект, логика, системный анализ, теория баз данных, теория предикатов, математическая семантика, валентностное представление естественного языка, дискретная математика и теория графов. Проблема создания соответствующих программных систем, позволяющих генерировать описания глубинной семантики слов естественного языка, и другие проблемы могут успешно решаться в некотором приближении с учетом акцента на то или иное подмножество естественного языка, в частности, на основе операций над векторизованной классификацией слов естественного языка. Цель данной работы состоит в построении модели упорядочения семантической сети над векторизованной классификацией семантических данных с учетом многоуровневой структуры таких сетей. Такая модель может позволить автоматически генерировать матрицы глубинных семантических связей между элементами смысла слов (в предложении), иначе говоря, упорядочивать отношения между семами от различного числа их составляющих [2; 4]. Задачи данной работы заключаются: 45 Вестник СибГАУ. № 2(54). 2014 1) в построении модели, содержащей описание структуры элементов многоуровневой векторизованной семантической классификации над словами и семами естественного языка; 2) демонстрации примеров и принципиальной возможности описания семантических сетей слов на основе семантических подсетей сем как единиц естественного языка и возможностей осуществления соответствующих семантических трансформаций. Основная идея работы состоит в разработе подхода к автоматической генерации графа вложенной семантической сети уровня сем для исходной семантической сети слов, упорядоченных на дереве векторизованной семантической классификации. Новизна работы состоит в использовании модели векторизованной семантической классификации слов естественного языка, описанной в работах [2; 4], в применении к созданию в перспективе системы автоматического построения подсети сем для фрагмента текста на естественном языке. Пусть W есть пара <N, E>, где N есть множество узлов семантической сети, являющихся словами естественного языка (или сочетаниями сем, не выражаемых на естественном языке в достаточно хорошем приближении), а E есть множество дуг графа семантической сети слов (или нетерминальных символов языка). Тогда W есть пара <N’, E’>, где N есть множество узлов вложенной семантической сети, являющихся семами слов (или искусственных понятий) естественного языка, тогда как E’ есть множество дуг графа вложенной семантической сети, также описываемых семами слов (или нетерминальных сочетаний сем естественного языка). Для любого ni элемента множества N справедливо, что Пі 3 (n’ji, n’j2, ..., n’j3}, и для любого ek элемента множества E справедливо, что ek з {e’p1 e’p2, ..., e’pr}, где n’ и e’ есть элементы множеств N и E’ соответственно. Иначе говоря, каждый элемент (узел или дуга) графа семантической сети слов включает в себя множество элементов (узлов и дуг) графа семантической сети сем. Будем говорить, что сеть Wv является результатом переупорядочения подсети W’, если для всех nvі и evi сети W nvi з {nv’fl, nv’j2, ..., nv’j3} и evk з {ev’p1, ev’P2, ., e ’ pr}, где каждый элемент двух последних множеств является элементом подсети W’. Сеть Ws и сеть Wz будем считать синонимичными тогда и только тогда, когда они являются результатами переупорядочения сетей W% и Wz, где Ws = W’z. Мощность q множества Q, где Q = Ws П W’z, назовем степенью подобия семантических сетей Ws и Wz. Пусть h есть мощность множества H, где H = Ws U Wz. Тогда g = q / h, назовем g степенью синонимичности частично синонимических семантических сетей W’ s и W’ z. Очевидно, что степень синонимичности семантических сетей будет действительным числом от 0 до 1. Тождественные элементы значения слов в тексте. Отождествление компонентов значения является важной операцией над словами и семами текста на естественном языке. В тексте на естественном языке значения слов могут описываться как множество сем, связанных между собой графом отношений. В рамках традиционной семантики в синтагме, например, «тянуть телегу» понятие «тянуть» подразумевает физическое тело, изменяющее свои координаты в пространстве. «Телега» - это физическое тело, созданное человеком для передвижения в пространстве. Таким образом, понятия «движение» и «физическое тело» являются семантическими признаками - семами слов. Повторы смысловых компонентов должны иметь место в тексте и заголовке текста, различных частях текста, в синтагматических парах, фразах и предложениях, все они связаны «скрытыми» дугами семантического графа более низкого уровня, чем семантическая сеть слов. Значение фразы «Водитель купил новый навигатор. Он хороший» может быть представлено в виде семантической сети: {купил >делатель(99%)> водитель, купил >объект действия(99%)> навигатор, навигатор >свойство(99%)> новый, навигатор >свойство(77%)> хороший, водитель >свойство(33%)> хороший}. Подсеть сем сети слов для данной фразы будет иметь следующий вид: {ситуация вождения: {существо1 >причина1> причина2, существо1 >идея3.1> причина2, существо1 >идея3.2> место 1, существо1 >идея3.3> аппарат1, аппарат1 >причина2> связь1, существо1 >связь 1> место 1, место1 <устойчивость1< высокая1} ситуация покупки: {существо3 <действие1> существо2, существо3 >причина3> связь2, существо2 >связь2> предмет1, ...} ситуация навигации: {устройство1 >причина4> идея1, существо2 >идея1> место2, существо2 >идея1.1> место3, существо2 >идея1.2> включение1, существо2 >идея1.3> устройство1, место3 >включение1> место2, существо2 >связь3> место1, существо2 >причина5> причина4} свертка сем ситуаций: {существо2<тождество1(80%)>существо1}, грамматические связи: {предмет1 <тождество2>аппарат1}, ...}. Такая фраза, как «Этот любитель машин недавно взял полюбившееся средство ориентации на местности по определенной цене», будет частично синонимична рассмотренной фразе «Водитель купил новый навигатор. Он хороший». 46 Математика, механика, информатика Задача разработки алгоритма порождения всех, в частности синонимичных, высказываний ставится, например, О.Н. Селиверстовой: «Задача синтеза предложений естественного языка, синонимичных друг другу и исходному предложению, ставится как задача множественного синтеза; необходимо получить по возможности все предложения, синонимичные данному». Примеры частично синонимичных предложений приводятся ниже: «То, что сказал Петр, заставило меня сильно возмутиться», «Слова Петра возмутили меня до глубины души», «Слова Петра вызвали у меня глубокое возмущение», «От слов Петра меня охватило огромное возмущение», «Слова Петра были причиной моего глубокого возмущения», «Мое глубокое возмущение было результатом / следствием слов Петра», «Мое глубокое возмущение было вызвано словами Петра», «Я негодовал по поводу слов Петра», «Я говорил, что слова Петра мне не понравились», «Я подумал, что мы не можем мириться со словами Петра», «По моему мнению, слова Петра были ужасны» и т. д. Концепция перефразирования, предлагаемая далее, призвана осуществлять приведение смысла к простейшему стандартному виду, например, трансляция фразы с семантическим шумом «Он - её поддержка, он - её мысли» во фразу без семантического шума «Очевидно, она думает о нем, и он помогает ей». Далее семантическую сеть такой фразы можно трансформировать в любую синонимичную ей фразу и соответствующую сеть слов, например во фразу «Явственность её переживаний о нем поселилась в её душе; он дает ей неизменную поддержку». Построение многоуровневых семантических сетей на основе упорядочения их элементов на пространстве классификации может способствовать обеспечению работы алгоритма по перефразированию фраз языка такого вида. Этот подход может использоваться для поддержки диалогов программных систем с пользователем с учетом предварительно заданной контекстуальной информации: о внешнем мире, жизни собеседника, текущих делах собеседника, личности собеседника, его мировоззрении, его характере. Такая информация может быть организована в виде вариантов крупных частично синонимичных семантических сетей. Так, перефразирование может осуществляться на основе сфер, представленных в виде графов отношений на векторизованных классификациях терминальных и нетерминальных единиц языка, в частности, для генерации характерных для человека ошибок и оговорок в целях более успешного прохождения теста Тьюринга. Классификация слов и понятий естественного языка. Рассмотрим многомерное семантическое пространство единиц естественного языка - слов и предложений. Такое пространство слов позволяет генерировать семантически осмысленные фразы естественного языка. Возможно построение многомерного представления данных с приводимыми координатами вектора понятийного описания (табл. 1) [4]. Рассмотрим принципы упорядочения семантической многоуровневой сети M = <W, W’> на дереве векторизованной классификации слов языка. Дерево векторизованной классификации H = < cf f2, ..., fm], T >, где с - вектор классификации T, а T = b[f11, f 12, ..., f 'm] < b[f\, f22, ..., f2m] < b[f3!, A ..., fU •••>, bfb f 42, ., f 4m] < b[f 5j, f 52, ..., f 5m], ••>, -, b[f 6j, f 62, ..., f 6m] < b[f 71, f \, ..., f 7m], ...» - дерево классификации, при том, что bf1!, f *2, ..., flm] есть родительский узел узла b[f y\, f y2, ...,fym] дерева T так, что f u = fÿu при u < u’, в то время как (f u = X) Л (f u Ф X) при u = u’, тогда как (f1u = X) л (fy u = X) при u > u’, где u’ есть уровень текущего узла классификации. В табл. 2 приводится глубинный семантический анализ фразы на естественном языке на примере фразы «Он разбил ее сердце». В столбцах и колонках вложенных таблиц для каждого слова указаны семы, а в ячейках - тождественность их элементов, подобных аргументам «arg(...)» соответствующих функций. Таблица 1 Примерный вектор классификации слов и предложений естественного языка ТЕМА (1) ПОЗИЦИЯ (2) ВАРИАНТЫ (3) ОПЕРАЦИЯ НАД ОБЪЕКТОМ ЛОКАЛИЗАЦИЯ СВОЙСТВА ЛЕКСИЧЕСКАЯ ГРУППА ЛЕКСИЧЕСКИЕ РЯДЫ essence сущность consciousness сознание of alive часть живого maximally максимально nominal group. именная группа... ТОЖЕ, ЧТО В ТЕМЕ (1) causation. причинаследствие. essence of something сущность чего-то being существо in alive в живом very очень verbal group. глагольная группа. time. время. property свойство relation отношение on alive на живом rather достаточно bond... связь... existing существующее link связь thing вещь at alive около живого a little несколько aspect... аспект... non-existing несуществующее 47 Вестник СибГАУ. № 2(54). 2014 Окончание табл. 1 ТЕМА (1) ПОЗИЦИЯ (2) ВАРИАНТЫ (3) ОПЕРАЦИЯ НАД ОБЪЕКТОМ ЛОКАЛИЗАЦИЯ СВОЙСТВА ЛЕКСИЧЕСКАЯ ГРУППА ЛЕКСИЧЕСКИЕ РЯДЫ action действие information информа ция of not alive часть неживого little мало property... качество... possible возможный connecting соединение idea идея in not alive в неживом minimally минимально system... система... necessary необходимый presentation представ ление place место on not alive на неживом start начало changing обмен relation отношение at not alive около неживого positive позитивный stop остановка of which alive часть которого -живое complex сложный continuation продолжение in which alive в котором живое stable стабильный И другие И другие Рис. 1. Общая схема многоуровневой упорядоченной на классификации семантической сети В разделе «Синтагмы» указаны глубинные отношения за пределами каждого отдельного слова естественного языка в виде ссылок «adr(...)». Каждое слово языка имеет свое место в многомерной или древесной классификации слов и понятий на основе соответствия каждого слова вектору семантиче ских признаков. При этом такая иерархия может служить формой упорядочения элементов многоуровневой семантической сети, с учетом возможности реорганизации сети слов в иную частично или полностью синонимичную ей сеть (рис. 1). 48 Таблица 2 Вестник СибГАУ. № 2(54). 2014 В работе выполнен анализ проблемы представления семантической сети слов в рамках предложений естественного языка, синонимичных и частично синонимичных друг другу. Предложена модель представления вложенной сети сем многоуровневой семантической сети сем и слов естественного языка с привлечением матриц, описывающих глубинную семантику слов в предложении. Затронут вопрос построения программы, автоматически генерирующей такие матрицы на основе семантического векторизованного словаря и предполагающей вариативность интерпретаций - внутренних сверток (задания отношений тождества) элементов значения высказываний. Последнее могло бы дать возможность использовать рассматриваемую модель для моделирования процессов интерпретации и перефразирования мыслей, часто выходящих за рамки семантики исторически устоявшихся терминальных слов и выражений языка.
×

Об авторах

Дмитрий Викторович Личаргин

Сибирский федеральный университет

Email: lichdv@hotmail.ru
кандидат технических наук, доцент кафедры разговорного иностранного языка

Константин Владимирович Сафонов

Сибирский государственный аэрокосмический университет имени академика М.Ф. Решетнева

Email: kvsafonov@rambler.ru
доктор физико-математических наук, заведующий кафедрой прикладной математики

Олег Игоревич Егорушкин

Сибирский государственный аэрокосмический университет имени академика М.Ф. Решетнева

Email: Leoorphic@gmail.com
старший преподаватель кафедры прикладной математики

Елена Петровна Бачурина

Сибирский федеральный университет

Email: hellenb@mail.ru
магистрант института космических и информационных технологий, инженер-исследователь Научно-образовательного центра ЮНЕСКО

Список литературы

  1. Avancini H., Lavelli A., Sebastiani F., Zanoli R. Automatic Expansion of Domain-Specific Lexicon by Term Categorization. ACM Translation on Speech and Language Processing. 2006. Vol. 3, No. 1. P. 1-30.
  2. Сафонов К.В., Личаргин Д.В. Elaboration of a vector-based semantic classification over the words and notions of the natural language // Вестник СибГАУ. 2009. № 5 (26). С. 52-56.
  3. Сафонов К.В., Личаргин Д.В. Разработка векторизованной семантической классификации над словами и понятиями естественного языка // Вестник СибГАУ. 2010. № 4 (30). С. 33-37.
  4. Сафонов К.В., Личаргин Д.В. Некоторые принципы автоматической генерации учебных материалов на основе баз знаний и лингвистической классификации // Вестник СибГАУ. 2012. № 2 (42). С. 72-77.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Личаргин Д.В., Сафонов К.В., Егорушкин О.И., Бачурина Е.П., 2014

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах