MODEL-ALGORITHMIC SUPPORT OF MULTILINGUAL INFORMATION-TERMINOLOGICAL BASIS IN INTELLIGENT SYSTEMS


如何引用文章

全文:

详细

The authors consider formation of multilingual information-terminological basis and the model of its study based on Markovian chains. The algorithm of decomposition of informational basis into modules, according to relevance principle, is presented.

全文:

Для современных информационно-управляющих систем (ИУС) характерно то, что количество информационных материалов на различных языках в последние годы существенно увеличивалось. Поэтому современному квалифицированному специалисту, принимающему решения в ИУС, трудно обойтись без знания иностранных языков. Однако требование повысить уровень обучения иностранным языкам в неязыковом вузе вступает в противоречие с некоторыми условиями этого обучения, одним из которых является ограниченное количество часов, отводимых на изучение этих языков. Выходом из этого положения может стать оптимизация процесса обучения. В данной статье рассматриваются анализ процесса обучения и способы разбиения учебного материала на модули. Формирование модулей. Ранее в работах [1-3], в которых решались задачи разбиения мультилингви-стического информационно-терминологического базиса (ИТБ), акцент делался на оптимальное разбиение этого базиса на модули. Это позволяло создавать модули, трудоемкость изучения которых была оптимальной или стремилась к оптимальному значению с точки зрения количества слов в нем. Разработки в данной области были успешны и привели к получению ряда новых результатов [3]. Однако недостатком предложенных в этих работах методов является отсутствие анализа слов, находящихся в модулях, которые формируются из случайных слов либо из слов, попадающих в модули в алфавитном порядке. В таком случае слова могут быть как трудно, так и легко запоминаемыми, созвучными друг другу, однокоренными или просто похожими. Решая задачу анализа связей между словами, необходимо обратиться к вопросу изучения памяти и ее свойств, которым занимаются такие науки, как психология и мнемоника. В работах психологов Г. Эббин-гауза и Ф. Ч. Бартлетта, проводивших различные опыты для изучения особенностей памяти, было выявлено, что степень соответствия слов между собой влияет на их запоминание [4]. В дальнейшем было выяснено, что логически или образно связанная информация (или взаимообусловленные данные) запоминается эффективнее, поскольку при этом складывается ассоциативная связь. У схожих слов в человеческом сознании формируются похожие образы, и по этой причине процесс их запоминания протекает эффективнее, поскольку нет необходимости формировать в памяти новую ячейку. В результате происходит группировка слов со схожими образами и построение ассоциативных рядов, что позволяет запомнить больше при минимальных затратах памяти. Исходя из вышесказанного задача разбиения мультилингвистического информационно терминологического базиса на модули с учетом взаимосвязи приобретает особую актуальность. Модель изучения информационно-терминологического базиса. В работах [5-7] рассматривалась гипотеза об экспоненциальном характере зависимости вероятности успешного прохождения контрольных мероприятий от объема базиса и влиянии на эту вероятность степени соответствия слов REL. Если объем информационного материала некоторого ИТБ составляет © ч, то вероятность успешного выполнения контрольных мероприятий может быть представлена в виде exp(-X©) + REL - p - вероятность успешного выполнения контрольных мероприятий и завершения изучения базиса; - q - вероятность неудачи при выполнении контрольных мероприятий и повторном изучении базиса. В рассматриваемой модели выполняются очевидные соотношения: r + s = 1, p + q = 1. (2) Матрица вероятностей переходов между состояниями имеет вид s1 s2 s3 s4 s5 S1 "0 r s 0 0" S2 1 0 0 0 0 P = S3 0 0 0 q p S 4 1 0 0 0 0 S 5 0 0 0 0 0 p(©) = ■ (1) 2 где X - константа, показывающая скорость снижения вероятности успешного завершения изучения ИТБ в зависимости от его объема, ч-1; REL - степень соответствия слов между собой (0 < REL < 1). В моделях, используемых в работах [1-4], не учитывалась ассоциативная связь между словами и мнемотехники. Поэтому в разработанную авторами модель изучения ИТБ были внесены некоторые изменения. Рассмотрим модель на основе цепи Маркова, описывающую вероятностный процесс изучения отдельного базиса (см. рисунок). (3) Выделим в P матрицу вероятностей переходов между состояниями невозвратного множества Q: s1 s2 s3 s4 s1 s2 s3 s4 0 r s 0 10 0 0 0 0 0 q 10 0 0 Q (4) [Image] Модель изучения информационно-терминологического базиса (обозначения см. в тексте) Тогда фундаментальная матрица цепи Маркова будет выглядеть следующим образом: 1 -r - s 0 -1 1 0 0 0 0 1 -q -1 0 0 1 N = (I - Q)-1 = (5) где I - единичная матрица размерностью 4 x 4. Процесс изучения базиса всегда стартует из состояния Si, поэтому достаточно определить только первую строчку матрицы N с ее элементами n 1, ..., n4. Вычислив обратную матрицу (I - Q)-1, получим оценки среднего числа попыток изучения всех компонентов информационного базиса - среднее число пребываний процесса в состояниях {S1, ..., S6} при старте из состояния S1: 1 r „1 q n1 = —, n2 =—, n3 =—, n4 = —, (6) ps ps В этой модели выделены следующие состояния: - S1 - изучение информационного материала; - S2 - получение консультаций при изучении слов; - S3 - выполнение контрольных мероприятий; - S4 - применение мнемотехник для работы над словами, в которых были допущены ошибки; - S5 - завершение изучения базиса. Зададим вероятности переходов из одного состояния в другое: - r - вероятность обращения за справками или консультациями при изучении информационнотерминологического базиса; - s - вероятность перехода к контрольным мероприятиям; где n1 - среднее число попыток изучения информационного материала; n2 - среднее число обращений за справками и консультациями при изучении информационного материала; n3 - среднее число попыток выполнения контрольных мероприятий; n4 - среднее число применений мнемотехник для работы над словами, в которых были допущены ошибки. Обозначим трудоемкости изучения всех компонентов информационного базиса, ч: - © - трудоемкость изучения информационного материала; - © 1 - трудоемкость получения справок и консультаций при изучении информационного материала (состояние S2); - ©2 - трудоемкость выполнения контрольных мероприятий (состояние S3); - ©3 - трудоемкость выполнения мнемотехник (состояние S4). Суммарная трудоемкость прохождения информационного базиса с учетом (6) определяется выражением R = n1 •© + n2 •©i + n3 • ©2 + n4 -©3 = (7) i(© + r©1) + ©2 + q©3) 1 Рассмотрим оценки параметров, входящих в формулу (7). Вероятность r определяется экспертно или на основе обработки результатов изучения информационно-терминологического базиса. Вероятность p вычисляется по формуле (1). Трудоемкость © зависит от объема информационного базиса. Трудоемкость ©1 может быть получена как доля величины ©: ©1 = k1©, (8) где 0 < k1 < 1 - доля затрат на получение справок и консультаций, определяемая экспертно или на основе статистики. Трудоемкость ©2 является суммой постоянной и переменной составляющих: ©2 = m + k2©, (9) где m - трудоемкость работы по выполнению контрольных мероприятий, не зависящая от размеров базиса, ч; 0 < k2 < 1 - доля затрат на выполнение контрольных мероприятий. Трудоемкость ©3 можно представить как сумму доли трудоемкости © и постоянной составляющей: ©3 = w + k3©, (10) где w - трудоемкость работы по изучению мнемотехник, не зависящая от размеров базиса, ч; 0 < k3 < 1 -доля затрат на применение мнемотехник. В результате подстановки значений параметров (8)-(10) формула (7) приобретет вид 2 R = e-X© + REL — (1 + k1r) + k 2 + qk 3 J© + m + qw = R1 + R2 + R3, © (11) [1 + k1r ]— - затраты времени на где R1 = e-X©+ REL изучение базиса; R2 = (k 2© + m) - затраe-X©+ REL ты времени на выполнение контрольных мероприя- 2 R3 =——-[qk3© + qw] - затраты времени тий; e-X©+ REL‘ на выполнение мнемотехник. Введем обозначение 1 (1 + k1r) + k 2 + qk 3 = k, s (12) с учетом которого выражение для суммарной трудоемкости (11) упростится: 2 -(k© + m + qw). (13) R = e-X©+ REL Формирование модулей по принципу релевантности. В рассматриваемой нами модели связь между словами определяется по принципу релевантности или соответствия между собой. Если у двух сравниваемых побуквенно слов на одном и том же месте находится одна и та же буква, то это увеличивает степень их соответствия. Если слова схожи, то вероятно, что они либо однокоренные, либо просто похожи. В первом случае слова отличаются только своей формой или частью речи, во втором слова запоминаются как созвучные, но разные по смыслу. Все это увеличивает ассоциативную связь между словами, что облегчает человеческому мозгу процесс их запоминания. Приведем подробный алгоритм формирования модуля ИТБ. Шаг 1. Количество слов в базисе, который хранится в базе данных, заносим в SizeOfBasis. Шаг 2. Задаем коэффициент схожести слов KOF. Шаг 3. I = 1. Шаг 4. Если I больше SizeOfBasis, то переходим к шагу 17. В противном случае берем слово из базы данных под индексом I. Шаг 5. Если флаг use-слова под индексом I равен 0, то use равен 1 и слово записывается в MainWord. В противном случае значение I увеличиваем на 1 и переходим к шагу 4. Шаг 6. Создаем новый модуль, в котором same равно 0. Шаг 7. J = 1. Шаг 8. Если J меньше или равно SizeOfBasic, то берем слово из базы данных под индексом J. Шаг 9. Если флаг use-слова под индексом J равен 0, то записываем его в переменную Word. В противном случае J увеличиваем на 1 и переходим к шагу 8. Шаг 10. Сравниваем количество букв в словах Word и MainWord, выбираем из них наименьшее и заносим его в SizeOfWord. Шаг 11. K = 1. Шаг 12. Если K больше SizeOfWord, то переходим к шагу 15, в противном случае - к шагу 13. Шаг 13. Если буква с индексом K MainWord равна букве с индексом K Word, то увеличиваем same на 1. Шаг 14. Увеличиваем K на 1 и переходим к шагу 12. Шаг 15. Если same равно 0, то увеличиваем J на 1 и переходим к шагу 8. Шаг 16. Если same/SizeOfWord больше KOF, то присваиваем use значение 1, J увеличиваем на 1, в результате слово помещается в модуль, и переходим к шагу 8. В противном случае J увеличиваем на 1 и переходим к шагу 8. Шаг 17. Выход. После формирования модулей ИТБ по релевантности применяются алгоритмы разбиения информационно-терминологического базиса, состоящего из заранее заданных модулей, которые описаны в работах [6; 7]. На основе анализа способов формирования модулей информационно-терминологического базиса получена новая модель изучения ИТБ с учетом свойств человеческой памяти и применения мнемотехник, использующих принцип релевантности. Авторами предложен новый алгоритм для разбиения всего базиса на модули, который обеспечивает учет ассоциативной связи между словами, что облегчает процесс их запоминания обучаемыми. Данный алгоритм был использован при разработке программного комплекса в среде Microsoft Visual Studio, который может работать с любыми системами управления базами данных, имеющими ODBC-драйвер.
×

作者简介

S. Ognerubov

Siberian federal university

Email: kleniks@yandex.ru
Candidate of Science (Engineering), associate professor, associate professor of the chair of informatics of the Siberian federal university. Graduated from Krasnoyarsk state technical university in 2003. Area of scientific interests - information and telecommunication technologies.

D. Kovalev

Siberian state aerospace university named after academician M. F. Reshetnev

Email: kleniks@yandex.ru
laboratory research assistant of the Siberian state aerospace university named after academician M. F. Reshetnev, student of the Siberian federal university. Area of scientific interests - information and telecommunication technologies.

A. Seredin

Siberian federal university

Email: AlexzanderIV@yandex.ru
graduate student of the Siberian federal university. Graduated from the Siberian federal university in 2011. Area of scientific interests - information and telecommunication technologies.

K. Bakhmareva

Siberian state aerospace university named after academician M. F. Reshetnev

Email: kleniks@yandex.ru
laboratory research assistant of the Siberian state aerospace university named after academician M. F. Reshetnev. Area of scientific interests - information and telecommunication technologies.

V. Brezitskaya

Siberian state aerospace university named after academician M. F. Reshetnev

Email: kleniks@yandex.ru
candidate for Master’s degree of the Siberian state aerospace university named after academician M. F. Reshetnev. Graduated from the Siberian federal university in 2006. Area of scientific interests - information and telecommunication technologies.

参考

  1. Kovalev I., Kovaleva T., Susdaleva E. Effective Information Training Technology Based on the Learner’s Memory State Model // Modeling, Measurement and Control. D. 2000. Vol. 21, № 3-4. P. 11-26.
  2. Ковалев И. В., Огнерубов С. С., Лохмаков П. М. Программно-алгоритмические средства персонификации информационно-терминологического базиса в области аэрокосмической техники // Авиакосмич. приборостроение. 2007. № 9. С. 67-71.
  3. Мультилингвистическая технология поиска данных для подготовки и принятия решения в информационно-управляющих системах / И. В. Ковалев, П. В. Зеленков, С. С. Огнерубов, П. М. Лохмаков // Прогр. продукты и системы. 2007. № 2. С. 11.
  4. Растригин Л. А. Адаптация сложных систем. Методы и приложения. Рига : Зинатне, 1981.
  5. System Aspects of Multilingual Adaptive-Training Technology Organization and Usage / I. V. Kovalev, T. A. Kovaleva, M. V. Karasyova, S. N. Ezhemanskay // Proc. of Intern. Conf. on Modeling and Simulation. Lyon, 2004. P. 212-214.
  6. Ковалев И. В., Карасева М. В., Лесков В. О. Алгоритмизация процедур включения связанных лексем в структуру информационно-терминологического базиса // Прогр. продукты и системы. 2009. № 4. С. 28.
  7. Ковалев И. В., Лесков О. В., Карасева М. В. Внутриязыковые ассоциативные поля в мультилингвистической адаптивно-обучающей технологии // Системы управления и информ. технологии. 2008. № 3.1 (33). С. 157-160.

补充文件

附件文件
动作
1. JATS XML

版权所有 © Ognerubov S.S., Kovalev D.I., Seredin A.I., Bakhmareva K.K., Brezitskaya V.V., 2012

Creative Commons License
此作品已接受知识共享署名 4.0国际许可协议的许可
##common.cookie##