PROGRAM REALIZATION OF EMPIRICAL SUPPORT OF MULTILINGUAL TECHNOLOGY IN A CORPORATIVE INTELLIGENT SYSTEM

M. V. Karaseva; Карасева М. В.; A. V. Datsenko; Даценко А. В.

Программная реализации эмпирической поддержки мультилингвистической технологии в корпоративной информационной системе

Авторы: Карасева М.В.¹, Даценко А.В.¹
Учреждения:
1. Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева
Выпуск: Том 13, № 4 (2012)
Страницы: 22-25
Раздел: Статьи
Статья опубликована: 15.08.2012
URL: https://journals.eco-vector.com/2712-8970/article/view/506111
ID: 506111

Цитировать

Полный текст

Аннотация
Полный текст
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

Рассмотрены пути реализации эмпирической поддержки мультилингвистической адаптивно-обучающей технологии, используемой в распределенных информационных системах, на примере работы комплекса программного моделирования КПМ v. 1.0.

Ключевые слова

информационная система, мультилингвистическая технология, адаптивное обучение

Полный текст

В настоящее время распространенным способом упорядочения информационных потоков в рамках предприятий и организаций является создание и поддержание распределенной информационной системы. Такая система позволяет решать множество задач, начиная с отслеживания и электронного документирования финансовых потоков и заканчивая общением сотрудников данного предприятия. В перспективе корпоративная информационная система может стать более сложной структурой, так называемой ERP-системой. Такие системы несут в себе, наряду с информационными, функции планирования и управления предприятием. При построении распределенных информационных систем разработчики неизбежно сталкиваются с целым рядом проблем. Учитывая тенденции к интеграции и созданию мультинациональных корпораций, одной из таких проблем является проблема языкового взаимодействия, когда специалисты разных национальностей (принадлежащие к разным языковым группам) должны в кратчайшие сроки прийти к пониманию, т. е. обучиться специализированной предметной лексике на незнакомом им языке. Другой проблемой является эффективное взаимодействие специалистов непосредственно с компьютерной системой, которое для людей, далеких от компьютерных и информационных технологий, не является тривиальной задачей [1]. В данной статье рассматривается реализация эмпирической поддержки мультилингвистической адаптивно-обучающей технологии, используемой в распределенных информационных системах, на примере работы комплекса программного моделирования КПМ v.1.0. Итак, одним из новых путей решения проблемы интенсивного накопления иностранного профессионально ориентированного словарного запаса является применение мультилингвистической адаптивно-обучающей технологии (МЛ-технологии), информационным базисом которой являются частотные словари [2]. На сегодняшний момент МЛ-технология есть совокупность алгоритмов и моделей данных, направленных на эффективное, строго организованное изучение иностранной лексики [3]. Особенность МЛ-технологии состоит в искусственном построении ассоциативных связей между языковыми аналогами некоторого множества языков непосредственно в процессе обучения. Это в некоторой степени снижает возможность возникновения «смешения языков» и ускоряет процесс запоминания. Количество алгоритмов и моделей данных, которые включает в себя МЛ-технология, постоянно увеличивается. Возникает необходимость в сравнительном анализе алгоритмов, но поскольку все они ориентированы на данные, а эти данные зачастую должны быть многочисленны и разнообразны, проводить такой анализ становится затруднительным. Тем не менее необходимость в эмпирической проверке алгоритмов существует и с развитием МЛ-технологии только усиливается. Проводить различного рода тесты и эксперименты в этой области сложно еще и потому, что данные, необходимые для этого, есть не что иное, как множество распределенных информационно-терминологических базисов (ИТБ) [3]. На разработку таких ИТБ уходит значительное количество ресурсов, включая работу экспертов-лингвистов и специалистов различных предметных областей. Решить эту проблему в некоторой степени возможно с помощью программного моделирования, при котором реальные ИТБ заменяются их адекватными моделями. Структура таких моделей должна учитывать все возможные свойства ИТБ, включая абсолютную и относительную частоты, скрытые лексические связи и т. п. После того как разработана и принята структура моделей, строится эмпирическая база для анализа алгоритмов, состоящая из множеств моделей заданной структуры с различными априорными характеристиками, такими как объем базиса, максимальные значения частот и количество лексических связей. После того как эмпирическая база сформирована, на ней в режиме тестирования реализуются интересующие исследователя алгоритмы, затем анализируются результаты экспериментов. Генерацию множества моделей и тестирование алгоритмов разумно осуществлять в рамках одной программной системы. Примером такой системы может служить комплекс программного моделирования КПМ v.1.0 [4] (см. рисунок). [Image] Структура программного комплекса КПМ v.1.0 Основой КПМ v.1.0 является блок генерации моделей ИТБ, представленный на приведенной схеме как блок «Г». Он состоит из генератора (ГИТБ), на вход которого подается список параметров (Н), необходимых для формирования текущей модели. Механизмы ГИТБ основаны на генерации псевдослучайных чисел, причем сама генерация может осуществляться по различным стохастическим законам (f(x)). На сегодняшний момент КПМ v.1.0 поддерживает генерацию псевдослучайных чисел по нормальному и равномерному законам распределения вероятностей. Список параметров Н в КПМ v.1.0 реализован в виде класса и состоит из набора переменных, определяющих следующие настройки формирования модели ИТБ: - объем базиса в терминах; - максимальное количество связей, приходящихся на одну лексему; - максимальное значение абсолютной частоты лексем; - максимальное значение частоты сочетаний лексем; - объем материала, по которому произведен частотный анализ; - коэффициент связанности лексем. Коэффициент связанности лексем определяет максимальную долю от абсолютной частоты лексемы, которую занимает частота ее использования в лексических сочетаниях. Используя список параметров как набор входных данных, ГИТБ генерирует модель согласно выбранному закону распределения. Список параметров формирования моделей может быть сохранен в файл и в любой момент восстановлен. Результаты генерации отображаются в соответствующем окне для их визуального анализа и также могут быть сохранены в файл и восстановлены впоследствии. Блок «А» представляет собой набор алгоритмов для эмпирического анализа, реализуемых в виде отдельных программных модулей и библиотек. Все алгоритмы этого блока делятся на два основных типа: - алгоритмы, использующие ИТБ в процессе обучения (А1); - алгоритмы, изменяющие структуру самого ИТБ на основе анализа его характеристик (А2). На выходе алгоритмов А2-типа формируется ИТБ с новой структурой, который так же может быть использован алгоритмами обоих типов и проанализирован. Блок «Т» - блок тестирования ИТБ и алгоритмов. Тесты, входящие в этот блок, логически подразделяются на три типа: - тесты для анализа А1-алгоритмов (Т1); - тесты для анализа А2-алгоритмов (Т2); - тесты для анализа ИТБ как результата А2-алгоритмов (Т3). Под тестами здесь следует понимать специальные аналитические алгоритмы, которые также могут быть добавлены в КПМ v.1.0 как отдельные программные модули и библиотеки. Необходимо заметить, что структура Т-алгоритмов зависит от интересов исследователя и может представлять собой как тривиальный счетчик итераций, так и многоступенчатые, многоатрибутивные алгоритмы с вычислением экстремумов разнообразных функций качества. В качестве примера работы КПМ v.1.0 проведем сравнительный анализ двух алгоритмов А2-типа: алгоритма 1, алгоритма 2. Приведем необходимый минимум информации об исследуемых алгоритмах. Итак, алгоритм 1 и алгоритм 2 имеют общие задачи, а именно являются алгоритмами формирования лексически связанных компонентов (ЛС-компонентов) [5]. Формирование ЛС-компонентов осуществляется на основе данных о скрытых лексических связях ИТБ, относительной частоте лексем и лексических сочетаний. Это означает, что модели, на которых мы будем производить тестирование, должны отражать эти свойства базиса в полной мере. Суть формирования ЛС-компонентов состоит в выделении «наиболее подходящих» «лексических центров» и их связей с другими лексемами. Соответственно, все лексемы ИТБ, согласно приведенным алгоритмам, делятся на три группы: - основные лексемы (представляют собой «лексические центры»); - связанные лексемы (отражают лексические сочетания основных лексем); - свободные элементы (лексемы, не попавшие ни под одну из категорий). В качестве «лексических центров» выступают лексемы, имеющие наибольшую абсолютную частоту и наиболее сильные лексические связи. Оба алгоритма состоят из трех общих фаз. 1. Упорядочение ИТБ. Производится согласно критерию _ 0.7 £ qk +1 Qi = qi e k ^ max. где qi - относительная частота. выражающая долю лексической единицы в тексте. подвергшемся статистической обработке при составлении частотного словаря. 0 < qt < 1; ц ik - относительная частота сочетания i-й и k-й лексем. отражающая силу ассоциативной связи. 2. Перебор числа основных лексем. 2.1. Поиск связанных лексем. 2.2. Вычисление функции качества ИТБ как совокупности ЛС-компонентов от числа основных лексем: _ 0.7 £ qk цік +1 Q(n) = £qie k ^ max. i 3. Определение оптимального количества основных лексем и структуры ЛС-компонентов путем максимизации функции качества Q(n). Исследуемые алгоритмы имеют различия в фазе 2.1: в случае алгоритма 1 поиск связанных лексем осуществляется непосредственно при переборе основных лексем с учетом данных об их лексических связях; в случае алгоритма 2 поиск осуществляется путем перебора связанных лексем j и нахождения наилучших сочетаний: _0.7 (£ qk V-ik +1)+qj ^ij Щ = q -e k _ Qi ^ max. Теперь. когда мы имеем общее представление об исследуемых алгоритмах. можно переходить к фазе тестирования. Итак. основными оцениваемыми характеристиками будут максимум функции качества как показатель эффективности алгоритма и количество итераций как показатель его ресурсоемкости. Для более полного анализа исследуемых алгоритмов введем дополнительные характеристики. такие как количество основных лексем. количество свободных элементов и время исполнения как независимый показатель ресурсоемкости (для различных алгоритмов одна итерация может содержать различное число простых операций). Настраиваемые параметры базиса: - объем базиса в терминах (1 000); - максимальное количество связей. приходящихся на одну лексему (10); - максимальное значение абсолютной частоты лексем (100/50 000); - максимальное значение частоты сочетаний лексем (20/50 000); - объем материала. по которому произведен частотный анализ (50 000); - коэффициент связанности лексем (1). Результаты тестирования приведены в таблице. Анализ данных тестирования показывает. что алгоритм 2 превзошел по значению максимума Q(n) алгоритм 1 на 0.000 000 004 402 925. что составляет и 10-6 %. Показатель качества увеличился незначительно. в то время как количество итераций и время исполнения алгоритма увеличились на несколько порядков. Тем не менее если рассматривать время исполнения алгоритма 2 независимо от аналогичного показателя алгоритма 1. то оно не так уж и велико. особенно если речь идет об этапе формирования ИТБ. Но это заключение является преждевременным. поскольку был проведен всего один эксперимент на одной модели. Проведение ряда подобных экспериментов на моделях ИТБ с различными параметрами даст достаточную эмпирическую базу для анализа исследуемых алгоритмов. чтобы результаты этого анализа можно было считать достоверными. Все это в полной мере относится не только к приведенным в примере алгоритмам. но и ко всем алгоритмам и структурам данных. которые включает в себя МЛ-технология.

Об авторах

М. В. Карасева

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева

Email: karaseva-margarita@rambler.ru
кандидат технических наук, доцент кафедры системного анализа и исследования операций Сибирского государственного аэрокосмического университета имени академика М. Ф. Решетнева. Окончила Красноярский государственный педагогический институт в 1990 г.; Сибирскую аэрокосмическую академию в 1999 г. Область научных интересов - мультилингвистическая технология обучения иностранным языкам, разработка частотных терминологических словарей.

А. В. Даценко

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева

Email: datsenkoan@mail.com
магистрант кафедры системного анализа и исследования операций Сибирского государственного аэрокосмического университета имени академика М. Ф. Решетнева. Область научных интересов - разработка бизнес-процессов в управлении

Список литературы

Ковалев И. В. Кустов Д. В. Слободин М. Ю. Интеллектуализация информационных технологий в корпоративных системах // Информ. ресурсы России. 2006. № 3 (91). С. 31-34.
Ковалев И. В. Карасева М. В. Англо-немецко-русский частотный словарь по системному анализу / Сиб. гос. аэрокосмич. ун-т. Красноярск. 2004.
Карасева М. В. Лесков В. О. Система формирования информационно-терминологического базиса мультилингвистической адаптивно-обучающей технологии // Вестник СибГАУ. 2007. Вып. 4 (17). С. 31-35.
Лесков В. О. Комплекс программного моделирования КПМ v.1.0 / ВНТИЦ. М. 2008. № 50200802242.

Дополнительные файлы

Доп. файлы

Действие

1. JATS XML

Скачать

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация