CLOUD COMPUTING TECHNOLOGIES IN INTEGRATED MANAGEMENT SYSTEMS


Cite item

Full Text

Abstract

The article presents the new scientific results of modern distributed computing Hadoop/MapReduce and parallel network paths technologies applicability in advanced integrated management systems. An integrated management system is a management system that has built-in software interfaces for interactionwiththeautomatedcommunicationsystemthatprovidesit.Adistinctivefeatureofintegrated management systems is the joint use of a common universal hardware and software platform, which is dynamically reconfigured to achieve the requirements of a particular system. Reconfiguration of the platform should provide high indicators of functional stability and efficiency of solving client requests; for this purpose, the existing large data processing technologies are analyzed and a option of their modification is proposed, taking into account the potential of parallel network paths. Practical implementation of the presented conceptual provisions will significantly reduce the information load on the network infrastructure and improve the efficiency of the management system.

Full Text

Введение Эволюционирование систем управления и обеспечивающих их функционирование сетей связи обусловило появление нового важного ком- понента - автоматизированной системы управле- ния связью (АСУС), при этом поддержка приня- тия решений, согласно общепринятым научным взглядам, должна быть прерогативой еще одного, не менее важного компонента - искусственного интеллекта. Последний компонент, базируясь на технологиях высокопроизводительных распреде- ленных (облачных) вычислений, также для своей работы использует сеть каналов связи и аппаратно- программные комплексы сбора, хранения и об- работки информации. Совокупность указанных компонентов, предназначенных для решения за- дач по достижению общей цели, представляет собой «интегрированную систему управления» (ИСУ), под которой понимается система управ- ления со встроенными программными интер- фейсами взаимодействия с автоматизированной системой связи. Отличительной особенностью ИСУ является совместное использование общей универсальной аппаратно-программной плат- формы, которая динамически реконфигурируется под требования той или иной системы. Дивергентный подход к построению перспективных интегрированных систем управления Определим набор концепций и стандарты, в соответствии с которыми осуществляется функционирование и развитие ИСУ на основе современных клиент-серверных технологий, как конвергентную парадигму. В противоположность конвергентному подходу в качестве ядра дивер- гентной парадигмы выступают идеи децентрали- зованного управления сетью, а также распреде- ленного хранения и обработки данных. Главное преимущество дивергентной ИСУ заключается в достижении максимальной потенциально воз- можной функциональной устойчивости за счет обеспечения наивысшего уровня самоорганиза- ции. Процесс самоорганизации, как правило, со- стоит из двух этапов: этапа инсталляции физиче- ской сети и этапа конфигурирования логической сети (см. рисунок 1). Пример, представленный на рисунке 1, де- монстрирует используемый при самоорганиза- ции принцип физической децентрализации ин- формационной сети ИСУ (иерархическая сеть, состоящая из одного верхнего звена управления (ВЗУ) и трех нижних звеньев управления (НЗУ)) с сохранением ее логической централизованной Рисунок 1. Принцип физической децентрализации информационной сети ИСУ с сохранением ее логической централизованной структуры структуры. Каналы связи в логической сети, так же как и звенья управления, виртуализируются. Виртуализация каналов осуществляется на осно- ве технологии VPN и метода многомерной марш- рутизации пакетов (ММП) [1]. В качестве типовых элементов физической информационной сети ИСУ - информационно- коммуникационных узлов (ИКУ) - могут при- меняться мобильные микроЦОД контейнерного или модульного исполнения, преимущественно с автономной системой энергоснабжения. Телекоммуникационная сеть, через которую осуществляют обмен данными ИКУ, также пред- лагается строить на децентрализованных прин- ципах, лежащих в основе самоорганизующихся мобильных сетей MANET. Протоколы маршру- тизации (коммутации) и управления трафиком такой сети должны обеспечивать ей высокую пропускную способность в сочетании с мини- мальным временем установления соединения и гарантированным качеством обслуживания по- ступающих в сеть абонентских запросов. Обобщенная структура физической информа- ционной сети ИСУ представлена на рисунке 2. В информационной сети ИСУ выделяют об- лачную и туманную компоненты по признаку территориальной масштабируемости сети. Об- лачная компонента реализует функции интер- сетевого контура управления, а туманная - функ- ции интрасетевого либо локального контуров управления. Аппаратно-программный состав ИКУ в целях унификации используемого оборудования пред- ставляет собой совокупность вычислительных модулей, устройств хранения, распределения и передачи информации, преимущественно состо- ящих из комплектующих массового производства (Commodities), и программного обеспечения с от- крытым кодом (Open Source). Рисунок 2. Обобщенная структура физической информационной сети ИСУ Рисунок 3. Блок-схема дивергентной парадигмы ИСУ Из имеющихся проектов с открытыми кода- ми наибольшее распространение имеют: Apache Ambari, Zettaset Orchestrator, Platform MapReduce, Rock+ (StackIQ Enterprise Data), In-Memory Data Grid (IMDG), Hadoop [5]. Обобщая вышеизложенное, основные требо- вания, предъявляемые к перспективной ИСУ, сво- дятся к следующей агрегированной блок-схеме, представленной на рисунке 3. Использование дивергентного подхода к по- строению перспективных ИСУ позволит существенно повысить функциональную устойчи- вость системы управления в целом и ее отдельных элементов в частности при обеспечении задан- ных требований к информационному обмену. Выбор аппаратно-программной платформы для перспективной интегрированной системы управления Наиболее подходящим программно-аппа- ратным ядром перспективной ИСУ в настоя- щее время представляется кластер Hadoop [2]. Hadoop - это свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работа- ющих на кластерах из сотен и тысяч узлов. Эта основополагающая технология хранения и обра- ботки больших данных (Big Data) [9; 10] является проектом верхнего уровня фонда Apache Software Foundation. Изначально проект разработан на Java в рам- ках вычислительной парадигмы MapReduce, когда приложение разделяется на большое ко- личество одинаковых элементарных заданий, которые выполняются на распределенных ком- пьютерах (узлах) кластера и сводятся в единый результат [6; 8]. Проект состоит из следующих основных че- тырех модулей. Hadoop Common - набор инфраструктурных программных библиотек и утилит, используемых в других решениях и родственных проектах, в частности для управления распределенными файлами и создания необходимой инфраструктуры. HDFS - распределенная файловая система, Hadoop Distributed File System [2; 3] - технология хранения файлов на различных серверах данных (узлах, DataNodes), адреса которых находятся на специальном сервере имен (мастере, NameNode). За счет дублирования (репликации) информа- ционных блоков HDFS обеспечивает надежное хранение файлов больших размеров, распреде- лённых между узлами вычислительного кластера поблочно. YARN - система планирования заданий и управления кластером (Yet Another Resource Negotiator), которую также называют MapReduce (MRv2) - набор системных программ (де- монов), обеспечивающих совместное использо- вание, масштабирование и надежность работы распределенных приложений. Фактически YARN является интерфейсом между аппаратными ре- сурсами кластера и приложениями, использу- ющих его мощности для вычислений и обработ- ки данных. Hadoop/MapReduce - платформа про- граммирования и выполнения распределенных MapReduce-вычислений, с использованием боль- шого количества компьютеров (узлов, nodes), об- разующих кластер. Сегодня вокруг Hadoop существует целая экосистема связанных проектов и технологий, которые используются для интеллектуального анализа больших данных (Data Mining), в том числе с помощью машинного обучения (Machine Learning) [6]. Технология Hadoop/MapReduce распростра- няется как небольшими компаниями, так и гран- дами индустрии наподобие IBM и EMC, принята практически всеми компаниями, занятыми в этой сфере, и обладает рядом достоинств, к числу ко- торых относятся [5]: низкая стоимость; быстродействие; масштабируемость по ресурсам хранения; масштабируемость по производительности; толерантность к типам данных; гибкость по отношению к языкам програм- мирования. Вместе с тем у Hadoop «в чистом виде» есть свои слабые места: сложность настройки; трудность в управлении; недостаточно высокая надежность; низкая безопасность; отсутствие возможности оптимизации обо- рудования. Нередко все проблемы работы с большими данными сводят к Hadoop/MapReduce, упуская из виду, что Hadoop/MapReduce и сопровождающие технологии Pig, Hive, HBase и др. создавались без расчета на актуальные сегодня требования: реальное время и потоковые данные. Конвергенция технологии параллельных сетевых трактов в модель MapReduce Согласно концепции Hadoop, обработка боль- ших данных осуществляется путем распределе- ния имеющегося объема информации по узлам облачного вычислительного кластера, который хранится в формате HDFS. С информационным массивом по запросам от пользователей выпол- няются определенные операции в рамках модели распараллеливания потоков данных MapReduce [3; 4], представленной на рисунке 4. Сущность MapReduce заключается в обра- ботке клиентских запросов распределенным вычислительным кластером, работающим под управлением Hadoop, путем разбиения гло- бальной области определения функциональной зависимости на более мелкие локальные под- множества, которые могут храниться на разных серверах центра хранения данных (ЦХД), объ- единенных общей HDFS, и обрабатываться по заранее установленным мапирующим правилам собственными вычислительными мощностями - мапирующими процессорами (CPU, GPU) центра обработки данных (ЦОД). Мапирующий процессор генерирует пары «ключ/значение» в виде информационных мас- Рисунок 4. Классическая модель MapReduce сивов, являющихся входными данными для реду- цирующих процессоров ЦОД, задача которых за- ключается в вычислении интегрального значения заданной пары «ключ/значение». Назовем дан- ную операцию сверткой ключевых значений на мапируемом множестве. В общем случае свертка так же, как и мапирование может осуществляться на разных узлах вычислительного кластера. Другими словами, в облачном кластере на уз- лах первичной обработки («мэппингах») генери- руются массивы частных решений и передаются по каналам связи на узлы вторичной обработки («ридьюсеры») для расчета общего решения пользовательской задачи. Объем циркулирующей в сети информации напрямую зависит от объема и количества частных решений, что может суще- ственно перегружать ее. В свою очередь, произ- водительность кластера тем выше, чем больше параллельно работающих узлов, объединенных топологией «точка-многоточка» на базе высоко- скоростных каналов связи. На практике в больших сетях невозможно сконфигурировать указанную выше оптималь- ную физическую топологию. Следовательно, не- обходимо искать квазиоптимальные схемы парал- лельных вычислений, например параллельный сетевой тракт (ПСТ) [1]. Очевидно, что мерность ПСТ влияет на повышение производительности кластера, а ранг маршрутов - на степень свертки объемов частных решений (уменьшает нагрузку на сеть). Модифицированная модель MapReduce, ис- пользующая параллельные сетевые тракты и представленная на рисунке 5, предполагает уточ- нение классической модели путем реализации параллельно-последовательной схемы обработки пользовательских запросов с автоматизирован- ного рабочего места (АРМ) должностного лица (ДЛ), которая позволит существенно снизить объемы циркулирующих в сети кластера мапиру- емых данных при обеспечении заданной вычис- лительной мощности. Снижение информационной нагрузки на сеть кластера достигается введением комбинирован- ных (мапирующе-редуцирующих) узлов, оп- тимально распределенных в ПСТ диспетчером параллельных вычислений (ДПВ) и осуществля- ющих последовательную свертку мапируемых данных. Заключение В настоящее время отсутствуют научно обо- снованные технические решения по динамиче- ской реконфигурации телекоммуникационной платформы под оптимальную для облачного вы- сокопроизводительного вычислительного класте- ра топологию. В качестве варианта предлагается использовать технологию программно-определя- Рисунок 5. Модифицированная модель MapReduce, использующая параллельные сетевые тракты емых сетей (SDN) совместно с виртуализацией сетевых функций (NFV) [7] и ММП/ПСТ [1] для реализации схемы MapReduce [8] в зависимости от типа пользовательской задачи и загруженно- сти динамически реконфигурируемой телеком- муникационной платформы, чему и посвящены дальнейшие исследования.
×

About the authors

S. E Orekhov

Military Academy of Strategic Rocket Troops after Peter the Great

Email: majorose@mail.ru
Serpukhov, Russian Federation

D. P Artamonov

Military Academy of Strategic Rocket Troops after Peter the Great

Email: dmitrii-art@mail.ru
Serpukhov, Russian Federation

S. A Ivanov

Military Academy of Strategic Rocket Troops after Peter the Great

Email: 1973-154@mail.ru
Serpukhov, Russian Federation

References

  1. Орехов С.Е., Сысоев И.В. Оптимизация распределения ТСР нагрузки по параллельному сетевому тракту сети связи с многомерной маршрутизацией пакетов // Известия Института инженерной физики. 2014. Т. 1, № 31. С. 57-59
  2. Holmes A. Hadoop in Practice. New York: Manning Publications Co., 2012. 537 p
  3. Big data. Тематическое приложение к газете «Вестник Ростелекома» // Ростелеком PRO. 2016. 63 c
  4. Scarpino M. OpenCL in Action. How to Accelerate Graphics and Computation. New York: Manning Publications Co., 2012. 434 p
  5. Черняк Л. Платформы для Больших Данных. ФОРС // Открытые системы. 2012. № 07. URL: http://www.osp.ru/os/2012/07/13017635 (дата обращения: 01.02.2020)
  6. Вичугова А. Hadoop. 2020 // Специализированный авторизованный Учебный центр для корпоративного обучения по Большим Данным. URL: https://www.bigdataschool.ru/wiki/hadoop (дата обращения: 01.02.2020)
  7. Nadeau T.D., Gray K. SDN: Software Defined Networks. Sebastopol: O’Reilly, 2013. 352 p
  8. Chalkiopoulos A. Programming MapReduce with Scalding Community Experience Disitilled. Birmingham: Packt Publishing Ltd, 2014. 148 p
  9. Big-Data Analytics and Cloud Computing: Theory, Algorithms and Applications / M. Trovati [et al.]. Berlin: Springer, 2016. 169 p
  10. Kumar V.N., Shindgikar P. Modern Big Data Processing with Hadoop: Expert Techniques for Architecting End-to-End Big Data Solutions to Get Valuable Insights. Birmingham: Packt Publishing Ltd, 2018. 394 p

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2020 Orekhov S.E., Artamonov D.P., Ivanov S.A.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies