ТЕХНОЛОГИИ ОБЛАЧНЫХ ВЫЧИСЛЕНИЙ В ИНТЕГРИРОВАННЫХ СИСТЕМАХ УПРАВЛЕНИЯ


Цитировать

Полный текст

Аннотация

В статье представлены результаты исследований по обоснованию применимости современных технологий распределенных вычислений Hadoop/MapReduce и параллельных сетевых трактов в перспективных интегрированных системах управления. Под интегрированной системой управления понимается такая система управления, в которую встроены программные интерфейсы взаимодействия с обеспечивающей ее автоматизированной системой связи. Отличительной особенностью интегрированных систем управления является совместное использование общей универсальной аппаратно-программной платформы, которая динамически реконфигурируется под требования той или иной системы. Реконфигурация платформы должна обеспечивать высокие показатели функциональной устойчивости и эффективности решения клиентских запросов, для чего проанализированы существующие технологии обработки больших данных и предложен вариант их модификации, учитывающий потенциальные возможности параллельных сетевых трактов. Практическая реализация представленных концептуальных положений позволит существенно снизить информационную нагрузку на сетевую инфраструктуру и повысить эффективность функционирования системы управления.

Полный текст

Введение Эволюционирование систем управления и обеспечивающих их функционирование сетей связи обусловило появление нового важного ком- понента - автоматизированной системы управле- ния связью (АСУС), при этом поддержка приня- тия решений, согласно общепринятым научным взглядам, должна быть прерогативой еще одного, не менее важного компонента - искусственного интеллекта. Последний компонент, базируясь на технологиях высокопроизводительных распреде- ленных (облачных) вычислений, также для своей работы использует сеть каналов связи и аппаратно- программные комплексы сбора, хранения и об- работки информации. Совокупность указанных компонентов, предназначенных для решения за- дач по достижению общей цели, представляет собой «интегрированную систему управления» (ИСУ), под которой понимается система управ- ления со встроенными программными интер- фейсами взаимодействия с автоматизированной системой связи. Отличительной особенностью ИСУ является совместное использование общей универсальной аппаратно-программной плат- формы, которая динамически реконфигурируется под требования той или иной системы. Дивергентный подход к построению перспективных интегрированных систем управления Определим набор концепций и стандарты, в соответствии с которыми осуществляется функционирование и развитие ИСУ на основе современных клиент-серверных технологий, как конвергентную парадигму. В противоположность конвергентному подходу в качестве ядра дивер- гентной парадигмы выступают идеи децентрали- зованного управления сетью, а также распреде- ленного хранения и обработки данных. Главное преимущество дивергентной ИСУ заключается в достижении максимальной потенциально воз- можной функциональной устойчивости за счет обеспечения наивысшего уровня самоорганиза- ции. Процесс самоорганизации, как правило, со- стоит из двух этапов: этапа инсталляции физиче- ской сети и этапа конфигурирования логической сети (см. рисунок 1). Пример, представленный на рисунке 1, де- монстрирует используемый при самоорганиза- ции принцип физической децентрализации ин- формационной сети ИСУ (иерархическая сеть, состоящая из одного верхнего звена управления (ВЗУ) и трех нижних звеньев управления (НЗУ)) с сохранением ее логической централизованной Рисунок 1. Принцип физической децентрализации информационной сети ИСУ с сохранением ее логической централизованной структуры структуры. Каналы связи в логической сети, так же как и звенья управления, виртуализируются. Виртуализация каналов осуществляется на осно- ве технологии VPN и метода многомерной марш- рутизации пакетов (ММП) [1]. В качестве типовых элементов физической информационной сети ИСУ - информационно- коммуникационных узлов (ИКУ) - могут при- меняться мобильные микроЦОД контейнерного или модульного исполнения, преимущественно с автономной системой энергоснабжения. Телекоммуникационная сеть, через которую осуществляют обмен данными ИКУ, также пред- лагается строить на децентрализованных прин- ципах, лежащих в основе самоорганизующихся мобильных сетей MANET. Протоколы маршру- тизации (коммутации) и управления трафиком такой сети должны обеспечивать ей высокую пропускную способность в сочетании с мини- мальным временем установления соединения и гарантированным качеством обслуживания по- ступающих в сеть абонентских запросов. Обобщенная структура физической информа- ционной сети ИСУ представлена на рисунке 2. В информационной сети ИСУ выделяют об- лачную и туманную компоненты по признаку территориальной масштабируемости сети. Об- лачная компонента реализует функции интер- сетевого контура управления, а туманная - функ- ции интрасетевого либо локального контуров управления. Аппаратно-программный состав ИКУ в целях унификации используемого оборудования пред- ставляет собой совокупность вычислительных модулей, устройств хранения, распределения и передачи информации, преимущественно состо- ящих из комплектующих массового производства (Commodities), и программного обеспечения с от- крытым кодом (Open Source). Рисунок 2. Обобщенная структура физической информационной сети ИСУ Рисунок 3. Блок-схема дивергентной парадигмы ИСУ Из имеющихся проектов с открытыми кода- ми наибольшее распространение имеют: Apache Ambari, Zettaset Orchestrator, Platform MapReduce, Rock+ (StackIQ Enterprise Data), In-Memory Data Grid (IMDG), Hadoop [5]. Обобщая вышеизложенное, основные требо- вания, предъявляемые к перспективной ИСУ, сво- дятся к следующей агрегированной блок-схеме, представленной на рисунке 3. Использование дивергентного подхода к по- строению перспективных ИСУ позволит существенно повысить функциональную устойчи- вость системы управления в целом и ее отдельных элементов в частности при обеспечении задан- ных требований к информационному обмену. Выбор аппаратно-программной платформы для перспективной интегрированной системы управления Наиболее подходящим программно-аппа- ратным ядром перспективной ИСУ в настоя- щее время представляется кластер Hadoop [2]. Hadoop - это свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работа- ющих на кластерах из сотен и тысяч узлов. Эта основополагающая технология хранения и обра- ботки больших данных (Big Data) [9; 10] является проектом верхнего уровня фонда Apache Software Foundation. Изначально проект разработан на Java в рам- ках вычислительной парадигмы MapReduce, когда приложение разделяется на большое ко- личество одинаковых элементарных заданий, которые выполняются на распределенных ком- пьютерах (узлах) кластера и сводятся в единый результат [6; 8]. Проект состоит из следующих основных че- тырех модулей. Hadoop Common - набор инфраструктурных программных библиотек и утилит, используемых в других решениях и родственных проектах, в частности для управления распределенными файлами и создания необходимой инфраструктуры. HDFS - распределенная файловая система, Hadoop Distributed File System [2; 3] - технология хранения файлов на различных серверах данных (узлах, DataNodes), адреса которых находятся на специальном сервере имен (мастере, NameNode). За счет дублирования (репликации) информа- ционных блоков HDFS обеспечивает надежное хранение файлов больших размеров, распреде- лённых между узлами вычислительного кластера поблочно. YARN - система планирования заданий и управления кластером (Yet Another Resource Negotiator), которую также называют MapReduce (MRv2) - набор системных программ (де- монов), обеспечивающих совместное использо- вание, масштабирование и надежность работы распределенных приложений. Фактически YARN является интерфейсом между аппаратными ре- сурсами кластера и приложениями, использу- ющих его мощности для вычислений и обработ- ки данных. Hadoop/MapReduce - платформа про- граммирования и выполнения распределенных MapReduce-вычислений, с использованием боль- шого количества компьютеров (узлов, nodes), об- разующих кластер. Сегодня вокруг Hadoop существует целая экосистема связанных проектов и технологий, которые используются для интеллектуального анализа больших данных (Data Mining), в том числе с помощью машинного обучения (Machine Learning) [6]. Технология Hadoop/MapReduce распростра- няется как небольшими компаниями, так и гран- дами индустрии наподобие IBM и EMC, принята практически всеми компаниями, занятыми в этой сфере, и обладает рядом достоинств, к числу ко- торых относятся [5]: низкая стоимость; быстродействие; масштабируемость по ресурсам хранения; масштабируемость по производительности; толерантность к типам данных; гибкость по отношению к языкам програм- мирования. Вместе с тем у Hadoop «в чистом виде» есть свои слабые места: сложность настройки; трудность в управлении; недостаточно высокая надежность; низкая безопасность; отсутствие возможности оптимизации обо- рудования. Нередко все проблемы работы с большими данными сводят к Hadoop/MapReduce, упуская из виду, что Hadoop/MapReduce и сопровождающие технологии Pig, Hive, HBase и др. создавались без расчета на актуальные сегодня требования: реальное время и потоковые данные. Конвергенция технологии параллельных сетевых трактов в модель MapReduce Согласно концепции Hadoop, обработка боль- ших данных осуществляется путем распределе- ния имеющегося объема информации по узлам облачного вычислительного кластера, который хранится в формате HDFS. С информационным массивом по запросам от пользователей выпол- няются определенные операции в рамках модели распараллеливания потоков данных MapReduce [3; 4], представленной на рисунке 4. Сущность MapReduce заключается в обра- ботке клиентских запросов распределенным вычислительным кластером, работающим под управлением Hadoop, путем разбиения гло- бальной области определения функциональной зависимости на более мелкие локальные под- множества, которые могут храниться на разных серверах центра хранения данных (ЦХД), объ- единенных общей HDFS, и обрабатываться по заранее установленным мапирующим правилам собственными вычислительными мощностями - мапирующими процессорами (CPU, GPU) центра обработки данных (ЦОД). Мапирующий процессор генерирует пары «ключ/значение» в виде информационных мас- Рисунок 4. Классическая модель MapReduce сивов, являющихся входными данными для реду- цирующих процессоров ЦОД, задача которых за- ключается в вычислении интегрального значения заданной пары «ключ/значение». Назовем дан- ную операцию сверткой ключевых значений на мапируемом множестве. В общем случае свертка так же, как и мапирование может осуществляться на разных узлах вычислительного кластера. Другими словами, в облачном кластере на уз- лах первичной обработки («мэппингах») генери- руются массивы частных решений и передаются по каналам связи на узлы вторичной обработки («ридьюсеры») для расчета общего решения пользовательской задачи. Объем циркулирующей в сети информации напрямую зависит от объема и количества частных решений, что может суще- ственно перегружать ее. В свою очередь, произ- водительность кластера тем выше, чем больше параллельно работающих узлов, объединенных топологией «точка-многоточка» на базе высоко- скоростных каналов связи. На практике в больших сетях невозможно сконфигурировать указанную выше оптималь- ную физическую топологию. Следовательно, не- обходимо искать квазиоптимальные схемы парал- лельных вычислений, например параллельный сетевой тракт (ПСТ) [1]. Очевидно, что мерность ПСТ влияет на повышение производительности кластера, а ранг маршрутов - на степень свертки объемов частных решений (уменьшает нагрузку на сеть). Модифицированная модель MapReduce, ис- пользующая параллельные сетевые тракты и представленная на рисунке 5, предполагает уточ- нение классической модели путем реализации параллельно-последовательной схемы обработки пользовательских запросов с автоматизирован- ного рабочего места (АРМ) должностного лица (ДЛ), которая позволит существенно снизить объемы циркулирующих в сети кластера мапиру- емых данных при обеспечении заданной вычис- лительной мощности. Снижение информационной нагрузки на сеть кластера достигается введением комбинирован- ных (мапирующе-редуцирующих) узлов, оп- тимально распределенных в ПСТ диспетчером параллельных вычислений (ДПВ) и осуществля- ющих последовательную свертку мапируемых данных. Заключение В настоящее время отсутствуют научно обо- снованные технические решения по динамиче- ской реконфигурации телекоммуникационной платформы под оптимальную для облачного вы- сокопроизводительного вычислительного класте- ра топологию. В качестве варианта предлагается использовать технологию программно-определя- Рисунок 5. Модифицированная модель MapReduce, использующая параллельные сетевые тракты емых сетей (SDN) совместно с виртуализацией сетевых функций (NFV) [7] и ММП/ПСТ [1] для реализации схемы MapReduce [8] в зависимости от типа пользовательской задачи и загруженно- сти динамически реконфигурируемой телеком- муникационной платформы, чему и посвящены дальнейшие исследования.
×

Об авторах

С. Е Орехов

Филиал Военной академии РВСН им. Петра Великого

Email: majorose@mail.ru
Серпухов, РФ

Д. П Артамонов

Филиал Военной академии РВСН им. Петра Великого

Email: dmitrii-art@mail.ru
Серпухов, РФ

С. А Иванов

Филиал Военной академии РВСН им. Петра Великого

Email: 1973-154@mail.ru
Серпухов, РФ

Список литературы

  1. Орехов С.Е., Сысоев И.В. Оптимизация распределения ТСР нагрузки по параллельному сетевому тракту сети связи с многомерной маршрутизацией пакетов // Известия Института инженерной физики. 2014. Т. 1, № 31. С. 57-59
  2. Holmes A. Hadoop in Practice. New York: Manning Publications Co., 2012. 537 p
  3. Big data. Тематическое приложение к газете «Вестник Ростелекома» // Ростелеком PRO. 2016. 63 c
  4. Scarpino M. OpenCL in Action. How to Accelerate Graphics and Computation. New York: Manning Publications Co., 2012. 434 p
  5. Черняк Л. Платформы для Больших Данных. ФОРС // Открытые системы. 2012. № 07. URL: http://www.osp.ru/os/2012/07/13017635 (дата обращения: 01.02.2020)
  6. Вичугова А. Hadoop. 2020 // Специализированный авторизованный Учебный центр для корпоративного обучения по Большим Данным. URL: https://www.bigdataschool.ru/wiki/hadoop (дата обращения: 01.02.2020)
  7. Nadeau T.D., Gray K. SDN: Software Defined Networks. Sebastopol: O’Reilly, 2013. 352 p
  8. Chalkiopoulos A. Programming MapReduce with Scalding Community Experience Disitilled. Birmingham: Packt Publishing Ltd, 2014. 148 p
  9. Big-Data Analytics and Cloud Computing: Theory, Algorithms and Applications / M. Trovati [et al.]. Berlin: Springer, 2016. 169 p
  10. Kumar V.N., Shindgikar P. Modern Big Data Processing with Hadoop: Expert Techniques for Architecting End-to-End Big Data Solutions to Get Valuable Insights. Birmingham: Packt Publishing Ltd, 2018. 394 p

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Орехов С.Е., Артамонов Д.П., Иванов С.А., 2020

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах