Метод обучения с подкреплением для динамического распределения приоритетов в TSN

Обложка

Цитировать

Полный текст

Аннотация

В этой статье исследуется возможность использования метода обучения с подкреплением для динамического назначения приоритетов в сетях, чувствительных ко времени. Представленный подход целенаправленно оптимизирует процесс управления временными ограничениями в сети. Используя техники обучения с подкреплением, система самостоятельно корректирует приоритеты в зависимости от требований сетевого трафика. Для достижения этой цели предложены две схемы конфигурации, основанные на стандартах TSN (Time-Sensitive Networking): централизованная и распределенная. Рассмотрев эти схемы, выявим их ограничения, необходимые в удовлетворении требований, близких к реальному времени, и обеспечении строгих гарантий качества обслуживания, учитывая ограничения, применяемые к чувствительной ко времени среде. Также в работе выявляется необходимость использования дополнительного оборудования, централизованного контроллера, для перераспределения приоритетов.

Полный текст

Введение

Системы реального времени используют схемы расстановки приоритетов для удовлетворения различных классов трафика с определенными требованиями к качеству обслуживания. Однако в некоторых сценариях, когда передается множество пакетов с высоким приоритетом, пакеты с более низким приоритетом могут не уложиться в установленные сроки, что приведет к значительному снижению производительности планирования. Чрезмерно ранняя отправка потоков с высоким приоритетом не дает никаких дополнительных преимуществ, помимо соблюдения крайнего срока. Вместо этого более эффективно использовать это буферное время для трафика с более низким приоритетом и обеспечивать своевременную доставку передачи трафика с высоким приоритетом. Предлагается адаптивная схема динамического присвоения приоритетов, которая использует метод подкрепленного обучения – reinforcement learning для решения этой проблемы. Она позволяет адаптироваться к изменяющимся условиям сети и постоянно повышать производительность с течением времени. Кроме того, представляю и обсуждаю два потенциальных варианта конфигурации, которые могут быть использованы в рамках предлагаемой схемы.

Интернет вещей (IoT) и сети, чувствительные ко времени (TSN, Time-Sensitive Networking), т.е. протоколы связи в реальном времени, являются основой для будущих критически важных систем и соответствующих приложений, которые требуют ограниченной задержки, а также бесперебойной и безотказной связи. В этом контексте доставка трафика в течение определенного периода времени, называемого крайним сроком, имеет важное значение с потенциально серьезными последствиями, когда пакеты запаздывают. В некоторых критически важных приложениях, таких как бортовые сети, любое несоблюдение этих сроков может иметь катастрофические последствия. Для соответствующего трафика установлены жесткие сроки. Однако многие приложения работают с гибкими сроками, например для трафика с максимальными усилиями, что означает, что они могут допускать случайные коллизии, не испытывая существенного снижения производительности или выходных данных по качеству. Например, при потоковой передаче видео несколько запоздалых пакетов не оказывают существенного влияния на общее качество видео, т.е. пакет содержит достаточно данных для восстановления. В таких случаях система может быть более гибкой в соблюдении сроков, сосредоточившись на обеспечении наилучшего возможного результата.

Целевая группа института инженеров электротехники и электроники (IEEE, Institute of Electrical and Electronics Engineers) предложила стандарты TSN для обеспечения такого QoS (Quality of Service, «качество услуги») для каждого класса трафика в рамках одной и той же сети, описав различные механизмы обработки для различных требований к трафику. Он использует восемь приоритетов для разграничения классов трафика, понимая, какой трафик является более важным при жестких ограничениях в реальном времени. Устройства TSN обрабатывают трафик на коммутаторах на основе этих значений приоритета.

Хотя устройства определения приоритетов позволяют сосуществовать различным классам трафика, при отправке большого количества пакетов с высоким приоритетом это может привести к тому, что пакеты с более низким приоритетом не уложатся в установленные сроки. Несмотря на более низкий приоритет, эти пакеты все равно стоят в очереди. Это становится особенно проблемным, когда пакеты с высоким приоритетом достигают места назначения намного раньше, чем предполагалось. С точки зрения приложения, не имеет большого значения, получит ли оно пакет незадолго до истечения срока его действия или задолго до него. Таким образом, вместо того чтобы отправлять трафик с высоким приоритетом на ранней стадии, возможно, было бы лучше, чтобы все потоки в сети отправляли трафик с высоким и низким приоритетом вовремя. Чтобы решить эту проблему, предлагаю динамическую обработку приоритетов, которая переназначает приоритеты пакетов таким образом, чтобы пакеты с более низким приоритетом могли наверстать упущенное время и не приходили с опозданием. Это может увеличить использование сетевых ресурсов и уменьшить количество запоздалых пакетов.

Авторы [1] рассмотрели исследования, проведенные на установках IIC и LNI 4.0, которые показали, что по производительности технология OPC UA TSN опережает существующие протоколы промышленного Ethernet в 18 раз. Однако это дополнительная зависимость, а также повышающие требования к оборудованию. В работе [2] предложили использовать процесс нечеткой аналитической иерархии – Fuzzy Analytic Hierarchy Process (FAHP) для вычисления приоритета пакетов с учетом потребления энергии, времени выполнения и крайнего срока. Затем алгоритм динамической сортировки на основе heapsort выбирает оптимальное подмножество планирования из набора задач, используя новые приоритеты. Хотя результаты обещают снизить частоту пропусков сроков, это напрямую неприменимо к TSN с такими критериями проектирования, как потребление энергии.

В отличие от традиционных подходов, RL (Reinforcement Learning – метод обучения с подкреплением) предлагает ряд преимуществ для динамических сетей реального времени, поскольку позволяет адаптироваться и извлекать опыт из данных в изменяющихся средах. В динамических сетях реального времени RL может постоянно обновлять свои политики и принимать почти оптимальные решения на основе текущего состояния сети. Эта возможность автономной оптимизации позволяет RL адаптироваться к изменяющимся сетевым условиям и улучшает работу производительности сети с течением времени без вмешательства человека. Более того, возможности RL извлекать уроки из взаимодействий и эффективно представлять сложные взаимосвязи позиционируют его как в высшей степени подходящий подход для решения задач, возникающих в динамичных сетевых средах. Таким образом, RL также использовался в TSN с различными целями, такими как поиск пути маршрутизации [3] или настройка гарантированной задержки на передачу [4]. Несколько исследований применяли RL для решения задач динамического назначения приоритетов в контексте сред реального времени [5]. Основной целью этих исследований считается определение планируемого назначения приоритетов, которое может вставлять большее количество потоков в сеть. Вместо этого мы стремимся использовать ресурсы более эффективно, обслуживая по крайней мере такое же количество потоков, но обеспечивая лучшее качество обслуживания в отношении сроков. Эта проблема становится более очевидной в случае несбалансированных типов трафика, когда определенные классы могут оказаться перегруженными, в то время как для других типов трафика имеется доступная пропускная способность.

Динамическое распределение приоритетов с использованием метода обучения с подкреплением

Чтобы использовать преимущества обучения с подкреплением, мы представляем на рисунках 1 и 2 две потенциальные схемы конфигурации, которые могут быть применены к чувствительным ко времени сетям:

  1. Централизованная схема. В централизованной схеме, как показано на рисунке 1, предполагается, что централизованный сетевой контроллер (CNC) имеет глобальное сетевое представление и собирает статистические данные, такие как время ожидания в очереди и использование очереди [9]. Агент RL развернут поверх CNC, так что он получает сетевые данные в режиме реального времени и может использовать алгоритмы RL для обучения и определения глобальных сетевых политик [10]. Поскольку система воспринимает сеть как единое целое, эта схема обеспечивает скоординированное принятие решений и оптимизацию для нескольких элементов сети. Таким образом, CNC может генерировать наилучшие политики для динамического назначения приоритетов на основе централизованно развернутого агента RL.

 

Рисунок 1. Централизованная схема динамического присвоения приоритетов

 

Рисунок 2. Распределенная схема динамического присвоения приоритетов на основе RL

 

Поскольку изначально нет политики или точной информации о сети, CNC может отслеживать текущие назначения и обучать агента RL. Другими словами, CNC может получать статистику перехода за переходом и объединять их для расчета окончательной оценки стоимости (Final Reward Value) за действие, например, текущего приоритета пакета. Здесь, учитывая требования к QoS пакетов, значение стоимости (Final Reward Value) также может принимать отрицательные значения, например штрафное значение. В течение этого времени обучения (исследования) RL может назначать пакетам случайные приоритеты или оставить их как есть. По истечении времени предварительной подготовки CNC может воспользоваться разработанной политикой RL для динамического присвоения нового приоритета пакетам во время выполнения.

  1. Распределенная схема. В распределенной схеме, как показано на рисунке 2, агенты RL развертываются непосредственно на узлах сети, например на коммутаторах TSN [8]. Эти агенты локально отслеживают сеть, собирают данные в режиме реального времени и изучают политику принятия оптимальных решений на основе наблюдаемых условий. Каждый коммутатор стремится компенсировать потенциальную задержку в предыдущем переходе путем динамического переназначения приоритетов пакетов, определенных RL. Таким образом, у каждого коммутатора есть свой собственный агент RL для разработки политики. Возможно, также удастся извлечь выгоду из концепции обучения с подкреплением при передаче. Коммутаторы могут совместно помогать друг другу в разработке наилучшей политики назначения.

Однако без централизованного контроллера проблема усложняется. Теперь коммутатор должен оценить, основываясь на ограниченных знаниях, не пропустит ли пакет установленный срок и нуждается ли он в изменении приоритетов [6]. Для этого, возможно, потребуется знать топологию или путь, по которому будет маршрутизироваться пакет. Кроме того, пакет должен быть помечен как поздний пакет, который будет обработан иным образом при следующем переключении перехода. Таким образом, существует необходимость в протоколе связи и локальном или распределенном алгоритме между коммутаторами для обращения к этим точкам [7].

Заключение

В заключение предлагаемая адаптивная схема динамического назначения приоритетов, использующая метод обучения с подкреплением, представляет собой многообещающее решение для сетей TSN. Она может динамически перенастраивать приоритеты существующих пакетов и предлагает практический подход к сокращению пропущенных сроков передачи. Адаптивно корректируя приоритеты в зависимости от условий реального времени, IT-отдел может эффективно управлять распределением ресурсов и соответствовать строгим требованиям к качеству обслуживания.

×

Об авторах

Вячеслав Васильевич Герасимов

Поволжский государственный университет телекоммуникаций и информатики

Автор, ответственный за переписку.
Email: v.gerasimov@psuti.ru

ст. преподаватель кафедры сетей и систем связи

Россия, Самара

Список литературы

  1. TSN – сети Еthernet, чувствительные ко времени / А.В. Росляков [и др.] // Инфокоммуникационные технологии. 2021. Т. 19, № 2. С. 187–201. doi: 10.18469/ikt.2021.19.2.07
  2. Meng S., Zhu Q., Xia F. Improvement of the dynamic priority scheduling algorithm based on a heapsort // IEEE Access. 2019. Vol. 7. P. 503–510.
  3. Bulb N.S., Fischer M. Reinforcement learning assisted routing for time-sensitive networks // IEEE GLOBECOM Global Communications Conference. 2022. P. 3863–3868.
  4. ML-assisted latency assignments in time-sensitive networking / A. Grigorjew [et al.] // IFIP/IEEE International Symposium on Integrated Network Management. Bordeaux, 2021. P. 116–124.
  5. Panda: reinforcement learning-based priority assignment for multi-proce / H. Lee [et al.] // IEEE Access. 2020. No. 8. P. 185570–185583.
  6. Стандартизация синхронизируемых по времени сетей TSN / А.В. Росляков [и др.] // Стандарты и качество. 2021. № 4 (1006). С. 29–33. doi: 10.35400/0038-9692-2021-4-48-53
  7. Росляков А.В. СЕТЬ 2030: архитектура, технологии, услуги. М.: ИКЦ «Колос-с», 2022. 278 с.
  8. When IEEE 802.11 and 5G meet time-sensitive networking / M.K. Atiq [et al.] // IEEE Open Journal of the Industrial Electronics Society. 2021. Vol. 3. Р. 14–36. doi: 10.1109/OJIES.2021.3135524
  9. Коган С. Стандартизация решений и сегментирование транспортного уровня сети 5G // Первая миля. 2021. № 2. C. 40–47. doi: 10.22184/2070-8963.2021.94.2.40.47
  10. Self-configuration of IEEE 802.1 TSN networks / M. Gutierrez [et al.] // 22nd IEEE International Conference on Emerging Technologies and Factory Automation (ETFA). Limassol, 2017. P. 1–8.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рисунок 1. Централизованная схема динамического присвоения приоритетов

Скачать (187KB)
3. Рисунок 2. Распределенная схема динамического присвоения приоритетов на основе RL

Скачать (172KB)

© Герасимов В.В., 2024

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах