Reinforcement learning method for dynamic allocation of priorities in TSN

Vyacheslav V. Gerasimov; Герасимов Вячеслав Васильевич

doi:10.18469/ikt.2023.21.3.03

Reinforcement learning method for dynamic allocation of priorities in TSN

作者: Gerasimov V.V.¹
隶属关系:
1. Povolzhskiy State University of Telecommunications and Informatics
期: 卷 21, 编号 3 (2023)
页面: 16-20
栏目: Communication networks and multi-services
URL: https://journals.eco-vector.com/2073-3909/article/view/633719
DOI: https://doi.org/10.18469/ikt.2023.21.3.03
ID: 633719

如何引用文章

全文:

详细
全文:
作者简介
参考
补充文件
统计

详细

This article explores the possibility of using reinforcement learning to dynamically assign priorities in time-sensitive networks. The presented approach purposefully optimizes the process of managing time constraints in the network. Using reinforcement learning techniques, the system independently adjusts priorities depending on the requirements of network traffic. To achieve this goal, two configuration schemes based on TSN standards are proposed: centralized and distributed. Having considered these schemes, we will identify their limitations necessary in meeting requirements close to real time and ensuring strict quality of service guarantees, taking into account the restrictions applied to a time-sensitive environment. The work also reveals the need to use additional equipment, a centralized controller, to reallocate priorities.

关键词

dynamic priority, reinforcement learning, time-sensitive networks, deadline

全文:

Введение

Системы реального времени используют схемы расстановки приоритетов для удовлетворения различных классов трафика с определенными требованиями к качеству обслуживания. Однако в некоторых сценариях, когда передается множество пакетов с высоким приоритетом, пакеты с более низким приоритетом могут не уложиться в установленные сроки, что приведет к значительному снижению производительности планирования. Чрезмерно ранняя отправка потоков с высоким приоритетом не дает никаких дополнительных преимуществ, помимо соблюдения крайнего срока. Вместо этого более эффективно использовать это буферное время для трафика с более низким приоритетом и обеспечивать своевременную доставку передачи трафика с высоким приоритетом. Предлагается адаптивная схема динамического присвоения приоритетов, которая использует метод подкрепленного обучения – reinforcement learning для решения этой проблемы. Она позволяет адаптироваться к изменяющимся условиям сети и постоянно повышать производительность с течением времени. Кроме того, представляю и обсуждаю два потенциальных варианта конфигурации, которые могут быть использованы в рамках предлагаемой схемы.

Интернет вещей (IoT) и сети, чувствительные ко времени (TSN, Time-Sensitive Networking), т.е. протоколы связи в реальном времени, являются основой для будущих критически важных систем и соответствующих приложений, которые требуют ограниченной задержки, а также бесперебойной и безотказной связи. В этом контексте доставка трафика в течение определенного периода времени, называемого крайним сроком, имеет важное значение с потенциально серьезными последствиями, когда пакеты запаздывают. В некоторых критически важных приложениях, таких как бортовые сети, любое несоблюдение этих сроков может иметь катастрофические последствия. Для соответствующего трафика установлены жесткие сроки. Однако многие приложения работают с гибкими сроками, например для трафика с максимальными усилиями, что означает, что они могут допускать случайные коллизии, не испытывая существенного снижения производительности или выходных данных по качеству. Например, при потоковой передаче видео несколько запоздалых пакетов не оказывают существенного влияния на общее качество видео, т.е. пакет содержит достаточно данных для восстановления. В таких случаях система может быть более гибкой в соблюдении сроков, сосредоточившись на обеспечении наилучшего возможного результата.

Целевая группа института инженеров электротехники и электроники (IEEE, Institute of Electrical and Electronics Engineers) предложила стандарты TSN для обеспечения такого QoS (Quality of Service, «качество услуги») для каждого класса трафика в рамках одной и той же сети, описав различные механизмы обработки для различных требований к трафику. Он использует восемь приоритетов для разграничения классов трафика, понимая, какой трафик является более важным при жестких ограничениях в реальном времени. Устройства TSN обрабатывают трафик на коммутаторах на основе этих значений приоритета.

Хотя устройства определения приоритетов позволяют сосуществовать различным классам трафика, при отправке большого количества пакетов с высоким приоритетом это может привести к тому, что пакеты с более низким приоритетом не уложатся в установленные сроки. Несмотря на более низкий приоритет, эти пакеты все равно стоят в очереди. Это становится особенно проблемным, когда пакеты с высоким приоритетом достигают места назначения намного раньше, чем предполагалось. С точки зрения приложения, не имеет большого значения, получит ли оно пакет незадолго до истечения срока его действия или задолго до него. Таким образом, вместо того чтобы отправлять трафик с высоким приоритетом на ранней стадии, возможно, было бы лучше, чтобы все потоки в сети отправляли трафик с высоким и низким приоритетом вовремя. Чтобы решить эту проблему, предлагаю динамическую обработку приоритетов, которая переназначает приоритеты пакетов таким образом, чтобы пакеты с более низким приоритетом могли наверстать упущенное время и не приходили с опозданием. Это может увеличить использование сетевых ресурсов и уменьшить количество запоздалых пакетов.

Авторы [1] рассмотрели исследования, проведенные на установках IIC и LNI 4.0, которые показали, что по производительности технология OPC UA TSN опережает существующие протоколы промышленного Ethernet в 18 раз. Однако это дополнительная зависимость, а также повышающие требования к оборудованию. В работе [2] предложили использовать процесс нечеткой аналитической иерархии – Fuzzy Analytic Hierarchy Process (FAHP) для вычисления приоритета пакетов с учетом потребления энергии, времени выполнения и крайнего срока. Затем алгоритм динамической сортировки на основе heapsort выбирает оптимальное подмножество планирования из набора задач, используя новые приоритеты. Хотя результаты обещают снизить частоту пропусков сроков, это напрямую неприменимо к TSN с такими критериями проектирования, как потребление энергии.

В отличие от традиционных подходов, RL (Reinforcement Learning – метод обучения с подкреплением) предлагает ряд преимуществ для динамических сетей реального времени, поскольку позволяет адаптироваться и извлекать опыт из данных в изменяющихся средах. В динамических сетях реального времени RL может постоянно обновлять свои политики и принимать почти оптимальные решения на основе текущего состояния сети. Эта возможность автономной оптимизации позволяет RL адаптироваться к изменяющимся сетевым условиям и улучшает работу производительности сети с течением времени без вмешательства человека. Более того, возможности RL извлекать уроки из взаимодействий и эффективно представлять сложные взаимосвязи позиционируют его как в высшей степени подходящий подход для решения задач, возникающих в динамичных сетевых средах. Таким образом, RL также использовался в TSN с различными целями, такими как поиск пути маршрутизации [3] или настройка гарантированной задержки на передачу [4]. Несколько исследований применяли RL для решения задач динамического назначения приоритетов в контексте сред реального времени [5]. Основной целью этих исследований считается определение планируемого назначения приоритетов, которое может вставлять большее количество потоков в сеть. Вместо этого мы стремимся использовать ресурсы более эффективно, обслуживая по крайней мере такое же количество потоков, но обеспечивая лучшее качество обслуживания в отношении сроков. Эта проблема становится более очевидной в случае несбалансированных типов трафика, когда определенные классы могут оказаться перегруженными, в то время как для других типов трафика имеется доступная пропускная способность.

Динамическое распределение приоритетов с использованием метода обучения с подкреплением

Чтобы использовать преимущества обучения с подкреплением, мы представляем на рисунках 1 и 2 две потенциальные схемы конфигурации, которые могут быть применены к чувствительным ко времени сетям:

Централизованная схема. В централизованной схеме, как показано на рисунке 1, предполагается, что централизованный сетевой контроллер (CNC) имеет глобальное сетевое представление и собирает статистические данные, такие как время ожидания в очереди и использование очереди [9]. Агент RL развернут поверх CNC, так что он получает сетевые данные в режиме реального времени и может использовать алгоритмы RL для обучения и определения глобальных сетевых политик [10]. Поскольку система воспринимает сеть как единое целое, эта схема обеспечивает скоординированное принятие решений и оптимизацию для нескольких элементов сети. Таким образом, CNC может генерировать наилучшие политики для динамического назначения приоритетов на основе централизованно развернутого агента RL.

Рисунок 1. Централизованная схема динамического присвоения приоритетов

Рисунок 2. Распределенная схема динамического присвоения приоритетов на основе RL

Поскольку изначально нет политики или точной информации о сети, CNC может отслеживать текущие назначения и обучать агента RL. Другими словами, CNC может получать статистику перехода за переходом и объединять их для расчета окончательной оценки стоимости (Final Reward Value) за действие, например, текущего приоритета пакета. Здесь, учитывая требования к QoS пакетов, значение стоимости (Final Reward Value) также может принимать отрицательные значения, например штрафное значение. В течение этого времени обучения (исследования) RL может назначать пакетам случайные приоритеты или оставить их как есть. По истечении времени предварительной подготовки CNC может воспользоваться разработанной политикой RL для динамического присвоения нового приоритета пакетам во время выполнения.

Распределенная схема. В распределенной схеме, как показано на рисунке 2, агенты RL развертываются непосредственно на узлах сети, например на коммутаторах TSN [8]. Эти агенты локально отслеживают сеть, собирают данные в режиме реального времени и изучают политику принятия оптимальных решений на основе наблюдаемых условий. Каждый коммутатор стремится компенсировать потенциальную задержку в предыдущем переходе путем динамического переназначения приоритетов пакетов, определенных RL. Таким образом, у каждого коммутатора есть свой собственный агент RL для разработки политики. Возможно, также удастся извлечь выгоду из концепции обучения с подкреплением при передаче. Коммутаторы могут совместно помогать друг другу в разработке наилучшей политики назначения.

Однако без централизованного контроллера проблема усложняется. Теперь коммутатор должен оценить, основываясь на ограниченных знаниях, не пропустит ли пакет установленный срок и нуждается ли он в изменении приоритетов [6]. Для этого, возможно, потребуется знать топологию или путь, по которому будет маршрутизироваться пакет. Кроме того, пакет должен быть помечен как поздний пакет, который будет обработан иным образом при следующем переключении перехода. Таким образом, существует необходимость в протоколе связи и локальном или распределенном алгоритме между коммутаторами для обращения к этим точкам [7].

Заключение

В заключение предлагаемая адаптивная схема динамического назначения приоритетов, использующая метод обучения с подкреплением, представляет собой многообещающее решение для сетей TSN. Она может динамически перенастраивать приоритеты существующих пакетов и предлагает практический подход к сокращению пропущенных сроков передачи. Адаптивно корректируя приоритеты в зависимости от условий реального времени, IT-отдел может эффективно управлять распределением ресурсов и соответствовать строгим требованиям к качеству обслуживания.

作者简介

Vyacheslav Gerasimov

Povolzhskiy State University of Telecommunications and Informatics

编辑信件的主要联系方式.
Email: v.gerasimov@psuti.ru

Senior Teacher of Networks and Communication Systems Department

俄罗斯联邦, Samara

参考

Roslyakov A.V. et al. TSN Ethernet time-sensitive networking. Infocommunicionnye technologii, 2021, vol. 19, no. 2, pp. 187–201. doi: 10.18469/ikt.2021.19.2.07 (In Russ.)
Meng S., Zhu Q., Xia F. Improvement of the dynamic priority scheduling algorithm based on a heapsort. IEEE Access, 2019, vol. 7, pp. 503–510.
Bulb N.S., Fischer M. Reinforcement learning assisted routing for time-sensitive networks. IEEE GLOBECOM Global Communications Conference, 2022, pp. 3863–3868.
Grigorjew A. et al. ML-assisted latency assignments in time-sensitive networking. IFIP/IEEE International Symposium on Integrated Network Management. Bordeaux, 2021, pp. 116–124.
Lee H. et al. Panda: reinforcement learning-based priority assignment for multi-proce. IEEE Access, 2020, no. 8, pp. 185570–185583.
Roslyakov A.V. et al. Time-sensitive networking standardization. Standarty i kachestvo, 2021, no. 4 (1006), pp. 29–33. doi: 10.35400/0038-9692-2021-4-48-53 (In Russ.)
Roslyakov A.V. NETWORK 2030: Architecture, Technologies, Services. Moscow: ICTS «Kolos-s», 2022, 278 p. (In Russ.)
Atiq M.K. et al. When IEEE 802.11 and 5G meet time-sensitive networking. IEEE Open Journal of the Industrial Electronics Society, 2021, vol. 3, pp. 14–36. doi: 10.1109/OJIES.2021.3135524
Kogan S. Standardization of solutions and segmentation of the transport level of the 5G network. Pervaya milya, 2021, no. 2, pp. 40–47. doi: 10.22184/2070-8963.2021.94.2.40.47 (In Russ.)
Gutierrez M. et al. Self-configuration of IEEE 802.1 TSN networks. 22nd IEEE International Conference on Emerging Technologies and Factory Automation (ETFA). Limassol, 2017, pp. 1–8.

补充文件

附件文件

动作

1. JATS XML

下载

2. Figure 1. Centralized dynamic prioritization scheme

下载 (187KB)

索引源数据

3. Figure 2. Distributed RL-based dynamic prioritization scheme

下载 (172KB)

索引源数据

用户名
密码
记住我

忘记您的密码?	注册

用户名
密码
记住我

忘记您的密码?	注册