Actor-critic method in mobile cyber-physical systems control problem


Cite item

Abstract

A synthesis procedure of neural network agent that is resistant to stochastic environmental changes that implement the control in the problem of prosecution for mobile cyber-physical system as Dubins Car is considered. Synthesis of neural network agent asked to produce by training “Actor-Critic” neural network. A computer model of training and testing agent for various parameters Dubins car and environment is developed. A comparison between the suggested method and the greedy algorithm for the various cases of victims’ parameters as well as for the cases with different Dubins Car parameters is made. The visualization of outputs of the Actor neural network that showed how a responsive neural network on the environment is performed.

Full Text

Искусственные нейронные сети (ИНС) за последнее время показывают выдающуюся эффективность в различных сферах науки и техники. Ученые разрабатывают все новые методы для улучшения качества и ускорения обучения ИНС. Конечно, такая революция в области ИНС не могла пройти мимо такого большого раздела, как обучение с подкреплением (reinforcement learning - RL). Рис. 1. Диаграмма работы АК-метода Использование методов RL в задачах управления мобильными кибернетическими системами дает существенное преимущество по сравнению с эвристическими методами. При изменении свойств среды достаточно будет обучить агента заново или переобучить предварительно обученного агента для приспособления к новым условиям. В эвристических же методах изменение среды может фатально повлиять на качество работы мобильного агента. Метод «Актор-Критик» (АК) [1] является одним из самых распространенных методов в RL. Главная идея метода представляет собой структурную независимость блока, отвечающего за выработку управляющего воздействия - Актора от блока, который служит для оценки успешности действий Актора (рис. 1). Метод «Актор-Критик» сочетает в себе преимущества методов, основанных на оценке функции полезности (Value-based) и градиентных (Policy-based) методов [2]. Описание агента и процесса обучения Основой агента являются модули Актор и Критик, представляющие собой глубокие ИНН, конфигурации которых приведены в табл. 1. Таблица 1 Структуры Актора и Критика Структура Актора Структура Критика 1 Полносвязный слой: 256 нейрона Полносвязный слой: 256 нейрона 2 Регуляризация Дропаут: 20 % Регуляризация Дропаут: 20 % 3 Активационный слой: РЕЛУ [3] Активационный слой: РЕЛУ 4 Полносвязный слой: 256 нейрона Полносвязный слой: 256 нейрона 5 Регуляризация Дропаут: 20 % Регуляризация Дропаут: 20 % 6 Активационный слой: РЕЛУ Активационный слой: РЕЛУ 7 Полносвязный слой: 3 нейрона Полносвязный слой: 1 нейрона В табл. 1 Дропаут (Dropout) 20 % - слой, в котором обнуляется 20 % выходных значений. РЕЛУ (ReLU - Rectified Linear Unit) - слой нелинейности по функции . Обучение агента делится на две большие части - обучение Критика и Актора. Схематично обучение представлено на рис. 2. Обучение Критика Задачей Критика является аппроксимация Q-функции - функции полезности управления. ИНН Критика обучается с использованием градиентов, которые происходят от TD-ошибки (ошибки временной разности между оценками полезности на предыдущем и текущем шаге [4]) (1) где - награда среды; - состояние среды; - весовой коэффициент; - функция Актора; - веса нейронной сети Актора; - веса нейронной сети Критика. Веса нейронной сети критика обучаются с помощью градиентов, полученных от среднеквадратичной функции потерь L: (2) где N - размер минибатча данных. Как видно из (2), L является среднеквадратичной функцией потерь. Обучение Актора Обучение Актора осуществляется по методу DDPG (deep deterministic policy gradient - глубокий градиентный метод). В [4] показано, что функцию DPG можно свести к SPG (stochastic policy gradient - стохастический градиентный метод). Функция DPG рассчитывается согласно алгоритму (3) где - отношение между наградой, полученной Актором, и предсказанной наградой. В качестве алгоритма оптимизации и в случае Актора, и в случае Критика был выбран RMSProp [5, 6]. Рис. 2. Процесс обучения агента Обучение проводилось на компьютере с процессором Intel i7 3,4 GHz и видеокарте Nvidia Titan Black и заняло 30 минут. Описание среды Среда (рис. 3), в которой действует мобильный агент (охотник), представляет собой поле шириной 1000 пикселей и высотой 700. В среде находятся жертва, препятствия и мобильный агент. Задача агента - приблизиться к жертве на расстояние не менее 0,5 м (что соответствует 100 пикселям на экране) относительно центра жертвы, при этом не задев препятствия и границы среды. У мобильного агента есть 4 сенсора: 3 сонара и компас, который показывает относительный угол между осью движения мобильного агента и центром жертвы. Управление мобильным агентом осуществляется посредством выбора одной из трех команд: налево, прямо, направо. Управление скоростью робота не предполагается в данной задаче. Инициализация робота происходит всегда в одной позиции, но угол каждый раз выбирается случайно. Также среда поддерживает режим, при котором жертва может двигаться случайно по плоскости. Рис. 3. Визуализация среды, объекты: маленький серый - хищник, черные точки - линии действия сонаров, два больших серых - препятствия, черный - жертва Тестирование Тестирование проводилось для случаев со статической жертвой, со стохастической жертвой, при котором жертва выбирала направление движения случайно, а также с убегающей жертвой, при котором жертва всегда убегает под углом +/-90° относительно приближающегося хищника. И в случае со стохастической жертвой, и с убегающей скорость жертвы равна скорости хищника. Также тестирование проводилось для случаев с минимальными радиусами разворота машины Дубинса, равными 50 и 100 пикселей. Качество агента сравнивалось с «жадным алгоритмом», его схема работы: - если угол до цели меньше -3°, то выбираем поворот налево. Если угол больше 3°, то выбираем поворот направо. В остальных случаях выбираем движение прямо; - если расстояние до препятствия по данным левого сонара меньше 100 пикселей, то выбираем поворот направо. Если расстояние до препятствия по данным правого и центрального сенсора меньше 100 пикселей, то выбираем поворот налево. Качество агента оценивалось как доля успешных запусков, то есть случаев, когда машина поймала жертву. В табл. 2 приведены результаты тестирования «жадного алгоритма» и модели «Актор-Критик», которое проводилось на 1000 повторений. На рис. 4 представлены примеры траекторий для «жадного алгоритма» и метода «Актор-Критик». а б Рис. 4. Статическая жертва: а - траектория при «жадном алгоритме»; б - траектория при методе «Актор-Критик» Таблица 2 Доли успешных запусков для «жадного алгоритма» и модели «Актор-Критик» Показатель «Жадный алгоритм» «Актор-Критик» Статическая цель/Минимальный радиус 50 0,372 0,788 Статическая цель/Минимальный радиус 100 0,832 0,911 Динамическая цель/Минимальный радиус 50 0,399 0,735 Динамическая цель/Минимальный радиус 100 0,757 0,762 Убегающая цель/Минимальный радиус 50 0,370 0,766 Убегающая цель/Минимальный радиус 100 0,697 0,758 Как видно из табл. 2, во всех случаях метод «Актор-Критик» выигрывает, либо совсем немного, либо существенно. Сравнение с животным миром В статье [7] было высказано предположение, что в животном мире за направление и за близость к жертве у хищника в мозге отвечают разные группы нейронов. Была проверена гипотеза о том, что Актор после обучения имеет нечто похожее на то, что происходит в головном мозге хищника, а именно разные активации групп нейронов в разных ситуациях. Однако после проведения ряда экспериментов и визуализации выходов второго полносвязного слоя было замечено (рис. 5, где 256 нейронов этого слоя изображены в виде квадрата 16 на 16), что яркие активации (значения выходов, значительно отличающихся от нуля) происходят в моменты, когда агенту нужно принять решение об изменении направления, чтобы не врезаться в препятствие (рис. 5, в, г). В моменты, когда агенту не нужно принимать срочного решения о смене траектории движения, ярких активаций немного (рис. 5, а, б). а б в г Рис. 5. Карта активации выхода 2-го полносвязного слоя Актора Выводы Были созданы среда и модель машины Дубинса, для которой синтезирован и обучен агент на основе метода «Актор-Критик», который показал лучшие результаты в задачах преследования в сравнении с агентом на основе «жадного алгоритма». Следующим этапом готовится модификация среды и алгоритма для мультиагентного случая.
×

About the authors

Mihail L Patkin

Samara State Technical University

Postgraduate Student 244, Molodogvardeyskaya st., Samara, 443100, Russian Federation

References

  1. Konda V.R., Tsitsiklis J.N. Actor-Critic Algorithms // NIPS. - 1999. - Т. 13. - С. 1008-1014.
  2. Bhatnagar S. et al. Natural actor-critic algorithms //Automatica. - 2009. - Т. 45. - №. 11.
  3. Nair V., Hinton G.E. Rectified linear units improve restricted boltzmann machines // Proceedings of the 27th international conference on machine learning (ICML-10). - 2010. - С. 807-814.
  4. Silver D. et al. Deterministic Policy Gradient Algorithms // Proceedings of The 31st International Conference on Machine Learning. - 2014. - С. 387-395. Witten I. H. et al. Data Mining: Practical machine learning tools and techniques. - Morgan Kaufmann, 2016.
  5. Tieleman T., Hinton G. Lecture 6.5-RMSProp, COURSERA: Neural networks for machine learning // University of Toronto, Tech. Rep. - 2012.
  6. Sarel A. et al. Vectorial representation of spatial goals in the hippocampus of bats // Science. - 2017. - Т. 355. - № 6321. - С. 176-180.

Copyright (c) 2017 Samara State Technical University

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies