Эффективность работы алгоритма A2C применительно к классическим моделям теории экономического роста

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

Актуальность исследования состоит в выявлении точности оценки, полученной алгоритмом A2C, а также в необходимости верификации обучения с подкреплением при работе с оптимизацией экономических процессов. Целью исследования является анализ эффективности алгоритма A2C, вместе со спецификой его реализации, на решении оптимизационных экономических задач. В качестве задач рассматривались максимизация потребления в модели Солоу, Ромера и Шумпетерианской модели эндогенного экономического роста, и максимизация подушевого дохода в последних двух, по норме потребления (в последних двух – сбережения) и доле ученых в экономике, соответственно. Результаты показали, что для детерминированных моделей (модель Солоу, модель Ромера) дисперсия оценки параметра минимальна и среднее отличается от значения, полученного аналитически, не более, чем тысячной частью при достаточно высоком количестве временных периодов в модели. Тем не менее, в стохастических моделях (Шумпетерианская модель), во-первых, для соответствия оценки значению, полученному аналитически, требуется высокое количество временных периодов в модели, а во-вторых, оценка, полученная таким образом, хоть и смещена не более, чем на тысячную долю, но обладает высокой дисперсией.

Полный текст

Доступ закрыт

Об авторах

Александр Максимович Моисеенко

Российская академия народного хозяйства и государственной собственности при Президенте Российской Федерации

Автор, ответственный за переписку.
Email: alex7and7er@gmail.com
ORCID iD: 0009-0001-0380-1693

аспирант, кафедра системного анализа

Россия, Москва

Наталья Владимировна Гринева

Финансовый университет при Правительстве Российской Федерации

Email: ngrineva@fa.ru
ORCID iD: 0000-0001-7647-5967

кандидат экономических наук, доцент, доцент, кафедра анализа данных и машинного обучения

Россия, Москва

Список литературы

  1. Aghion P., Howitt P. A model of growth through creative destruction. 1990.
  2. Atashbar T., Aruhan Shi R. AI and macroeconomic modeling: Deep reinforcement learning in an RBC model. 2023.
  3. Kakade S.M. A natural policy gradient. In: Advances in neural information processing systems. 2001. Vol. 14.
  4. Mnih V. et al. Asynchronous methods for deep reinforcement learning. In: International Conference on Machine Learning. PMLR, 2016. Pp. 1928–1937.
  5. Peters J., Schaal S. Reinforcement learning of motor skills with policy gradients // Neural Networks. 2008. Vol. 21. No. 4. Pp. 682–697.
  6. Romer P.M. Endogenous technological change // Journal of Political Economy. 1990. Vol. 98. No. 5. Part 2. Pp. S71–S102.
  7. Solow R.M. A contribution to the theory of economic growth // The Quarterly Journal of Economics. 1956. Vol. 70. No. 1. Pp. 65–94.
  8. Zheng S. et al. The ai economist: Improving equality and productivity with AI-driven tax policies // arXiv preprint arXiv:2004.13332. 2020.
  9. Диденко Д.В., Гринева Н.В. Факторы роста экономики позднего СССР в пространственной перспективе // Экономическая политика. 2022. Т. 17. №2. С. 88–119. EDN: MBEJDX. doi: 10.18288/1994-5124-2022-2-88-119.
  10. Гринева Н.В. Оценка интеллектуального капитала при переходе к цифровой экономике // Проблемы экономики и юридической практики. 2022. Т. 18. № 2. C. 219–227. EDN: CGWWNJ.
  11. Krinichansky K., Grineva N. Dynamic approach to the analysis of financial structure: Overcoming the bank-based vs market-based dichotomy. In: 16th International Conference Management of large-scale system development (MLSD). 2023. No. 16. EDN: RSHSND. doi: 10.1109/MLSD58227.2023.10303933.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Простой градиент (а) рассматривает изменение всех параметров как одинаково удаленное, таким образом, это поиск максимума на окружности, в то время как естественный градиент (b) использует масштабы, определенные информацией Фишера, что приводит к более высокой эффективности разведки. Более медленное сокращение объемов разведки приводит к более быстрому переходу к оптимальной стратегии [5]

Скачать (101KB)
3. Рис. 2. Динамика значений нормы потребления по мере обучения модели за 30 000 эпох

Скачать (142KB)
4. Рис. 3. Оптимальное значение нормы потребления: а – зависимость нормы потребления с от общего количества временных периодов T (логарифмическая шкала); b – зависимость совокупной награды от нормы потребления для общего количества временных периодов T на уровне 100

Скачать (24KB)
5. Рис. 4. Динамика оптимизируемых параметров при обучении нейронной сети за 60 000 эпох: а – разброс значений нормы сбережения по мере обучения модели для T = 100; b – разброс значений нормы ученых в экономике по мере обучения модели для T = 100

Скачать (94KB)
6. Рис. 5. Динамика оптимизируемых параметров при обучении нейронной сети за 60 000 эпох: а – разброс значений нормы сбережения по мере обучения модели для T = 1000; b – разброс значений нормы ученых в экономике по мере обучения модели для T = 1000

Скачать (116KB)
7. Рис. 6. Зависимость совокупной награды от доли ученых в экономике при текущей инициализации модели

Скачать (13KB)


Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах