Стратегия поиска эффективного алгоритма машинного обучения на примере кредитного скоринга


Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Доступ платный или только для подписчиков

Аннотация

Для многих компаний проблема поиска оптимальных стратегий прогнозирования целевых событий на сегодняшний день является актуальной. Целью данной работы является разработка метода прогнозирования на основе машинного обучения, позволяющего решить проблемы, связанные с выбором наиболее эффективного алгоритма. В рамках текущей работы поиск такого алгоритма проводится на данных клиентов коммерческого банка, которым был выдан кредит, где целевым событием является факт возникновения кредитного дефолта. Кредитный скоринг является популярным объектов исследования, поэтому для многих исследователей проблематика и особенности задачи являются знакомыми. В статье кроме базовых моделей машинного обучения, таких как наивный байесовский классификатор, логистическая регрессия, дискриминантный анализ, метод ближайших соседей, метод опорных векторов и деревья решений, также анализируются алгоритмы, занимающие на соревнованиях первые места, такие как ансамбли над решающими деревьями и нейронные сети. Для построения модели с хорошей обобщающей способностью необходимо выбирать наиболее значимые с точки зрения целевого события входные предикторы - в нашей статье это данные, описывающие потенциального заемщика. Поэтому перед обучением моделей классификации проводится сравнительный анализ следующих методов отбора объясняющих признаков: статистические, итеративные, методы отбора признаков на основе модели градиентного бустинга и набирающий в последнее время популярность генетический алгоритм. Результаты проведенных исследований показали, что для задачи кредитного скоринга на рассматриваемом наборе данных наилучшим методом отбора признаков является отбор на основе показателя ratio gain, а наиболее эффективными классификаторами оказались ансамбли решающих деревьев: случайный лес и градиентный бустинг. Практический вклад проведенного исследования заключается в предложенной стратегии поиска наиболее эффективной модели бинарной классификации. Разработанный подход последовательной оценки методов отбора предикторов и классификаторов с помощью нескольких метрик точности представляет научную новизну.

Полный текст

Доступ закрыт

Об авторах

Денис Вадимович Исаев

Финансовый университет при Правительстве Российской Федерации

Email: denis-isaev173@mail.ru
аспирант Москва, Российская Федерация

Список литературы

  1. D. Guegan, B. Hassani Regulatory learning: How to supervise machine learning models? An application to credit scoring // The Journal of Finance and Data Science. 2018. №4.
  2. Baesens B., Van Gestel T., Viaene S., Stepanova M., Suykens J., Vanthienen J. Benchmarking state-of-the-art classification algorithms for credit scoring // Journal of the Operational Research Society. 2003. №54.
  3. S. Lessmann, B. Baesens, H-V. Seow, L. C.Thomas Benchmarking state-of-the-art classification algorithms for credit scoring: An update of research // European Journal of Operational Research. 2015. №247.
  4. V. Moscato, A. Picariello, G. Sperlí A benchmark of machine learning approaches for credit score prediction // Expert Systems With Applications. 2020. №165.
  5. Yuelin Wang, Yihan Zhang, Yan Lu, Xinran Yu A Comparative Assessment of Credit Risk Model Based on Machine Learning - a case study of bank loan data // Procedia Computer Science. 2020. №174.
  6. P. Ziemba, A. Radomska-Zalas, J. Becker Client evaluation decision models in the credit scoring tasks // Procedia Computer Science. 2020. №176.
  7. Cuicui Luo, Desheng Wu, Dexiang Wu A deep learning approach for credit scoring using credit default swaps // Engineering Applications of Artificial Intelligence. 2017. №65.
  8. M. Herasymovych, K. Märka, O. Lukason Using reinforcement learning to optimize the acceptance threshold of a credit scoring model // Applied Soft Computing Journal. 2019. №84.
  9. X. Dastile, T. Celik, M. Potsane Statistical and machine learning models in credit scoring: A systematic literature survey // Applied Soft Computing Journal. 2020. №91.
  10. S. K. Trivedi A study on credit scoring modeling with different feature selection and machine learning approaches // Technology in Society. 2020. №63.
  11. A. Gümüs¸ M. E. Tenekeci, A. V. Bilgili Estimation of wheat planting date using machine learning algorithms based on available climate data // Sustainable Computing: Informatics and Systems. 2020.
  12. H. Chena, Y. Xiang The Study of Credit Scoring Model Based on Group Lasso // Procedia Computer Science. 2017. №122.
  13. A. Bequé, S. Lessmann Extreme learning machines for credit scoring: An empirical evaluation // Expert Systems With Applications. 2017. №86.
  14. D. Tripathi, D. R. Edla, V. Kuppili, A. Bablani Evolutionary Extreme Learning Machine with novel activation function for credit scoring // Engineering Applications of Artificial Intelligence. 2020. №96.
  15. F. Shen, X. Zhao, G. Kou, F. E. Alsaadi A new deep learning ensemble credit risk evaluation model with an improved synthetic minority oversampling technique // Applied Soft Computing. 2020.
  16. V. B. Djeundje, J. Crook, R. Calabrese, M. Hamid Enhancing credit scoring with alternative data // Expert Systems with Applications. 2020. №163.
  17. Wang Bao, Ning Lianju, Kong Yue Integration of unsupervised and supervised machine learning algorithms for credit risk assessment // Expert Systems With Applications. 2019. №128.
  18. Haoting Zhang, Hongliang He, Wenyu Zhang Classifier selection and clustering with fuzzy assignment in ensemble model for credit scoring // Neurocomputing. 2018. №316.
  19. Feng Shena, Xingchao Zhao, Gang Kou Three-stage reject inference learning framework for credit scoring using unsupervised transfer learning and three-way decision theory // Decision Support Systems. 2020. №137.
  20. J. P. Barddal, L. Loezer, F. Enembreck, R. Lanzuolo Lessons learned from data stream classification applied to credit scoring // Expert Systems With Applications. 2020. №162.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах