Дифференциальная эволюция в алгоритме обучения деревьев принятия решений

Обложка

Цитировать

Полный текст

Аннотация

Деревья принятия решений (ДПР) являются одним из наиболее эффективных методов классификации. Основным преимуществом деревьев принятия решений является простая и понятная пользователю интерпретация полученных результатов. Но, несмотря на известные преимущества подхода, он имеет и недостатки. Одним из главных недостатков является то, что обучение ДПР на данных большой размерности требует значительных затрат времени. В данной статье рассматривается способ уменьшения времени обучения ДПР без потери точности классификации. Существуют различные алгоритмы обучения ДПР, основными из которых являются алгоритмы ID3 и CART. В статье предложена модификация алгоритмов обучения ДПР с помощью оптимизации критерия информативности по некоторому выбранному атрибуту. Применение данной модификации позволяет избежать оптимизации полным перебором по всему набору данных. Для выбора атрибута используется метод Separation Measure. В данном методе выбирается тот атрибут, у которого выборочные средние по классам наиболее отдалены друг от друга. Оптимизация по выбранному атрибуту осуществляется с помощью метода дифференциальной эволюции, одного из методов эволюционного моделирования, предназначенного для решения задачи многомерной оптимизации. Для дифференциальной эволюции применена самонастройка на уровне популяции на основе вероятностей применения видов мутации.

Для сравнения стандартных алгоритмов обучения ДПР с модифицированными алгоритмами были решены задачи классификации. Под эффективностью алгоритмов понимается процент правильно классифицированных объектов тестовой выборки. Для сравнения эффективности алгоритмов проведен статистический анализ с применением t-критерия Стьюдента.

Анализ показал, что при использовании предложенной модификации алгоритма обучения деревьев принятия решений можно значительно ускорить процесс обучения, не потеряв при этом в эффективности классификации.

Об авторах

Сергей Александрович Митрофанов

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева

Автор, ответственный за переписку.
Email: sergeimitrofanov95@gmail.com

студент магистратуры кафедры системного анализа и исследования операций

Россия, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Евгений Станиславович Семенкин

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева

Email: eugenesemenkin@yandex.ru

доктор технических наук, профессор, профессор кафедры системного анализа и исследования операций

Россия, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Список литературы

  1. Classification and Regression Trees / L. Breiman, J. H. Friedman, R. A. Olshen et al. Wadsworth. Belmont. California. 1984. 128 p.
  2. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. Springer, 2009. 189 p.
  3. Ross Quinlan J. C4.5: Programs for Machine learning. Morgan Kaufmann Publishers. 1993. 302 p.
  4. Quinlan J. R. Induction of decision trees // Machine learning. 1986. No. 1(1). P. 81–106.
  5. David L. Davies, Donald W. Bouldin. A Cluster Separation Measure // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1979. Vol. PAMI-1, Iss. 2. P. 224–227.
  6. Storn R. On the usage of differential evolution for function optimization // Biennial Conference of the North American Fuzzy Information Processing Society (NAFIPS). 2009. P. 519–523.
  7. Goldberg D. E. Genetic Algorithms in Search, Optimization and Machine Learning // Reading, MA: Addison-Wesley. 1989. 432 p.
  8. Qin A. K., Suganthan P.N. Self-adaptive differential evolution algorithm for numerical optimization // Proceedings of the IEEE congress on evolutionary computation (CEC). 2005. P. 1785–1791.
  9. Semenkin E. S., Semenkina M. E. Self-configuring Genetic Algorithm with Modified Uniform Crossover Operator // Advances in Swarm Intelligence. Lecture Notes in Computer Science 7331. Springer-Verlag, Berlin Heidelberg. 2012. P. 414–421.
  10. Semenkin E., Semenkina M. Spacecrafts' control systems effective variants choice with self-configuring genetic algorithm // ICINCO 2012 – Proceedings of the 9th International Conference on Informatics in Control, Automation and Robotics. 2012. P. 84–93.
  11. Tanabe R., Fukunaga A. Success-history based parameter adaptation for Differential Evolution 2013 IEEE Congress on Evolutionary Computation, Cancun. 2013. P. 71–78.
  12. Machine Learning Repository [Электронный ресурс]. URL: https://archive.ics.uci.edu/ml/index.php (дата обращения: 19.08.2018).
  13. Гмурман В. Е. Теория вероятностей и математическая статистика. М. : Высш. шк., 2003. С. 303–304.
  14. Прикладная статистика: Основы моделирования и первичная обработка данных / С. А. Айвазян и др. М. : Финансы и статистика, 1983. 471 с.
  15. Румшиский Л. З. Математическая обработка результатов эксперимента. М. : Наука, 1971. 192 с.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Митрофанов С.А., Семенкин Е.С., 2019

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах