Using machine learning methods for predicting the employment of graduates

Elizabeth S. Selivanova; Селиванова Елизавета Сергеевна; Timur T. Gazizov; Газизов Тимур Тальгатович; Nadezhda P. Dolganova; Долганова Надежда Филипповна; Farrukh J. Pirakov; Пираков Фаррух Джамшедович

doi:10.18469/ikt.2023.21.3.13

Using machine learning methods for predicting the employment of graduates

作者: Selivanova E.S.¹, Gazizov T.T.¹^,2, Dolganova N.P.¹, Pirakov F.J.³
隶属关系:
1. Tomsk State Pedagogical University
2. Sakhalin State University
3. Tomsk State University of Control Systems and Radioelectronics
期: 卷 21, 编号 3 (2023)
页面: 91-99
栏目: Engineers management and training for telecommunications
URL: https://journals.eco-vector.com/2073-3909/article/view/633730
DOI: https://doi.org/10.18469/ikt.2023.21.3.13
ID: 633730

如何引用文章

全文:

详细
全文:
作者简介
参考
补充文件
统计

详细

In today’s world, technology continues to play an increasingly important role in all spheres of human life. Education is no exception and keeps pace with the times. One of the more promising directions in this area is the use of machine learning methods to analyze data on graduates and predict their future employment, based on the accumulated information about students. Such information not only helps to determine the future profession, but also will allow educational institutions to co-ordinate their activities more effectively and improve the quality of education. In addition, the use of machine learning in education can lead to the creation of new, more effective teaching methods that take into account the individual characteristics of each student. The result of this work is an in-telligent system of big data processing, capable of adapting to the current state of the labor market and helping graduates in an earlier determination of their future profession. Data analysis was con-ducted on a sample of students of Tomsk State Pedagogical University of 2021-2023 academic years.

关键词

Data analysis, employment, machine learning, information processing, artificial intelligence, model, prediction

全文:

Введение и постановка задачи

Ценнейшим товаром на современном рынке услуг является информация о пользователе, анализ которой посредством алгоритмов машинного обучения позволяет обеспечить ее целенаправленное использование в дальнейшем. Информация о человеке, его достижениях и увлечениях считается одним из ценнейших продуктов не только на рынке рекламы, но и в образовательной среде [1; 2]. Система образования является одной из ключевых сфер жизнедеятельности любого человека и активно внедряет и использует тренды в развитии информационных технологий [3; 4]. В образовании целесообразно применять методы машинного обучения. Можно предположить, что в сфере образования возможно прогнозировать будущие места работы студентов педагогического вуза, используя данные выпускников [5; 6]. Это позволит выявить траекторию профессиональной подготовки молодых специалистов и оценить качество предоставляемых образовательных услуг вузом [7].

В связи с этим целью работы является проведение обработки данных о трудоустройстве и прогнозирование места работы студентов на примере выпускников, используя модели искусственного интеллекта.

Для достижения поставленной цели необходимо решить следующие основные задачи:

Определить параметры, влияющие на трудоустройство выпускников.
Обработать данные о трудоустройстве выпускников.
Разработать интеллектуальную систему для прогнозирования трудоустройства выпускников.

Машинное обучение в прикладных задачах

Одним из наиболее распространенных направлений использования машинного обучения является оптимизация подборов туров в турагентствах [8]. Именно методы автоматического поиска закономерностей в больших объемах информации (данных) являются фундаментом задач прогнозирования и одним из наиболее перспективных направлений использования современных информационных технологий в различных отраслях экономики, в том числе и в туризме. В туристическом бизнесе важно понимать и оперативно предлагать клиенту определенные направления проведения досуга, в зависимости от его предпочтений, образа жизни, социального статуса и прочего. Минимизировать трудовые затраты на удовлетворение потребностей конкретного клиента, предоставив лучший вариант отдыха для него, зачастую помогают инструменты аналитики, механизмы моделирования и разработка алгоритмов. Анализ пользовательских предпочтений осуществляется на фиксации данных и их изучении. Отзывы посетителей о выбранных туристических объектах и их сегментирование по каким-либо схожим характеристикам (как со стороны объектов, так и клиентов) лежат в основе «рекомендательных систем, предлагающих пользователю наиболее подходящие для него точки притяжения, отели, рестораны и прочее». Система спрашивает у гостя при посещении сайта о его предпочтениях и возможностях и на основании отзывов пользователей предоставляет наиболее подходящие варианты отдыха данному клиенту. Из чего следует, что уже на этапе посещения сайта клиенту сразу «предсказывается» его «идеальный» тур, и на услугах менеджера по данному фронту работы можно экономить.

Data Science и Machine Learning

Чтобы научиться извлекать полезную информацию из полученных данных, необходимо их правильно обрабатывать. Для этого используется Data Science – наука о данных, которая включает в себя все инструменты, методы и технологии и позволяет обрабатывать данные и использовать их для собственной выгоды, выверяя закономерности в больших массивах данных и на их основе прогнозировать вероятность получения того или иного исхода [9].

Три основных составляющих Data Science:

Организация информации – это процесс ее хранения и форматирования.
Агрегация данных – это объединение начальных сведений в новый вид и (или) представление.
Доставка данных – это действие, обеспечивающее доступ к коллекциям агрегированных данных.

Существует большое количество областей для работы с данными, использующих искусственный интеллект, и одна из них – это машинное обучение (machine learning, ML) [10; 11], позволяющее создавать программы, улучшающиеся в процессе обучения.

Основные задачи ML:

Регрессия (предсказание числовых значений на основе заданных признаков).
Классификация (на основе набора признаков происходит разделение объектов).
Кластеризация (распределение данных на группы).

Большинство задач, которое решается посредством ML, использует определенные методы, то есть алгоритмы, позволяющие компьютеру обучаться на основе опыта и предоставленных данных, и сделать предсказание или принять решение на основе этого обучения.

Способы машинного обучения [12; 13]:

Машинное обучение с учителем.

В этом способе человек обучает машину с помощью огромной выборки данных, параметры которой варьируются до тех пор, пока не получится нужного результата.

Машинное обучение без учителя.

Машинное обучение без учителя предполагает исследование компьютером определенного набора данных, где выявляются скрытые закономерности корреляции между переменными.

Машинное обучение с частичным привлечением учителя.

Гибридный способ, в основе которого лежит обучение с учителем и без. Учитель, отметив небольшую часть данных, дает возможность понять, каким образом сгруппировать остальные.

Обучение с подкреплением.

При данном способе обучения машине позволяется взаимодействовать с окружением и в зависимости от настроек получать вознаграждение при правильном выполнении задания.

Для анализа данных выпускников педагогического вуза и реализации прогноза трудоустройства студентов выбран способ машинного обучения с учителем.

Реализация моделей машинного обучения

Реализовывать алгоритмы машинного обучения было решено на веб-платформе Google Colaboratory (Colab), которая позволяет создать и запускать код на языке Python, не устанавливая на компьютер дополнительных программ.

Python один из наиболее популярных языков для машинного обучения. Основными причинами его использования для написания алгоритмов машинного обучения являются простота использования, большой объем доступных библиотек и широкое пользование [14].

Pandas предоставляет набор инструментов для манипулирования данными (чтение, запись, обработка и анализ). Эта библиотека позволяет работать с данными как со структурой, состоящей из столбцов и строк, что облегчает выполнение различных операций над данными [14].

Sklearn написана на языке Python и использует библиотеки NumPy и SciPy для работы с массивами и линейной алгеброй. Библиотека является простым и эффективным инструментом для предиктивного анализа данных [15].

Для задачи регрессии были выбраны два алгоритма машинного обучения [16]:

Логистическая регрессия. Логистическая регрессия (Logistic Regression) позволяет делать прогнозы для точек в двоичной системе: 0 или 1. Если значение равно или больше 0,5, объект относится к категории «1». Если значение меньше 0,5 – к категории «0». Каждый признак имеет свою метку, которая равна либо 0, либо 1. Алгоритм решает задачи бинарной классификации, так как алгоритм применяет сигмоидальную функцию. В данном методе выполняется условие, где 0 ≤

×

作者简介

Elizabeth Selivanova

Tomsk State Pedagogical University

编辑信件的主要联系方式.
Email: slvnva@tspu.edu.ru

Master’s Degree Student of Informatics Department

俄罗斯联邦, Tomsk

Timur Gazizov

Tomsk State Pedagogical University; Sakhalin State University

Email: gtt@tspu.edu.ru

Professor of Computer Science Department, Doctor of Technical Science. Researcher at the Center for Expertise and Testing.

俄罗斯联邦, Tomsk; Yuzhno-Sakhalinsk

Nadezhda Dolganova

Tomsk State Pedagogical University

Email: dolganovaNF@tspu.edu.ru

Senior lecturer of Informatics Department

俄罗斯联邦, Tomsk

Farrukh Pirakov

Tomsk State University of Control Systems and Radioelectronics

Email: pfd@tspu.edu.ru

Department of E-Learning Technologies, Automation, PhD Student

俄罗斯联邦, Tomsk

参考

Nagovitsyn R.S. Forecasting the employment of graduates of a pedagogical institute based on artificial intelligence technologies. Obrazovatel’noe prostranstvo v informacionnuyu epohu: materialy mezhdunarodnoj nauchno-prakticheskoj konferencii. Moscow, 2022, pp. 244–253. (In Russ.)
Nagovitsyn R.S. Artificial intelligence for implementing the forecast of professional employment of future physical education teachers. Rossijskoe gosudarstvo, pravo, ekonomika i obshchestvo: problemy i puti razvitiya: materialy III Nacional’noj nauchno-prakticheskoj konferencii. Kazan, 2021. pp. 86–91. (In Russ.)
Gladkova I.A., Shchanina E.V. Forecasting job placement of university graduates. Teoreticheskie i prakticheskie aspekty razvitiya sovremennoj nauki: teoriya, metodologiya, praktika: materialy Mezhdunarodnoj nauchno-prakticheskoj konferencii. Ufa, 2019. pp. 151–155. (In Russ.)
Nagovitsyn R.S. Employment of graduates of pedagogical profiles based on artificial intelligence technologies and data analysis. Mir obrazovaniya – obrazovanie v mire, 2023, no. 1 (89), pp. 165–176. (In Russ.)
Fadeev A.S., Zmeev O.A., Gazizov T.T. University Model 4.0. Nauchno-pedagogicheskoe obozrenie, 2020, no. 2, pp. 172–178. (In Russ.)
Klishin A.N. et al. Main directions for applying information technologies to the automation of tspu activities. Vestnik Tomskogo gosudarstvennogo pedagogicheskogo universiteta, 2015, vol. 3 (156), pp. 110–118. (In Russ.)
Nagovitsyn R.S. Artificial intelligence for processing the data of applicants to predict their further employment after training. Regional’nye vuzy-drajvery prostranstvennogo razvitiya Rossii: materialy Vserossijskoj s mezhdunarodnym uchastiem nauchno-prakticheskoj konferencii, posvyashchennoj 90-letiyu Udmurtskogo gosudarstvennogo universiteta. Izhevsk, 2021, pp. 92–104. (In Russ.)
Lochan S.A. et al. Study of experience in forecasting tourist flows using machine learning algorithms. Izvestiya vysshih uchebnyh zavedeniy. Seriya: Economika, financy i upravlenie proizvodstvom, 2021, vol. 4 (50), pp. 145–155. (In Russ.)
Data science. URL: https://www.tadviser.ru/index.php/Статья:Наука_о_данных_(Data_Science) (accessed: 10.09.2023). (In Russ.)
Lebedev I.S. Adaptive application of machine learning models on separate sample segments in regression and classification tasks. Informacionno-upravlyayushchie sistemy. URL: https://cyberleninka.ru/article/n/adaptivnoe-primenenie-modeley-mashinnogo-obucheniya-na-otdelnyh-segmentah-vyborki-v-zadachah-regressii-i-klassifikatsii (accessed: 15.09.2023). (In Russ.)
Seidametova Z.S. Machine learning problems and algorithms: probilistic graphical models. Informacionno-komp’yuternye tekhnologii v ekonomike, obrazovanii i social’noj sfere, 2019, no. 1 (23), pp. 180–187. (In Russ.)
Zgonnikova A.O., Prokopenko A.A. Machine learning and lifelong learning. New scientific research: Novye nauchnye issledovaniya: materialy VIII Mezhdunarodnoj nauchno-prakticheskoj konferencii, Penza, 2022, pp. 22–24. (In Russ.)
Borodin I.D. Reflexion in machine learning on the example of decision tree learning. Alleya nauki, 2017, vol. 4, no. 9, pp. 857–865. (In Russ.)
For Analysts: the big cheat sheet on Pandas. URL: https://smysl.io/blog/pandas/ (accessed: 19.09.2023). (In Russ.)
Scikit-learn. Machine learning in Python. URL: https://scikit-learn.ru/ (accessed: 19.09.2023). (In Russ.).
Mikshina V.S., Pavlov S.I. Decision-making using an ensemble of classifiers. Informacionnye tekhnologii v nauke, obrazovanii i upravlenii, 2019, no. 2 (12). pp. 50–54. (In Russ.)