Использование машинного обучения для прогнозирования трудоустройства выпускников

Обложка

Цитировать

Полный текст

Аннотация

В современном мире технологии продолжают играть все более весомую роль во всех сферах жизни человека. Образование не является исключением и идет в ногу со временем. Одно из более перспективных направлений в этой области является использование методов машинного обучения для анализа данных о выпускниках и прогнозирования их дальнейшего трудоустройства, на основе накопленной информации об обучающихся студентах. Такая информация не только помогает определиться с будущей профессией, но и позволит учебным заведениям более эффективно координировать свою деятельность и повышать качество образования. Кроме того, использование машинного обучения в образовании может привести к созданию новых, более эффективных методов обучения, учитывающих индивидуальные особенности каждого студента. Результатом данной работы является интеллектуальная система обработки больших данных, способная адаптироваться к текущему состоянию рынка труда и помогающая выпускникам в более раннем определении в своей будущей профессии. Анализ данных проводился на выборке обучающихся Томского государственного педагогического университета 2021–2023 учебных годов.

Полный текст

Введение и постановка задачи

Ценнейшим товаром на современном рынке услуг является информация о пользователе, анализ которой посредством алгоритмов машинного обучения позволяет обеспечить ее целенаправленное использование в дальнейшем. Информация о человеке, его достижениях и увлечениях считается одним из ценнейших продуктов не только на рынке рекламы, но и в образовательной среде [1; 2]. Система образования является одной из ключевых сфер жизнедеятельности любого человека и активно внедряет и использует тренды в развитии информационных технологий [3; 4]. В образовании целесообразно применять методы машинного обучения. Можно предположить, что в сфере образования возможно прогнозировать будущие места работы студентов педагогического вуза, используя данные выпускников [5; 6]. Это позволит выявить траекторию профессиональной подготовки молодых специалистов и оценить качество предоставляемых образовательных услуг вузом [7].

В связи с этим целью работы является проведение обработки данных о трудоустройстве и прогнозирование места работы студентов на примере выпускников, используя модели искусственного интеллекта.

Для достижения поставленной цели необходимо решить следующие основные задачи:

  1. Определить параметры, влияющие на трудоустройство выпускников.
  2. Обработать данные о трудоустройстве выпускников.
  3. Разработать интеллектуальную систему для прогнозирования трудоустройства выпускников.

Машинное обучение в прикладных задачах

Одним из наиболее распространенных направлений использования машинного обучения является оптимизация подборов туров в турагентствах [8]. Именно методы автоматического поиска закономерностей в больших объемах информации (данных) являются фундаментом задач прогнозирования и одним из наиболее перспективных направлений использования современных информационных технологий в различных отраслях экономики, в том числе и в туризме. В туристическом бизнесе важно понимать и оперативно предлагать клиенту определенные направления проведения досуга, в зависимости от его предпочтений, образа жизни, социального статуса и прочего. Минимизировать трудовые затраты на удовлетворение потребностей конкретного клиента, предоставив лучший вариант отдыха для него, зачастую помогают инструменты аналитики, механизмы моделирования и разработка алгоритмов. Анализ пользовательских предпочтений осуществляется на фиксации данных и их изучении. Отзывы посетителей о выбранных туристических объектах и их сегментирование по каким-либо схожим характеристикам (как со стороны объектов, так и клиентов) лежат в основе «рекомендательных систем, предлагающих пользователю наиболее подходящие для него точки притяжения, отели, рестораны и прочее». Система спрашивает у гостя при посещении сайта о его предпочтениях и возможностях и на основании отзывов пользователей предоставляет наиболее подходящие варианты отдыха данному клиенту. Из чего следует, что уже на этапе посещения сайта клиенту сразу «предсказывается» его «идеальный» тур, и на услугах менеджера по данному фронту работы можно экономить.

Data Science и Machine Learning

Чтобы научиться извлекать полезную информацию из полученных данных, необходимо их правильно обрабатывать. Для этого используется Data Science – наука о данных, которая включает в себя все инструменты, методы и технологии и позволяет обрабатывать данные и использовать их для собственной выгоды, выверяя закономерности в больших массивах данных и на их основе прогнозировать вероятность получения того или иного исхода [9].

Три основных составляющих Data Science:

  1. Организация информации – это процесс ее хранения и форматирования.
  2. Агрегация данных – это объединение начальных сведений в новый вид и (или) представление.
  3. Доставка данных – это действие, обеспечивающее доступ к коллекциям агрегированных данных.

Существует большое количество областей для работы с данными, использующих искусственный интеллект, и одна из них – это машинное обучение (machine learning, ML) [10; 11], позволяющее создавать программы, улучшающиеся в процессе обучения.

Основные задачи ML:

  1. Регрессия (предсказание числовых значений на основе заданных признаков).
  2. Классификация (на основе набора признаков происходит разделение объектов).
  3. Кластеризация (распределение данных на группы).

Большинство задач, которое решается посредством ML, использует определенные методы, то есть алгоритмы, позволяющие компьютеру обучаться на основе опыта и предоставленных данных, и сделать предсказание или принять решение на основе этого обучения.

Способы машинного обучения [12; 13]:

  1. Машинное обучение с учителем.

В этом способе человек обучает машину с помощью огромной выборки данных, параметры которой варьируются до тех пор, пока не получится нужного результата.

  1. Машинное обучение без учителя.

Машинное обучение без учителя предполагает исследование компьютером определенного набора данных, где выявляются скрытые закономерности корреляции между переменными.

  1. Машинное обучение с частичным привлечением учителя.

Гибридный способ, в основе которого лежит обучение с учителем и без. Учитель, отметив небольшую часть данных, дает возможность понять, каким образом сгруппировать остальные.

  1. Обучение с подкреплением.

При данном способе обучения машине позволяется взаимодействовать с окружением и в зависимости от настроек получать вознаграждение при правильном выполнении задания.

Для анализа данных выпускников педагогического вуза и реализации прогноза трудоустройства студентов выбран способ машинного обучения с учителем.

Реализация моделей машинного обучения

Реализовывать алгоритмы машинного обучения было решено на веб-платформе Google Colaboratory (Colab), которая позволяет создать и запускать код на языке Python, не устанавливая на компьютер дополнительных программ.

Python один из наиболее популярных языков для машинного обучения. Основными причинами его использования для написания алгоритмов машинного обучения являются простота использования, большой объем доступных библиотек и широкое пользование [14].

Pandas предоставляет набор инструментов для манипулирования данными (чтение, запись, обработка и анализ). Эта библиотека позволяет работать с данными как со структурой, состоящей из столбцов и строк, что облегчает выполнение различных операций над данными [14].

Sklearn написана на языке Python и использует библиотеки NumPy и SciPy для работы с массивами и линейной алгеброй. Библиотека является простым и эффективным инструментом для предиктивного анализа данных [15].

Для задачи регрессии были выбраны два алгоритма машинного обучения [16]:

  1. Логистическая регрессия. Логистическая регрессия (Logistic Regression) позволяет делать прогнозы для точек в двоичной системе: 0 или 1. Если значение равно или больше 0,5, объект относится к категории «1». Если значение меньше 0,5 – к категории «0». Каждый признак имеет свою метку, которая равна либо 0, либо 1. Алгоритм решает задачи бинарной классификации, так как алгоритм применяет сигмоидальную функцию. В данном методе выполняется условие, где 0 ≤
    ×

Об авторах

Елизавета Сергеевна Селиванова

Томский государственный педагогический университет

Автор, ответственный за переписку.
Email: slvnva@tspu.edu.ru

магистрант кафедры информатики

Россия, Томск

Тимур Тальгатович Газизов

Томский государственный педагогический университет; Сахалинский государственный университет

Email: gtt@tspu.edu.ru

д.т.н., профессор кафедры информатики ТГПУ. научный сотрудник центра экспертизы и испытаний Сахалинского государственного университета.

Россия, Томск; Южно-Сахалинск

Надежда Филипповна Долганова

Томский государственный педагогический университет

Email: dolganovaNF@tspu.edu.ru

старший преподаватель кафедры информатики

Россия, Томск

Фаррух Джамшедович Пираков

Томский государственный университет систем управления и радиоэлектроники

Email: pfd@tspu.edu.ru

аспирант кафедры технологий электронного обучения

Россия, Томск

Список литературы

  1. Наговицын Р.С. Прогнозирование трудо-устройства выпускников педагогического института на основе технологий искусственного интеллекта // Образовательное пространство в информационную эпоху: материалы международной научно-практической конференции. Москва, 2022. С. 244–253.
  2. Наговицын Р.С. Искусственный интеллект для реализации прогноза профессиональной занятости будущих учителей физической культуры // Российское государство, право, экономика и общество: проблемы и пути развития: материалы III Национальной научно-практической конференции. Казань, 2021. С. 86–91.
  3. Гладкова И.А., Щанина Е.В. Прогнозирова-ние трудоустройства выпускников вузов // Теоретические и практические аспекты развития современной науки: теория, методология, практика: материалы международной научно-практической конференции. Уфа, 2019. С. 151–155.
  4. Наговицын Р.С. Трудоустройство выпускников педагогических профилей на основе технологий искусственного интеллекта и анализа данных // Мир образования – образование в мире. 2023. № 1 (89). С. 165–176.
  5. Фадеев А.С., Змеев О.А., Газизов Т.Т. Мо-дель университета 4.0 // Научно-педагогическое обозрение. 2020. № 2 (30). С. 172–178. doi: 10.23951/2307-6127-2020-2-172-178
  6. Основные направления информатизации деятельности томского государственного педагогического университета / А.Н. Клишин [и др.] // Вестник Томского государственного педагогического университета. 2015. № 3 (156). C. 110–118.
  7. Наговицын Р.С. Искусственный интеллект по обработке данных абитуриентов для прогнозирования их дальнейшего трудоустройства после обучения // Региональные вузы-драйверы пространственного развития России: материалы Всероссийской с международным участием научно-практической конференции, посвященной 90-летию Удмуртского государственного университета. Ижевск, 2021. С. 92–104.
  8. Изучение опыта прогнозирования туристских потоков с применением алгоритмов машинного обучения / С.А. Лочан [и др.] // Известия высших учебных заведений. Серия: Экономика, финансы и управление производством. 2021. № 4 (50). С. 145–155.
  9. Наука о данных. URL: https://www.tadviser.ru/index.php/Статья:Наука_о_данных_(Data_Science) (дата обращения: 10.09.2023).
  10. Лебедев И.С. Адаптивное применение моделей машинного обучения на отдельных сегментах выборки в задачах регрессии и классификации // Информационно-управляющие системы. URL: https://cyberleninka.ru/article/n/adaptivnoe-primenenie-modeley-mashinnogo-obucheniya-na-otdelnyh-segmentah-vyborki-v-zadachah-regressii-i-klassifikatsii (дата обращения: 15.09.2023).
  11. Сейдаметова З.С. Задачи и алгоритмы ма-шинного обучения: вероятностные графические модели // Информационно-компьютерные технологии в экономике, образовании и социальной сфере. 2019. № 1 (23). С. 180–187.
  12. Згонникова А.О., Прокопенко А.А. Машинное обучение и обучение на протяжении всей жизни // Новые научные исследования: материалы VIII Международной научно-практической конференции. Пенза, 2022. С. 22–24.
  13. Бородин И.Д. Рефлексия в машинном обучении на примере обучения деревьев решений // Аллея науки. 2017. Т. 4, № 9. С. 857–865.
  14. Аналитикам: большая шпаргалка по Pandas. URL: https://smysl.io/blog/pandas/ (дата обращения: 19.09.2023).
  15. Scikit-learn. Машинное обучение в Python. URL: https://scikit-learn.ru/ (дата обращения: 19.09.2023).
  16. Микшина В.С., Павлов С.И. Принятие решений с использованием ансамбля классификаторов // Информационные технологии в науке, образовании и управлении. 2019. № 2 (12). С. 50–54.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рисунок 1. Схема работы модели машинного обучения

Скачать (222KB)
3. Рисунок 2. Результат прогноза с помощью метода логистической регрессии


© Селиванова Е.С., Газизов Т.Т., Долганова Н.Ф., Пираков Ф.Д., 2024

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.