Analysis of software code preprocessing methods to improve the effectiveness of using large language models in vulnerability detection tasks

Valery V. Charugin; Чаругин Валерий Валерьевич; Valentin V. Charugin; Чаругин Валентин Валерьевич; Alexey V. Stavtsev; Ставцев Алексей Вячеславович; Alexander N. Chesalin; Чесалин Александр Николаевич

doi:10.33693/2313-223X-2025-12-3-67-79

Анализ методов предобработки программного кода для повышения эффективности применения больших языковых моделей в задачах обнаружения уязвимостей

Авторы: Чаругин В.В.¹, Чаругин В.В.¹, Ставцев А.В.¹, Чесалин А.Н.¹
Учреждения:
1. МИРЭА – Российский технологический университет
Выпуск: Том 12, № 3 (2025)
Страницы: 67-79
Раздел: СИСТЕМНЫЙ АНАЛИЗ, УПРАВЛЕНИЕ И ОБРАБОТКА ИНФОРМАЦИИ, СТАТИСТИКА
URL: https://journals.eco-vector.com/2313-223X/article/view/695701
DOI: https://doi.org/10.33693/2313-223X-2025-12-3-67-79
EDN: https://elibrary.ru/BCEAHN
ID: 695701

Цитировать

Полный текст

Открытый доступ
Доступ закрыт

Доступ предоставлен
Доступ закрыт

Доступ платный или только для подписчиков

Аннотация
Полный текст
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

С ростом масштабов и сложности программного обеспечения возрастает потребность в интеллектуальных способах выявления уязвимостей. Одним из таких способов является применение больших языковых моделей, обученных на программном коде, способных анализировать и классифицировать уязвимые участки на ранних этапах разработки. Эффективность моделей зависит от способа представления кода и подготовки входных данных. Методы предобработки могут существенно влиять на точность и устойчивость модели. Цель исследования: провести анализ влияния различных методов предобработки программного кода на точность и устойчивость больших языковых моделей (CodeBERT, GraphCodeBERT, UniXcoder) в задачах выявления уязвимостей. Анализ проводится на основе изменений исходного кода, полученных из коммитов, связанных с уязвимостями базы данных CVE. Методология исследования представляет собой экспериментальный анализ эффективности и устойчивости моделей CodeBERT, GraphCodeBERT и UniXcoder при решении задачи классификации уязвимостей. Эффективность оценивается на основе метрик Accuracy и F₁ score. Результаты исследования: получены оценки эффективности различных методов предобработки программного кода при использовании больших языковых моделей в задачах классификации уязвимостей.

Ключевые слова

большие языковые модели, предобработка кода, анализ уязвимостей, безопасность программного обеспечения, категории уязвимостей, статистический анализ

Полный текст

Об авторах

Валерий Валерьевич Чаругин

МИРЭА – Российский технологический университет

Автор, ответственный за переписку.
Email: charugin_v@mirea.ru
ORCID iD: 0009-0003-4950-7726
SPIN-код: 4080-4997

преподаватель, кафедра компьютерной и информационной безопасности, Институт искусственного интеллекта

Россия, г. Москва

Валентин Валерьевич Чаругин

МИРЭА – Российский технологический университет

Email: charugin@mirea.ru
ORCID iD: 0009-0001-1450-0714
SPIN-код: 7264-9403

преподаватель, кафедра компьютерной и информационной безопасности, Институт искусственного интеллекта

Россия, г. Москва

Алексей Вячеславович Ставцев

МИРЭА – Российский технологический университет

Email: stavcev@mirea.ru
SPIN-код: 4948-2180

кандидат физико-математических наук, доцент, кафедра компьютерной и информационной безопасности, Институт искусственного интеллекта

Россия, г. Москва

Александр Николаевич Чесалин

МИРЭА – Российский технологический университет

Email: chesalin_an@mail.ru
ORCID iD: 0000-0002-1154-6151
SPIN-код: 4334-5520

кандидат технических наук, доцент, заведующий, кафедра компьютерной и информационной безопасности, Институт искусственного интеллекта

Россия, г. Москва

Список литературы

Чаругин В.В., Чесалин А.Н. Анализ и формирование наборов данных сетевого трафика для обнаружения компьютерных атак // International Journal of Open Information Technologies. 2023. Vol. 11. No. 6.
Бусько Н.А., Федорченко Е.В., Котенко И.В. Автоматическое оценивание эксплойтов на основе методов глубокого обучения // Онтология проектирования. 2024.
Li Y., Li X., Wu H. et al. Everything you wanted to know about LLM-based vulnerability detection but were afraid to ask. 2025. doi: 10.48550/arXiv.2504.13474.
Liu C., Chen X., Li X. et al Making vulnerability prediction more practical: prediction, categorization, and localization // Information and Software Technology. 2024. Vol. 171.
Дроздов В.А., Яковлев О.В. Применение больших языковых моделей для анализа уязвимостей // Научный аспект № 6-2024 – Информ. технологии. 2024.
Чаругин В.В., Чаругин В.В., Чесалин А.Н., Ушкова Н.Н. Конструктор блоков обработки естественного языка и применение его в задаче структурирования логов в информационной безопасности // International Journal of Open Information Technologies. 2024. Vol. 12. No. 9.
Ridoy S.Z., Shaon M.S.H., Cuzzocrea A. et al. EnStack: An ensemble stacking framework of large language models for enhanced vulnerability detection in source code. 2024. doi: 10.48550/arXiv.2411.1656.
Sultan M.F., Karim T., Shaon M.S.H. et al. A combined feature embedding tools for multi-class software defect and identification. 2024. doi: 10.48550/arXiv.2411.17621.
Feng Z., Guo D., Tang D. et al CodeBERT: A pre-trained model for programming and natural languages. 2020. doi: 10.48550/arXiv.2002.08155.
Guo D., Ren S., Lu S. et al. GraphCodeBERT: Pre-training code representations with data flow. 2020. doi: 10.48550/arXiv.2009.08366.
Guo D., Lu S., Duan N. et al. UniXcoder: Unified cross-modal pre-training for code representation. 2022. doi: 10.48550/arXiv.2203.03850.
Karthik K., Moharir M., Jeevan S. et al. Temporal analysis and Common Weakness Enumeration (CWE) code prediction for software vulnerabilities using machine learning // 8th International Conference on Computational System and Information Technology for Sustainable Solutions. 2024.
Li Z., Zou D., Xu S. et al. VulDeePecker: A deep learning-based system for vulnerability detection. 2018. doi: 10.48550/arXiv.1801.01681.
Zheng T., Liu H., Xu H. et al. Few-VulD: A few-shot learning framework for software vulnerability detection // Computers & Security. 2024. Vol. 144.
Bhandari G.P., Naseer A., Moonen L. CVEfixes: Automated collection of vulnerabilities and their fixes from open-source software. 2021. doi: 10.48550/arXiv.2107.08760.
Pereira D.G., Afonso A., Medeiros F.M. Overview of friedman’s test and post-hoc analysis // Communication in Statistics – Simulation and Computation. 2015. Vol. 44.
Pohlert T. PMCMR: Calculate pairwise multiple comparisons of mean rank sums. 2016. doi: 10.32614/CRAN.package.PMCMR.