Анализ методов предобработки программного кода для повышения эффективности применения больших языковых моделей в задачах обнаружения уязвимостей
- Авторы: Чаругин В.В.1, Чаругин В.В.1, Ставцев А.В.1, Чесалин А.Н.1
 - 
							Учреждения: 
							
- МИРЭА – Российский технологический университет
 
 - Выпуск: Том 12, № 3 (2025)
 - Страницы: 67-79
 - Раздел: СИСТЕМНЫЙ АНАЛИЗ, УПРАВЛЕНИЕ И ОБРАБОТКА ИНФОРМАЦИИ, СТАТИСТИКА
 - URL: https://journals.eco-vector.com/2313-223X/article/view/695701
 - DOI: https://doi.org/10.33693/2313-223X-2025-12-3-67-79
 - EDN: https://elibrary.ru/BCEAHN
 - ID: 695701
 
Цитировать
Полный текст
Аннотация
С ростом масштабов и сложности программного обеспечения возрастает потребность в интеллектуальных способах выявления уязвимостей. Одним из таких способов является применение больших языковых моделей, обученных на программном коде, способных анализировать и классифицировать уязвимые участки на ранних этапах разработки. Эффективность моделей зависит от способа представления кода и подготовки входных данных. Методы предобработки могут существенно влиять на точность и устойчивость модели. Цель исследования: провести анализ влияния различных методов предобработки программного кода на точность и устойчивость больших языковых моделей (CodeBERT, GraphCodeBERT, UniXcoder) в задачах выявления уязвимостей. Анализ проводится на основе изменений исходного кода, полученных из коммитов, связанных с уязвимостями базы данных CVE. Методология исследования представляет собой экспериментальный анализ эффективности и устойчивости моделей CodeBERT, GraphCodeBERT и UniXcoder при решении задачи классификации уязвимостей. Эффективность оценивается на основе метрик Accuracy и F1 score. Результаты исследования: получены оценки эффективности различных методов предобработки программного кода при использовании больших языковых моделей в задачах классификации уязвимостей.
Полный текст
Об авторах
Валерий Валерьевич Чаругин
МИРЭА – Российский технологический университет
							Автор, ответственный за переписку.
							Email: charugin_v@mirea.ru
				                	ORCID iD: 0009-0003-4950-7726
				                	SPIN-код: 4080-4997
																		                								
преподаватель, кафедра компьютерной и информационной безопасности, Институт искусственного интеллекта
Россия, г. МоскваВалентин Валерьевич Чаругин
МИРЭА – Российский технологический университет
														Email: charugin@mirea.ru
				                	ORCID iD: 0009-0001-1450-0714
				                	SPIN-код: 7264-9403
																		                								
преподаватель, кафедра компьютерной и информационной безопасности, Институт искусственного интеллекта
Россия, г. МоскваАлексей Вячеславович Ставцев
МИРЭА – Российский технологический университет
														Email: stavcev@mirea.ru
				                					                	SPIN-код: 4948-2180
																		                								
кандидат физико-математических наук, доцент, кафедра компьютерной и информационной безопасности, Институт искусственного интеллекта
Россия, г. МоскваАлександр Николаевич Чесалин
МИРЭА – Российский технологический университет
														Email: chesalin_an@mail.ru
				                	ORCID iD: 0000-0002-1154-6151
				                	SPIN-код: 4334-5520
																		                								
кандидат технических наук, доцент, заведующий, кафедра компьютерной и информационной безопасности, Институт искусственного интеллекта
Россия, г. МоскваСписок литературы
- Чаругин В.В., Чесалин А.Н. Анализ и формирование наборов данных сетевого трафика для обнаружения компьютерных атак // International Journal of Open Information Technologies. 2023. Vol. 11. No. 6.
 - Бусько Н.А., Федорченко Е.В., Котенко И.В. Автоматическое оценивание эксплойтов на основе методов глубокого обучения // Онтология проектирования. 2024.
 - Li Y., Li X., Wu H. et al. Everything you wanted to know about LLM-based vulnerability detection but were afraid to ask. 2025. doi: 10.48550/arXiv.2504.13474.
 - Liu C., Chen X., Li X. et al Making vulnerability prediction more practical: prediction, categorization, and localization // Information and Software Technology. 2024. Vol. 171.
 - Дроздов В.А., Яковлев О.В. Применение больших языковых моделей для анализа уязвимостей // Научный аспект № 6-2024 – Информ. технологии. 2024.
 - Чаругин В.В., Чаругин В.В., Чесалин А.Н., Ушкова Н.Н. Конструктор блоков обработки естественного языка и применение его в задаче структурирования логов в информационной безопасности // International Journal of Open Information Technologies. 2024. Vol. 12. No. 9.
 - Ridoy S.Z., Shaon M.S.H., Cuzzocrea A. et al. EnStack: An ensemble stacking framework of large language models for enhanced vulnerability detection in source code. 2024. doi: 10.48550/arXiv.2411.1656.
 - Sultan M.F., Karim T., Shaon M.S.H. et al. A combined feature embedding tools for multi-class software defect and identification. 2024. doi: 10.48550/arXiv.2411.17621.
 - Feng Z., Guo D., Tang D. et al CodeBERT: A pre-trained model for programming and natural languages. 2020. doi: 10.48550/arXiv.2002.08155.
 - Guo D., Ren S., Lu S. et al. GraphCodeBERT: Pre-training code representations with data flow. 2020. doi: 10.48550/arXiv.2009.08366.
 - Guo D., Lu S., Duan N. et al. UniXcoder: Unified cross-modal pre-training for code representation. 2022. doi: 10.48550/arXiv.2203.03850.
 - Karthik K., Moharir M., Jeevan S. et al. Temporal analysis and Common Weakness Enumeration (CWE) code prediction for software vulnerabilities using machine learning // 8th International Conference on Computational System and Information Technology for Sustainable Solutions. 2024.
 - Li Z., Zou D., Xu S. et al. VulDeePecker: A deep learning-based system for vulnerability detection. 2018. doi: 10.48550/arXiv.1801.01681.
 - Zheng T., Liu H., Xu H. et al. Few-VulD: A few-shot learning framework for software vulnerability detection // Computers & Security. 2024. Vol. 144.
 - Bhandari G.P., Naseer A., Moonen L. CVEfixes: Automated collection of vulnerabilities and their fixes from open-source software. 2021. doi: 10.48550/arXiv.2107.08760.
 - Pereira D.G., Afonso A., Medeiros F.M. Overview of friedman’s test and post-hoc analysis // Communication in Statistics – Simulation and Computation. 2015. Vol. 44.
 - Pohlert T. PMCMR: Calculate pairwise multiple comparisons of mean rank sums. 2016. doi: 10.32614/CRAN.package.PMCMR.
 
Дополнительные файлы
				
			
						
					
						
						
						
									





