Анализ методов предобработки программного кода для повышения эффективности применения больших языковых моделей в задачах обнаружения уязвимостей

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Доступ платный или только для подписчиков

Аннотация

С ростом масштабов и сложности программного обеспечения возрастает потребность в интеллектуальных способах выявления уязвимостей. Одним из таких способов является применение больших языковых моделей, обученных на программном коде, способных анализировать и классифицировать уязвимые участки на ранних этапах разработки. Эффективность моделей зависит от способа представления кода и подготовки входных данных. Методы предобработки могут существенно влиять на точность и устойчивость модели. Цель исследования: провести анализ влияния различных методов предобработки программного кода на точность и устойчивость больших языковых моделей (CodeBERT, GraphCodeBERT, UniXcoder) в задачах выявления уязвимостей. Анализ проводится на основе изменений исходного кода, полученных из коммитов, связанных с уязвимостями базы данных CVE. Методология исследования представляет собой экспериментальный анализ эффективности и устойчивости моделей CodeBERT, GraphCodeBERT и UniXcoder при решении задачи классификации уязвимостей. Эффективность оценивается на основе метрик Accuracy и F1 score. Результаты исследования: получены оценки эффективности различных методов предобработки программного кода при использовании больших языковых моделей в задачах классификации уязвимостей.

Полный текст

Доступ закрыт

Об авторах

Валерий Валерьевич Чаругин

МИРЭА – Российский технологический университет

Автор, ответственный за переписку.
Email: charugin_v@mirea.ru
ORCID iD: 0009-0003-4950-7726
SPIN-код: 4080-4997

преподаватель, кафедра компьютерной и информационной безопасности, Институт искусственного интеллекта

Россия, г. Москва

Валентин Валерьевич Чаругин

МИРЭА – Российский технологический университет

Email: charugin@mirea.ru
ORCID iD: 0009-0001-1450-0714
SPIN-код: 7264-9403

преподаватель, кафедра компьютерной и информационной безопасности, Институт искусственного интеллекта

Россия, г. Москва

Алексей Вячеславович Ставцев

МИРЭА – Российский технологический университет

Email: stavcev@mirea.ru
SPIN-код: 4948-2180

кандидат физико-математических наук, доцент, кафедра компьютерной и информационной безопасности, Институт искусственного интеллекта

Россия, г. Москва

Александр Николаевич Чесалин

МИРЭА – Российский технологический университет

Email: chesalin_an@mail.ru
ORCID iD: 0000-0002-1154-6151
SPIN-код: 4334-5520

кандидат технических наук, доцент, заведующий, кафедра компьютерной и информационной безопасности, Институт искусственного интеллекта

Россия, г. Москва

Список литературы

  1. Чаругин В.В., Чесалин А.Н. Анализ и формирование наборов данных сетевого трафика для обнаружения компьютерных атак // International Journal of Open Information Technologies. 2023. Vol. 11. No. 6.
  2. Бусько Н.А., Федорченко Е.В., Котенко И.В. Автоматическое оценивание эксплойтов на основе методов глубокого обучения // Онтология проектирования. 2024.
  3. Li Y., Li X., Wu H. et al. Everything you wanted to know about LLM-based vulnerability detection but were afraid to ask. 2025. doi: 10.48550/arXiv.2504.13474.
  4. Liu C., Chen X., Li X. et al Making vulnerability prediction more practical: prediction, categorization, and localization // Information and Software Technology. 2024. Vol. 171.
  5. Дроздов В.А., Яковлев О.В. Применение больших языковых моделей для анализа уязвимостей // Научный аспект № 6-2024 – Информ. технологии. 2024.
  6. Чаругин В.В., Чаругин В.В., Чесалин А.Н., Ушкова Н.Н. Конструктор блоков обработки естественного языка и применение его в задаче структурирования логов в информационной безопасности // International Journal of Open Information Technologies. 2024. Vol. 12. No. 9.
  7. Ridoy S.Z., Shaon M.S.H., Cuzzocrea A. et al. EnStack: An ensemble stacking framework of large language models for enhanced vulnerability detection in source code. 2024. doi: 10.48550/arXiv.2411.1656.
  8. Sultan M.F., Karim T., Shaon M.S.H. et al. A combined feature embedding tools for multi-class software defect and identification. 2024. doi: 10.48550/arXiv.2411.17621.
  9. Feng Z., Guo D., Tang D. et al CodeBERT: A pre-trained model for programming and natural languages. 2020. doi: 10.48550/arXiv.2002.08155.
  10. Guo D., Ren S., Lu S. et al. GraphCodeBERT: Pre-training code representations with data flow. 2020. doi: 10.48550/arXiv.2009.08366.
  11. Guo D., Lu S., Duan N. et al. UniXcoder: Unified cross-modal pre-training for code representation. 2022. doi: 10.48550/arXiv.2203.03850.
  12. Karthik K., Moharir M., Jeevan S. et al. Temporal analysis and Common Weakness Enumeration (CWE) code prediction for software vulnerabilities using machine learning // 8th International Conference on Computational System and Information Technology for Sustainable Solutions. 2024.
  13. Li Z., Zou D., Xu S. et al. VulDeePecker: A deep learning-based system for vulnerability detection. 2018. doi: 10.48550/arXiv.1801.01681.
  14. Zheng T., Liu H., Xu H. et al. Few-VulD: A few-shot learning framework for software vulnerability detection // Computers & Security. 2024. Vol. 144.
  15. Bhandari G.P., Naseer A., Moonen L. CVEfixes: Automated collection of vulnerabilities and their fixes from open-source software. 2021. doi: 10.48550/arXiv.2107.08760.
  16. Pereira D.G., Afonso A., Medeiros F.M. Overview of friedman’s test and post-hoc analysis // Communication in Statistics – Simulation and Computation. 2015. Vol. 44.
  17. Pohlert T. PMCMR: Calculate pairwise multiple comparisons of mean rank sums. 2016. doi: 10.32614/CRAN.package.PMCMR.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Гистограмма распределения актуальных категорий уязвимостей для языка Python

Скачать (204KB)
3. Рис. 2. Схема предобработки и анализа данных для классификации CWE

Скачать (298KB)
4. Рис. 3. Диаграмма точности методов для модели UniXcoder

Скачать (411KB)
5. Рис. 4. Диаграмма точности комбинации методов для модели UniXcoder

Скачать (553KB)

© Юр-ВАК, 2025

Ссылка на описание лицензии: https://www.urvak.ru/contacts/