A study of dynamics and classification of attacks on corporate network web services

Sergey V. Isaev; Исаев Сергей Владиславович; Dmitry D. Kononov; Кононов Дмитрий Дмитриевич

doi:10.31772/2712-8970-2022-23-4-593-601

A study of dynamics and classification of attacks on corporate network web services

Authors: Isaev S.V.¹, Kononov D.D.¹
Affiliations:
1. Institute of Computational Modelling of the SB RAS
Issue: Vol 23, No 4 (2022)
Pages: 593-601
Section: Section 1. Computer Science, Computer Engineering and Management
Published: 23.12.2022
URL: https://journals.eco-vector.com/2712-8970/article/view/530168
DOI: https://doi.org/10.31772/2712-8970-2022-23-4-593-601
ID: 530168

Cite item

Full Text

Abstract
Full Text
About the authors
References
Supplementary files
Statistics

Abstract

The article presents a study of the dynamics of attacks on web services using the classification of cyber threats by type on the example of the corporate network of the Krasnoyarsk Scientific Center of the Siberian Branch of the Russian Academy of Sciences. The analysis was carried out on the basis of web services logs and allows solving urgent problems of ensuring the integrated security of web services, including identifying both existing and potential cybersecurity threats. A review of the main approaches to the processing and analysis of logs is provided. The authors describe the type and composition of data sources and provide a list of the software used. A feature of the study is the long observation period. The structure of the processing system is proposed and software tools for attack analysis and classification are implemented. The work shows that the use of classified samples allows detecting periodicity and reveal trends of certain types of attacks. Unclassified attacks have similar distribution parameters for different years, while in the case of classification, the distribution parameters change significantly, which makes it possible to track risks in automated intrusion prevention systems. A correlation matrix by type of attack was constructed. The analysis showed that most attack types have weak correlation, with the exception of the attacks “command injection”, “directory browsing”, “Java code injection”, which can be aggregated. The authors proposed a heuristic method of risk comparison based on cyber threat classification. The method uses statistical parameters of sample distributions and allows working with different time intervals. The paper georeferenced the IP addresses from which the attacks were carried out, built attack profiles for different countries, and provided a list of countries with a stable attack profile. The conclusion indicates the features of the proposed method and outlines the prospects for its use in other areas.

Keywords

analysis, security, web, internet, attack, corporate network

Full Text

Введение

В настоящее время многие компании используют веб-технологии для организации корпоративных сервисов различного уровня (почта, облачные технологии, хостинг, видеоконференции). Необходимо отметить, что веб-сервисы подвержены рискам информационной безопасности, поскольку функционируют в открытой сети Интернет. Важной часть функционирования современных информационных систем является задача обеспечения информационной безопасности, которая является комплексной и включает набор мероприятий на различных уровнях, выполнение которых позволяет снизить риски киберугроз. Одним из важных компонентов по обеспечению безопасности является анализ различных журналов активности, которые генерирует система [1]. В частности, представляет интерес журналы веб-серверов nginx и apache, анализ которых позволяет выявить кибератаки, совершаемые на систему. В веб-системах объемы журналов могут иметь значительные размеры, что затрудняет их анализ в ручном режиме, в этом случае необходимо использовать автоматизированные инструменты для обработки и анализа данных [2]. Как правило, анализ данных предусматривает обработку различными программными средствами и представляет собой многоступенчатый процесс [3; 4]. Полученные при анализе данные можно использовать для моделирования системы информационной безопасности [5] либо для сопоставления поведенческих шаблонов оборудования реальным кибератакам [6].

Смежные работы

При анализе журналов используются разные подходы. Один из самых популярных методов является сигнатурный анализ. Обработчики журналов используют заранее определенные сигнатуры для идентификации вредоносных событий и их классификацию [7; 8]. При этом из элементов журнала могут извлекаться дополнительные параметры и характеристики, которые могут быть использованы для последующего анализа, например, кластеризации и обнаружения аномалий [9]. Как правило, сбои во время кибератак порождают записи журнала, которые отличаются от записей, представляющих штатное поведение системы. Поэтому целесообразно обращать внимание на отдельные записи журнала, которые не вписываются в общую картину. При кластеризации такие записи идентифицируются высокой степенью несходства со всеми существующими кластерами или не соответствуют никаким сигнатурам [10; 11]. Однако не все неблагоприятное события системы проявляются в виде отдельных аномальных записей журнала, а, скорее, в виде динамических или последовательных аномалий. Поэтому необходимы подходы, которые позволяют группировать последовательности записей или выявлять временные закономерности и корреляции. Динамическая кластеризация позволяет идентифицировать события, имеющие несколько разнородных и разрозненных по времени записей в журнале [12; 13], что даёт возможность обнаруживать неявное нештатное поведение.

Существующие работы используют различные методы анализа журналов сервисов. Часто авторы описывают методику анализа и в качестве примера используют тестовые данные, что не позволяет оценить работоспособность подхода на реальных данных. Либо используются реальные данные с короткими временными интервалами, что затрудняет анализ динамики происходящих процессов за различные периоды.

В данной работе проводится исследование безопасности корпоративной сети Красноярского научного центра (ФИЦ КНЦ СО РАН) на основе анализа журналов веб-сервисов. Целью работы является анализ безопасности веб-сервисов в динамике за последние 2 года, классификация кибератак по видам, выявление зависимостей между различными параметрами атак. В отличие от существующих работ, анализ выполняется на длительных временных интервалах, что позволяет выявить динамику поведения веб-сервисов по часам, дням, месяцам и годам. Работа является продолжением исследования безопасности веб-сервисов корпоративной сети [14], по сравнению с предыдущей работой выполнена классификация киберугороз по типам, предложен метод оценки рисков.

Источник данных и методика обработки

Источниками данных для анализа в работе являются данные веб-сервисов за 2020–2021 ги неполный 2022 (объем 45 Гб, 176 млн элементов). Анализ выполнялся с помощью следующих программных инструментов: UNIX tools, GAccess, libmaxmind, JSON tools, Python, Microsoft Excel. На рис. 1 представлены стадии обработки данных.

Рис. 1. Стадии обработки данных

Fig. 1. Stages of data processing

Первичная обработка включает агрегацию журналов со всех веб-сервисов и унификацию формата для последующей обработки. Для всех данных выполняется геопривязка источника – определение страны по IP-адресу (GeoIP). Затем выполняется обработка ошибок (как клиентских, так и серверных) с агрегацией по различным интервалам времени (год, месяц, день, час). Также выполняется обработка атак, которая включает классификацию по типам с последующей агрегацией по геоданным. Классификация атак по типам осуществляется по OWASP [15] с использованием набора правил ModSecurity Core Rule Set [16], предназначенного для идентификации киберугроз веб-приложений. Для обработки атак был разработан комплекс программ GSec на языках Go и C, осуществляющий автоматизированную классификацию атак по типам и агрегацию данных по различным временным интервалам.

Анализ данных WWW

Анализ общего числа атак за 2020–2022 гпоказывает, что в среднем их ежедневное количество меняется в небольших пределах: 3664 в 2020 г., 3481 в 2021 и 3698 в 2022 (3 % отклонения от среднего по году). Вместе с тем максимальное число атак изменяется в широких пределах от 8500 до 21000 за день, что свидетельствует об одновременном функционировании нескольких нескоординированных источников. На рис. 2 представлена общая динамика обнаруженных атак по месяцам за 2020–2022 гМы фиксируем отсутствие выраженной периодичности как при ежедневном, так и при ежемесячном суммировании.

Рис. 2. Общая динамика атак по месяцам

Fig. 2. General dynamics of attacks by month

При переходе к анализу атак по видам можно выделить явные тренды на увеличение количества атак отдельных видов. На рис. 3 представлено ежемесячное количество атак типов POLICY/EXT_RESTR (запрещенное расширение) и WEB/FILE_INJ (инъекция файла), на примере которых отчетливо видно увеличение интенсивности в 2 и более раза, незаметное на рис. 2.

На графике агрегации по дням за 2022 (рис. 4) незаметен обнаруженный на рис. 3 восходящий тренд. Виден отдельный пик в районе 26 февраля 2022 г., который можно связать с массовыми кибератаками на интернет-ресурсы России. Таким образом, наиболее эффективным способом обнаружения повышения риска киберугроз является анализ классифицированных угроз с агрегацией до месяца.

Рис. 3. Динамика классифицированных атак по месяцам

Fig. 3. Dynamics of classified attacks by month

Рис. 4. Динамика неклассифицированных атак и атак типа «инъекция файлов»

Fig. 4. Dynamics of unclassified attacks and file injection attacks

На рис. 5 приведены диаграммы размаха для распределений за 2022, 2021 и 2020 гг.: неклассифицированные атаки (а), атаки типа WEB/CMD_INJ (инъекция команд) (б) и атаки типа WEB/FILE_INJ (инъекция файла) (в). Если неклассифицированное распределение атак имеет схожие параметры за разные годы, то в случае применения классификации параметры распределения изменяются достаточно существенно, особенно для 2022 г., который характеризуется увеличением риска киберугроз. Для выбора набора показателей была построена матрица корреляций их распределений по дням за весь наблюдаемый период 2020–2022 г(рис. 6). Большинство показателей имеют слабую корреляцию, за исключением WEB/CMD_INJ (инъекция команд), WEB/DIR_TRAVERSAL (просмотр директории) и WEB/JAVA_INJ (инъекция кода Ява), которые можно агрегировать.

Рис. 5. Диаграммы размаха атак по годам: а – неклассифицированные; б – WEB/CMD_INJ; в – WEB/FILE_INJ

Fig. 5. Range diagrams of attacks by year: а – unclassified; b – WEB/CMD_INJ; с – WEB/FILE_INJ

Рис. 6. Матрица корреляций распределений классифицированных атак

Fig. 6. Distributions correlations matrix of classified attacks

Метод оценки изменения рисков киберугроз

На основе проведенного анализа видно, что отдельные классифицированные типы атак содержат больше информации по динамике рисков, чем неклассифицированные. Выбирая независимые классифицированные типы атак и вычисляя для временных выборок их статистические показатели, можно предложить следующий эвристический метод для оценки изменения рисков киберугроз, основанный на сравнении параметров распределений выборок. Для выборок V₁ и V₂, содержащих N независимых показателей, введем следующую функцию R оценки изменения рисков:

$R (V_{1}, V_{2}) = \frac{1}{N} \cdot \sum_{i = 1}^{N} K_{i},$

$K_{i} = \{\begin{cases} 1, если μ_{i} > 0,6745 \cdot σ_{i}, \\ 0, если - 0,6745 \cdot σ_{i} \leq μ_{i} \leq 0,6745 \cdot σ_{i}, \\ - 1, если μ_{i} < - 0,6745 \cdot σ_{i}; \end{cases}$

где $µ_{i}$ – среднее значение выборки $i$ -го признака выборки $V_{2}$ ; $σ_{i}$ – среднеквадратическое отклонение выборки $i$ -го признака выборки $V_{1}$ .

Согласно предложенному методу, если среднее значение всех N признаков выборки V₂ больше третьего квартиля выборки V₁, то значение изменения риска равно 1, которое можно интерпретировать как существенное увеличение риска по всем показателям. Если среднее значение всех N признаков выборки V₂ меньше первого квартиля выборки V₁, то значение изменения риска равно –1 (уменьшение риска по всем показателям). Значение R(V₁,V₂) ∈ [−1,1], что позволяет использовать этот показатель для анализа с помощью методов искусственного интеллекта, в частности, метода Шортлиффа.

Оценка профилей атак

Из журналов была извлечена информация о геопривязке IP-адресов и проведен анализ источников атак по типам. Рассчитаны корреляции выборок 2020 и 2021 гпо типам атак для стран из топ-15 по интенсивности атак. Если допустить предположение, что соотношение показателей атак разного типа (профиль атаки) определяется набором программного обеспечения, используемого для проведения атаки, то высокую корреляцию таких выборок по одной стране в разные периоды времени можно интерпретировать как фиксированный набор используемого для атак ПО (атакуемых уязвимостей). Полученная диаграмма рис. 7 показывает, что странами с наиболее стабильной структурой атак являются Китай, Россия, Германия, Великобритания, США и Польша.

Рис. 7. Корреляция структуры атак 2020 и 2021 гпо странам

Fig. 7. Correlation of attack patterns in 2020 and 2021 by country

Страны с низкой корреляцией (Голландия, Гонконг, Украина) не имеют постоянного набора программного обеспечения для атак и, вероятно, используются разными группами злоумышленников, контролирующих ботнет-сети.

Заключение

В работе рассмотрена динамика атак на веб-сервисы по странам, выделены основные группы стран с постоянным профилем атак и высокой их интенсивностью. Выполнено сравнение попарных корреляций различных видов атак, выявлены атаки с высокой корреляцией, которые можно агрегировать при оценке рисков. Предложен метод сравнения рисков кибербезопасности для различных периодов, использующий классификацию по видам атак. Метод не зависит от сравниваемых временных интервалов и объема выборок, так как основан на статистических показателях. Метод оценки рисков кибербезопасности может использоваться в других областях, в которых существует классификация показателей.

About the authors

Sergey V. Isaev

Institute of Computational Modelling of the SB RAS

Email: si@icm.krasn.ru

Cand. Sc., associate professor, head of the Department of Information and Telecommunication Technologies

Russian Federation, 50/44, Akademgorodok St., Krasnoyarsk, 660036

Dmitry D. Kononov

Institute of Computational Modelling of the SB RAS

Author for correspondence.
Email: ddk@icm.krasn.ru

scientific researcher

Russian Federation, 50/44, Akademgorodok St., Krasnoyarsk, 660036

References

Landauer M., Skopik F., Wurzenberger M., Rauber A. System log clustering approaches for cyber security applications: A survey. Computers & Security. 2020, Vol. 92, P. 101739.
He P., Zhu J., He S., Li J. et al. Towards Automated Log Parsing for Large-Scale LogData Analysis. IEEE Transactions on Dependable and Secure Computing. 2017, Vol. 15, No. 6, P. 931–944.
Moh M., Pininti S., Doddapaneni S., Moh T. Detecting Web Attacks Using Multi-stage Log Analysis. IEEE 6th International Conference on Advanced Computing (IACC). 2016, P. 733–738.
Zhu J. et al. Tools and Benchmarks for Automated Log Parsing. IEEE/ACM 41st International Conference on Software Engineering: Software Engineering in Practice (ICSE-SEIP). 2019, P. 121–130.
Efimova Yu. V., Gavrilov A. G. [Modeling an information security system based on the analysis of system logs]. Inzhenernyi vestnik Dona. 2019, No. 6 (57), P. 40 (In Russ.).
Bolodurina I. P., Parfenov D. I., Zabrodina L. S. et al. [Modeling the identification of a cyber attack profile based on the analysis of the behavior of devices in the network of a telecommunications service provider]. Vestnik Yuzhno-Ural'skogo gosudarstvennogo universiteta. 2019, No. 4, P. 48–59 (In Russ.).
He P., Zhu J., Zheng Z., Lyu M. R. Drain: an online log parsing approach with fixed depth tree. Proc. of the International Conference on Web Services (ICWS). IEEE, 2017, P. 33-40.
Reidemeister T., Jiang M., Ward P. A. Mining unstructured log files for recurrent fault diagnosis. Proc. of the Int. Symp. on Integrated Netw. Mgmt. IEEE, 2011, P. 377–384.
Sidorova D. N., Pivkin E. N. [Algorithms and methods of data clustering in the analysis of information security event logs]. Bezopasnost' tsifrovykh tekhnologii. 2022, No. 1 (104), P. 41–60 (In Russ.).
Juvonen A., Sipola T., Hamalainen T. Online anomaly detection using dimensionality reduction techniques for http log analysis. Computer Networks. 2015, No. 91, P. 46–56.
Wurzenberger M., Skopik F., Landauer M., Greitbauer P., Fiedler R., Kastner W. Incremental clustering for semi-supervised anomaly detection applied on log data. Proc. of the 12th International Conference on Availability, Reliability and Security, ACM (2017), P. 31:1–31:6.
Aharon M., Barash G., Cohen I., Mordechai E. One graph is worth a thousand logs: uncovering hidden structures in massive system event logs. Proc. of the Joint Eur. Conf. on Machine Learning and Knowledge Discovery in Databases. Springer, 2009, P. 227–243.
Jia T., Yang L., Chen P., Li Y., Meng F., Xu J. Logsed: anomaly diagnosis through mining time-weighted control flow graph in logs. Proc. of the 10th Int. Conf. on Cloud Comp. (CLOUD). IEEE, 2017, P. 447–455.
Kononov D., Isaev S. Analysis of the dynamics of Internet threats for corporate network web services. CEUR Workshop Proceedings. The 2nd Siberian Scientific Workshop on Data Analysis Technologies with Applications 2021. 2021, Vol. 3047, P. 71–78.
Helmiawan M. A., Firmansyah E., Fadil I., Sofivan Y., Mahardika F. and Guntara A. Analysis of Web Security Using Open Web Application Security Project 10. 8th International Conference on Cyber and IT Service Management (CITSM). 2020, P. 1–5.
OWASP ModSecurity Core Rule Set. Available at: https://owasp.org/www-project-modsecurity-core-rule-set/ (accessed: 13.05.2022).

Supplementary files

Supplementary Files

Action

1. JATS XML

Download

Username
Password
Remember me

Forgot password?	Register

Username
Password
Remember me

Forgot password?	Register