Исследование динамики и классификация атак на веб-сервисы корпоративной сети

Обложка

Цитировать

Полный текст

Аннотация

В статье представлено исследование динамики атак на веб-сервисы с использованием классификации киберугроз по типам на примере корпоративной сети Красноярского научного центра СО РАН. Анализ проведен на основе журналов веб-сервисов и позволяет решить актуальные задачи обеспечения комплексной безопасности веб-сервисов, в том числе выявить как существующие, так и потенциальные угрозы кибербезопасности. Проведен обзор основных подходов к обработке и анализу журналов. Авторы описывают тип и состав источников данных и приводят список используемого программного обеспечения. Особенностью исследования является длительный период наблюдения. Предложена структура системы обработки и реализован программный комплекс для анализа и классификации атак. В работе показано, что использование классифицированных выборок позволяет обнаружить периодичность и выявить тренды по отдельным видам атак. Анализ показал, что наиболее эффективным способом обнаружения повышения риска киберугроз является анализ классифицированных угроз с агрегацией до месяца. Неклассифицированные атаки имеют схожие параметры распределения по разным годам, в случае же применения классификации параметры распределения существенно меняются, что позволяет отслеживать риски в автоматизированных системах предотвращения вторжений. Была построена матрица корреляций по типам атак. Анализ показал, что большинство типов атак имеет слабую корреляцию, за исключением атак «инъекция команд», «просмотр директории», «инъекция кода Ява», которые можно агрегировать. Авторами предложен эвристический метод сравнения рисков, основанный на классификации киберугроз. Метод использует статистические параметры распределений выборок и позволяет работать с различными временными интервалами. В работе выполнена геопривязка IP-адресов, с которых проводились атаки, построены профили атак для разных стран и приведен список стран, имеющих стабильный профиль атак. В заключение указаны особенности предложенного метода и обозначены перспективы использования в других областях.

Полный текст

Введение

В настоящее время многие компании используют веб-технологии для организации корпоративных сервисов различного уровня (почта, облачные технологии, хостинг, видеоконференции). Необходимо отметить, что веб-сервисы подвержены рискам информационной безопасности, поскольку функционируют в открытой сети Интернет. Важной часть функционирования современных информационных систем является задача обеспечения информационной безопасности, которая является комплексной и включает набор мероприятий на различных уровнях, выполнение которых позволяет снизить риски киберугроз. Одним из важных компонентов по обеспечению безопасности является анализ различных журналов активности, которые генерирует система [1]. В частности, представляет интерес журналы веб-серверов nginx и apache, анализ которых позволяет выявить кибератаки, совершаемые на систему. В веб-системах объемы журналов могут иметь значительные размеры, что затрудняет их анализ в ручном режиме, в этом случае необходимо использовать автоматизированные инструменты для обработки и анализа данных [2]. Как правило, анализ данных предусматривает обработку различными программными средствами и представляет собой многоступенчатый процесс [3; 4]. Полученные при анализе данные можно использовать для моделирования системы информационной безопасности [5] либо для сопоставления поведенческих шаблонов оборудования реальным кибератакам [6].

Смежные работы

При анализе журналов используются разные подходы. Один из самых популярных методов является сигнатурный анализ. Обработчики журналов используют заранее определенные сигнатуры для идентификации вредоносных событий и их классификацию [7; 8]. При этом из элементов журнала могут извлекаться дополнительные параметры и характеристики, которые могут быть использованы для последующего анализа, например, кластеризации и обнаружения аномалий [9]. Как правило, сбои во время кибератак порождают записи журнала, которые отличаются от записей, представляющих штатное поведение системы. Поэтому целесообразно обращать внимание на отдельные записи журнала, которые не вписываются в общую картину. При кластеризации такие записи идентифицируются высокой степенью несходства со всеми существующими кластерами или не соответствуют никаким сигнатурам [10; 11]. Однако не все неблагоприятное события системы проявляются в виде отдельных аномальных записей журнала, а, скорее, в виде динамических или последовательных аномалий. Поэтому необходимы подходы, которые позволяют группировать последовательности записей или выявлять временные закономерности и корреляции. Динамическая кластеризация позволяет идентифицировать события, имеющие несколько разнородных и разрозненных по времени записей в журнале [12; 13], что даёт возможность обнаруживать неявное нештатное поведение.

Существующие работы используют различные методы анализа журналов сервисов. Часто авторы описывают методику анализа и в качестве примера используют тестовые данные, что не позволяет оценить работоспособность подхода на реальных данных. Либо используются реальные данные с короткими временными интервалами, что затрудняет анализ динамики происходящих процессов за различные периоды.

В данной работе проводится исследование безопасности корпоративной сети Красноярского научного центра (ФИЦ КНЦ СО РАН) на основе анализа журналов веб-сервисов. Целью работы является анализ безопасности веб-сервисов в динамике за последние 2 года, классификация кибератак по видам, выявление зависимостей между различными параметрами атак. В отличие от существующих работ, анализ выполняется на длительных временных интервалах, что позволяет выявить динамику поведения веб-сервисов по часам, дням, месяцам и годам. Работа является продолжением исследования безопасности веб-сервисов корпоративной сети [14], по сравнению с предыдущей работой выполнена классификация киберугороз по типам, предложен метод оценки рисков.

Источник данных и методика обработки

Источниками данных для анализа в работе являются данные веб-сервисов за 2020–2021 ги неполный 2022 (объем 45 Гб, 176 млн элементов). Анализ выполнялся с помощью следующих программных инструментов: UNIX tools, GAccess, libmaxmind, JSON tools, Python, Microsoft Excel. На рис. 1 представлены стадии обработки данных.

 

Рис. 1. Стадии обработки данных

Fig. 1. Stages of data processing

 

Первичная обработка включает агрегацию журналов со всех веб-сервисов и унификацию формата для последующей обработки. Для всех данных выполняется геопривязка источника – определение страны по IP-адресу (GeoIP). Затем выполняется обработка ошибок (как клиентских, так и серверных) с агрегацией по различным интервалам времени (год, месяц, день, час). Также выполняется обработка атак, которая включает классификацию по типам с последующей агрегацией по геоданным. Классификация атак по типам осуществляется по OWASP [15] с использованием набора правил ModSecurity Core Rule Set [16], предназначенного для идентификации киберугроз веб-приложений. Для обработки атак был разработан комплекс программ GSec на языках Go и C, осуществляющий автоматизированную классификацию атак по типам и агрегацию данных по различным временным интервалам.

Анализ данных WWW

Анализ общего числа атак за 2020–2022 гпоказывает, что в среднем их ежедневное количество меняется в небольших пределах: 3664 в 2020 г., 3481 в 2021 и 3698 в 2022 (3 % отклонения от среднего по году). Вместе с тем максимальное число атак изменяется в широких пределах от 8500 до 21000 за день, что свидетельствует об одновременном функционировании нескольких нескоординированных источников. На рис. 2 представлена общая динамика обнаруженных атак по месяцам за 2020–2022 гМы фиксируем отсутствие выраженной периодичности как при ежедневном, так и при ежемесячном суммировании.

 

Рис. 2. Общая динамика атак по месяцам

Fig. 2. General dynamics of attacks by month

 

При переходе к анализу атак по видам можно выделить явные тренды на увеличение количества атак отдельных видов. На рис. 3 представлено ежемесячное количество атак типов POLICY/EXT_RESTR (запрещенное расширение) и WEB/FILE_INJ (инъекция файла), на примере которых отчетливо видно увеличение интенсивности в 2 и более раза, незаметное на рис. 2.

На графике агрегации по дням за 2022 (рис. 4) незаметен обнаруженный на рис. 3 восходящий тренд. Виден отдельный пик в районе 26 февраля 2022 г., который можно связать с массовыми кибератаками на интернет-ресурсы России. Таким образом, наиболее эффективным способом обнаружения повышения риска киберугроз является анализ классифицированных угроз с агрегацией до месяца.

 

Рис. 3. Динамика классифицированных атак по месяцам

Fig. 3. Dynamics of classified attacks by month

 

Рис. 4. Динамика неклассифицированных атак и атак типа «инъекция файлов»

Fig. 4. Dynamics of unclassified attacks and file injection attacks

 

На рис. 5 приведены диаграммы размаха для распределений за 2022, 2021 и 2020 гг.: неклассифицированные атаки (а), атаки типа WEB/CMD_INJ (инъекция команд) (б) и атаки типа WEB/FILE_INJ (инъекция файла) (в). Если неклассифицированное распределение атак имеет схожие параметры за разные годы, то в случае применения классификации параметры распределения изменяются достаточно существенно, особенно для 2022 г., который характеризуется увеличением риска киберугроз. Для выбора набора показателей была построена матрица корреляций их распределений по дням за весь наблюдаемый период 2020–2022 г(рис. 6). Большинство показателей имеют слабую корреляцию, за исключением WEB/CMD_INJ (инъекция команд), WEB/DIR_TRAVERSAL (просмотр директории) и WEB/JAVA_INJ (инъекция кода Ява), которые можно агрегировать.

 

Рис. 5. Диаграммы размаха атак по годам: а – неклассифицированные; б – WEB/CMD_INJ; в – WEB/FILE_INJ

Fig. 5. Range diagrams of attacks by year:  аunclassified; bWEB/CMD_INJ; сWEB/FILE_INJ

 

Рис. 6. Матрица корреляций распределений классифицированных атак

Fig. 6. Distributions correlations matrix of classified attacks

 

Метод оценки изменения рисков киберугроз

На основе проведенного анализа видно, что отдельные классифицированные типы атак содержат больше информации по динамике рисков, чем неклассифицированные. Выбирая независимые классифицированные типы атак и вычисляя для временных выборок их статистические показатели, можно предложить следующий эвристический метод для оценки изменения рисков киберугроз, основанный на сравнении параметров распределений выборок. Для выборок V1 и V2, содержащих N независимых показателей, введем следующую функцию R оценки изменения рисков:

R(V1,V2)=1Ni=1NKi,

Ki=  1, если μi>0,6745σi,  0, если 0,6745σiμi0,6745σi,1, если μi<0,6745σi;

где  µi – среднее значение выборки i-го признака выборки V2; σi  – среднеквадратическое отклонение выборки i-го признака выборки V1.

Согласно предложенному методу, если среднее значение всех N признаков выборки V2 больше третьего квартиля выборки V1, то значение изменения риска равно 1, которое можно интерпретировать как существенное увеличение риска по всем показателям. Если среднее значение всех N признаков выборки V2 меньше первого квартиля выборки V1, то значение изменения риска равно –1 (уменьшение риска по всем показателям). Значение R(V1,V2) ∈ [−1,1], что позволяет использовать этот показатель для анализа с помощью методов искусственного интеллекта, в частности, метода Шортлиффа.

Оценка профилей атак

Из журналов была извлечена информация о геопривязке IP-адресов и проведен анализ источников атак по типам. Рассчитаны корреляции выборок 2020 и 2021 гпо типам атак для стран из топ-15 по интенсивности атак. Если допустить предположение, что соотношение показателей атак разного типа (профиль атаки) определяется набором программного обеспечения, используемого для проведения атаки, то высокую корреляцию таких выборок по одной стране в разные периоды времени можно интерпретировать как фиксированный набор используемого для атак ПО (атакуемых уязвимостей). Полученная диаграмма рис. 7 показывает, что странами с наиболее стабильной структурой атак являются Китай, Россия, Германия, Великобритания, США и Польша.

 

Рис. 7. Корреляция структуры атак 2020 и 2021 гпо странам

Fig. 7. Correlation of attack patterns in 2020 and 2021 by country

 

Страны с низкой корреляцией (Голландия, Гонконг, Украина) не имеют постоянного набора программного обеспечения для атак и, вероятно, используются разными группами злоумышленников, контролирующих ботнет-сети.

Заключение

В работе рассмотрена динамика атак на веб-сервисы по странам, выделены основные группы стран с постоянным профилем атак и высокой их интенсивностью. Выполнено сравнение попарных корреляций различных видов атак, выявлены атаки с высокой корреляцией, которые можно агрегировать при оценке рисков. Предложен метод сравнения рисков кибербезопасности для различных периодов, использующий классификацию по видам атак. Метод не зависит от сравниваемых временных интервалов и объема выборок, так как основан на статистических показателях. Метод оценки рисков кибербезопасности может использоваться в других областях, в которых существует классификация показателей.

×

Об авторах

Сергей Владиславович Исаев

Институт вычислительного моделирования СО РАН

Email: si@icm.krasn.ru

кандидат технических наук, доцент, заведующий отделом информационно-телекоммуникационных технологий

Россия, 660036, Красноярск, ул. Академгородок, 50/44

Дмитрий Дмитриевич Кононов

Институт вычислительного моделирования СО РАН

Автор, ответственный за переписку.
Email: ddk@icm.krasn.ru

научный сотрудник

Россия, 660036, Красноярск, ул. Академгородок, 50/44

Список литературы

  1. System log clustering approaches for cyber security applications: A survey / M. Landauer, F. Skopik, M. Wurzenberger, A. Rauber // Computers & Security. 2020. Vol. 92. P. 101739.
  2. Towards Automated Log Parsing for Large-Scale Log Data Analysis / P. He, J. Zhu, S. He, J. Li et al. // IEEE Transactions on Dependable and Secure Computing. 2017. Vol. 15, No. 6. P. 931–944.
  3. Detecting Web Attacks Using Multi-stage Log Analysis / M. Moh, S. Pininti, S. Doddapaneni, T. Moh // IEEE 6th International Conference on Advanced Computing (IACC). 2016. P. 733–738.
  4. Tools and Benchmarks for Automated Log Parsing / Zhu J. et al. // IEEE/ACM 41st International Conference on Software Engineering: Software Engineering in Practice (ICSE-SEIP). 2019. P. 121–130.
  5. Ефимова Ю. В., Гаврилов А. Моделирование системы информационной безопасности на основе анализа системных журналов // Инженерный вестник Дона. 2019. № 6 (57). С. 40.
  6. Моделирование идентификации профиля кибератак на основе анализа поведения устройств в сети провайдера телекоммуникационных услуг / И. П. Болодурина, Д. И. Парфёнов, Л. С. Забродина и др. // Вестник Южно-Уральского гос. университета. 2019. № 4. С. 48–59.
  7. Drain: an online log parsing approach with fixed depth tree / P. He, J. Zhu, Z. Zheng, M. R. Lyu // Proc. of the International Conference on Web Services (ICWS). 2017. IEEE. P. 33–40.
  8. Reidemeister T., Jiang M., Ward P. A. Mining unstructured log files for recurrent fault diagnosis // Proc. of the Int. Symp. on Integrated Netw. Mgmt. IEEE. 2011. P. 377–384.
  9. Сидорова Д. Н., Пивкин Е. Н. Алгоритмы и методы кластеризации данных в анализе журналов событий информационной безопасности // Безопасность цифровых технологий. 2022. № 1 (104). С. 41–60.
  10. Juvonen A., Sipola T., Hamalainen T. Online anomaly detection using dimensionality reduction techniques for http log analysis // Computer Networks. 2015. No. 91. P. 46–56.
  11. Incremental clustering for semi-supervised anomaly detection applied on log data / M. Wurzenberger, F. Skopik, M. Landaueret al. // Proc. of the 12th International Conference on Availability, Reliability and Security. ACM. 2017. P. 31:1–31:6.
  12. One graph is worth a thousand logs: uncovering hidden structures in massive system event logs / M. Aharon, G. Barash, I. Cohen, E. Mordechai // Proc. of the Joint Eur. Conf. on Machine Learning and Knowledge Discovery in Databases. Springer. 2009. P. 227–243.
  13. Logsed: anomaly diagnosis through mining time-weighted control flow graph in logs / T. Jia, L. Yang, P. Chen et al. // Proc. of the 10th Int. Conf. on Cloud Comp. (CLOUD). IEEE. 2017. P. 447–455.
  14. Kononov D., Isaev S. Analysis of the dynamics of Internet threats for corporate network web services // CEUR Workshop Proceedings. The 2nd Siberian Scientific Workshop on Data Analysis Technologies with Applications 2021. 2021. Vol. 3047. P. 71–78.
  15. Analysis of Web Security Using Open Web Application Security Project 10 / M. A. Helmiawan, E. Firmansyah, I. Fadil et al. // 8th International Conference on Cyber and IT Service Management (CITSM). 2020. P. 1–5.
  16. OWASP ModSecurity Core Rule Set [Электронный ресурс]. URL: https://owasp.org/www-project-modsecurity-core-rule-set/ (дата обращения: 13.05.2022).

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Стадии обработки данных

Скачать (53KB)
3. Рис. 2. Общая динамика атак по месяцам

Скачать (49KB)
4. Рис. 3. Динамика классифицированных атак по месяцам

Скачать (52KB)
5. Рис. 4. Динамика неклассифицированных атак и атак типа «инъекция файлов»

Скачать (72KB)
6. Рис. 5. Диаграммы размаха атак по годам: а – неклассифицированные; б – WEB/CMD_INJ; в – WEB/FILE_INJ

Скачать (82KB)
7. Рис. 6. Матрица корреляций распределений классифицированных атак

Скачать (356KB)
8. Рис. 7. Корреляция структуры атак 2020 и 2021 гпо странам

Скачать (31KB)

© Исаев С.В., Кононов Д.Д., 2022

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах