Analysis of corporate network cyber threats based on parallel processing of Netflow data

Dmitry D. Kononov; Кононов Дмитрий Дмитриевич; Sergey V. Isaev; Исаев Сергей Владиславович

doi:10.31772/2712-8970-2023-24-4-663-672

Анализ киберугроз корпоративной сети на основе параллельной обработки данных Netflow

Авторы: Кононов Д.Д.¹, Исаев С.В.¹
Учреждения:
1. Институт вычислительного моделирования СО РАН
Выпуск: Том 24, № 4 (2023)
Страницы: 663-672
Раздел: Раздел 1. Информатика, вычислительная техника и управление
Статья опубликована: 15.12.2023
URL: https://journals.eco-vector.com/2712-8970/article/view/625647
DOI: https://doi.org/10.31772/2712-8970-2023-24-4-663-672
ID: 625647

Цитировать

Полный текст

Аннотация
Полный текст
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

Публичные сервисы различных организаций подвергаются постоянным кибератакам, что повышает риски информационной безопасности. Анализ сетевого трафика является важной задачей для обеспечения безопасного функционирования сетевой инфраструктуры, в том числе корпоративных сетей. В данной работе представлен обзор основных подходов для анализа сетевого трафика, приведены смежные работы, указаны недостатки существующих работ. Одним из методов является анализ данных сетевого трафика с использованием протокола Netflow, который позволяет сохранять данные о трафике на уровне L3 модели OSI. Особенностью исследования является использование длительных периодов наблюдения. При сохранении данных на длительных временных интервалах журналы имеют большой объем, что требует распараллеливания для первичной обработки данных. Авторами разработан кросс-платформенный программный комплекс распределенной обработки журналов сетевой активности, который использовался для анализа сетевой активности корпоративной сети Красноярского научного центра за 2021–2022 гг. Показана схема программного комплекса, описаны его возможности и особенности функционирования. Приведены источники данных для анализа и методика обработки. В работе были сформулированы и формализованы эвристические критерии аномальности сетевого трафика, которые сигнализируют о наличии возможных атак на сеть, также выделены датасеты по сетевой активности различных протоколов прикладного уровня. Для полученных наборов данных были рассчитаны статистические показатели, на основе которых получена информация об аномальной сетевой активности в течение двух лет. В работе проверен предложенный ранее авторами метод сравнения рисков киберугроз для различных временных интервалов, показавший существенное увеличение рисков для 50 % показателей в 2022 г. Сравнение месячных интервалов за различные годы показало аналогичное увеличение риска. Таким образом, метод доказал свою работоспособность и может применяться в других областях, в которых существуют группы критериев независимых показателей. Авторы привели планы по дальнейшему развитию методики анализа сетевой активности.

Ключевые слова

интернет, сетевая безопасность, анализ сетевого трафика, киберугрозы, корпоративная сеть

Полный текст

Введение

В настоящее время информационные технологии используются повсеместно для организации работы различных сервисов, в том числе корпоративных. Доступные публично сервисы подвержены рискам информационной безопасности, что требует организации комплексных мер по защите информации. Одним из важных частей обеспечения информационной безопасности является мониторинг и анализ сетевой активности (NTA – Network traffic analysis), который позволяет обнаружить аномалии в работе сети, идентифицировать причину (внешнюю или внутреннюю) и принять соответствующие меры. Анализ сетевой активности является актуальной задачей и применяется в различных областях. Например, анализ сетевой активности устройств IoT позволяет идентифицировать их тип [1] и выявлять проблемы безопасности [2]. Часто разрозненность стандартов и методик сбора и анализа сетевого трафика не позволяют воспроизвести результаты. Некоторые авторы предпринимают попытки создания универсальных форматов и программного обеспечения для анализа трафика [3]. Несмотря на то, что автоматизация процессов обработки и анализа трафика позволяет снизить количество рутинных операций, выявление аномалий с помощью человека-оператора представляет проблему из-за большого объема данных. Представляют интерес методики машинного обучения для выявления аномалий сетевой активности [4; 5]. Применение различных методик анализа и выявления особенностей трафика используется для мобильных устройств [6], в частности, анализ зашифрованного трафика позволяет с высокой точностью определять используемые мобильные приложения [7]. Таким образом, анализ сетевой активности позволяет получить множество полезной информации, которая может быть использована для улучшения производительности и защищённости информационных систем, в том числе сервисов корпоративных сетей.

Важной частью обеспечения информационной безопасности является оценка рисков киберугроз. Применение различных методик анализа сетевого трафика позволяет выявлять аномалии сетевой активности, что дает возможность оценить риски киберугроз, которым подвержена сетевая инфраструктура. Оценка рисков может проводиться на различных временных интервалах, поэтому необходимо иметь возможность оценить динамику изменения рисков киберугроз.

Смежные работы

Анализ сетевого трафика позволяет выявлять аномалии в работе сетевой инфраструктуры. Методы выявления аномалий сетевого трафика можно разделить на три категории: неконтролируемые, контролируемые, частично контролируемые. Неконтролируемые методы достаточно распространены и не требуют предварительной подготовки данных. Предполагается, что нормальные данные встречаются в датасетах чаще аномальных [8]. Контролируемые методы предполагают построение моделей с разделением данных на две категории: нормальные и аномальные. Анализируемые данные сравниваются с помощью двух моделей, делается вывод о принадлежности данных к определенной категории [9]. Частично контролируемые методы предполагают построение модели только для нормальных данных [10] и являются более простыми и распространенными, чем контролируемые модели.

Одними из самых часто используемых методов анализа является кластерный анализ и методы классификации. Кластерный анализ предполагает разбиение свойств и атрибутов данных на кластеры, из которых выделяют нормальное и аномальное поведение [11]. Как правило, большие кластеры являются нормой, а малые аномалией. Методы классификации используются для разделения данных на заранее известные категории, их можно разделить на следующие виды: метод опорных векторов (SVM), нейросети, дерево решений, статистические методы. Одним из видов классификации с использованием контролируемого обучения является метод опорных векторов (SVM – support vector machine), который используется для обучения и тестирования большого объема данных. В работе [12] метод SVM применен для анализа трафика, достигнута высокая точность сопоставления. Нейросетевые методы используют модель нейронов со связями, которые преобразуют входной сигнал в выходной. Метод является распространенным и используется, например, для выявления злонамеренного траффика [13] и построения систем обнаружения вторжения (IDS – intrusion detections systems) [14]. Методы дерева решений позволяют построить дерево, состоящее из листьев, узлов и ребер, которое может быть использовано для многоступенчатой классификации данных. В работе [15] показана его высокая эффективность при анализе вредоносного трафика устройств IoT. Статистические методы основаны на теореме Байеса: если известен класс, возможно предсказать атрибуты; если класс неизвестен, правила могут определить класс на основе имеющихся атрибутов. В работе [16] байесовская сеть используется для анализа трафика и обеспечения безопасности облачных сервисов.

Важным компонентом при защите информационных систем и сетей передачи данных является оценка рисков киберугроз. Методы оценки рисков бывают количественные и качественные [17]. Количественные методы оперируют числовыми показателями, в то время как качественные методы – фиксированными категориями «высокий риск», «средний риск», «низкий риск». Как правило, качественные методы являются субъективными и полагаются на экспертные оценки,
в то время как количественные являются объективными и позволяют воспроизвести результат. Существуют различные методы оценки риска киберугроз [18]. В работе [19] авторы используют различные модели количественного метода оценки рисков кибербезопасности облачных вычислений. Также применяются гибридные модели оценки рисков, комбинирую различные подходы [20]. Оценка рисков информационной безопасности применяется в различных областях: индустриальные сети [21], системы управления Supervisory Control and Data Acquisition (SCADA) [22], устройства «интернета вещей» (IoT) [23]. Некоторые исследователи рассматривают оценку рисков как комплексную задачу, которая включает функциональную безопасность, физическую безопасность и кибербезопасность [24].

Существующие работы используют различных подходы к анализу трафика и оценке рисков киберугроз. Например, авторы разрабатывают новую методику и используют стандартные тестовые датасеты, что не позволяет оценить эффективность метода на реальной сетевой инфраструктуре. Другие авторы используют реальные данные с короткими временными интервалами, что не позволяет сделать глубокий анализ и выявить динамику происходящих процессов.
В данной работе проводится исследование безопасности корпоративной сети Красноярского научного центра (ФИЦ КНЦ СО РАН) на основе анализа сетевого трафика Netflow. В работе описано применение предложенного ранее авторами статистического метода сравнения рисков киберугроз [25]. В отличие от существующих работ, метод использует длительные временные интервалы при анализе реального сетевого трафика и позволяет сравнить риски киберугроз на произвольных интервалах.

Источник данных и методика обработки

Источником данных для анализа являются данные сетевой активности Netflow пограничного маршрутизатора и прокси-сервера корпоративной сети Красноярского научного центра за 2021–2022 гг. (объем 680 Гб, 19,5 млрд записей). Обработка данных производится в несколько этапов: 1) сбор статистики сетевых интерфейсов с помощью агентов nfcapd; 2) извлечение данных с помощью утилиты nfdump; 3) фильтрация и агрегирование необходимых полей на основе заданных правил; 4) сохранение полученных данных для анализа; 5) применение статистического анализа.

Обработка данных выполняется с помощью разработанного авторами программного комплекса распределенной обработки сетевой активности GNetProc на языке Go. Программный комплекс состоит из нескольких частей: клиент, брокер сообщений, вычислительный кластер (рис. 1).

Рис. 1. Архитектура GNetProc

Fig. 1. GNetProc software architecture

Клиентская часть взаимодействует с брокером сообщений и позволяет отправлять задания на обработку в общую очередь заданий, серверная часть извлекает задание из очереди и запускает обработку с помощью обработчиков (workers). Серверная часть состоит из множества узлов вычислительного кластера, каждый узел может запускать несколько обработчиков (workers) параллельно, что обеспечивает параллельную обработку данных и позволяет уменьшить время выполнения заданий. Обработчик обращается к брокеру сообщений, получает новое задание, запускает его на выполнение, сохраняет результаты обработки, затем получает новое задание. Задание состоит из списка элементов <имя, значение>, которые включают источник данных, приемник данных, тип задания, параметры агрегации, начало и окончание временных интервалов, фильтр и селектор данных. Фильтр посредством специального языка позволяет задавать набор правил для фильтрации данных. Селектор задает список полей, которые после фильтрации и агрегации будут извлечены и записаны как результат выполнения задания. Брокер сообщений использует СУБД Redis для обработки очереди заданий. Для описания заданий используется язык YAML. Программный комплекс является кросс-платформенным и поддерживает работу в гетерогенных конфигурациях с операционными системами Linux, *BSD, Windows.

Анализ данных

Для оценки уровня риска киберугроз на основании принципов нормального функционирования различных протоколов были сформулированы эвристические критерии аномальности трафика:

Входящие потоки TCP, имеющие менее 4-х пакетов, свидетельствует о том, что TCP-соединение не было завершено регламентированным способом. Подозрение на DoS-атаку.
Входящие потоки TCP длительностью 0 свидетельствует о том, что TCP-соединение не было установлено. Подозрение на DoS-атаку.
Большое количество входящих UDP потоков – подозрение на DDoS атаку.
Превышение количества входящих UDP потоков над исходящими – подозрениена DoS-атаку.
Превышение количества входящих TCP потоков над исходящими – подозрение на DoS-атаку.
Входящие потоки TCP и UDP на неиспользуемые, но маршрутизируемые адреса, – подозрение на сканирование уязвимостей (Unused).
Входящие потоки TCP на распространенные сервисы (MSSQL, MySQL, RDP, SMB, SMTP, SSH, Telnet) – попытки несанкционированного входа.

Эти критерии были формализованы в виде правил системы обработки первичного трафика согласно заданному синтаксису. После обработки первичных данных с помощью созданного ПО были получены агрегированные данные для дальнейшего анализа. Каждый набор данных представляет собой совокупность пар <метка времени, интегральная характеристика>. Типичный набор данных за год состоит из 105 тыс. записей (количество пятиминутных интервалов в году) и может быть обработан средствами настольных систем, таких как MS Excel. На рис. 2 представлена диаграмма количества потоков нулевой длительности за 2022 г. Аномальные значения не имеют выраженной периодичности, на несколько порядков превышают среднее значение (35256), за счет чего можно автоматизировать их выявление.

Рис. 2. Количество TCP-потоков нулевой длительностью

Fig. 2. Number of TCP flows with zero duration

Полученное распределение имеет явно выраженную правую асимметрию, удовлетворяется следующее условие:

Моde < Меdian < Mean.

На рис. 3 представлена гистограмма распределения частот TCP-потоков длительностью 0 с. Более 99 % выборки содержатся в интервале [m – 3*s, m + 3*s], что позволяет идентифицировать киберугрозы на основе данных выбросов.

Рис. 3. Гистограмма распределения частот TCP-потоков длительностью 0

Fig. 3. Histogram of frequency distribution of TCP flows with zero duration

Для всех полученных наборов данных были рассчитаны показатели: среднее, мода, медианы, стандартное отклонение и процент выбросов со значениями больше 3 стандартных отклонений от среднего. Дополнительно было рассчитано относительное увеличение стандартного отклонения показателей в 2022 г. по сравнению с 2021 г. Результаты представлены в таблице: Mean – среднее по выборке m; S – стандартное отклонение s; Me – медиана выборки; Mo – мода выборки; P – процент данных, лежащих за пределами диапазона [m – 3*s, m + 3*s]; ∆S – относительный прирост S в 2022 г. относительно 2021 г.

Результаты показателей, рассчитанные по критериям аномальности трафика

Название	2021 г.					2022 г.					∆S, %
Название	Mean	S	Me	Mo	P, %	Mean	S	Me	Mo	P, %	∆S, %
TCP-потоки длит. 0	25205	8343	22079	18975	2,15	35257	14301	29059	22951	1,13	71
TCP-потоки < 4 пакетов	34906	11608	30188	27535	2,35	45287	17732	37461	35331	1,02	53
UDP-потоки	15071	5809	13541	13217	2,62	17221	6069	15589	13965	2,95	4
UDP (вход–выход)	1878	2114	1678	1532	2,08	3511	2428	3175	1325	1,90	15
TCP (вход–выход)	16759	8751	14846	12540	2,06	26087	11707	21363	16602	1,42	34
Неисп. TCP	20615	6357	18662	15287	2,30	22035	6736	20457	15148	0,98	6
Неисп. UDP	965	500	762	376	1,82	1519	1184	862	454	4,24	137
MSSQL	128	63	93	87	7,01	96	30	82	82	3,93	–52
MySQL	21	19	10	3	2,93	32	31	13	5	4,25	63
RDP	105	66	78	39	3,97	120	80	84	40	4,27	21
SMB	367	267	190	128	3,33	224	128	154	129	7,84	–52
SMTP	190	80	166	139	3,88	195	95	162	104	2,98	19
SSH	281	160	197	141	4,19	494	389	270	226	4,02	143
Telnet	405	70	384	363	4,10	922	259	953	1151	0,17	270

Все распределения, кроме Telnet 2022, обладают правосторонней асимметрией. Набор данных Telnet 2022 имеет два максимума гистограммы, что связано с перенастройкой оборудования сбора данных. На рис. 4 показаны гистограммы за 2021 и 2022 гг.

Рис. 4. Гистограмма наборов Telnet за 2021 и 2022 гг.

Fig. 4. Histogram of Telnet datasets for 2021 and 2022

Среднеквадратическое отклонение для большинства наборов данных за 2022 г. имеет существенное увеличение по сравнению с 2021 г., что свидетельствует об увеличении меры неопределенности появления различных компьютерных атак. Применяя метод сравнения рисков, описанный в [25] для выборок 2021 (V₁) и 2022 (V₂) гг., вычислим функцию R оценки изменения рисков:

$R (V_{1}, V_{2}) = \frac{1}{N} * \sum_{i = 1}^{N} K_{i}$

где $K_{i} = \{\begin{matrix} 1, если μ_{2 i} > μ_{1 i} + 0,6745 * σ_{1 i}, \\ 0, если μ_{1 i} - 0,6745 * σ_{1 i} \leq μ_{2 i} \leq μ_{1 i} + 0,6745 * σ_{1 i}, \\ - 1, если μ_{2 i} < μ_{1 i} - 0,6745 * σ_{1 i}; \end{matrix}$ µ_ji – среднее значение выборки i-го

признака выборки V_j; _ji – среднеквадратическое отклонение выборки i-го признака выборки V_j.

Половина из исследуемых показателей дает 1 в сумму, остальные дают 0, в результате R(2021, 2022) = 0,5. Это можно проинтерпретировать таким образом: риск в рамках исследуемых критериев в целом в 2022 г. по сравнению с 2021 г. существенно вырос – на 50 % показателей. При сравнении интервалов за март 2021 г. и март 2022 г. мы получаем значение R = 0,43. Таким образом, предложенный метод позволяет сравнивать риски как на больших временных интервалах (год), так и на средних, при условии наличия достаточной выборки.

Заключение

В работе исследованы риски кибератак на основе данных интернет-трафика сети Красноярского научного центра СО РАН за 2021 и 2022 гг. Разработано кросс-платформенное программное обеспечение для обработки больших объемов данных, которое обладает возможностями масштабирования с помощью параллельной обработки и может выполнять анализ данных в режиме реального времени. Сформулированы и формализованы эвристические критерии аномальности интернет-трафика, сигнализирующие о возможных атаках на сеть. Рассчитаны статистические показатели для полученных наборов данных, на основе которых сделаны выводы о форме распределений и динамике атак. Проверен предложенный авторами метод сравнения рисков киберугроз для годичных и месячных интервалов, который показал схожее увеличение рисков. Так как метод не зависит от сравниваемых временных интервалов и объема выборок, он может использоваться в других областях, в которых существуют группы критериев независимых показателей. Следующей задачей является расширение критериев анализа с учётом флагов TCP-соединения и протоколов прикладного уровня с учётом логики их функционирования. Планируется использование разработанного программного обеспечения при создании наборов данных для методов машинного обучения при решении задач идентификации киберугроз.

Об авторах

Дмитрий Дмитриевич Кононов

Институт вычислительного моделирования СО РАН

Автор, ответственный за переписку.
Email: ddk@icm.krasn.ru

научный сотрудник

Россия, 660036, г. Красноярск, ул. Академгородок, 50/44

Сергей Владиславович Исаев

Институт вычислительного моделирования СО РАН

Email: ddk@icm.krasn.ru

кандидат технических наук, доцент, заведующий отделом информационно-телекоммуникационных технологий

Россия, 660036, г. Красноярск, ул. Академгородок, 50/44

Список литературы

Shahid M. R., Blanc G., Zhang Z., and Debar H. IoT Devices Recognition Through Network Traffic Analysis // 2018 IEEE International Conference on Big Data (Big Data). 2018. P. 5187–5192.
Sairam R., Bhunia S. S., Thangavelu V., Gurusamy M. NETRA: Enhancing IoT security using NFV-based edge traffic analysis // IEEE Sensors Journal. 2019. No. 19(12). P. 4660–4671.
Towards Reproducible Network Traffic Analysis / J. Holland, P. Schmitt, P. Mittal, N. Feamster // arXiv preprint arXiv:2203. 2022. 12410 p.
Alqudah N., Yaseen Q. Machine learning for traffic analysis: a review // Procedia Computer Science. 2020. Vol. 170. P. 911–916.
Abbasi M., Shahraki A., Taherkordi A. Deep learning for network traffic monitoring and analysis (NTMA): A survey // Computer Communications. 2021. Vol. 170. P. 19–41.
The dark side (-channel) of mobile devices: A survey on network traffic analysis / M. Conti, Q. Q. Li, A. Maragno, R. Spolaor // IEEE communications surveys & tutorials. 2018. No. 20(4). P. 2658–2713.
Robust smartphone app identification via encrypted network traffic analysis / V. F. Taylor, R. Spolaor, M. Conti, I. Martinovic // IEEE Transactions on Information Forensics and Security. 2017. Vol. 13(1). P. 63–78.
Goldstein M., Uchida S. A comparative evaluation of unsupervised anomaly detection algorithms for multivariate data // PloS one. 2016. Vol. 11(4). P.e0152173.
Garg R., Mukherjee S. A comparative study using supervised learning for anomaly detection in network traffic // Journal of Physics: Conference Series. 2022. Vol. 2161, No. 1. P. 012030.
Comparison of supervised, semi-supervised and unsupervised learning methods in network intrusion detection system (NIDS) application / N. S. Arunraj, R. Hable, M. Fernandes et al. // Anwendungen und Konzepte der Wirtschaftsinformatik. 2017. No. 6. P. 10–19.
Zhang P., Ma W., Qian S. Cluster analysis of day-to-day traffic data in networks // Transportation Research Part C: Emerging Technologies. 2022. Vol. 144. P. 103882.
Retracted: Traffic identification and traffic analysis based on support vector machine / W. Zhongsheng, W. Jianguo, Y. Sen, G. Jiaqiong // Concurrency and Computation: Practice and Experience. 2020. Vol. 32(2). P. e5292.
Malicious network traffic detection based on deep neural networks and association analysis / M. Gao, L. Ma, H. Liu et al. // Sensors. 2020. Vol. 20(5). P. 1452.
Vinayakumar R., Soman K. P., Poornachandran P. Evaluation of recurrent neural network and its variants for intrusion detection system (IDS) // International Journal of Information System Modeling and Design (IJISMD). 2017. Vol. 8(3). P. 43–63.
Comparing Malware Attack Detection using Machine Learning Techniques in IoT Network Traffic / Y. Z. Wei, M. Md-Arshad, A. A. Samad, N. Ithnin // International Journal of Innovative Computing. 2023. Vol. 13(1). P. 21–27.
Nie L., Jiang D., Lv Z. Modeling network traffic for traffic matrix estimation and anomaly detection based on Bayesian network in cloud computing networks // Annals of Telecommunications. 2017. Vol. 72. P. 297–305.
Landoll D. The security risk assessment handbook: A complete guide for performing security risk assessments // CRC Press. 2021.
Macek D., Magdalenic I., Redep N. B. A systematic literature review on the application of multicriteria decision making methods for information security risk assessment // International Journal of Safety and Security Engineering. 2020. Vol. 10, No. 2. P. 161–174.
Jouini M., Rabai L. B. A. Comparative study of information security risk assessment models for cloud computing systems // Procedia Computer Science. 2016. Vol. 83. P. 1084–1089.
Haji S., Tan Q., Costa R. S. A hybrid model for information security risk assessment // Int. j. adv. trends comput. sci. eng. 2019. ART-2019-111611.
Summary of research on IT network and industrial control network security assessment / L. Hu, H. Li, Z. Wei et al. // 2019 IEEE 3rd information technology, networking, electronic and automation control conference (ITNEC). 2019. P. 1203–1210.
A review of cyber security risk assessment methods for SCADA systems / Y. Cherdantseva, P. Burnap, A. Blyth et al. // Computers & security. 2016. Vol. 56. P. 1–27.
Mahak M., Singh Y. Threat modelling and risk assessment in internet of things: A review // Proceedings of Second International Conference on Computing, Communications, and Cyber-Security: IC4S 2020, 2021. Springer Singapore. P. 293–305.
Lyu X., Ding Y., Yang S. H. Safety and security risk assessment in cyber-physical systems // IET Cyber-Physical Systems: Theory & Applications, 2019. Vol. 4(3). P. 221–232.
Исаев С. В., Кононов Д. Д. Исследование динамики и классификация атак на веб-сервисы корпоративной сети // Сибирский аэрокосмический журнал. 2022. Т. 23, № 4. C. 593–600.