ANOMALY DETECTION PROTOCOL WITH NEGATIVE SELECTION MODULE AND MACHINE LEARNING RULES

Full Text

Abstract

Today, the interest in artificial immune systems has increased many times, as the immune system can solve a large number of problems in the field of computer security. In this article the statistical model of intrusion detection system based on artificial immune system is considered, the sets of detectors in the model are selected on the basis of packet headers. Based on the test results, methods for improving the intrusion detection system are proposed and implemented. The article combines the theory of negative selection and the rules of machine learning in order to propose a new intrusion detection system. To generate detectors, a set of basic rules is developed, using software for data analysis and machine learning, and then new detectors are generated and detailed, inside the negative selection module. During testing the proposed model, using the DARPA1999 data set, the model showed good performance compared to the previous models.

Full Text

На сегодняшний день в сфере информационных систем существуют задачи по обнаружению вторжений, предотвращению вторжений, поиску аномальных запросов и т. д. Для решения таких задач используются искусственные иммунные системы (ИИС). Это адаптивная вычислительная система, основанная на принципах иммунной системы позвоночных. Проблемы в области компьютерной безопасности и иммунных систем имеют удивительное сходство в поддержании стабильности системы в постоянно меняющейся среде. ИИС используют биологическую иммунную теорию для поиска и разработки соответствующих моделей и алгоритмов с целью решения различных проблем в области компьютерной безопасности. Система обнаружения вторжения PbPHAD Система обнаружения вторжений (СОВ) требует определенного набора параметров мониторинга. В [1] авторы предлагают статистическую модель системы обнаружения вторжения PbPHAD (Protocol Based Packet Header Anomaly Detection), основанную на ИИС. В модели PbPHAD наборы детекторов выбираются на основе заголовков пакетов, то есть используются только значения в заголовках для изучения ано мального поведения пакетов во время передачи в любом сетевом трафике TCP/IP. Значения полей заголовка пакета берутся из протоколов IP, Ethernet, TCP, UDP и ICMP, образовывая 33 поля, основанные на трех конкретных протоколах TCP, UDP, ICMP из-за их уникального поведения при обмене данными, зависящего от целей и задач определенного сеанса. Различные значения полей в [1], IP-адресов назначения (ipdest) и IP-адресов источников (ipsrc) отображают количество хостов, смоделированных в проведенных испытаниях, как это показывает рисунок 1. Рисунок 1. Смоделированная модель Это модель генерации насыщенного трафика. Автоматические атаки начаты на компьютер жертвы UNIX и маршрутизатор со стороны внешних хостов. Далее рассматривается процесс построения модели обнаружения вторжений PbPHAD. Процесс делится на три этапа следующим образом (см. рисунок 2). 1. Подготовка данных. С помощью простой программы на C++ извлекаются данные из файлов tcpdump и записываются в формате значений, разделенных запятыми (.csv), что делает намного быстрее процесс копирования информации в базу данных. 2. Построение нормального профиля. С помощью написанной программы строится таблица нормальных профилей по данным с трех недель обучения. 3. Запуск эксперимента. На этом этапе мы моделируем сетевой трафик за две недели данных тестирования и используем нашу модель для обнаружения аномальных пакетов. Все 33 поля в пакете (в зависимости от протокола) сравниваются с соответствующим нормальным профилем. Если значение поля не находится в нормальном профиле, то пакет назначается как аномалия. Если сумма всех значений его аномального поля превышает определенный заданный порог, то пакет записывается в таблицу обнаруженных аномалий. Рисунок 2. Модель СОВ PbPHAD Тестирование PbPHAD на наборе данных DARPA1999 Протестированная модель содержит 22 095 072 пакетов и 121 случай зарегистрированной аномалии, превышающие определенные предварительно установленные пороги (TCP = 0,041; UDP = = 0,128; ICMP = 0,034) показателя аномалии. Обнаруженные аномальные пакеты составляют 10 % всех тестовых данных, включая ложные срабатывания. Обнаружено, что 18 полей заголовка пакета вносят вклад в оценку аномалии обнаруженных атак. Также в данной статье тестируется модель хостовой PbPHAD. Для хостовой модели создается нормальный профиль для всех хостов. Беря значения полей заголовка пакета только из протоколов уровня 3 и 4 (IP, TCP, UPD, ICMP), общее количество проверяемых полей составляет 27. Хостовая PbPHAD обнаруживает 25 аномальных полей по сравнению с 18 обнаруженными в сетевом варианте. Проводя сравнение между PbPHAD и комбинированными оценочными системами DARPA1999 на основе атак, которые классифицируются как «плохо обнаруживаемые» согласно [2], показывается, что сетевой PbPHAD удается обнаружить 48 атак по сравнению с 15 атаками, обнаруженными композитными системами. Этот результат показывает увеличение на 39,76 % уровня обнаружения плохо обнаруженных атак. Хостовой же вариант обнаруживает 61 атаку, что показывает улучшение на 55,41 %. Эти результаты показывают, что развертывание как сетевых, так и хост-моделей СОВ в конкретной сетевой установке может обеспечить более широкую защиту сетевой инфраструктуры от злонамеренных атак. Улучшение PbPHAD Беря во внимание результаты [3], предлагается гибридная модель СОВ (см. рисунок 3). Рисунок 3. Гибридная модель СОВ Одним из наиболее важных модулей этой модели является модуль отрицательной селекции, отвечающий за создание различных наборов детекторов и отправку новых наборов детекторов в другой модуль. Работу модуля отрицательной селекции демонстрирует рисунок 4. На рисунке 4 создается случайный бинарный набор на основе полей заголовка пакета для одного из протоколов (TCP, UDP, ICMP), затем рассчитывается показатель аномалии и сравнивается с некоторым пороговым значением (MAX). Если показатель аномалии ниже порогового значения, то набор отбрасывается или считается «своим». Если порог будет превышен, то набор считается «чужим» и отправляется в набор новых детекторов. Рисунок 4. Работа модуля отрицательной селекции Уровень обнаружения для такой модели весьма интересен, но, как показано в [3], некоторые атаки будут плохо определяемыми, также необходимо максимально уменьшать уровень ложных срабатываний. Поэтому в финальной версии СОВ, основанной на ИИС, заменяется модуль отрицательной селекции (см. рисунок 3). В новом модуле отрицательной селекции вместо использования только нормального профиля для разделения и классификации пакетов на два разных класса «Нормальный» и «Аномалия» выполняется дополнительная проверка всех пакетов с использованием экспертных правил, создаваемых на основе таблицы нормального профиля. Таким образом, любой пакет должен проходить больше этапов, чтобы выяснять, является ли он аномальным, и в результате частота ложных срабатываний значительно снижается, а частота обнаружения увеличивается. Для создания экспертных правил используется инструмент под названием WEKA [4]. Это мощный и стабильный инструмент машинного обучения с открытым исходным кодом. WEKA содержит более 80 алгоритмов классификации [5]. В качестве алгоритма классификации выбирается дерево J48. Лист дерева рассматривается как новое экспертное правило. Блок-схема построения дерева с помощью WEKA показана на рисунке 5. На рисунке 5 выбирается один из хостов в наборе данных с наибольшим количеством атак, и после генерации имеющихся правил происходит обобщение. Цель обобщения - возможность при менения к остальным хостам модели. Для имеющихся хостов создается нормирующий профиль. Профиль фильтруется по определенным протоколам. В результате получаются три таблицы заголовка пакета протоколов TCP, UDP, ICMP для конкретного хоста. Далее определяется, является ли пакет атакой или нет, используя DARPA IDS Dataset. Выбор подобного набора данных обусловлен ориентацией на решение вопросов, связанных с обучением адаптивных алгоритмов [6-9]. Далее происходит обработка полученных таблиц из протоколов TCP, UDP, ICMP с помощью WEKA. Рисунок 5. Построение дерева WEKA для конкретного хоста После создания дерева и использования WEKA легко создавать и извлекать экспертные правила. Дерево на рисунке 6 является результатом классификации, выполненной WEKA, затем преобразованной в экспертные правила (каждая ветвь - это правило). Рисунок 6. Дерево WEKA Таблица показывает производительность модели с точки зрения частоты обнаружения для различных категорий атак. Замена модуля отрицательной селекции на новый, построенный на основе экспертных правил, дает увеличение производительности работы [3] в плане уменьшения ложных срабатываний. Из этого можно сделать вывод, что использование отрицательной селекции значительно улучшает СОВ, однако подходить к этому стоит максимально внимательно, следя за загруженностью системы и количеством ложных срабатываний. Таблица. Сравнение с моделью в статье [3] Категория атак Модель из статьи [3] Финальная модель Probe 91,32% 92,59% Dos 73,98% 75,02% U2R 62,63% 66,87% R2L 58,45% 63,39% Заключение В данной статье рассмотрена СОВ, основанная на ИИС PbPHAD, показавшая себя как многообещающая модель при использовании ее как СОВ на аномалиях. Путем тестирования показаны возможности улучшения алгоритма. Произведена эффективная замена модуля отрицательной селекции на новый, построенный на основе экспертных правил, с использованием программного обеспечения для машинного обучения. Проведены сравнения между PbPHAD и комбинированными оценочными системами DARPA1999 на основе атак, классифицированных как «плохо обнаруживаемые» согласно [2]. После тестирований показано, что общая производительность модели PbPHAD с точки зрения ложных срабатываний и частоты обнаружений лучше, чем в комбинированных оценочных системах DARPA1999. Также получены улучшения по сравнению с предыдущей моделью, рассмотренной в статье [3].
×

About the authors

A. N Ivkin

Samara National Research University

Samara, Russian Federation

References

  1. Solahuddin B. Shamsuddin, Michael E. Woodward. Modeling Protocol Based Packet Header Anomaly Detector for Network and Host Intrusion Detection Systems. - Department of Computing, School of Informatics University of Bradford, United Kingdom. January 2007. P. 3-15.
  2. Lippmann R.P., Haines J.W., Fried D.J. The 1999 DARPA Off-Line Intrusion Detection Evaluation // MIT Lincoln Lab Technical Report. 2000. P. 5-35.
  3. Mahboubian M., Hamid W.A. A naturally inspired statistical intrusion detection // Proc. of ICINC, Malaysia. 2010. P. 3-20.
  4. WEKA, Software. Machine Learning. - The University of Waikato, Hamilton, New Zealand. URL: http://www.cs.waikato.ac.nz/ml/weka (дата обращения: 13.02.2019).
  5. Shamsuddin S.B. Applying knowledge discovery in database techniques in modeling packet header anomaly intrusion detection systems // Journal of Software. 2008. Vol. 3. No. 9. P. 20-50.
  6. Wang K., Stolfo S.J. Anomalous payload-based network intrusion detection // RAID LNCS. 2004. Vol. 3224. P. 201-222.
  7. Mahoney M.V., Chan P.K. Learning rules for anomaly detection of hostile network traffic // IEEE International Conference on Data Mining 2003. - P. 5-30.
  8. Luo S., Marin G.A. Modeling networking protocols to test intrusion detection systems // IEEE International Conference on Local Computer Networks. 2004. P. 25-64.
  9. Detection of novel network attacks using data mining / L. Ertoz [et al.] // SIAM Conf. Data Mining. 2003. P. 12-26.

Statistics

Views

Abstract: 59

Dimensions

Article Metrics

Metrics Loading ...

PlumX


Copyright (c) 2019 Ivkin A.N.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies