Применение методов тематического моделирования для идентификации групп интернет-ресурсов с целью снижения риска киберугроз
- Авторы: Донцов Д.Ю.1, Исаев С.В.1
-
Учреждения:
- Институт вычислительного моделирования СО РАН
- Выпуск: Том 23, № 2 (2022)
- Страницы: 148-155
- Раздел: Раздел 1. Информатика, вычислительная техника и управление
- Статья опубликована: 26.06.2022
- URL: https://journals.eco-vector.com/2712-8970/article/view/546045
- DOI: https://doi.org/10.31772/2712-8970-2022-23-2-148-155
- ID: 546045
Цитировать
Полный текст
Аннотация
Безопасность внутренней сети является важным аспектом успешного предприятия. Существуют различные средства для предотвращения киберугроз и анализа посещаемых интернет-ресурсов, но их быстродействие и возможность применения сильно зависит от объема входных данных. В статье рассматриваются существующие методы определения сетевых угроз с помощью анализа журналов прокси-сервера и предлагается метод кластеризации интернет-ресурсов, направленный на снижение объема входных данных путем исключения групп безопасных интернет-ресурсов или выбором только подозрительных интернет-ресурсов. Предложенный метод состоит из 3-х этапов: предобработка данных, анализ данных и интерпретация полученных результатов. Исходными данными для него являются записи журнала прокси-сервера. На первом этапе из исходных данных выбираются полезные для анализа данные, после чего непрерывный поток данных делится на небольшие сессии при помощи метода ядерной оценки плотности. На втором этапе выполняется мягкая кластеризация посещенных интернет-ресурсов путем применения метода тематического моделирования. Результатом второго этапа являются неразмеченные группы интернет-ресурсов. На третьем этапе, с помощью эксперта, происходит интерпретация полученных результатов путем анализа наиболее популярных интернет-ресурсов в каждой группе. Метод имеет множество настроек на каждом этапе, что позволяет сконфигурировать его под любой формат и специфику входных данных. Его область применения никак не ограничивается. Полученный метод может быть использован в качестве дополнительного шага предобработки с целью снижения количества входных данных.
Ключевые слова
Полный текст
Введение
С каждым днем информационные технологии все глубже внедряются в жизни людей, в связи с чем вопросы обеспечения кибербезопасности становится все более важным.
Существует три класса источников киберугроз – человеческий, технологический и форс-мажорный [1]. Человек является причиной большинства киберугроз [2], в связи с чем разработка решений, позволяющих снизить число вторжений по вине человека, является перспективным направлением.
Для предотвращения посещения вредоносных ресурсов, на больших предприятиях используется технология фильтрации интернет-трафика [3]. Данное решение значительно снижает риск кибератак, но не дает 100 % защиты, поэтому необходимо использовать дополнительные средства защиты внутренней сети.
Безопасность внутренней сети включает в себя захват, сохранение и анализ данных использования сети. Результаты анализа позволяют выявлять изменения в шаблонах поведения пользователей, тем самым предоставляя возможность своевременно реагировать и предотвращать сетевые угрозы [4–6]. Процесс анализа данных, генерируемых пользователями внутренней сети, занимает некоторое время, и снижение затрачиваемого времени на анализ данных напрямую влияет на безопасность сети.
Пользователи сети ежедневно генерируют сотни тысяч запросов к различным интернет-ресурсам, в связи с чем, снижение объема анализируемых данных является одним из наиболее значимых подходов к снижению времени анализа.
Распределение посещаемых ресурсов на группы и выявление групп безопасных и потенциально опасных ресурсов может снизить объем анализируемых данных и дать значительный прирост к скорости обнаружения аномалий в поведении пользователей
В данной статье предложен подход разделения посещаемых интернет-ресурсов на группы со схожей тематикой при помощи анализа журналов доступа прокси-сервера. Основная цель предложенного метода в разделении ресурсов на группы с целью снижения объема анализируемых данных через исключение «безопасных» групп ресурсов.
Входные данные
Входными данными являются файлы журнала прокси-сервера, который является посредником между пользователем и интернет-ресурсами. Журнал (лог-файл) содержит информацию по всем запросам пользователей, совершенных в течение суток.
Каждая строка лог-файла содержит следующую информацию:
Для дальнейшего анализа нужны только некоторые из этих полей, такие как:
Предложенный подход
В работе используется подход выделения и установления связей между посещаемыми интернет-ресурсами через анализ их совместной встречаемости в пределах некоторых сессий (рис. 1).
Рис. 1. Схема разбиения лог-файла на сессии: A – исходный временной ряд; B – первый вариант разбиения; C – второй вариант разбиения
Fig. 1. The scheme of splitting the log file into sessions: A – is the original time series; B – is the first variant of the partition; C – is the second variant of the partition
Под сессией подразумевается совокупность интернет-ресурсов, посещенных за некоторый промежуток времени. В самом простом случае, сессией можно считать одни сутки, однако для повышения качества работы метода необходимо рассмотреть другие варианты выделения сессий.
Для анализа совместной встречаемости ресурсов в пределах одной сессии используется вероятностное тематическое моделирование [7]. Тематическое моделирование выполняет мягкую кластеризацию «документов», опираясь на совместную встречаемость «термов» в этих документах. В качестве документов в данном случае используются ресурсы, посещенные в пределах одной сессии, а в качестве термов – сами ресурсы. Результатом работы тематического моделирования являются интернет-ресурсы, сгруппированные на определенное число не именованных групп (рис. 2).
Рис. 2. Схема работы предложенного метода
Fig. 2. The scheme of the proposed method
Ручной анализ наиболее популярных интернет-ресурсов, попавших в каждую группу, позволит определить название каждой группы и выявить группы безопасных и опасных интернет-ресурсов.
Предобработка лог-файлов
Пользователи сети интернет ежедневно генерируют тысячи записей в лог-файлах (рис. 3), и большинство записей в этих файлах не несет полезной информации. При посещении одной интернет-страницы, браузер совершает в среднем 10–20 запросов, и каждый из этих запросов фиксируются в журнале прокси-сервера. Основная цель предобработки – снижение числа обрабатываемых данных, что позволит ускорить процесс анализа и повысить качество результатов [8].
Для дальнейшего анализа разумно исключить записи, удовлетворяющие одному из требований:
- запрашиваемый ресурс имеет тип css/js/image;
- запрос совершен анонимным пользователем.
В среднем такая фильтрация снижает объем данных примерно в 5 раз. Опционально для большего снижения числа обрабатываемых данных можно учитывать только get-запросы.
Рис. 3. Ежедневное число запросов, генерируемых 700 пользователями внутренней сети
Fig. 3. Daily number of requests generated by 700 users of the internal network
Вторым этапом предобработки является выделение доменов (или IP-адресов) посещенных ресурсов, чтобы учитывать посещение двух страниц одного сайта как посещение одного и того же ресурса дважды.
Разделение лог файлов на сессии
На данном этапе требуется разделить записи журнала прокси-сервера каждого пользователя на короткие сессии. Возможны различные варианты выделения сессий. Дальше рассмотрены некоторые из них.
Сессии фиксированной длины. Для получения сессий фиксированной длины достаточно задать некоторый временной интервал, например 1 день, и разбить все множество записей через выбранный интервал. Данный подход плох тем, что он объединяет сессии небольшого размера. Например, пользователь мог пользоваться интернетом дважды – утром и вечером, однако для данного подхода это будет считаться одной сессией.
Использование периода неактивности пользователя позволяет порождать сессии разной длины, разделенные некоторым промежутком времени, в который не было никакой активности (например, 1 ч). Этот метод имеет один существенный недостаток – он не будет выявлять сессии, если у пользователя есть фоновые процессы, постоянно генерирующие запросы (например, 1 раз в 10 мин).
Недостатки рассмотренных подходов можно устранить, используя метод KDE (Kernel Density Estimation) [9–11]. Данный метод позволяет оценивать плотность распределения одномерного набора данных и определять локальные точки экстремума. Использование таких точек для разделения непрерывного набора данных на отрезки позволит генерировать сессии различной длины, близкие к реальному поведению пользователя (рис. 4). Метод KDE имеет два настраиваемых параметра – ядро и ширину канала. Эти параметры значительно влияют на результат, и их нужно подбирать, вручную анализируя размеры получаемых сессий.
Рис. 4. Гистограмма распределения длин сессий за 1 день. По горизонтальной оси указано время в минутах, а по вертикальной – количество сессий. Средняя длина сессии – 4,5 мин
Fig. 4. Histogram of the distribution of session lengths for 1 day. The horizontal axis shows the time in minutes, and the vertical axis shows the number of sessions. The average session length is 4.5 minutes
Тематическое моделирование
Тематическое моделирование используется для строгой или мягкой кластеризации документов, состоящих из термов. Существует множество различных методов тематического моделирования [12–13], однако в данной статье используется метод LDA [14–15].
Для использования тематического моделирования необходимо определить документы и термы. Термом является домен интернет-ресурса, посещенного пользователем, а документом является множество доменов (термов), посещенных одним пользователем в пределах одной сессий.
Применение любой готовой реализации метода LDA для полученных документов позволяет мягко сгруппировать все домены интернет-ресурсов на фиксированное число групп. Количество групп задается пользователем и определяется опытным путем. В таблице представлен результат моделирования 5 групп. Чем выше ресурс расположен в группе, тем сильнее его принадлежность к этой группе.
Анализ наиболее популярных интернет-ресурсов в каждой группе позволяет определить тему каждой группы и решить, является ли группа «безопасной». В случае, если темы групп определить не удается, следует попробовать изменить число искомых тем.
Результат моделирования данных за февраль 2020 на 5 групп
1 | 2 | 3 | 4 | 5 |
newslab.ru | nowa.cc | update.eset.com | apps.webofknowledge.com | fitohobby.ru |
4pda.ru | ugadalki.ru | law-college-sfu.ru | packages.linuxmint.com | ib.adnxs.com |
sfkras.ru | scask.ru | kinoaction.ru | http.debian.net | allrefs.net |
edu.sfu-kras.ru | forum.rcmir.com | kiwt.ru | urod.ru | ckp-rf.ru |
worldcrisis.ru | 2baksa.net | dostavka-krasnoyarsk.ru | fips.ru | teammodels.no |
libgen.is | autoopt.ru | kinoaction.ru | mc.corel.com | profinance.ru |
Для более точных результатов следует выбирать большее число групп. На рис. 5 представлена проекция 30 тем на две главные компоненты.
Рис. 5. Проекция 30 групп, полученных путем моделирования данных за февраль 2020 г., на две главные компоненты
Fig. 5. Projection of 30 groups obtained by modeling data for February 2020 into two main components
Заключение
Предложенный в статье метод имеет много настраиваемых параметров, позволяющих точно настроить его под разные источники данных, будь то небольшая внутренняя сеть или высоконагруженный узел масштабной сети.
Группировка интернет-ресурсов по схожей теме может быть использована в различных задачах, таких как:
В качестве дальнейших исследований планируется рассмотреть использование различных метаданных, таких как тип запрашиваемого контента и время совершения сессии. Выявление и отсеивание рекламных сервисов также может быть направлением дальнейшей разработки.
Об авторах
Денис Юрьевич Донцов
Институт вычислительного моделирования СО РАН
Автор, ответственный за переписку.
Email: denis.dontsov96@gmail.com
аспирант
Россия, 660036, Красноярск, Академгородок, 50, стр. 44Сергей Владиславович Исаев
Институт вычислительного моделирования СО РАН
Email: si@icm.krasn.ru
кандидат технических наук, доцент, заведующий отделом информационно-телекоммуникационных технологий
Россия, 660036, Красноярск, Академгородок, 50, стр. 44Список литературы
- Mouna J., Latifa B., Latifa B. R., Anis A. Classification of security threats in information systems. // Procedia Computer Science. 2014. Vol. 32. P. 489–496.
- Дерендяев Д. А., Гатчин Ю. А., Безруков В. А. Определение влияния человеческого фактора на основные характеристики угроз безопасности // Кибернетика и программирование. 2019, № 3. С. 38–42.
- Gyorodi R., Cornelia G., Pecherle G., Radu L. Network Security Using Firewalls // Journal of Computer Science and Control Systems, 2008. Vol. 1.
- Kao D. Y., Wang S. J., Huang F. Dataset Analysis of Proxy Logs Detecting to Curb Propagations in Network Attacks // Intelligence and Security Informatics. 2008. P. 245–250.
- Marshall B., Chen, H. Using Importance Flooding to Identify Interesting Networks of Criminal Activity. // Lecture Notes in Computer Science. 2006. Vol. 3975. P. 14–25.
- Mukkamala S., Sung A. Identifying significant features fornetwork forensic analysis using artificial techniques // InternationalJournal of Digital Evidence. 2003. Vol. 1, no 4. P. 67–74.
- Blei D. M. Probabilistiс topiс models // Communiсations of the ACM. 2012. Vol. 55, No. 4. P. 77–84.
- Analysis of Web Proxy Logs / B. Fei, J. Eloff, M. Oliver, H. Venter // IFIP International Conference on Digital Forensics. Orlando, 2006. Vol. 222. P. 247–258.
- Scott D. W. Multivariate Density Estimation. Theory. Practice and Visualization: Second edition. New York, 2015.
- Using kernel density estimation to understand the influence of neighbourhood destinations on BMI / T. L. King, R. J. Bentley, L. E. Thornton et al. // BMJ Open, 2016, Vol. 6.
- Kalinic M., Krisp J. Kernel Density Estimation (KDE) vs. Hot-Spot Analysis – Detecting Criminal Hot Spots in the City of San Francisco // Lund, Sweden, 2018.
- Воронцов К. В. Вероятностное математическое моделирование: теория, модели, алгоритмы и проект BigFRTM. Москва : МАИ, 2021. 112 с.
- Albalawi R., Yeap T., Benyoucef M. Using Topic Modeling Methods for Short-Text Data: A Comparative Analysis. // Frontiers in Artificial Intelligence. 2020. Vol. 3.
- Jelodar H., Wang Y., Yuan, Ch., Xia, F. Latent Dirichlet Allocation (LDA) and Topic modeling: models, applications, a survey. 2017.
- Tharwat A., Gaber T., Ibrahim A., Hassanien A. E. Linear discriminant analysis: A detailed tutorial // Ai Communications. 2017. Vol. 30. P. 169–190.
Дополнительные файлы
