NAIVE BAYESIAN CLASSIFIER ADAPTATION FOR E-MAIL CLASSIFICATION MECHANISM

Michael Evgenyevich Burlakov; Бурлаков Михаил Евгеньевич; Denis Alekseevich Golubyh; Голубых Денис Алексеевич; Michael Nikolaevich Osipov; Осипов Михаил Николаевич

doi:10.18469/ikt.2016.14.2.15

АДАПТАЦИЯ НАИВНОГО БАЙЕСОВСКОГО КЛАССИФИКАТОРА К МЕХАНИЗМУ КЛАССИФИКАЦИИ ЭЛЕКТРОННЫХ СООБЩЕНИЙ

Авторы: Бурлаков М.Е.¹, Голубых Д.А.¹, Осипов М.Н.¹
Учреждения:
1. Самарский национальный исследовательский университет им. С.П. Королева
Выпуск: Том 14, № 2 (2016)
Страницы: 199-203
Раздел: Статьи
URL: https://journals.eco-vector.com/2073-3909/article/view/56115
DOI: https://doi.org/10.18469/ikt.2016.14.2.15
ID: 56115

Цитировать

Полный текст

Аннотация
Полный текст
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

Рассматривается классификация электронных сообщений как адаптивными, так и неадаптивными алгоритмами. Особое внимание уделяется применению алгоритма наивного байесовского классификатора в решении задачи классификации блоков данных. Показана возможность реализации алгоритма при рассмотрении элементов в рамках электронного сообщения в качестве независимых событий с применением апостериорного правила принятия решений. Определен процесс обучения наивного байесовского классификатора как подсчет вероятности встречи того или иного слова в электронном сообщении.

Ключевые слова

классификация электронных сообщений, наивный байесовский классификатор, достоверный блок информации, недостоверный блок информации

Полный текст

Введение В современных системах передачи информации крайне актуально стоит задача, связанная с классификацией блоков данных и электронных сообщений, передающихся от отправителя к адресату через разного рода системы (mail, web, irq и т.д.). Для ее решения применяется множество как адаптивных (искусственные нейронные сети, искусственные иммунные алгоритмы, генетические алгоритмы), так и неадаптивных (методы графов сценариев атак, методы анализа систем состояний, экспертные системы, методы на спецификациях, сигнатурные методы) методов [1-11]. Задача классификации электронных сообщений в рамках информационной системы сводится к отнесению входящего потока данных к соответствующему классу (например, по релевантности, по отправителю, по объему и содержимому). Наиболее актуальным направлением в анализе и классификации сообщений выделяют классификацию по их содержимому, когда можно без знания об источнике сообщения, с определенной долей вероятности определить к какому классу она относится и либо отправить сообщение дальше, либо остановить его движение по информационной системе. Одна из основных задач классификации блоков данных и электронных сообщений заключается в их распределении по двум классам достоверности [11-16]: достоверной (актуальной, легитимной и т.д.) и, соответственно, информации; недостоверной. При этом под достоверной (легитимной) информацией понимается набор данных, который не представляет из себя угрозы для информационной системы, в которой происходит ее циркуляция, с точки зрения доступности, целостности и конфиденциальности. В противном случае информация называется недостоверной (нелегитимной). Примером подобной классификации является антиспам-система или программно-аппаратный комплекс антивирусной защиты, задача которых также сводится к определению достоверности входящего в информационную систему сообщения по его содержимому. Как было отмечено, существует большое число адаптивных и неадаптивных алгоритмов, способных классифицировать блоки данных (электронные сообщения) по содержимому, одним из которых является классический наивный байесовский классификатор (НБК), который в изначальном своем определении не адаптирован для решения задачи классификации электронных сообщений на классы достоверной и недостоверной информации. Для решения задачи классификации электронных сообщений относительно их содержимого на обозначенные классы с применением НБК, требуется проведение процесса адаптации алгоритма. Задача адаптации Рассмотрим процесс адаптации НБК к процессу классификации электронных сообщений по их содержимому на класс достоверной и недостоверной информации. Для этого рассмотрим базовый элемент - электронное сообщение, представленное в виде вектора , состоящее из конечного числа слов X1 … Xn : , (1) где X1 … Xn - слова входящие в данное сообщение. Пусть C = {C1, C2} множество классов достоверных (C1) и недостоверных сообщений (C2). Тогда вероятность отнесения слова в подмножество (класс) Ci C есть вероятность попадания всех его слов в данный класс: . (2) Исходя из теоремы Байеса [17]: (3) В силу того, что вероятность появления того или иного слова X1 … Xn в сообщении x есть события равновероятные, то соотношение (3) можно переписать следующим образом: . (4) С другой стороны, в силу независимости появления слов X1 … Xn в сообщении x, значение есть величина постоянная (константа), которая равна: . (5) В нашем случае, каждое слово из сообщения Xk условно независимо от любого другого слова Xj при , то есть . (6) С другой стороны, числитель эквивалентен совместной вероятности: , (7) которая, по определению условной вероятности, будет иметь значение (8) Из той же независимости X1 … Xn условное распределение по подмножеству (классу) Ci может быть выражено как , (9) где Q равно значению, полученному в (5). Таким образом, НБК объединяет исследуемую модель (в нашем случае это модель электронных сообщений с непустым содержимым) с правилом решения (возможностью проведения процесса классификации электронных сообщений на классы достоверных и недостоверных сообщений). Для определения соответствующего класса в процессе классификации, в НБК выделяют такое понятие, как апостериорное правило принятия решения - под которым понимают правило, позволяющее определить наиболее вероятную гипотезу (решение относительно определения класса) [18]. Для процесса классификации в соответствии с НБК определим функцию-классификатор classify(·), которая для множества слов X1 … Xn электронного сообщения x из класса электронных сообщений C имеет вид . (10) Определим процесс обучения наивного байесовского классификатора как подсчет вероятности встречи того или иного слова в сообщении Xj x. Стоит заметить, что наивный байесовский классификатор при классификации сообщения делает предположение, что разные слова в тексте на одну и ту же тему появляются независимо друг от друга. Проецируя (10) на задачу классификации электронных сообщений по классам достоверных и недостоверных сообщений, получаем , (11) где множество V = {достоверные сообщения, недостоверные сообщения}; - вероятность принадлежности электронного сообщения классу j из множества достоверных и недостоверных сообщений. j рассчитывается как частота вхождения класса Vj во множество обучающих выборок; - i-ое слово в электронном сообщении; - вероятность содержания слова ai в электронном сообщении, принадлежащему классу j рассчитывается исходя из частоты анализируемого слова, находящегося в обучающем массиве данных. Таким образом, процесс обучения НБК построен по принципу постоянного (по мере поступления новых электронных сообщений с непустым содержимым в классификаторе от информационной системы или от пользователя) обновления частоты слов. Алгоритм классифицирует только те слова либо набор слов, которые ранее при анализе не встречались. Заключение Таким образом, НБК работает в рамках решения задачи классификации электронных сообщений по классам достоверности множества V, то есть алгоритм анализирует сообщение по словам, изменение количества которых влияет на механизм классификация через вероятностную составляющую, что решается основная задача классификации блоков данных и электронных сообщений и их распределение по соответствующим классам достоверности.

Список литературы

Васильев В.И. Интеллектуальные системы защиты информации. М.: Машиностроение, 2012. - 172 с.
Vacca J.R. Computer and Information Security Handbook // Newnes, 2012. - 1200 р.
Nunes L., Timmis J. Artificial Immune Systems: A New Computational Intelligence Approach // Springer Science & Business Media, 2002. - 380 р.
Хайкин С. Нейронные сети. М.: ИД «Вильямс», 2008. - 1103 р.
Abe S. Support Vector Machines for Pattern Classification // Springer Science & Business Media. 2005. - 473 р.
Kollias S. Artificial Neural Networks // Springer Science & Business Media. 2006. - 1008 р.
Дасгупта Д. Искусственные иммунные системы и их применение. Пер. с англ. М.: ФИЗМАТЛИТ, 2006. - 344 с.
Tarakanov A.O. Immunocomputing: principles and applications // Springer Verlag, New York, 2003 - 193 р.
Borger E. The Abstract State Machines Method for High-Level System Design and Analysis // Dipartimento di Informatica, Universita di Pisa. 2007. - Р. 30-35.
Shim J.K. Information Systems and Technology for the Noninformation Systems Executive // CRC Press. 2000. - 672 р.
Lunt T.F., Tamaru A., Gilham F. A real-time intrusion-detection expert system (IDES) // Final Technical Report. 1992. - Р. 10-13.
Бурлаков М.Е. Метод фильтрации входящего трафика на основе двухслойной рекуррентной нейронной сети // Ползуновский вестник. АлтГТУ им. И.И. Ползунова, №3/2, 2012. - С. 215-219.
Бурлаков М.Е., Осипов М.Н. Аудит безопасности локальной вычислительной сети с помощью динамической системы на нейронах с реакцией на последовательности. // Информационное противодействие угрозам терроризма. № 20, 2013. - С. 166-170.
Delvin D., O’Sullivan B. Satisfiability as a Classification Problem // University College Cork. URL: http://www.cs.ucc.ie/~osullb/ pubs/classification.pdf (д.о. 03.01.2016).
Fernandez-Delgado M., Cernadas E., Barro S. Do we Need Hundreds of Classifiers to Solve Real World Classification Problems // University of Santiago de Compostela. URL: http://jmlr.csail.mit.edu/papers/volume15/delgado14a/delgado14a.pdf.
Schapire R. Machine Learning Algorithms for Classification // Princeton University. URL: http://www.cs.princeton.edu/~schapire/talks/ picasso-minicourse.pdf.
Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Высшее образование, 2005. - 400 с.
Боровиков В. STATISTICA. Искусство анализа данных на компьютере: Для профессионалов. СПб.: Питер, 2003. - 688 с.

Дополнительные файлы

Доп. файлы

Действие

1. JATS XML

Скачать

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

АДАПТАЦИЯ НАИВНОГО БАЙЕСОВСКОГО КЛАССИФИКАТОРА К МЕХАНИЗМУ КЛАССИФИКАЦИИ ЭЛЕКТРОННЫХ СООБЩЕНИЙ

Полный текст

Аннотация

Ключевые слова

Полный текст

Об авторах

Михаил Евгеньевич Бурлаков

Денис Алексеевич Голубых

Михаил Николаевич Осипов

Список литературы

Дополнительные файлы