NAIVE BAYESIAN CLASSIFIER ADAPTATION FOR E-MAIL CLASSIFICATION MECHANISM

Abstract


Actually there are many difficulties for solutions of email classification problems. One is the problem of content analysis for two classification groups containing reliable and unreliable data. There are known a number of adaptive and non-adaptive algorithms that should help to solve described problem. Nowadays naive Bayesian classifier algorithm is one of the most popular tool in the field of data classification problem solution. This work is concerned on how to adapt naive Bayesian classifier mechanism for e-mail classification, where e-mails are classified as reliable and unreliable information blocks. We determine naive Bayesian classifier learning process as calculation the probability of one or another word meeting into e-mails.

Full Text

Введение В современных системах передачи информации крайне актуально стоит задача, связанная с классификацией блоков данных и электронных сообщений, передающихся от отправителя к адресату через разного рода системы (mail, web, irq и т.д.). Для ее решения применяется множество как адаптивных (искусственные нейронные сети, искусственные иммунные алгоритмы, генетические алгоритмы), так и неадаптивных (методы графов сценариев атак, методы анализа систем состояний, экспертные системы, методы на спецификациях, сигнатурные методы) методов [1-11]. Задача классификации электронных сообщений в рамках информационной системы сводится к отнесению входящего потока данных к соответствующему классу (например, по релевантности, по отправителю, по объему и содержимому). Наиболее актуальным направлением в анализе и классификации сообщений выделяют классификацию по их содержимому, когда можно без знания об источнике сообщения, с определенной долей вероятности определить к какому классу она относится и либо отправить сообщение дальше, либо остановить его движение по информационной системе. Одна из основных задач классификации блоков данных и электронных сообщений заключается в их распределении по двум классам достоверности [11-16]: достоверной (актуальной, легитимной и т.д.) и, соответственно, информации; недостоверной. При этом под достоверной (легитимной) информацией понимается набор данных, который не представляет из себя угрозы для информационной системы, в которой происходит ее циркуляция, с точки зрения доступности, целостности и конфиденциальности. В противном случае информация называется недостоверной (нелегитимной). Примером подобной классификации является антиспам-система или программно-аппаратный комплекс антивирусной защиты, задача которых также сводится к определению достоверности входящего в информационную систему сообщения по его содержимому. Как было отмечено, существует большое число адаптивных и неадаптивных алгоритмов, способных классифицировать блоки данных (электронные сообщения) по содержимому, одним из которых является классический наивный байесовский классификатор (НБК), который в изначальном своем определении не адаптирован для решения задачи классификации электронных сообщений на классы достоверной и недостоверной информации. Для решения задачи классификации электронных сообщений относительно их содержимого на обозначенные классы с применением НБК, требуется проведение процесса адаптации алгоритма. Задача адаптации Рассмотрим процесс адаптации НБК к процессу классификации электронных сообщений по их содержимому на класс достоверной и недостоверной информации. Для этого рассмотрим базовый элемент - электронное сообщение, представленное в виде вектора , состоящее из конечного числа слов X1 … Xn : , (1) где X1 … Xn - слова входящие в данное сообщение. Пусть C = {C1, C2} множество классов достоверных (C1) и недостоверных сообщений (C2). Тогда вероятность отнесения слова в подмножество (класс) Ci C есть вероятность попадания всех его слов в данный класс: . (2) Исходя из теоремы Байеса [17]: (3) В силу того, что вероятность появления того или иного слова X1 … Xn в сообщении x есть события равновероятные, то соотношение (3) можно переписать следующим образом: . (4) С другой стороны, в силу независимости появления слов X1 … Xn в сообщении x, значение есть величина постоянная (константа), которая равна: . (5) В нашем случае, каждое слово из сообщения Xk условно независимо от любого другого слова Xj при , то есть . (6) С другой стороны, числитель эквивалентен совместной вероятности: , (7) которая, по определению условной вероятности, будет иметь значение (8) Из той же независимости X1 … Xn условное распределение по подмножеству (классу) Ci может быть выражено как , (9) где Q равно значению, полученному в (5). Таким образом, НБК объединяет исследуемую модель (в нашем случае это модель электронных сообщений с непустым содержимым) с правилом решения (возможностью проведения процесса классификации электронных сообщений на классы достоверных и недостоверных сообщений). Для определения соответствующего класса в процессе классификации, в НБК выделяют такое понятие, как апостериорное правило принятия решения - под которым понимают правило, позволяющее определить наиболее вероятную гипотезу (решение относительно определения класса) [18]. Для процесса классификации в соответствии с НБК определим функцию-классификатор classify(·), которая для множества слов X1 … Xn электронного сообщения x из класса электронных сообщений C имеет вид . (10) Определим процесс обучения наивного байесовского классификатора как подсчет вероятности встречи того или иного слова в сообщении Xj x. Стоит заметить, что наивный байесовский классификатор при классификации сообщения делает предположение, что разные слова в тексте на одну и ту же тему появляются независимо друг от друга. Проецируя (10) на задачу классификации электронных сообщений по классам достоверных и недостоверных сообщений, получаем , (11) где множество V = {достоверные сообщения, недостоверные сообщения}; - вероятность принадлежности электронного сообщения классу j из множества достоверных и недостоверных сообщений. j рассчитывается как частота вхождения класса Vj во множество обучающих выборок; - i-ое слово в электронном сообщении; - вероятность содержания слова ai в электронном сообщении, принадлежащему классу j рассчитывается исходя из частоты анализируемого слова, находящегося в обучающем массиве данных. Таким образом, процесс обучения НБК построен по принципу постоянного (по мере поступления новых электронных сообщений с непустым содержимым в классификаторе от информационной системы или от пользователя) обновления частоты слов. Алгоритм классифицирует только те слова либо набор слов, которые ранее при анализе не встречались. Заключение Таким образом, НБК работает в рамках решения задачи классификации электронных сообщений по классам достоверности множества V, то есть алгоритм анализирует сообщение по словам, изменение количества которых влияет на механизм классификация через вероятностную составляющую, что решается основная задача классификации блоков данных и электронных сообщений и их распределение по соответствующим классам достоверности.

About the authors

Michael Evgenyevich Burlakov

Samara University

Email: knownwhat@gmail.com

Denis Alekseevich Golubyh

Samara University

Email: den1008@bk.ru

Michael Nikolaevich Osipov

Samara University

Email: osipov7@yandex.ru

References

  1. Васильев В.И. Интеллектуальные системы защиты информации. М.: Машиностроение, 2012. - 172 с.
  2. Vacca J.R. Computer and Information Security Handbook // Newnes, 2012. - 1200 р.
  3. Nunes L., Timmis J. Artificial Immune Systems: A New Computational Intelligence Approach // Springer Science & Business Media, 2002. - 380 р.
  4. Хайкин С. Нейронные сети. М.: ИД «Вильямс», 2008. - 1103 р.
  5. Abe S. Support Vector Machines for Pattern Classification // Springer Science & Business Media. 2005. - 473 р.
  6. Kollias S. Artificial Neural Networks // Springer Science & Business Media. 2006. - 1008 р.
  7. Дасгупта Д. Искусственные иммунные системы и их применение. Пер. с англ. М.: ФИЗМАТЛИТ, 2006. - 344 с.
  8. Tarakanov A.O. Immunocomputing: principles and applications // Springer Verlag, New York, 2003 - 193 р.
  9. Borger E. The Abstract State Machines Method for High-Level System Design and Analysis // Dipartimento di Informatica, Universita di Pisa. 2007. - Р. 30-35.
  10. Shim J.K. Information Systems and Technology for the Noninformation Systems Executive // CRC Press. 2000. - 672 р.
  11. Lunt T.F., Tamaru A., Gilham F. A real-time intrusion-detection expert system (IDES) // Final Technical Report. 1992. - Р. 10-13.
  12. Бурлаков М.Е. Метод фильтрации входящего трафика на основе двухслойной рекуррентной нейронной сети // Ползуновский вестник. АлтГТУ им. И.И. Ползунова, №3/2, 2012. - С. 215-219.
  13. Бурлаков М.Е., Осипов М.Н. Аудит безопасности локальной вычислительной сети с помощью динамической системы на нейронах с реакцией на последовательности. // Информационное противодействие угрозам терроризма. № 20, 2013. - С. 166-170.
  14. Delvin D., O’Sullivan B. Satisfiability as a Classification Problem // University College Cork. URL: http://www.cs.ucc.ie/~osullb/ pubs/classification.pdf (д.о. 03.01.2016).
  15. Fernandez-Delgado M., Cernadas E., Barro S. Do we Need Hundreds of Classifiers to Solve Real World Classification Problems // University of Santiago de Compostela. URL: http://jmlr.csail.mit.edu/papers/volume15/delgado14a/delgado14a.pdf.
  16. Schapire R. Machine Learning Algorithms for Classification // Princeton University. URL: http://www.cs.princeton.edu/~schapire/talks/ picasso-minicourse.pdf.
  17. Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Высшее образование, 2005. - 400 с.
  18. Боровиков В. STATISTICA. Искусство анализа данных на компьютере: Для профессионалов. СПб.: Питер, 2003. - 688 с.

Statistics

Views

Abstract - 17

PDF (Russian) - 3

Cited-By


Article Metrics

Metrics Loading ...

PlumX

Dimensions


Copyright (c) 2016 Burlakov M.E., Golubyh D.A., Osipov M.N.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies