Разработка фильтра электронных писем на основе методов машинного обучения как способ борьбы со спамом

Обложка
  • Авторы: Федорова С.А.1
  • Учреждения:
    1. Самарский национальный исследовательский университет имени академика С. П. Королёва
  • Выпуск: Том 1 (2023)
  • Страницы: 431-432
  • Раздел: Цифровые технологии: настоящее и будущее
  • URL: https://journals.eco-vector.com/osnk-sr2023/article/view/409843
  • ID: 409843

Цитировать

Полный текст

Аннотация

Обоснование. В настоящее время электронная почта является не только эффективным способом отправки и получения данных, но и еще она стала использоваться пользователями для регистрации на различных интернет-платформах. В связи с этим, количество самых разных писем на почте сильно увеличилось, и найти нужное письмо в этом огромном потоке информации становится не легкой задачей. Кроме того, некоторые письма «превращаются» в спам, и мы никогда не узнаем, почему. Вопрос о том, как работают спам-фильтры? [1] Можно ли адаптировать современные системы под свои потребности? Эти вопросы достаточно актуальны в современном информационном мире, поэтому именно они легли в основу нашего исследования.

Цель: определить наилучший алгоритм и создать на его основе собственную модель.

Методы. В работе применяли следующие теоретические методы исследования: анализ и синтез, классификация. Кроме того, для решения поставленных задач был использован такой математический метод, как визуализация данных, а также основой для всей исследовательской работы являлся метод динамического программирования.

Результаты. В первой главе были рассмотрены и проанализированы следующие методы автоматической классификации [2]: наивный байесовский классификатор, логистическая регрессия и векторизация слов, на которых базируются большое количество спам-фильтров.  Кроме того, был проведено сравнение метрик, которые в дальнейшем будут применены для оценки алгоритмов, используемых в этой работе. В состав метрик вошли: точность (precision), полнота (recall), f-мера (f-measure), коэффициент корреляции Мэтьюса (MCC). Также в ходе исследования были проанализированы алгоритмы, используемые в популярных компаниях, таких как Mail.ru, Gmail.com и Yandex.ru. [3]

В практической главе, были выполнены поиск, сбор и обработка баз спам-сообщений. Все материалы, использованные в нашем исследовании, были получены путем поиска данных на сайтах Kaggle.com, archieve.org, а также с помощью поисковой системы google. В результате мощность полученной обучающей выборки составила 14299 сообщений.

Далее, было проведено сравнение наивного байесовского классификатора и логистической регрессии на полученной выборке с помощью такой статической модели, как n-граммы (n-граммы – это последовательность из n подряд идущих слов в тексте). В качестве оценки была взята f-мера. По результатам сравнения мы стали использовать логистическую регрессию, т.к. она справляется с поставленной задачей лучше при любом наборе n-грамм. После этого был создан спам-фильтра на основе полученного алгоритма. [4]

На следующем этапе была произведена классификация ряда писем из личной почты на основе созданной модели и сравнение качества работы спам-фильтра, основанного на предложенном алгоритме, со спам-фильтром Gmail и с экспертным мнением.

После разработки, применения и оценки алгоритмов фильтрации спама мы рассмотрели еще вопрос касательно применимости построенной модели на других выборках, например, на письмах на другом языке. Нами была определена область применимости построенной модели.

Выводы. В результате работы был создан математический алгоритм, основанный на векторизации слов и логистической регрессии. Исследование доказало, что данный спам-фильтр является эффективным инструментом, который может быть использован в различных областях.

Полный текст

Обоснование. В настоящее время электронная почта является не только эффективным способом отправки и получения данных, но и еще она стала использоваться пользователями для регистрации на различных интернет-платформах. В связи с этим, количество самых разных писем на почте сильно увеличилось, и найти нужное письмо в этом огромном потоке информации становится не легкой задачей. Кроме того, некоторые письма «превращаются» в спам, и мы никогда не узнаем, почему. Вопрос о том, как работают спам-фильтры? [1] Можно ли адаптировать современные системы под свои потребности? Эти вопросы достаточно актуальны в современном информационном мире, поэтому именно они легли в основу нашего исследования.

Цель: определить наилучший алгоритм и создать на его основе собственную модель.

Методы. В работе применяли следующие теоретические методы исследования: анализ и синтез, классификация. Кроме того, для решения поставленных задач был использован такой математический метод, как визуализация данных, а также основой для всей исследовательской работы являлся метод динамического программирования.

Результаты. В первой главе были рассмотрены и проанализированы следующие методы автоматической классификации [2]: наивный байесовский классификатор, логистическая регрессия и векторизация слов, на которых базируются большое количество спам-фильтров.  Кроме того, был проведено сравнение метрик, которые в дальнейшем будут применены для оценки алгоритмов, используемых в этой работе. В состав метрик вошли: точность (precision), полнота (recall), f-мера (f-measure), коэффициент корреляции Мэтьюса (MCC). Также в ходе исследования были проанализированы алгоритмы, используемые в популярных компаниях, таких как Mail.ru, Gmail.com и Yandex.ru. [3]

В практической главе, были выполнены поиск, сбор и обработка баз спам-сообщений. Все материалы, использованные в нашем исследовании, были получены путем поиска данных на сайтах Kaggle.com, archieve.org, а также с помощью поисковой системы google. В результате мощность полученной обучающей выборки составила 14299 сообщений.

Далее, было проведено сравнение наивного байесовского классификатора и логистической регрессии на полученной выборке с помощью такой статической модели, как n-граммы (n-граммы – это последовательность из n подряд идущих слов в тексте). В качестве оценки была взята f-мера. По результатам сравнения мы стали использовать логистическую регрессию, т.к. она справляется с поставленной задачей лучше при любом наборе n-грамм. После этого был создан спам-фильтра на основе полученного алгоритма. [4]

На следующем этапе была произведена классификация ряда писем из личной почты на основе созданной модели и сравнение качества работы спам-фильтра, основанного на предложенном алгоритме, со спам-фильтром Gmail и с экспертным мнением.

После разработки, применения и оценки алгоритмов фильтрации спама мы рассмотрели еще вопрос касательно применимости построенной модели на других выборках, например, на письмах на другом языке. Нами была определена область применимости построенной модели.

Выводы. В результате работы был создан математический алгоритм, основанный на векторизации слов и логистической регрессии. Исследование доказало, что данный спам-фильтр является эффективным инструментом, который может быть использован в различных областях.

×

Об авторах

Софья Александровна Федорова

Самарский национальный исследовательский университет имени академика С. П. Королёва

Автор, ответственный за переписку.
Email: feodorowa.sof@yandex.ru

студентка, институт информатики и кибернетики

Россия, Самара

Список литературы

  1. cyberleninka.ru [Электронный ресурс]. Скляренко, Н.С. Обзор алгоритмов машинного обучения, решающих задачу обнаружения спама [дата обращения 13.01.2023]. Доступ по ссылке: https://cyberleninka.ru/article/n/obzor-algoritmov-mashinnogo-obucheniya-reshayuschih-zadachu-obnaruzheniya-spama
  2. ru.coursera.org [Электронный ресурс]. Рябенко Е., Слесарев А., Кантор В., Соколов Е., Драль Э., Спецкурс «Машинное обучение и анализ данных». Лекция «Прикладные задачи анализа данных» / Д. П. Ветров, Д. А. Кропотов. [дата обращения 18.01.2023]. Доступ по ссылке: https://ru.coursera.org/learn/data-analysis-applications
  3. habr.com [Электронный ресурс]. Блог компании Mail.ru Group [дата обращения 29.01.2022]. Доступ по ссылке: https://habr.com/ru/company/mailru/blog/476714/
  4. Гмурман, В.Е. Теория вероятностей и математическая статистика: Учеб. пособие для вузов / В.Е. Гмурман. – 9-е изд., стер. – М.: Высш. шк., 2003. – с. 52-53.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Федорова С.А., 2023

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах