Разработка фильтра электронных писем на основе методов машинного обучения как способ борьбы со спамом
- Авторы: Федорова С.А.1
-
Учреждения:
- Самарский национальный исследовательский университет имени академика С. П. Королёва
- Выпуск: Том 1 (2023)
- Страницы: 431-432
- Раздел: Цифровые технологии: настоящее и будущее
- URL: https://journals.eco-vector.com/osnk-sr2023/article/view/409843
- ID: 409843
Цитировать
Полный текст
Аннотация
Обоснование. В настоящее время электронная почта является не только эффективным способом отправки и получения данных, но и еще она стала использоваться пользователями для регистрации на различных интернет-платформах. В связи с этим, количество самых разных писем на почте сильно увеличилось, и найти нужное письмо в этом огромном потоке информации становится не легкой задачей. Кроме того, некоторые письма «превращаются» в спам, и мы никогда не узнаем, почему. Вопрос о том, как работают спам-фильтры? [1] Можно ли адаптировать современные системы под свои потребности? Эти вопросы достаточно актуальны в современном информационном мире, поэтому именно они легли в основу нашего исследования.
Цель: определить наилучший алгоритм и создать на его основе собственную модель.
Методы. В работе применяли следующие теоретические методы исследования: анализ и синтез, классификация. Кроме того, для решения поставленных задач был использован такой математический метод, как визуализация данных, а также основой для всей исследовательской работы являлся метод динамического программирования.
Результаты. В первой главе были рассмотрены и проанализированы следующие методы автоматической классификации [2]: наивный байесовский классификатор, логистическая регрессия и векторизация слов, на которых базируются большое количество спам-фильтров. Кроме того, был проведено сравнение метрик, которые в дальнейшем будут применены для оценки алгоритмов, используемых в этой работе. В состав метрик вошли: точность (precision), полнота (recall), f-мера (f-measure), коэффициент корреляции Мэтьюса (MCC). Также в ходе исследования были проанализированы алгоритмы, используемые в популярных компаниях, таких как Mail.ru, Gmail.com и Yandex.ru. [3]
В практической главе, были выполнены поиск, сбор и обработка баз спам-сообщений. Все материалы, использованные в нашем исследовании, были получены путем поиска данных на сайтах Kaggle.com, archieve.org, а также с помощью поисковой системы google. В результате мощность полученной обучающей выборки составила 14299 сообщений.
Далее, было проведено сравнение наивного байесовского классификатора и логистической регрессии на полученной выборке с помощью такой статической модели, как n-граммы (n-граммы – это последовательность из n подряд идущих слов в тексте). В качестве оценки была взята f-мера. По результатам сравнения мы стали использовать логистическую регрессию, т.к. она справляется с поставленной задачей лучше при любом наборе n-грамм. После этого был создан спам-фильтра на основе полученного алгоритма. [4]
На следующем этапе была произведена классификация ряда писем из личной почты на основе созданной модели и сравнение качества работы спам-фильтра, основанного на предложенном алгоритме, со спам-фильтром Gmail и с экспертным мнением.
После разработки, применения и оценки алгоритмов фильтрации спама мы рассмотрели еще вопрос касательно применимости построенной модели на других выборках, например, на письмах на другом языке. Нами была определена область применимости построенной модели.
Выводы. В результате работы был создан математический алгоритм, основанный на векторизации слов и логистической регрессии. Исследование доказало, что данный спам-фильтр является эффективным инструментом, который может быть использован в различных областях.
Ключевые слова
Полный текст
Обоснование. В настоящее время электронная почта является не только эффективным способом отправки и получения данных, но и еще она стала использоваться пользователями для регистрации на различных интернет-платформах. В связи с этим, количество самых разных писем на почте сильно увеличилось, и найти нужное письмо в этом огромном потоке информации становится не легкой задачей. Кроме того, некоторые письма «превращаются» в спам, и мы никогда не узнаем, почему. Вопрос о том, как работают спам-фильтры? [1] Можно ли адаптировать современные системы под свои потребности? Эти вопросы достаточно актуальны в современном информационном мире, поэтому именно они легли в основу нашего исследования.
Цель: определить наилучший алгоритм и создать на его основе собственную модель.
Методы. В работе применяли следующие теоретические методы исследования: анализ и синтез, классификация. Кроме того, для решения поставленных задач был использован такой математический метод, как визуализация данных, а также основой для всей исследовательской работы являлся метод динамического программирования.
Результаты. В первой главе были рассмотрены и проанализированы следующие методы автоматической классификации [2]: наивный байесовский классификатор, логистическая регрессия и векторизация слов, на которых базируются большое количество спам-фильтров. Кроме того, был проведено сравнение метрик, которые в дальнейшем будут применены для оценки алгоритмов, используемых в этой работе. В состав метрик вошли: точность (precision), полнота (recall), f-мера (f-measure), коэффициент корреляции Мэтьюса (MCC). Также в ходе исследования были проанализированы алгоритмы, используемые в популярных компаниях, таких как Mail.ru, Gmail.com и Yandex.ru. [3]
В практической главе, были выполнены поиск, сбор и обработка баз спам-сообщений. Все материалы, использованные в нашем исследовании, были получены путем поиска данных на сайтах Kaggle.com, archieve.org, а также с помощью поисковой системы google. В результате мощность полученной обучающей выборки составила 14299 сообщений.
Далее, было проведено сравнение наивного байесовского классификатора и логистической регрессии на полученной выборке с помощью такой статической модели, как n-граммы (n-граммы – это последовательность из n подряд идущих слов в тексте). В качестве оценки была взята f-мера. По результатам сравнения мы стали использовать логистическую регрессию, т.к. она справляется с поставленной задачей лучше при любом наборе n-грамм. После этого был создан спам-фильтра на основе полученного алгоритма. [4]
На следующем этапе была произведена классификация ряда писем из личной почты на основе созданной модели и сравнение качества работы спам-фильтра, основанного на предложенном алгоритме, со спам-фильтром Gmail и с экспертным мнением.
После разработки, применения и оценки алгоритмов фильтрации спама мы рассмотрели еще вопрос касательно применимости построенной модели на других выборках, например, на письмах на другом языке. Нами была определена область применимости построенной модели.
Выводы. В результате работы был создан математический алгоритм, основанный на векторизации слов и логистической регрессии. Исследование доказало, что данный спам-фильтр является эффективным инструментом, который может быть использован в различных областях.
Об авторах
Софья Александровна Федорова
Самарский национальный исследовательский университет имени академика С. П. Королёва
Автор, ответственный за переписку.
Email: feodorowa.sof@yandex.ru
студентка, институт информатики и кибернетики
Россия, СамараСписок литературы
- cyberleninka.ru [Электронный ресурс]. Скляренко, Н.С. Обзор алгоритмов машинного обучения, решающих задачу обнаружения спама [дата обращения 13.01.2023]. Доступ по ссылке: https://cyberleninka.ru/article/n/obzor-algoritmov-mashinnogo-obucheniya-reshayuschih-zadachu-obnaruzheniya-spama
- ru.coursera.org [Электронный ресурс]. Рябенко Е., Слесарев А., Кантор В., Соколов Е., Драль Э., Спецкурс «Машинное обучение и анализ данных». Лекция «Прикладные задачи анализа данных» / Д. П. Ветров, Д. А. Кропотов. [дата обращения 18.01.2023]. Доступ по ссылке: https://ru.coursera.org/learn/data-analysis-applications
- habr.com [Электронный ресурс]. Блог компании Mail.ru Group [дата обращения 29.01.2022]. Доступ по ссылке: https://habr.com/ru/company/mailru/blog/476714/
- Гмурман, В.Е. Теория вероятностей и математическая статистика: Учеб. пособие для вузов / В.Е. Гмурман. – 9-е изд., стер. – М.: Высш. шк., 2003. – с. 52-53.