Статистический анализ текстовой информации в социальных сетях

Cover Page
  • Authors: 1, 1
  • Affiliations:
    1. Самарский национальный исследовательский университет им. С.П. Королева
  • Issue: Vol 1 (2022)
  • Pages: 458-460
  • Section: Информационные технологии и техническая кибернетика
  • URL: https://journals.eco-vector.com/osnk-sr/article/view/107509
  • ID: 107509

Cite item

Full Text

Abstract

Обоснование. В последнее время все большую роль в повседневной жизни современного человека стали играть социальные сети. Социальные сети или социальные медиа — это интернет-ресурс, который предназначен для взаимодействия людей в группах, развлечений и прочей активностей. Самая главная особенность данного ресурса состоит в том, что контент создается самими пользователями — реальными людьми и организациями. Социальные сети постепенно охватывают все большую аудиторию. Так, за период с февраля по март 2022 г. дневная аудитория ВКонтакте в России выросла на 4 млн человек, а за день ею пользуются 50 млн человек [1]. Поэтому такая платформа может послужить хорошим местом для проведения социальных исследований. Такие исследования можно использовать в различных сферах нашей жизни для улучшения качества услуг или рекламы.

Цель — произвести статистический анализ текстовой информации из социальной сети и разработать соответствующую статистическую модель.

Методы. Весь процесс анализа социальных сетей можно свести к следующим этапам:

  1. Аутентификация. Пользователь при помощи открытого протокола авторизации (OAuth) входит в веб-приложение по определенному адресу и попадает в среду социальной сети.
  2. Сбор данных. Данный этап зависит от особенностей социальной сети: наличие/отсутствие API, политика конфиденциальности и пр.
  3. Очистка и предобработка данных.
  4. Построение модели и анализ.
  5. Представление результатов [2].

В данной работе рассматривается контент из группы социальной сети ВКонтакте. При помощи официального API ВКонтакте [3] было скачано свыше 80 000 постов. Их поверхностный анализ приведен в таблице.

 

Таблица. Результаты поверхностного анализа текстов из постов

Показатель

Значения

Всего постов

87994

Общие количественные характеристики элементов текста

Всего слов: 6087078

Всего глаголов: 1140503

Всего существительных: 1503712

Количество слов, обозначающих конкретных персон: 0

Наиболее частые представители различных элементов текста

Среди всех слов: и, в, не, я

Существительные: лет, раз, мама, день

Глаголы: нет, есть, могу, говорит

 

Для дальнейшего анализа текст был разбит на N-граммы — последовательность из N элементов строки. В данной работе — на биграммы (последовательность из двух элементов). Были найдены самые частые в использовании биграммы (рис. 1).

 

Рис. 1. Самые часто встречаемые биграммы

 

Из поверхностного анализа и частым биграммам можно сделать вывод, что специфика данной группы заключается в том, что в ней люди публикуют обезличенные истории из своей жизни.

На следующем этапе был проведен кластерный анализ, который заключается в сегментировании данных на кластеры (подмножества), что объекты внутри более тесно связаны, чем с другими [4].

На следующем этапе был создан конвейер для построения статистической модели:

  1. Токенизация. Текст разбивается на биграммы.
  2. Векторизация. Создаются векторы пар (биграмма, количество вхождений в текст).
  3. Нормализация. Векторы нормализуются в соответствии с метрикой TF-IDF. Суть данной метрики заключается в следующем: если слово встречается часто в документе и редко во всем наборе, вероятно, оно является очень представительным для этого конкретного документа и поэтому заслуживает более высокого веса [2].
  4. Алгоритм k-средних. Данный алгоритм ищет центры кластеров, основываясь на минимизации евклидова расстояния между объектами кластера [4].

Результаты. После построения конвейера данные были разбиты на три кластера (рис. 2).

 

Рис. 2. Пример разбиения биграмм на кластеры

 

В ходе более детального исследования выяснилось, что посты были сгруппированы в основном по эмоциональному окрасу: негативный, положительный и нейтральный.

Выводы. В ходе данной работы была проанализирована текстовая информация постов группы из социальной сети ВКонтакте, построена статистическая модель кластеризации с использованием алгоритма k-средних.

Full Text

Обоснование. В последнее время все большую роль в повседневной жизни современного человека стали играть социальные сети. Социальные сети или социальные медиа — это интернет-ресурс, который предназначен для взаимодействия людей в группах, развлечений и прочей активностей. Самая главная особенность данного ресурса состоит в том, что контент создается самими пользователями — реальными людьми и организациями. Социальные сети постепенно охватывают все большую аудиторию. Так, за период с февраля по март 2022 г. дневная аудитория ВКонтакте в России выросла на 4 млн человек, а за день ею пользуются 50 млн человек [1]. Поэтому такая платформа может послужить хорошим местом для проведения социальных исследований. Такие исследования можно использовать в различных сферах нашей жизни для улучшения качества услуг или рекламы.

Цель — произвести статистический анализ текстовой информации из социальной сети и разработать соответствующую статистическую модель.

Методы. Весь процесс анализа социальных сетей можно свести к следующим этапам:

  1. Аутентификация. Пользователь при помощи открытого протокола авторизации (OAuth) входит в веб-приложение по определенному адресу и попадает в среду социальной сети.
  2. Сбор данных. Данный этап зависит от особенностей социальной сети: наличие/отсутствие API, политика конфиденциальности и пр.
  3. Очистка и предобработка данных.
  4. Построение модели и анализ.
  5. Представление результатов [2].

В данной работе рассматривается контент из группы социальной сети ВКонтакте. При помощи официального API ВКонтакте [3] было скачано свыше 80 000 постов. Их поверхностный анализ приведен в таблице.

 

Таблица. Результаты поверхностного анализа текстов из постов

Показатель

Значения

Всего постов

87994

Общие количественные характеристики элементов текста

Всего слов: 6087078

Всего глаголов: 1140503

Всего существительных: 1503712

Количество слов, обозначающих конкретных персон: 0

Наиболее частые представители различных элементов текста

Среди всех слов: и, в, не, я

Существительные: лет, раз, мама, день

Глаголы: нет, есть, могу, говорит

 

Для дальнейшего анализа текст был разбит на N-граммы — последовательность из N элементов строки. В данной работе — на биграммы (последовательность из двух элементов). Были найдены самые частые в использовании биграммы (рис. 1).

 

Рис. 1. Самые часто встречаемые биграммы

 

Из поверхностного анализа и частым биграммам можно сделать вывод, что специфика данной группы заключается в том, что в ней люди публикуют обезличенные истории из своей жизни.

На следующем этапе был проведен кластерный анализ, который заключается в сегментировании данных на кластеры (подмножества), что объекты внутри более тесно связаны, чем с другими [4].

На следующем этапе был создан конвейер для построения статистической модели:

  1. Токенизация. Текст разбивается на биграммы.
  2. Векторизация. Создаются векторы пар (биграмма, количество вхождений в текст).
  3. Нормализация. Векторы нормализуются в соответствии с метрикой TF-IDF. Суть данной метрики заключается в следующем: если слово встречается часто в документе и редко во всем наборе, вероятно, оно является очень представительным для этого конкретного документа и поэтому заслуживает более высокого веса [2].
  4. Алгоритм k-средних. Данный алгоритм ищет центры кластеров, основываясь на минимизации евклидова расстояния между объектами кластера [4].

Результаты. После построения конвейера данные были разбиты на три кластера (рис. 2).

 

Рис. 2. Пример разбиения биграмм на кластеры

 

В ходе более детального исследования выяснилось, что посты были сгруппированы в основном по эмоциональному окрасу: негативный, положительный и нейтральный.

Выводы. В ходе данной работы была проанализирована текстовая информация постов группы из социальной сети ВКонтакте, построена статистическая модель кластеризации с использованием алгоритма k-средних.

×

About the authors

Самарский национальный исследовательский университет им. С.П. Королева

Email: dima.bakanov.1999@mail.ru

студент, группа 6132-010402D, институт информатики и кибернетики

Russian Federation, Самара

Самарский национальный исследовательский университет им. С.П. Королева

Author for correspondence.
Email: akupr@ssau.ru

научный руководитель, доктор технических наук, доцент; заведующий кафедрой технической кибернетики

Russian Federation, Самара

References

  1. vk.com [Электронный ресурс]. Дневная аудитория ВКонтакте выросла на 4 млн — до рекордных 50 млн пользователей // Новости ВКонтакте [дата обращения: 01.04.2022]. Доступ по ссылке: https://vk.com/press/users-monthly-activity#:~:text=14%20марта%202022%20ВКонтакте.%20Дневная,приводят%20на%20платформу%20своих%20знакомых
  2. Бонцанини М. Анализ социальных медиа на Python / пер. с анг. А.В. Логунова. Москва: ДМК Пресс, 2018. 288 с
  3. dev.vk.com [Электронный ресурс]. Использование API. Быстрый старт // VK для разработчиков [дата обращения 24.02.2022]. Доступ по ссылке: https://dev.vk.com/api/getting-started
  4. Хасти Т., Тибширани Р., Фридман Д. Основы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование, 2-е изд. / пер. с англ. Санкт-Петербург: ООО “Диалектика”, 2020. 768 с.

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Рис. 1. Самые часто встречаемые биграммы

Download (68KB)
3. Рис. 2. Пример разбиения биграмм на кластеры

Download (147KB)

Copyright (c) 2022 Баканов Д.С., Куприянов А.В.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies