Статистический анализ текстовой информации в социальных сетях

Баканов Дмитрий Сергеевич; Куприянов Александр Викторович

Статистический анализ текстовой информации в социальных сетях

Авторы: Баканов Д.С.¹, Куприянов А.В.¹
Учреждения:
1. Самарский национальный исследовательский университет им. С.П. Королева
Выпуск: Том 1 (2022)
Страницы: 458-460
Раздел: Информационные технологии и техническая кибернетика
URL: https://journals.eco-vector.com/osnk-sr/article/view/107509
ID: 107509

Цитировать

Полный текст

Аннотация
Полный текст
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

Обоснование. В последнее время все большую роль в повседневной жизни современного человека стали играть социальные сети. Социальные сети или социальные медиа — это интернет-ресурс, который предназначен для взаимодействия людей в группах, развлечений и прочей активностей. Самая главная особенность данного ресурса состоит в том, что контент создается самими пользователями — реальными людьми и организациями. Социальные сети постепенно охватывают все большую аудиторию. Так, за период с февраля по март 2022 г. дневная аудитория ВКонтакте в России выросла на 4 млн человек, а за день ею пользуются 50 млн человек [1]. Поэтому такая платформа может послужить хорошим местом для проведения социальных исследований. Такие исследования можно использовать в различных сферах нашей жизни для улучшения качества услуг или рекламы.

Цель — произвести статистический анализ текстовой информации из социальной сети и разработать соответствующую статистическую модель.

Методы. Весь процесс анализа социальных сетей можно свести к следующим этапам:

Аутентификация. Пользователь при помощи открытого протокола авторизации (OAuth) входит в веб-приложение по определенному адресу и попадает в среду социальной сети.
Сбор данных. Данный этап зависит от особенностей социальной сети: наличие/отсутствие API, политика конфиденциальности и пр.
Очистка и предобработка данных.
Построение модели и анализ.
Представление результатов [2].

В данной работе рассматривается контент из группы социальной сети ВКонтакте. При помощи официального API ВКонтакте [3] было скачано свыше 80 000 постов. Их поверхностный анализ приведен в таблице.

Таблица. Результаты поверхностного анализа текстов из постов

Показатель	Значения
Всего постов	87994
Общие количественные характеристики элементов текста	Всего слов: 6087078 Всего глаголов: 1140503 Всего существительных: 1503712 Количество слов, обозначающих конкретных персон: 0
Наиболее частые представители различных элементов текста	Среди всех слов: и, в, не, я Существительные: лет, раз, мама, день Глаголы: нет, есть, могу, говорит

Для дальнейшего анализа текст был разбит на N-граммы — последовательность из N элементов строки. В данной работе — на биграммы (последовательность из двух элементов). Были найдены самые частые в использовании биграммы (рис. 1).

Рис. 1. Самые часто встречаемые биграммы

Из поверхностного анализа и частым биграммам можно сделать вывод, что специфика данной группы заключается в том, что в ней люди публикуют обезличенные истории из своей жизни.

На следующем этапе был проведен кластерный анализ, который заключается в сегментировании данных на кластеры (подмножества), что объекты внутри более тесно связаны, чем с другими [4].

На следующем этапе был создан конвейер для построения статистической модели:

Токенизация. Текст разбивается на биграммы.
Векторизация. Создаются векторы пар (биграмма, количество вхождений в текст).
Нормализация. Векторы нормализуются в соответствии с метрикой TF-IDF. Суть данной метрики заключается в следующем: если слово встречается часто в документе и редко во всем наборе, вероятно, оно является очень представительным для этого конкретного документа и поэтому заслуживает более высокого веса [2].
Алгоритм k-средних. Данный алгоритм ищет центры кластеров, основываясь на минимизации евклидова расстояния между объектами кластера [4].

Результаты. После построения конвейера данные были разбиты на три кластера (рис. 2).

Рис. 2. Пример разбиения биграмм на кластеры

В ходе более детального исследования выяснилось, что посты были сгруппированы в основном по эмоциональному окрасу: негативный, положительный и нейтральный.

Выводы. В ходе данной работы была проанализирована текстовая информация постов группы из социальной сети ВКонтакте, построена статистическая модель кластеризации с использованием алгоритма k-средних.

Ключевые слова

анализ социальных сетей, кластерный анализ, алгоритм k-средних, наука о данных, обработка естественного языка, N-грамма, TF-IDF

Полный текст

Методы. Весь процесс анализа социальных сетей можно свести к следующим этапам:

Аутентификация. Пользователь при помощи открытого протокола авторизации (OAuth) входит в веб-приложение по определенному адресу и попадает в среду социальной сети.
Сбор данных. Данный этап зависит от особенностей социальной сети: наличие/отсутствие API, политика конфиденциальности и пр.
Очистка и предобработка данных.
Построение модели и анализ.
Представление результатов [2].

Таблица. Результаты поверхностного анализа текстов из постов

Показатель	Значения
Всего постов	87994
Общие количественные характеристики элементов текста	Всего слов: 6087078 Всего глаголов: 1140503 Всего существительных: 1503712 Количество слов, обозначающих конкретных персон: 0
Наиболее частые представители различных элементов текста	Среди всех слов: и, в, не, я Существительные: лет, раз, мама, день Глаголы: нет, есть, могу, говорит

Рис. 1. Самые часто встречаемые биграммы

На следующем этапе был создан конвейер для построения статистической модели:

Токенизация. Текст разбивается на биграммы.
Векторизация. Создаются векторы пар (биграмма, количество вхождений в текст).
Нормализация. Векторы нормализуются в соответствии с метрикой TF-IDF. Суть данной метрики заключается в следующем: если слово встречается часто в документе и редко во всем наборе, вероятно, оно является очень представительным для этого конкретного документа и поэтому заслуживает более высокого веса [2].
Алгоритм k-средних. Данный алгоритм ищет центры кластеров, основываясь на минимизации евклидова расстояния между объектами кластера [4].

Результаты. После построения конвейера данные были разбиты на три кластера (рис. 2).

Рис. 2. Пример разбиения биграмм на кластеры

Об авторах

Дмитрий Сергеевич Баканов

Самарский национальный исследовательский университет им. С.П. Королева

Email: dima.bakanov.1999@mail.ru

студент, группа 6132-010402D, институт информатики и кибернетики

Россия, Самара

Александр Викторович Куприянов

Самарский национальный исследовательский университет им. С.П. Королева

Автор, ответственный за переписку.
Email: akupr@ssau.ru

научный руководитель, доктор технических наук, доцент; заведующий кафедрой технической кибернетики

Россия, Самара

Список литературы

vk.com [Электронный ресурс]. Дневная аудитория ВКонтакте выросла на 4 млн — до рекордных 50 млн пользователей // Новости ВКонтакте [дата обращения: 01.04.2022]. Доступ по ссылке: https://vk.com/press/users-monthly-activity#:~:text=14%20марта%202022%20ВКонтакте.%20Дневная,приводят%20на%20платформу%20своих%20знакомых
Бонцанини М. Анализ социальных медиа на Python / пер. с анг. А.В. Логунова. Москва: ДМК Пресс, 2018. 288 с
dev.vk.com [Электронный ресурс]. Использование API. Быстрый старт // VK для разработчиков [дата обращения 24.02.2022]. Доступ по ссылке: https://dev.vk.com/api/getting-started
Хасти Т., Тибширани Р., Фридман Д. Основы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование, 2-е изд. / пер. с англ. Санкт-Петербург: ООО “Диалектика”, 2020. 768 с.

Дополнительные файлы

Доп. файлы

Действие

1. JATS XML

Скачать

2. Рис. 1. Самые часто встречаемые биграммы

Скачать (68KB)

Метаданные

3. Рис. 2. Пример разбиения биграмм на кластеры

Скачать (147KB)

Метаданные

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация