Статистический анализ текстовой информации в социальных сетях

Баканов Дмитрий Сергеевич; Куприянов Александр Викторович

Статистический анализ текстовой информации в социальных сетях

Авторлар: ¹, ¹
Мекемелер:
1. Самарский национальный исследовательский университет им. С.П. Королева
Шығарылым: Том 1 (2022)
Беттер: 458-460
Бөлім: Информационные технологии и техническая кибернетика
URL: https://journals.eco-vector.com/osnk-sr/article/view/107509
ID: 107509

Дәйексөз келтіру

Толық мәтін

Аннотация
Толық мәтін
Авторлар туралы
Әдебиет тізімі
Қосымша файлдар
Статистика

Аннотация

Обоснование. В последнее время все большую роль в повседневной жизни современного человека стали играть социальные сети. Социальные сети или социальные медиа — это интернет-ресурс, который предназначен для взаимодействия людей в группах, развлечений и прочей активностей. Самая главная особенность данного ресурса состоит в том, что контент создается самими пользователями — реальными людьми и организациями. Социальные сети постепенно охватывают все большую аудиторию. Так, за период с февраля по март 2022 г. дневная аудитория ВКонтакте в России выросла на 4 млн человек, а за день ею пользуются 50 млн человек [1]. Поэтому такая платформа может послужить хорошим местом для проведения социальных исследований. Такие исследования можно использовать в различных сферах нашей жизни для улучшения качества услуг или рекламы.

Цель — произвести статистический анализ текстовой информации из социальной сети и разработать соответствующую статистическую модель.

Методы. Весь процесс анализа социальных сетей можно свести к следующим этапам:

Аутентификация. Пользователь при помощи открытого протокола авторизации (OAuth) входит в веб-приложение по определенному адресу и попадает в среду социальной сети.
Сбор данных. Данный этап зависит от особенностей социальной сети: наличие/отсутствие API, политика конфиденциальности и пр.
Очистка и предобработка данных.
Построение модели и анализ.
Представление результатов [2].

В данной работе рассматривается контент из группы социальной сети ВКонтакте. При помощи официального API ВКонтакте [3] было скачано свыше 80 000 постов. Их поверхностный анализ приведен в таблице.

Таблица. Результаты поверхностного анализа текстов из постов

Показатель	Значения
Всего постов	87994
Общие количественные характеристики элементов текста	Всего слов: 6087078 Всего глаголов: 1140503 Всего существительных: 1503712 Количество слов, обозначающих конкретных персон: 0
Наиболее частые представители различных элементов текста	Среди всех слов: и, в, не, я Существительные: лет, раз, мама, день Глаголы: нет, есть, могу, говорит

Для дальнейшего анализа текст был разбит на N-граммы — последовательность из N элементов строки. В данной работе — на биграммы (последовательность из двух элементов). Были найдены самые частые в использовании биграммы (рис. 1).

Рис. 1. Самые часто встречаемые биграммы

Из поверхностного анализа и частым биграммам можно сделать вывод, что специфика данной группы заключается в том, что в ней люди публикуют обезличенные истории из своей жизни.

На следующем этапе был проведен кластерный анализ, который заключается в сегментировании данных на кластеры (подмножества), что объекты внутри более тесно связаны, чем с другими [4].

На следующем этапе был создан конвейер для построения статистической модели:

Токенизация. Текст разбивается на биграммы.
Векторизация. Создаются векторы пар (биграмма, количество вхождений в текст).
Нормализация. Векторы нормализуются в соответствии с метрикой TF-IDF. Суть данной метрики заключается в следующем: если слово встречается часто в документе и редко во всем наборе, вероятно, оно является очень представительным для этого конкретного документа и поэтому заслуживает более высокого веса [2].
Алгоритм k-средних. Данный алгоритм ищет центры кластеров, основываясь на минимизации евклидова расстояния между объектами кластера [4].

Результаты. После построения конвейера данные были разбиты на три кластера (рис. 2).

Рис. 2. Пример разбиения биграмм на кластеры

В ходе более детального исследования выяснилось, что посты были сгруппированы в основном по эмоциональному окрасу: негативный, положительный и нейтральный.

Выводы. В ходе данной работы была проанализирована текстовая информация постов группы из социальной сети ВКонтакте, построена статистическая модель кластеризации с использованием алгоритма k-средних.

Негізгі сөздер

анализ социальных сетей, кластерный анализ, алгоритм k-средних, наука о данных, обработка естественного языка, N-грамма, TF-IDF

Толық мәтін

Методы. Весь процесс анализа социальных сетей можно свести к следующим этапам:

Аутентификация. Пользователь при помощи открытого протокола авторизации (OAuth) входит в веб-приложение по определенному адресу и попадает в среду социальной сети.
Сбор данных. Данный этап зависит от особенностей социальной сети: наличие/отсутствие API, политика конфиденциальности и пр.
Очистка и предобработка данных.
Построение модели и анализ.
Представление результатов [2].

Таблица. Результаты поверхностного анализа текстов из постов

Показатель	Значения
Всего постов	87994
Общие количественные характеристики элементов текста	Всего слов: 6087078 Всего глаголов: 1140503 Всего существительных: 1503712 Количество слов, обозначающих конкретных персон: 0
Наиболее частые представители различных элементов текста	Среди всех слов: и, в, не, я Существительные: лет, раз, мама, день Глаголы: нет, есть, могу, говорит

Рис. 1. Самые часто встречаемые биграммы

На следующем этапе был создан конвейер для построения статистической модели:

Токенизация. Текст разбивается на биграммы.
Векторизация. Создаются векторы пар (биграмма, количество вхождений в текст).
Нормализация. Векторы нормализуются в соответствии с метрикой TF-IDF. Суть данной метрики заключается в следующем: если слово встречается часто в документе и редко во всем наборе, вероятно, оно является очень представительным для этого конкретного документа и поэтому заслуживает более высокого веса [2].
Алгоритм k-средних. Данный алгоритм ищет центры кластеров, основываясь на минимизации евклидова расстояния между объектами кластера [4].

Результаты. После построения конвейера данные были разбиты на три кластера (рис. 2).

Рис. 2. Пример разбиения биграмм на кластеры

Авторлар туралы

Самарский национальный исследовательский университет им. С.П. Королева

Email: dima.bakanov.1999@mail.ru

студент, группа 6132-010402D, институт информатики и кибернетики

Ресей, Самара

Самарский национальный исследовательский университет им. С.П. Королева

Хат алмасуға жауапты Автор.
Email: akupr@ssau.ru

научный руководитель, доктор технических наук, доцент; заведующий кафедрой технической кибернетики

Ресей, Самара

Әдебиет тізімі

vk.com [Электронный ресурс]. Дневная аудитория ВКонтакте выросла на 4 млн — до рекордных 50 млн пользователей // Новости ВКонтакте [дата обращения: 01.04.2022]. Доступ по ссылке: https://vk.com/press/users-monthly-activity#:~:text=14%20марта%202022%20ВКонтакте.%20Дневная,приводят%20на%20платформу%20своих%20знакомых
Бонцанини М. Анализ социальных медиа на Python / пер. с анг. А.В. Логунова. Москва: ДМК Пресс, 2018. 288 с
dev.vk.com [Электронный ресурс]. Использование API. Быстрый старт // VK для разработчиков [дата обращения 24.02.2022]. Доступ по ссылке: https://dev.vk.com/api/getting-started
Хасти Т., Тибширани Р., Фридман Д. Основы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование, 2-е изд. / пер. с англ. Санкт-Петербург: ООО “Диалектика”, 2020. 768 с.

Қосымша файлдар

Әрекет

1. JATS XML

Жүктеу

Пайдаланушының аты
Құпиясөз
Мені есте сақтау

Құпия сөзді ұмыттыңыз ба?	Тіркеу

Пайдаланушының аты
Құпиясөз
Мені есте сақтау

Құпия сөзді ұмыттыңыз ба?	Тіркеу