Статистический анализ текстовой информации в социальных сетях
- Autores: 1, 1
-
Afiliações:
- Самарский национальный исследовательский университет им. С.П. Королева
- Edição: Volume 1 (2022)
- Páginas: 458-460
- Seção: Информационные технологии и техническая кибернетика
- URL: https://journals.eco-vector.com/osnk-sr/article/view/107509
- ID: 107509
Citar
Texto integral
Resumo
Обоснование. В последнее время все большую роль в повседневной жизни современного человека стали играть социальные сети. Социальные сети или социальные медиа — это интернет-ресурс, который предназначен для взаимодействия людей в группах, развлечений и прочей активностей. Самая главная особенность данного ресурса состоит в том, что контент создается самими пользователями — реальными людьми и организациями. Социальные сети постепенно охватывают все большую аудиторию. Так, за период с февраля по март 2022 г. дневная аудитория ВКонтакте в России выросла на 4 млн человек, а за день ею пользуются 50 млн человек [1]. Поэтому такая платформа может послужить хорошим местом для проведения социальных исследований. Такие исследования можно использовать в различных сферах нашей жизни для улучшения качества услуг или рекламы.
Цель — произвести статистический анализ текстовой информации из социальной сети и разработать соответствующую статистическую модель.
Методы. Весь процесс анализа социальных сетей можно свести к следующим этапам:
- Аутентификация. Пользователь при помощи открытого протокола авторизации (OAuth) входит в веб-приложение по определенному адресу и попадает в среду социальной сети.
- Сбор данных. Данный этап зависит от особенностей социальной сети: наличие/отсутствие API, политика конфиденциальности и пр.
- Очистка и предобработка данных.
- Построение модели и анализ.
- Представление результатов [2].
В данной работе рассматривается контент из группы социальной сети ВКонтакте. При помощи официального API ВКонтакте [3] было скачано свыше 80 000 постов. Их поверхностный анализ приведен в таблице.
Таблица. Результаты поверхностного анализа текстов из постов
Показатель | Значения |
Всего постов | 87994 |
Общие количественные характеристики элементов текста | Всего слов: 6087078 Всего глаголов: 1140503 Всего существительных: 1503712 Количество слов, обозначающих конкретных персон: 0 |
Наиболее частые представители различных элементов текста | Среди всех слов: и, в, не, я Существительные: лет, раз, мама, день Глаголы: нет, есть, могу, говорит |
Для дальнейшего анализа текст был разбит на N-граммы — последовательность из N элементов строки. В данной работе — на биграммы (последовательность из двух элементов). Были найдены самые частые в использовании биграммы (рис. 1).
Рис. 1. Самые часто встречаемые биграммы
Из поверхностного анализа и частым биграммам можно сделать вывод, что специфика данной группы заключается в том, что в ней люди публикуют обезличенные истории из своей жизни.
На следующем этапе был проведен кластерный анализ, который заключается в сегментировании данных на кластеры (подмножества), что объекты внутри более тесно связаны, чем с другими [4].
На следующем этапе был создан конвейер для построения статистической модели:
- Токенизация. Текст разбивается на биграммы.
- Векторизация. Создаются векторы пар (биграмма, количество вхождений в текст).
- Нормализация. Векторы нормализуются в соответствии с метрикой TF-IDF. Суть данной метрики заключается в следующем: если слово встречается часто в документе и редко во всем наборе, вероятно, оно является очень представительным для этого конкретного документа и поэтому заслуживает более высокого веса [2].
- Алгоритм k-средних. Данный алгоритм ищет центры кластеров, основываясь на минимизации евклидова расстояния между объектами кластера [4].
Результаты. После построения конвейера данные были разбиты на три кластера (рис. 2).
Рис. 2. Пример разбиения биграмм на кластеры
В ходе более детального исследования выяснилось, что посты были сгруппированы в основном по эмоциональному окрасу: негативный, положительный и нейтральный.
Выводы. В ходе данной работы была проанализирована текстовая информация постов группы из социальной сети ВКонтакте, построена статистическая модель кластеризации с использованием алгоритма k-средних.
Texto integral
Обоснование. В последнее время все большую роль в повседневной жизни современного человека стали играть социальные сети. Социальные сети или социальные медиа — это интернет-ресурс, который предназначен для взаимодействия людей в группах, развлечений и прочей активностей. Самая главная особенность данного ресурса состоит в том, что контент создается самими пользователями — реальными людьми и организациями. Социальные сети постепенно охватывают все большую аудиторию. Так, за период с февраля по март 2022 г. дневная аудитория ВКонтакте в России выросла на 4 млн человек, а за день ею пользуются 50 млн человек [1]. Поэтому такая платформа может послужить хорошим местом для проведения социальных исследований. Такие исследования можно использовать в различных сферах нашей жизни для улучшения качества услуг или рекламы.
Цель — произвести статистический анализ текстовой информации из социальной сети и разработать соответствующую статистическую модель.
Методы. Весь процесс анализа социальных сетей можно свести к следующим этапам:
- Аутентификация. Пользователь при помощи открытого протокола авторизации (OAuth) входит в веб-приложение по определенному адресу и попадает в среду социальной сети.
- Сбор данных. Данный этап зависит от особенностей социальной сети: наличие/отсутствие API, политика конфиденциальности и пр.
- Очистка и предобработка данных.
- Построение модели и анализ.
- Представление результатов [2].
В данной работе рассматривается контент из группы социальной сети ВКонтакте. При помощи официального API ВКонтакте [3] было скачано свыше 80 000 постов. Их поверхностный анализ приведен в таблице.
Таблица. Результаты поверхностного анализа текстов из постов
Показатель | Значения |
Всего постов | 87994 |
Общие количественные характеристики элементов текста | Всего слов: 6087078 Всего глаголов: 1140503 Всего существительных: 1503712 Количество слов, обозначающих конкретных персон: 0 |
Наиболее частые представители различных элементов текста | Среди всех слов: и, в, не, я Существительные: лет, раз, мама, день Глаголы: нет, есть, могу, говорит |
Для дальнейшего анализа текст был разбит на N-граммы — последовательность из N элементов строки. В данной работе — на биграммы (последовательность из двух элементов). Были найдены самые частые в использовании биграммы (рис. 1).
Рис. 1. Самые часто встречаемые биграммы
Из поверхностного анализа и частым биграммам можно сделать вывод, что специфика данной группы заключается в том, что в ней люди публикуют обезличенные истории из своей жизни.
На следующем этапе был проведен кластерный анализ, который заключается в сегментировании данных на кластеры (подмножества), что объекты внутри более тесно связаны, чем с другими [4].
На следующем этапе был создан конвейер для построения статистической модели:
- Токенизация. Текст разбивается на биграммы.
- Векторизация. Создаются векторы пар (биграмма, количество вхождений в текст).
- Нормализация. Векторы нормализуются в соответствии с метрикой TF-IDF. Суть данной метрики заключается в следующем: если слово встречается часто в документе и редко во всем наборе, вероятно, оно является очень представительным для этого конкретного документа и поэтому заслуживает более высокого веса [2].
- Алгоритм k-средних. Данный алгоритм ищет центры кластеров, основываясь на минимизации евклидова расстояния между объектами кластера [4].
Результаты. После построения конвейера данные были разбиты на три кластера (рис. 2).
Рис. 2. Пример разбиения биграмм на кластеры
В ходе более детального исследования выяснилось, что посты были сгруппированы в основном по эмоциональному окрасу: негативный, положительный и нейтральный.
Выводы. В ходе данной работы была проанализирована текстовая информация постов группы из социальной сети ВКонтакте, построена статистическая модель кластеризации с использованием алгоритма k-средних.
Sobre autores
Самарский национальный исследовательский университет им. С.П. Королева
Email: dima.bakanov.1999@mail.ru
студент, группа 6132-010402D, институт информатики и кибернетики
Rússia, СамараСамарский национальный исследовательский университет им. С.П. Королева
Autor responsável pela correspondência
Email: akupr@ssau.ru
научный руководитель, доктор технических наук, доцент; заведующий кафедрой технической кибернетики
Rússia, СамараBibliografia
- vk.com [Электронный ресурс]. Дневная аудитория ВКонтакте выросла на 4 млн — до рекордных 50 млн пользователей // Новости ВКонтакте [дата обращения: 01.04.2022]. Доступ по ссылке: https://vk.com/press/users-monthly-activity#:~:text=14%20марта%202022%20ВКонтакте.%20Дневная,приводят%20на%20платформу%20своих%20знакомых
- Бонцанини М. Анализ социальных медиа на Python / пер. с анг. А.В. Логунова. Москва: ДМК Пресс, 2018. 288 с
- dev.vk.com [Электронный ресурс]. Использование API. Быстрый старт // VK для разработчиков [дата обращения 24.02.2022]. Доступ по ссылке: https://dev.vk.com/api/getting-started
- Хасти Т., Тибширани Р., Фридман Д. Основы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование, 2-е изд. / пер. с англ. Санкт-Петербург: ООО “Диалектика”, 2020. 768 с.
Arquivos suplementares
![](/img/style/loading.gif)