Статистический анализ текстовой информации в социальных сетях

Мұқаба
  • Авторлар: 1, 1
  • Мекемелер:
    1. Самарский национальный исследовательский университет им. С.П. Королева
  • Шығарылым: Том 1 (2022)
  • Беттер: 458-460
  • Бөлім: Информационные технологии и техническая кибернетика
  • URL: https://journals.eco-vector.com/osnk-sr/article/view/107509
  • ID: 107509

Дәйексөз келтіру

Толық мәтін

Аннотация

Обоснование. В последнее время все большую роль в повседневной жизни современного человека стали играть социальные сети. Социальные сети или социальные медиа — это интернет-ресурс, который предназначен для взаимодействия людей в группах, развлечений и прочей активностей. Самая главная особенность данного ресурса состоит в том, что контент создается самими пользователями — реальными людьми и организациями. Социальные сети постепенно охватывают все большую аудиторию. Так, за период с февраля по март 2022 г. дневная аудитория ВКонтакте в России выросла на 4 млн человек, а за день ею пользуются 50 млн человек [1]. Поэтому такая платформа может послужить хорошим местом для проведения социальных исследований. Такие исследования можно использовать в различных сферах нашей жизни для улучшения качества услуг или рекламы.

Цель — произвести статистический анализ текстовой информации из социальной сети и разработать соответствующую статистическую модель.

Методы. Весь процесс анализа социальных сетей можно свести к следующим этапам:

  1. Аутентификация. Пользователь при помощи открытого протокола авторизации (OAuth) входит в веб-приложение по определенному адресу и попадает в среду социальной сети.
  2. Сбор данных. Данный этап зависит от особенностей социальной сети: наличие/отсутствие API, политика конфиденциальности и пр.
  3. Очистка и предобработка данных.
  4. Построение модели и анализ.
  5. Представление результатов [2].

В данной работе рассматривается контент из группы социальной сети ВКонтакте. При помощи официального API ВКонтакте [3] было скачано свыше 80 000 постов. Их поверхностный анализ приведен в таблице.

 

Таблица. Результаты поверхностного анализа текстов из постов

Показатель

Значения

Всего постов

87994

Общие количественные характеристики элементов текста

Всего слов: 6087078

Всего глаголов: 1140503

Всего существительных: 1503712

Количество слов, обозначающих конкретных персон: 0

Наиболее частые представители различных элементов текста

Среди всех слов: и, в, не, я

Существительные: лет, раз, мама, день

Глаголы: нет, есть, могу, говорит

 

Для дальнейшего анализа текст был разбит на N-граммы — последовательность из N элементов строки. В данной работе — на биграммы (последовательность из двух элементов). Были найдены самые частые в использовании биграммы (рис. 1).

 

Рис. 1. Самые часто встречаемые биграммы

 

Из поверхностного анализа и частым биграммам можно сделать вывод, что специфика данной группы заключается в том, что в ней люди публикуют обезличенные истории из своей жизни.

На следующем этапе был проведен кластерный анализ, который заключается в сегментировании данных на кластеры (подмножества), что объекты внутри более тесно связаны, чем с другими [4].

На следующем этапе был создан конвейер для построения статистической модели:

  1. Токенизация. Текст разбивается на биграммы.
  2. Векторизация. Создаются векторы пар (биграмма, количество вхождений в текст).
  3. Нормализация. Векторы нормализуются в соответствии с метрикой TF-IDF. Суть данной метрики заключается в следующем: если слово встречается часто в документе и редко во всем наборе, вероятно, оно является очень представительным для этого конкретного документа и поэтому заслуживает более высокого веса [2].
  4. Алгоритм k-средних. Данный алгоритм ищет центры кластеров, основываясь на минимизации евклидова расстояния между объектами кластера [4].

Результаты. После построения конвейера данные были разбиты на три кластера (рис. 2).

 

Рис. 2. Пример разбиения биграмм на кластеры

 

В ходе более детального исследования выяснилось, что посты были сгруппированы в основном по эмоциональному окрасу: негативный, положительный и нейтральный.

Выводы. В ходе данной работы была проанализирована текстовая информация постов группы из социальной сети ВКонтакте, построена статистическая модель кластеризации с использованием алгоритма k-средних.

Толық мәтін

Обоснование. В последнее время все большую роль в повседневной жизни современного человека стали играть социальные сети. Социальные сети или социальные медиа — это интернет-ресурс, который предназначен для взаимодействия людей в группах, развлечений и прочей активностей. Самая главная особенность данного ресурса состоит в том, что контент создается самими пользователями — реальными людьми и организациями. Социальные сети постепенно охватывают все большую аудиторию. Так, за период с февраля по март 2022 г. дневная аудитория ВКонтакте в России выросла на 4 млн человек, а за день ею пользуются 50 млн человек [1]. Поэтому такая платформа может послужить хорошим местом для проведения социальных исследований. Такие исследования можно использовать в различных сферах нашей жизни для улучшения качества услуг или рекламы.

Цель — произвести статистический анализ текстовой информации из социальной сети и разработать соответствующую статистическую модель.

Методы. Весь процесс анализа социальных сетей можно свести к следующим этапам:

  1. Аутентификация. Пользователь при помощи открытого протокола авторизации (OAuth) входит в веб-приложение по определенному адресу и попадает в среду социальной сети.
  2. Сбор данных. Данный этап зависит от особенностей социальной сети: наличие/отсутствие API, политика конфиденциальности и пр.
  3. Очистка и предобработка данных.
  4. Построение модели и анализ.
  5. Представление результатов [2].

В данной работе рассматривается контент из группы социальной сети ВКонтакте. При помощи официального API ВКонтакте [3] было скачано свыше 80 000 постов. Их поверхностный анализ приведен в таблице.

 

Таблица. Результаты поверхностного анализа текстов из постов

Показатель

Значения

Всего постов

87994

Общие количественные характеристики элементов текста

Всего слов: 6087078

Всего глаголов: 1140503

Всего существительных: 1503712

Количество слов, обозначающих конкретных персон: 0

Наиболее частые представители различных элементов текста

Среди всех слов: и, в, не, я

Существительные: лет, раз, мама, день

Глаголы: нет, есть, могу, говорит

 

Для дальнейшего анализа текст был разбит на N-граммы — последовательность из N элементов строки. В данной работе — на биграммы (последовательность из двух элементов). Были найдены самые частые в использовании биграммы (рис. 1).

 

Рис. 1. Самые часто встречаемые биграммы

 

Из поверхностного анализа и частым биграммам можно сделать вывод, что специфика данной группы заключается в том, что в ней люди публикуют обезличенные истории из своей жизни.

На следующем этапе был проведен кластерный анализ, который заключается в сегментировании данных на кластеры (подмножества), что объекты внутри более тесно связаны, чем с другими [4].

На следующем этапе был создан конвейер для построения статистической модели:

  1. Токенизация. Текст разбивается на биграммы.
  2. Векторизация. Создаются векторы пар (биграмма, количество вхождений в текст).
  3. Нормализация. Векторы нормализуются в соответствии с метрикой TF-IDF. Суть данной метрики заключается в следующем: если слово встречается часто в документе и редко во всем наборе, вероятно, оно является очень представительным для этого конкретного документа и поэтому заслуживает более высокого веса [2].
  4. Алгоритм k-средних. Данный алгоритм ищет центры кластеров, основываясь на минимизации евклидова расстояния между объектами кластера [4].

Результаты. После построения конвейера данные были разбиты на три кластера (рис. 2).

 

Рис. 2. Пример разбиения биграмм на кластеры

 

В ходе более детального исследования выяснилось, что посты были сгруппированы в основном по эмоциональному окрасу: негативный, положительный и нейтральный.

Выводы. В ходе данной работы была проанализирована текстовая информация постов группы из социальной сети ВКонтакте, построена статистическая модель кластеризации с использованием алгоритма k-средних.

×

Авторлар туралы

Самарский национальный исследовательский университет им. С.П. Королева

Email: dima.bakanov.1999@mail.ru

студент, группа 6132-010402D, институт информатики и кибернетики

Ресей, Самара

Самарский национальный исследовательский университет им. С.П. Королева

Хат алмасуға жауапты Автор.
Email: akupr@ssau.ru

научный руководитель, доктор технических наук, доцент; заведующий кафедрой технической кибернетики

Ресей, Самара

Әдебиет тізімі

  1. vk.com [Электронный ресурс]. Дневная аудитория ВКонтакте выросла на 4 млн — до рекордных 50 млн пользователей // Новости ВКонтакте [дата обращения: 01.04.2022]. Доступ по ссылке: https://vk.com/press/users-monthly-activity#:~:text=14%20марта%202022%20ВКонтакте.%20Дневная,приводят%20на%20платформу%20своих%20знакомых
  2. Бонцанини М. Анализ социальных медиа на Python / пер. с анг. А.В. Логунова. Москва: ДМК Пресс, 2018. 288 с
  3. dev.vk.com [Электронный ресурс]. Использование API. Быстрый старт // VK для разработчиков [дата обращения 24.02.2022]. Доступ по ссылке: https://dev.vk.com/api/getting-started
  4. Хасти Т., Тибширани Р., Фридман Д. Основы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование, 2-е изд. / пер. с англ. Санкт-Петербург: ООО “Диалектика”, 2020. 768 с.

Қосымша файлдар

Қосымша файлдар
Әрекет
1. JATS XML

© Баканов Д.С., Куприянов А.В., 2022

Creative Commons License
Бұл мақала лицензия бойынша қолжетімді Creative Commons Attribution 4.0 International License.

Осы сайт cookie-файлдарды пайдаланады

Біздің сайтты пайдалануды жалғастыра отырып, сіз сайттың дұрыс жұмыс істеуін қамтамасыз ететін cookie файлдарын өңдеуге келісім бересіз.< / br>< / br>cookie файлдары туралы< / a>