Разработка приложения для анализа комментариев англоязычного YouTube
- Авторы: Дукальская И.В.1, Киргизов А.Г.1
-
Учреждения:
- Поволжский государственный университет телекоммуникаций и информатики
- Выпуск: Том 21, № 3 (2023)
- Страницы: 78-83
- Раздел: Новые информационные технологии
- URL: https://journals.eco-vector.com/2073-3909/article/view/633727
- DOI: https://doi.org/10.18469/ikt.2023.21.3.11
- ID: 633727
Цитировать
Полный текст
Аннотация
Данная статья представляет разработку инновационного приложения, цель которого – сбор и анализ комментариев на англоязычных видеороликах YouTube с целью выявления и систематизации наиболее часто употребляемых англоязычных аббревиатур. Это приложение не только облегчает процесс изучения английского языка, но и предоставляет глубокое понимание использования аббревиатур в контексте реальных диалогов, способствуя более эффективному их использованию в повседневной коммуникации. Позволяет взглянуть на английский язык со стороны носителя. Подробно рассматриваются особенности разработки приложения, такие как использование YouTube Data API, анализ текста комментариев с помощью регулярных выражений и сохранение данных для дальнейшего изучения. Данная работа уделяет внимание вызовам при работе с API (Application Programming Interface), методам обработки текста и показывает возможности исследования английского языка в онлайн-среде.
Полный текст
Введение
В условиях современного мира, где культурные преграды сокращаются благодаря глобализации и интернету, изучение иностранного языка становится ключевой целью. Чтобы обогатить свой словарный запас и научиться понимать язык, мы ищем новые методы изучения. Один из перспективных подходов – анализ реальных диалогов и комментариев на англоязычных платформах, таких как, например, YouTube. Это не только открывает нам доступ к разнообразным языковым проявлениям, но и позволяет изучать язык в контексте реальных общений. В данной статье речь пойдет о разработке инновационного приложения, специализирующегося на анализе комментариев к видеороликам на YouTube. Это приложение предлагает возможность выявления и выделения наиболее часто используемых англоязычных сокращений. Оно не только облегчает процесс изучения английского языка, но и дает более глубокое понимание использования сокращений в реальных диалогах, что помогает более эффективно освоить их для повседневного использования.
Это приложение является не только полезным инструментом для изучения языка, но также открывает новые возможности для исследования и использования английского языка. Позволяет посмотреть на его некоторые аспекты новым взглядом [4; 5].
Особенности разработки приложения
YouTube Data API (Application Programming Interface) является основой для функционирования приложения. Это API предоставляет доступ базе данных комментариев, оставленных на англоязычных видеороликах YouTube. Приложение использует ключ разработчика (developer_key), получаемый каждым пользователем индивидуально, и уникальный идентификатор видеоролика (video_id), чтобы понимать, с каким конкретным видеороликом идет работа. Благодаря всему этому осуществляются запросы к API с помощью библиотеки googleapiclient и обеспечивается эффективный и быстрый сбор информации о комментариях (рисунок 1) [7].
Рисунок 1. Схема API
Одной из главных особенностей являются ограничения, установленные самим YouTube на частоту запросов. Необходимо контролировать количество запросов к API, чтобы избежать блокировок или ограничений доступа к данным. Также важно учитывать, что некоторые данные могут быть ограничены, что может повлиять на полноту или доступность информации при использовании API.
Еще одной трудностью при работе с API является обработка большого объема данных, особенно при загрузке комментариев и ответов к ним. Необходимо эффективно организовывать код и процесс сбора данных, чтобы избежать возможных ошибок и обеспечить оптимальную производительность приложения.
Кроме того, важно учитывать обновления и изменения в API, так как YouTube периодически вносит изменения в свои правила и функционал. Это может потребовать соответствующих обновлений в коде приложения для поддержания его работоспособности и соответствия актуальным требованиям платформы. Для решения данной проблемы был использован такой способ создания приложения как версионирование. При каждом обновления приложения выпускается новая версия. Устаревшие методы помечаются как deprecated, а новые вносятся в документацию. Тем самым мы получаем новый функционал, не нарушая работу старого.
Таким образом, использование YouTube Data API предоставляет важные возможности для приложения, но требует внимательного подхода к управлению запросами, обработке данных и поддержанию соответствия изменениям в API, чтобы обеспечить надежную и эффективную работу приложения.
Одним из ключевых направлений деятельности приложения является глубокий анализ текста комментариев, оставленных на англоязычных видеороликах на платформе YouTube. Основной целью является извлечение и систематизация англоязычных аббревиатур и сокращений из этих комментариев, с целью выявления наиболее часто встречающихся языковых элементов. Для достижения этой цели прибегаем к применению методов обработки текста и регулярных выражений, что позволяет нам точно выделять и анализировать аббревиатуры, используемые в комментариях.
Процесс анализа текста комментариев включает в себя создание специализированных алгоритмов, способных эффективно выявлять и извлекать аббревиатуры из текстового контента. Уделяется внимание разработке и оптимизации этих алгоритмов, чтобы обеспечить точность и полноту извлечения аббревиатур, а также эффективность обработки больших объемов текста.
Основными инструментами для извлечения аббревиатур и сокращений являются регулярные выражения, позволяющие проводить гибкий и точный поиск заданных шаблонов текста. Используются разнообразные шаблоны регулярных выражений с учетом различных вариантов написания и использования аббревиатур, что позволяет нам оптимально охватить разнообразие аббревиатур, применяемых в комментариях на YouTube.
Однако анализ текста комментариев не лишен сложностей. Разнообразие стилей и контекстов использования аббревиатур, а также их многообразие и динамичность могут представлять вызовы при точной классификации и интерпретации. Это требует постоянного совершенствования методов обработки текста и алгоритмов извлечения данных для более точного и всестороннего анализа.
Таким образом, приложение активно исследует и анализирует текстовый контент комментариев, используя методы обработки текста и регулярные выражения для точного выделения англоязычных аббревиатур и сокращений, несмотря на некоторые сложности и особенности данного процесса.
Проанализированные данные сохраняются в файл в формате CSV (формат Microsoft Excel). В этом файле содержится информация о комментариях, включая `etag`, `id`, текст комментария, автор и другие сведения. Эти данные могут быть использованы для дальнейшего изучения и анализа.
Процесс разработки
Процесс сбора комментариев с англоязычных видеороликов на YouTube начинается с использования YouTube Data API в рамках разработанного приложения на языке программирования Python.
Инициализация API и отправка запросов: первым шагом в процессе сбора комментариев является инициализация YouTube Data API с помощью ключа разработчика (DEVELOPER_KEY). Посредством вызова метода youtube.commentThreads().list() с указанием параметров, таких как part, maxResults, pageToken, и videoId для определения идентификатора видеоролика (VIDEO_ID), осуществляется запрос к API для получения корневых комментариев.
Циклический процесс загрузки комментариев: после отправки первого запроса на получение комментариев для указанного видеоролика происходит циклический процесс, в котором используется параметр nextPageToken для получения последующих страниц комментариев. Для этого повторяем запросы, указывая pageToken равным значению nextPageToken, чтобы получить следующую порцию комментариев. Это продолжается до тех пор, пока nextPageToken не станет равным None, что означает достижение конца списка комментариев.
Сохранение комментариев: полученные комментарии сохраняются в переменную items. Каждый комментарий представлен в формате JSON и содержит различные атрибуты, такие как идентификаторы, текст комментария, информацию об авторе и времени публикации.
Дополнительная загрузка ответов на комментарии (далее – «реплаев»): помимо извлечения корневых комментариев, приложение проверяет наличие реплаев к каждому комментарию. Если у корневого комментария есть реплаи, используется аналогичный процесс для загрузки реплаев на основании их parentId, чтобы получить дополнительные комментарии, относящиеся к ним.
Сохранение данных в файл CSV: по завершении сбора комментариев и их реплаев приложение сохраняет полученные данные в файл формата CSV. Для этого используется модуль csv для создания файла youtuberesults.csv и записи всех собранных комментариев и реплаев в этот файл с определенной структурой и разделителями между данными (рисунок 2) [9].
Рисунок 2. Пример сохранения комментариев
Таким образом, процесс сбора комментариев с англоязычных YouTube-видеороликов осуществляется путем систематического использования YouTube Data API, опираясь на различные параметры запросов и обработку полученных данных для сохранения их в файле для последующего анализа и обработки.
Пример использования
Для того чтобы протестировать приложение, было выбрано 3 видео с платформы YouTube по различной тематике. Для процесса анализа текста был написан скрипт, который скачивает список аббревиатур и сленга с OpenApi NLTK, ищет количество вхождений слов во всех комментариях, считает их соотношение к общему тексту [8; 10]. Пример работы кода с тестовым видео:
По результату первого анализа:
Slang Words, their Percentage, and Counts:
Omg: 0.03% (1 occurrences)
Lol: 0.03% (1 occurrences)
bro: 0.03% (1 occurrences)
Dude: 0.03% (1 occurrences)
Total Words: 3,095
По результату второго анализа:
lol: 0.11% (4 occurrences)
Bro: 0.03% (1 occurrences)
idk: 0.03% (1 occurrences)
Lol: 0.06% (2 occurrences)
mate: 0.03% (1 occurrences)
bro: 0.06% (2 occurrences)
Brb: 0.03% (1 occurrences)
dude: 0.03% (1 occurrences)
lmao: 0.03% (1 occurrences)
OMG: 0.03% (1 occurrences)
Idk: 0.03% (1 occurrences)
Dude: 0.03% (1 occurrences)
Total Words: 3,556
По результату третьего анализа:
Slang Words, their Percentage, and Counts:
lol: 0.01% (1 occurrences)
CHILL: 0.01% (1 occurrences)
dude: 0.02% (2 occurrences)
chill: 0.05% (5 occurrences)
Lol: 0.01% (1 occurrences)
OMG: 0.02% (2 occurrences)
Omg: 0.01% (1 occurrences)
Props: 0.01% (1 occurrences)
Total Words: 10,530
В данной статистике видно, что большей популярностью пользуются сокращения для неформальной речи. Далее мы можем узнать их значение, посмотреть примеры использования и начать употреблять их в своей речи, тем самым улучшая свой уровень английского. Таким же образом можно анализировать технические и профессиональные видео, собирая тематическую лексику [1; 2; 3].
Заключение
Это приложение, совмещающее в себе технологии обработки текста и доступ к обширной базе данных комментариев на YouTube, открывает перед пользователями уникальную возможность погружения в англоязычную среду. Анализ комментариев на основе современных методов обработки текста и регулярных выражений позволяет выделить, систематизировать и изучить разнообразные аббревиатуры, активно используемые в реальных диалогах пользователей на этой платформе [6].
Это приложение не только обогащает словарный запас изучающих английский язык, но и стимулирует интерес к языку через интерактивное и практическое изучение. Анализ аббревиатур, наиболее часто встречающихся в реальных комментариях, предоставляет не только знания о сленге и сокращениях, но и глубокое понимание контекста и специфики языка, используемого в повседневной коммуникации.
Эффективное использование современных методов анализа текста и доступ к обширной базе данных комментариев на YouTube делает это приложение значимым инструментом в контексте образования и изучения языка. Объединение технологии и образования позволяет приложению предложить новый и инновационный подход к изучению английского языка, делая этот процесс более интересным, доступным и эффективным для всех желающих.
Об авторах
Ирина Владимировна Дукальская
Поволжский государственный университет телекоммуникаций и информатики
Автор, ответственный за переписку.
Email: i.dukalskaya@psuti.ru
к.филол.н., доцент, доцент кафедры иностранных языков
Россия, СамараАндрей Геннадьевич Киргизов
Поволжский государственный университет телекоммуникаций и информатики
Email: kirgizoffand@yandex.ru
студент кафедры программной инженерии
Россия, СамараСписок литературы
- Peters P. The Cambridge Dictionary of English Grammar. Cambridge: Cambridge University, 2004. 512 p.
- Adams M. Slang: The People’s Poetry. Oxford: Oxford University, 2009. 240 p.
- Joshi M. Abbreviations in English. Independently published, 2019. 120 p.
- 79 Incredible English Slang Words to Help you Understand Native Speakers. URL: https://storylearning.com/blog/english-slang-words (дата обращения: 20.11.23).
- Slang Words: List of 100 Common Slang Words & Phrases you Need to Know! URL: https://eslforums.com/slang-words/ (дата обращения: 20.11.23).
- Re – Regular Expression Operations. URL: https://docs.python.org/3/library/re.html (дата обращения: 20.11.23).
- Добавьте функциональность YouTube в свое приложение. URL: https://developers.google.com/youtube/v3?hl=ru (дата обращения: 22.11.23).
- NLTK Documentation. Natural Language Toolkit. URL: https://www.nltk.org (дата обращения: 22.11.23).
- CSV File Reading and Writing. URL: https://docs.python.org/3/library/csv.html (дата обращения: 23.11.23).
- How to Learn Big Data? Step by Step Roadmap. URL: https://www.mltut.com/how-to-learn-big-data-step-by-step/ (дата обращения: 24.11.23).
