Использование интернет-парсинга при исследовании репрезентации личности и творчества г.р. Державина в поисковой системе Google
- Авторы: Бакиров Р.А.1,2, Нурутдинова А.Р.3
-
Учреждения:
- Институт русской литературы (Пушкинский Дом) РАН
- Казанский (Приволжский) федеральный университет
- Казанский научный центр Российской академии наук
- Выпуск: Том 26, № 5 (2024)
- Страницы: 41-50
- Раздел: ФИЛОЛОГИЧЕСКИЕ НАУКИ
- URL: https://journals.eco-vector.com/2413-9645/article/view/646699
- DOI: https://doi.org/10.37313/2413-9645-2024-26-98-41-50
- EDN: https://elibrary.ru/PEFFBO
- ID: 646699
Цитировать
Полный текст
Аннотация
В статье проводится количественное (1702 собранных интернет-ссылки) исследование репрезентации художественного творчества и биографических, социально-политических особенностей личности Г.Р. Державина. Основной акцент сделан на анализе представленности образа писателя в поисковой системе Google. Для решения задачи предложен инструмент на основе библиотек языка Python для парсинга и анализа ресурсов по заданным запросам. Для сбора ключевых контекстов использовались статистические данные сервисов Яндекс Вордстат и Google.Trends. Они продемонстрировали четкую сезонность запросов, связанных с Г.Р. Державиным, что было подтверждено хронологическими данными просмотров страницы писателя в русскоязычной Википедии. Были сформированы ключевые для понимания репрезентации личности и творчества Г.Р. Державина ключевые интернет-контексты (всего - 125), на основе анализа которых парсер вывел наиболее популярные и частотные ссылки-запросы в Google: «Державин читать», «Державин биография», «Державин университет». Среди самых непопулярных: «Державин ода», «Державин посвятил». По некоторым из представленных контекстов ссылок не было. Важным и частотным в Google прозвучал контекст Тамбовского государственного университета им. Г.Р. Державина. Одновременно слабые связи оказались у образа Державина и его государственной службы, которую он сам считал важной частью своей личности. Ссылки и запросы по этой тематической группе представлены минимально.
Ключевые слова
Полный текст
Введение. Вопрос о том, кем является для истории русской литературы и культуры Гавриил Романович Державин, отнюдь не праздный. И важную роль в этой проблеме позиционирования писателя-классика сыграл сам поэт.
История вопроса. Если собственно художественная автомифология Г.Р. Державина хорошо изучена [8], то рецепция его личности и творчества относительно не прояснена, особенно если говорить о современном состоянии этой проблемы.
Результаты исследования. Сам Державин, выстраивая свою биографию, вполне четко позиционировал себя прежде всего как чиновника. Показательна в этом случае даже архитектоника державинских «Записок» – по сути, его автобиографии. Основная часть глав-«отделений» в них названо по соотнесенности с периодами в военной или государственной службе автора – см., например: «С рождения его и воспитания по вступление в службу», «Воинская Державина служба до открывшегося в империи возмущения», «С помянутого возмущения по вступление Державина в статскую службу», «С окончания военной прохождение статской службы в средних чинах по отставку», «С определения его в губернаторы до удаления его от оного звания и возведения в вышние государственные чины и должности», «По отлучении от губернаторства до определения в статс-секретари, а потом в сенаторы и в разные министерские должности» [5]. Одновременно сохранялась безусловная связь биографии и сочинений поэта, «с определенного времени уже сам Державин склонен был рассматривать свою жизнь и творчество не просто как параллельно сосуществующие сферы своего Бытия, а как два постоянно взаимосвязанных мира» [10, с. 461]. Дальнейшие преобразования образа Г.Д. Державина и в массовом сознании, и в конкретных научных и художественных рецепциях, в текстах Я.К. Грота, В.Ф. Ходасевича, Ю.О. Домбровского, Западова и пр. так или иначе далеко от этой модели не отходили. Единство социально-политического и творческого облика поэта в системе писателей XVIII в. дополнительно подтверждается и при рассмотрении его места в истории русской литературы этого периода, с точки зрения сетевого анализа датасетов на базе корпусов текстов соответствующих словарей [9; 2].
Между тем проведенные относительно недавно социсследования показывают, что глубинных знаний о Г.Д. Державине в массовом сознании практически нет. К примеру, лишь около 1% из опрошенных школьников смогли назвать хоть одно произведение одного из крупнейших русских поэтов и, как итог, - «многие сегодня знают, что был такой поэт — Державин, но привести хоть несколько его строк способны уже очень немногие» [11, с. 104]. Ситуация с Державиным в этом случае схожа со случаем М.В. Ломоносова. Оба писателя уходят в «тень русской литературы» уже в первой половине XIX в. [7, с. 653], актуализируясь лишь как пусть и уважаемые, но все же довольно условные памятники литературы прошлого столетия.
Методы исследования. Если говорить уже непосредственно о современном состоянии рецепции образа Г.Д. Державина, то наиболее достоверным средством оценки популярности/неизвестности писателя представляется анализ интернет-источников, которые «заставляют людей признать то, что они не признают больше нигде» [12, с. 138]. В данном случае нами предложена реализация инструмента сбора и анализа ссылок по данным писателя в поисковых системах с возможностью идентификации характера информационного ресурса на основе библиотек языка Python для сбора, обработки и интеллектуального анализа данных. Предлагается методика анализа интернет-источников о писателе, в нашем случае – о Г.Д. Державине, с использованием инструментов автоматизированного извлечения информации из нескольких типов поисковых систем. Рассмотрим основные этапы поставленной задачи.
- Формирование словаря биграмм и триграмм U релевантных возможных комбинаций для запросов U= [«Державин поэт», «Гавриил Державин», «Державин ода» и пр.).
- Сбор ссылок для каждого элемента словаря U.
- Анализ полученного массива данных, очистка, преобразование и рейтингование.
Самописный парсер для получения контента каждого из ресурсов из списка URL адресов пробегает по каждой ссылке, собирая код каждой страницы. Был разработан пакет таких функций для каждой из поисковых систем: Yandex, Google, Sputnik и др. Каждая функция использует для парсинга две библиотеки: BeautifulSoup и request. Данные пакет позволяют получить список URL адресов каждого из источников в случае хотя бы одного вхождения запроса в контент ресурса. Результаты парсинга консолидируются в виде таблицы со ссылками с группировкой по типу запроса и поисковой системы. Их можно выгрузить в виде электронной таблицы. Для первичного анализа использовались сервисы wordstat.yandex.ru [3] и trends.google.ru [4]. Также были привлечены данные анализа именной страницы о Г.Р. Державине на Википедии [6]. Многие запросы и тематические группы на этих ресурсах представлены по-разному, с использованием синонимов и поэтому не попадают в общую статистику. Разовые запросы не попадают ни в одни системы статистики. Тем не менее эти площадки дают наиболее адекватный результат по интересующей нас теме и могут быть использованы для формирования на первом этапе релевантного списка ключевых контекстов (пример подобной работы с дополнительной кластеризацией ссылок см. [1]). Однако так как количество таких запросов может быть достаточно большим, то использование этих инструментов становится нецелесообразным. Для получения полной информации, во-первых, необходимо сгенерировать этот массив возможных релевантных запросов, получить результаты возможных поисковых систем с учетом пересечений по ресурсам, а для более глубокого анализа контента необходимо собрать данные из найденных ресурсов. Для решения этой задачи предложен инструмент, представляющий собой ноутбук [13] на основе библиотек языка Python для парсинга и анализа ресурсов по заданным запросам. Ноутбук можно запустить в Google Colab, которая является бесплатной средой для разработки и выполнения программного кода в облаке. Сам инструмент сбора ссылок на ресурсы является универсальным и позволяет обработать любой список запросов и выбрать поисковые системы, необходимые для анализа. Список запросов, в свою очередь, подгружается в ноутбук в виде электронной таблицы. Далее каждый элемент списка этой таблицы пропускается через функции сбора ссылок и формируются промежуточные итоги по каждому запросу.
Результаты исследования. Согласно статистике Яндекса (Яндекс Вордстат [3]) и Google (Google.Trends [4]), наиболее часто запрос «Державин» сезонно актуализируется в сентябре-октябре каждого года — это, конечно же, связано с изучением этого автора в стандартных школьных программах именно в данные период. Основной акцент в нашем исследовании сделан на поисковой системе Google, поэтому дальнейшая статистика приводится именно по ней.
Таб.1. Динамика популярности запросов в Google «Гавриил Романович Державин» с 01.01.2020 (Dynamics of popularity of Google queries "Gavriil Romanovich Derzhavin" since 01.01.2020)
2020-01 | 8 |
2020-02 | 7 |
2020-03 | 6 |
2020-04 | 6 |
2020-05 | 7 |
2020-06 | 6 |
2020-07 | 6 |
2020-08 | 5 |
2020-09 | 46 |
2020-10 | 56 |
2020-11 | 17 |
2020-12 | 10 |
2021-01 | 7 |
2021-02 | 8 |
2021-03 | 6 |
2021-04 | 7 |
2021-05 | 8 |
2021-06 | 6 |
2021-07 | 5 |
2021-08 | 5 |
2021-09 | 46 |
2021-10 | 54 |
2021-11 | 14 |
2021-12 | 8 |
2022-01 | 7 |
2022-02 | 8 |
2022-03 | 7 |
2022-04 | 7 |
2022-05 | 8 |
2022-06 | 7 |
2022-07 | 5 |
2022-08 | 5 |
2022-09 | 46 |
2022-10 | 54 |
2022-11 | 17 |
2022-12 | 9 |
2023-01 | 6 |
2023-02 | 7 |
2023-03 | 7 |
2023-04 | 8 |
2023-05 | 9 |
2023-06 | 6 |
2023-07 | 8 |
2023-08 | 5 |
2023-09 | 50 |
2023-10 | 44 |
2023-11 | 12 |
2023-12 | 9 |
2024-01 | 6 |
2024-02 | 6 |
2024-03 | 18 |
2024-04 | 7 |
2024-05 | 8 |
2024-06 | 6 |
2024-07 | 6 |
2024-08 | 4 |
2024-09 | 50 |
2024-10 | 30 |
2024-11 | 11 |
Рис. 1. Динамика популярности запросов в Google «Гавриил Романович Державин» с 01.01.2004 (Dynamics of popularity of Google queries "Gavriil Romanovich Derzhavin" since 01.01.2004)
Аномальный всплеск популярности запроса был в январе 2018 г. – после смерти актера Михаила Державина, также среди частотных в формах выдачи – музыкант Андрей Державин. Региональный компонент запроса довольно ярко выражен: из стран наиболее частотен запрос по России, далее идут Киргизия и Беларусь; из российских регионов – по Тамбовской области. Здесь с 2004 г. чаще всего выполнялся поиск по личности Державина-поэта. В остальных регионах популярность запроса ниже втрое или более. Это объясняется, в основном, тем, что регулярно интересующий абитуриентов и студентов Тамбовский государственный университет носит имя Г.Р. Державина.
Таб. 2. Сравнительная популярность запросов в Google «Гавриил Романович Державин» по субрегионам (Comparative popularity of Google queries "Gavriil Romanovich Derzhavin" by subregions)
Тамбовская область | 100 |
Новгородская область | 37 |
Ненецкий автономный округ | 32 |
Республика Карелия | 31 |
Республика Калмыкия | 27 |
Республика Алтай | 26 |
Республика Татарстан | 25 |
Чукотский автономный округ | 24 |
Вологодская область | 21 |
Республика Бурятия | 20 |
Республика Тува | 20 |
Республика Мордовия | 19 |
Республика Ингушетия | 19 |
Забайкальский край | 19 |
Магаданская область | 19 |
Оренбургская область | 19 |
Белгородская область | 18 |
Астраханская область | 18 |
Курская область | 18 |
Камчатский край | 18 |
Еврейская автономная область | 18 |
Карачаево-Черкесская Республика | 18 |
Кабардино-Балкарская Республика | 18 |
Республика Дагестан | 18 |
Республика Коми | 17 |
Калининградская область | 17 |
Республика Саха (Якутия) | 17 |
Брянская область | 17 |
Республика Северная Осетия-Алания | 17 |
Калужская область | 16 |
Ульяновская область | 16 |
Рязанская область | 16 |
Смоленская область | 16 |
Волгоградская область | 16 |
город Санкт-Петербург | 16 |
Статистика в Яндексе дает уточненные результаты и по конкретным жанровым предпочтениям в творчестве Г.Р. Державина пользователей этой поисковой системы (например, кратное доминирование количества запросов по оде над запросами по пьесам Державин и т. д.), и по отдельным текстам (например, явное проявление субрегионального компонента при запросах од «Водопад» и «Арфа» - в Карелии и Татарстане, соответственно), однако это тема отдельного исследования со своим инструментарием. Google.Trends же не предоставляет столь подробные и незначительные для этой системы данные. Однако, что важно, имеющаяся в этой поисковой системе статистика популярности запросов подтверждается обращениями к странице о Г.Р. Державине в русскоязычной Википедии [5]. Здесь также интерес к Г.Р. Державину значительно увеличивается в сентябре-октябре каждого года.
Рис. 2. Количество просмотров страницы о Г.Р. Державине на ru.wikipedia.org (Number of views of the page about G.R. Derzhavin on ru.wikipedia.org)
На основе анализа наиболее частотных запросов и контекстов в интернет-поисковиках, русскоязычной Википедии, учебной и научной литературы были сформированы ключевые для понимания репрезентации личности и творчества Г.Р. Державина ключевые контексты (всего - 125):
Державин
Державин Г.
Г. Державин
Державин Г.Р.
Г.Р. Державин
Державин Гавриил
Гавриил Державин
Державин Гаврила
Гаврила Державин
Державин Гавриил Романович
Гавриил Романович Державин
Державин Гаврила Романович
Гаврила Романович Державин
Державин архив
Державин библиотека
Державин музей
Державин конференция
Державин университет
Державин кратко
Державин содержание
Державин пересказ
Державин перевод
Державин сборник
Державин письма
Державин поэт
Державин писатель
Державин драматург
Державин юрист
Державин чиновник
Державин сенат
Державин секретарь
Державин коллегия
Державин министр
Державин губернатор
Державин отставка
Державин анализ
Державин классицизм
Державин предромантизм
Державин сентиментализм
Державин романтизм
Державин реализм
Державин литература
Державин поэтика
Державин поэзия
Державин творчество
Державин стихотворения
Державин стихи
Державин ода
Державин сатира
Державин лирика
Державин книги
Державин поэма
Державин биография
Державин воспоминания
Державин пьеса
Державин драма
Державин анакреонтика
Державин бог
Державин мурза
Державин памятник
Державин фелица
Державин арфа
Державин водопад
Державин властителям
Державин судиям
Державин мещерского
Державин евгению
Державин званская
Державин вельможа
Державин багрим
Державин Казань
Державин Тамбов
Державин Петрозаводск
Державин Новгород
Державин Петербург
Державин Москва
Державин Казанская
Державин Тамбовская
Державин Олонецкая
Державин Новгородская
Державин Татарстан
Державин Лаишево
Державин Сокуры
Державин Державино
Державин Званка
Державин Гораций
Державин Анакреонт
Державин Екатерина
Державин Суворов
Державин Потемкин
Державин Новиков
Державин Радищев
Державин Пушкин
Державин Болховитинов
Державин Львов
Державин Капнист
Державин Муравьев
Державин Хемницер
Державин Ломоносов
Державин Сумароков
Державин Тредиаковский
Державин Карамзин
Державин Дмитриев
Державин Шишков
Державин Беседа
Державин Арзамас
Державин архаист
Державин Грот
Державин Пугачев
Державин восстание
Державин собрание
Державин сочинения
Державин биография
Державин реферат
Державин читать
Державин издал
Державин посвятил
Державин написал
Державин жил
Державин дружил
Державин придумал
Державин описал
Державин родился
Державин умер
Державин читать
Были автоматически исключены контексты, относящиеся к однофамильцам Г.Р. Державина (прежде всего, А. Державину и М. Державину): «Андрей Державин», «Михаил Державин», «Державин музыкант», «Державин актер», «Державин музыка», «Державин фильмы», «Державин песни», «Державин слушать», «Державин роли», «Державин играл», «Державин пел» и др.
Рис. 3. Ссылки по ключевым запросам в Google, связанным с Г.Р. Державиным (Links for key queries in Google related to G.R. Derzhavin)
В итоге, по запросу из представленного контекстного словаря о Г.Р. Державине из поисковой системы Google было получено 1702 ссылки. Наиболее популярными контекстами оказались: «Державин читать», «Державин биография», «Державин университет». Среди самых непопулярных: «Державин ода», «Державин посвятил». По некоторым из представленных контекстов ссылок не было вовсе. Из показательных и относящихся напрямую к специфичным особенностям репрезентации Державина оказалась большая популярность формы имени «Гаврила». «Гавриил» в двух основных наиболее официальных формах (Ф.И.О. и И.О.Ф.) в разных позициях был менее частотен с точки зрения представленности в интернете. Однако наиболее интересными представляются два аспекта репрезентации Державина.
Во-первых, высокая частотность обращения к Г.Р. Державину в контексте «университет». В этом случае с большей вероятностью именно тамбовский вуз «повел за собой» писателя. Сам Г.Р. Державин ни в одном университете не учился и прямого биографического или творческого отношения ни к какому университету не имеет. Частично это подтверждается и высоким местом Тамбова среди всех регионально уточненных запросов. Хотя именно губернаторство писателя в Тамбове нельзя назвать значимым фактом его биографии. Те же Карелия/Олонецкая губерния и Татарстан/Казанская губерния, казалось бы, должны были дать больший статистический эффект.
Во-вторых, среди примечательных особенностей репрезентации Г.Р. Державина нам видится слабая представленность чиновничьей службы поэта, несмотря на всю вышеотмеченную важность этого карьерного компонента для самого писателя. Ни министерская, ни губернаторская работа не оказались среди востребованных по объему представленности в Google, что само по себе показательно. Относительно же творчества Г.Р. Державина достаточно предсказуемо (и в соответствии с результатами соцопросов) лидером оказался «Памятник», который для многих школьников и встраивает одного из последних поэтов классицизма в их пушкиноцентричную систему ценностей русской литературы.
Вывод. В целом личность и творчество Г.Р. Державина при комплексном анализе соответствующих интернет-контекстов представляют собой достаточно цельное явление. С одной стороны, они подтверждают ожидания репрезентации Г.Р. Державина как поэта-классициста (что фактически верно лишь отчасти, но вполне соответствует именно школьной программе) и встраивают в известную наследную модель «Exegi monumentum» в ее российском изводе (Гораций – Ломоносов – Державин - Пушкин). С другой же, несколько неожиданно личность поэта «перетягивает» на себя Тамбовский университет, несколько количественно заслоняя в статистике непосредственно державинскую поэзию. Впрочем, важно любое внимание, в том числе и в интернете, к личности все более забываемого «певца Фелицы», без которого невозможно представить всю историю русской литературы.
Об авторах
Ринат Альбертович Бакиров
Институт русской литературы (Пушкинский Дом) РАН; Казанский (Приволжский) федеральный университет
Автор, ответственный за переписку.
Email: r1nt@ya.ru
кандидат филологических наук, научный сотрудник Лаборатории цифровых исследований литературы и фольклора; доцент кафедры русской литературы и методики ее преподавания
Россия, Санкт-Петербург; КазаньАлсу Рафаиловна Нурутдинова
Казанский научный центр Российской академии наук
Email: Nurutdonovaar@mail.ru
кандидат физико-математических наук, старший научный сотрудник Лаборатории многофакторного гуманитарного анализа и когнитивной филологии
Россия, КазаньСписок литературы
- Бакиров, Р. А., Нурутдинова, А. Р. Репрезентация личности и творчества Г. П. Каменева с использованием технологий анализа интернет-ресурсов и контента // Филология и культура. – 2022. – № 3 (69). – С. 44–52.
- Бакиров, Р. А., Орехов, Б. В. Русско-европейские литературные связи XVIII века // Репозиторий открытых данных по русской литературе и фольклору ИРЛИ РАН. [Электронный ресурс]. – URL: 10.31860/openlit-2023.4-B003' target='_blank'>https://dataverse.pushdom.ru/dataset.xhtml?persistentId=doi: 10.31860/openlit-2023.4-B003 (дата обращения: 07.11.2024).
- Гавриил Державин. Топы запросов [Электронный ресурс]. – URL: https://wordstat.yandex.ru/?region=all&view=table&words=%D0%B3%D0%B0%D0%B2%D1%80%D0%B8%D0%B8%D0%BB%20%D0%B4%D0%B5%D1%80%D0%B6%D0%B0%D0%B2%D0%B8%D0%BD (дата обращения: 07.11.2024).
- Гавриил Романович Державин (Поэт). Динамика популярности [Электронный ресурс]. – URL: https://trends.google.ru/trends/explore?date=all&geo=RU&q=%2Fm%2F018_y9&hl=ru8. (дата обращения: 07.11.2024).
- Державин, Г. Р. Записки. – М.: Мысль, 2000. – 334 с.
- Державин Гавриил Романович. Анализ количества просмотров страниц [Электронный ресурс]. – URL: https://inlnk.ru/YA6z77 (дата обращения: 07.11.2024).
- Дубин, Б. В. Групповая динамика и общелитературная традиция отсылки к авторитетам в журнальных рецензиях 1820-1978 гг. // Очерки по социологии культуры: Избранное. – М.: НЛО, 2017. – 912 с.
- Ларкович, Д. В. Г.Р. Державин и художественная культура его времени: формирование индивидуального авторского сознания. – Екатеринбург: Изд-во Урал. ун-та, 2011. — 344 с.
- Орехов, Б. В. Словарь русских писателей XVIII века: сеть персоналий // Репозиторий открытых данных по русской ли-тературе и фольклору ИРЛИ РАН. [Электронный ресурс]. – URL: 10.31860/openlit-2022.1-B002' target='_blank'>https://dataverse.pushdom.ru/dataset.xhtml?persistentId=doi: 10.31860/openlit-2022.1-B002 (дата обращения: 07.11.2024).
- Пашкуров, А. Н., Разживин, А. И. История русской литературы 18 века: учебник: в 2 ч. Ч.2. – М.: ФЛИНТА: Наука, 2017. – 536 с.
- Сенчин, Р. Я пиит - я не умру (Г.Р. Державин) // Литературная матрица: Внеклассное чтение. — СПб., 2014. – 576 с.
- Стивенс-Давидовиц, С. Все лгут. Поисковики. И Интернет знают о вас все. — М.: Эксмо, 2018. – 384 с.
- SitesAnalysis.ipynb [Электронный ресурс]. – URL: https://drive.google.com/file/d/1db3FUZuBaF2L4NnHaBWrg7HD68keUfuz/view (дата обращения: 07.11.2024).
Дополнительные файлы
