Wikipedia as a data source for studies of collective mental representations of geographical objects (examplified by the cities of the Russian Arctic zone)

Cover Page

Abstract


Articles of Wikipedia crowdsourcing encyclopedia, which is one of the most popular Internet resources in Russia and in the world, are considered as a source of data for research of mass representations about geographical objects. The article analyzes statistical data on the number of views of Wikipedia pages on the urban settlements of the Arctic zone of Russia, as well as quantitative characteristics such as the length of the article (number of characters) and the frequency of updates. These indicators for 57 articles on the largest settlements of the Russian Arctic are collected in the database, and on their basis, we have made calculations of integrated indices (separately for small towns from 4 to 25 thousand inhabitants and for larger ones), which characterize the level of provision of information about the studied settlements for readers of Wikipedia. The lower the value of the calculated indicator, the more «faceless» the urban settlement is in collective representations, and the more attention should be paid to its image policy.


Full Text

Введение. Сетевая краудсорсинговая энциклопедия Wikipedia входит в число наиболее часто посещаемых сайтов в мире. По данным на август 2018 г. в ней содержится 48.6 млн статей, в том числе 1.5 млн статей на русском языке [22]. «Википедию» называют «наиболее удачной попыткой собрать все человеческие знания в одном месте» [19, c. 219]. По данным компании Alexa Internet на октябрь 2018 г., сайт wikipedia.org находится на пятом месте по посещаемости в мире и на восьмом месте по посещаемости в России [23]. В настоящее время этот интернет-ресурс стал объектом исследований для специалистов самых разных областей знаний [19], в том числе историков [13], культурологов [11, 17] и представителей других наук. Ведутся исследования поведенческих мотиваций читателей «Википедии» [10, 14, 18], анализируются причины посещений разных типов статей [21], особенности навигации пользователей по данному ресурсу [12]. С использованием данных о статистике просмотров страниц «Википедии» исследуется общественный интерес к самым разным темам — от национальных кухонь [17] до сезонных заболеваний [21].

Также большое количество научных работ содержит исследования качества статей и уровня достоверности информации, представленной на страницах «Википедии» [15]. По данному вопросу встречаются противоположные мнения исследователей: от утверждений о том, что «идея создавать энциклопедию усилиями многочисленных анонимных пользователей… абсурдна» [9, с. 300], до заключений о высокой достоверности информации, которая обеспечивается многократным взаимным контролем множества пользователей [16].

Однако вне зависимости от уровня достоверности статей «Википедии», степень популярности данного ресурса указывает на то, что вероятность посещения его страницы о любой стране, регионе или городе при поиске информации о нем в Интернете весьма высока, а значит, можно с большой степенью уверенности предполагать, что «Википедия» является важным фактором формирования образов территорий различного уровня в представлении среднестатистического интернет-пользователя. Под образом территории, согласно определению Н. Ю. Замятиной, понимается «цельное представление о территории, сформированное в сознании; система аналитических соотношений территории с другими присутствующими в сознании понятиями» [5].

Работы по географическому анализу содержания статей «Википедии» и статистики их просмотров пока еще практически не ведутся, встречаются только отдельные единичные случаи — например исследование интереса к европейским национальным кухням через анализ статистики просмотров соответствующих статей «Википедии» на разных языках [17]. Также есть примеры работ по изучению образных географических пространств посредством анализа других интернет-ресурсов: официальных сайтов субъектов РФ [2], популярных поисковых систем [4], новостных сайтов [1]. По нашему мнению, Wikipedia представляет собой не менее ценный массив информации для исследований в таких областях как гуманитарная, культурная и поведенческая география.

По данным о просмотрах страниц географических объектов в «Википедии» можно судить о неравномерности интереса читателей к разным объектам и о том, как этот интерес меняется с течением времени. Такая информация может использоваться при разработке имиджевой политики стран, регионов или городов, исследованиях туристической или инвестиционной привлекательности территорий и поиска ответов на другие вопросы, связанные с массовыми представлениями людей о географических пространствах.

Объект данного исследования — совокупность статей «Википедии» о городах и поселках городского типа с населением более 4 тыс. чел., расположенных на территории Арктической зоны России. Малочисленность городов Российской Арктики, значительные расстояния между ними и, как следствие, низкая территориальная подвижность населения [8] обусловили существенную неравномерность и разобщенность массовых представлений о городах Арктики. Увеличение числа граждан РФ, осведомленных о деятельности государства в Арктической зоне Российской Федерации, и увеличение цитируемости материалов о развитии Арктической зоны РФ в российских СМИ входят в число задач Государственной программы «Социально-экономическое развитие Арктической зоны Российской Федерации» (срок действия Госпрограммы — 2015—2025 гг.).

Немногочисленные относительно крупные населенные пункты выступают опорным каркасом развития Арктической зоны РФ и особенно нуждаются в грамотной имиджевой политике. Разработка и продвижение имиджа города могут стать факторами роста инвестиционной привлекательности, увеличения численности населения, притока туристов или повышения конкурентоспособности в других сферах [3, 6].

Методика исследования. Материалом для исследования послужили данные по статьям русскоязычной «Википедии» о населенных пунктах Арктической зоны Российской Федерации с населением более 4 тыс. человек. Для исследования собраны следующие показатели по 57 населенным пунктам:

  1. Среднее число просмотров в месяц (за период с августа 2015 г. по июль 2018 г. [24]). Характеризует уровень интереса читателей «Википедии» к населенному пункту. Сравнение городов по данному показателю дает представление о том, какие города в большей и в меньшей степени присутствуют в образе мира, сформировавшемся в представлении среднестатистического интернет-пользователя: какие из них «на слуху», а какие нет.
  2. Объем статьи (число знаков основного текста без боковых вставок, согласно подсчетам с помощью сайта www.text.ru/seo). Характеризует количество информации, которую может получить пользователь при просмотре страницы. В целом статьи «Википедии» о населенных пунктах выполнены по одной и той же схеме и содержат стандартный набор разделов (география, история, население, транспорт, достопримечательности и др.), но наполнение каждого из них может существенно варьироваться, а также могут появляться дополнительные разделы, связанные со спецификой населенного пункта. Информационное наполнение статьи зависит как от субъективных факторов (увлеченности редакторов), так и от объективных. Например, как правило, больше информации содержится в статьях о более древних городах Арктической зоны России, чем о тех, которые основаны во второй половине XXв.
  3. Частота обновлений статьи (среднее число обновлений в месяц за период с августа 2015 по июль 2018 г. [24]). Этот показатель позволяет отделить «заброшенные», т. е. редко обновляющиеся статьи с заведомо более низким качеством и уровнем актуальности. Логично предположить, что чтение регулярно обновляемых статей обеспечивает читателя более качественной и актуальной информацией, чем ознакомление с редко обновляющимися статьями, информация в которых с большей вероятностью может быть устаревшей.

Все перечисленные данные по всем статьям «Википедии» представлены в открытом доступе [24]. Границы исследуемой территории соответствуют Указу Президента РФ от 2 мая 2014 г. № 296 «О сухопутных территориях Арктической зоны Российской Федерации» с изменениями и дополнениями от 27 июня 2017 г.

Показатели по исследуемым населенным пунктам собраны в единую базу данных. Для того чтобы выяснить, зависят ли они от населенности исследуемых городов, построены диаграммы рассеянности для каждого показателя и значений численности населения. Для повышения наглядности диаграмм городские поселения разделены на две группы по численности населения: менее 25 тыс. чел. и более 25 тыс. чел. Граница групп определена путем визуального сравнения диаграмм рассеянности для разных групп городов и поселков городского типа. Как мы видим, для населенных пунктов с численностью жителей менее 25 тыс. чел. (слева на рис. 1, 2, 3) диаграммы рассеяния не показывают явной взаимосвязи показателей от численности населения, тогда как для городов, где проживает 25 тыс. чел. и более (справа на рис. 1, 2, 3) наблюдается прямая зависимость всех трех показателей от численности населения.

 

Рис. 1. Диаграммы рассеяния: численность населения городских поселений Арктической зоны РФ (на начало 2018 г.) и число знаков в статях «Википедии» об этих поселениях (на 01.10.2018 г.).

 

Рис. 2. Диаграммы рассеяния: численность населения городских поселений Арктической зоны РФ (на начало 2018 г.) и среднее число просмотров статей «Википедии» об этих поселениях в месяц (за период с августа 2015 по июль 2018 г.).

 

Рис. 3. Диаграммы рассеяния: численность населения городских поселений Арктической зоны РФ (на начало 2018 г.) и среднее число обновлений статей «Википедии» об этих поселениях (за период с августа 2015 по июль 2018 г.).

 

Для населенных пунктов с населением менее 25 тыс. чел. произведен расчет интегрального индекса, который условно можно назвать индексом обеспеченности информацией об исследуемых городских поселениях читателей «Википедии». Он включает три перечисленных выше показателя: интерес читателей к исследуемым городам и поселкам городского типа (число просмотров), объем информации в статьях «Википедии» (число знаков) и частоту их обновлений. Учитывая огромную популярность статей «Википедии», можно предположить, что этот показатель характеризует также и общий уровень знаний интернет-пользователей об исследуемых населенных пунктах и дает возможность количественно охарактеризовать особенности образов городов Российской Арктики в массовых представлениях.

Расчет интегрального индекса проводился на основе оценочного алгоритма классификации (более подробное описание алгоритма см. [7, с. 83—85]). Первым этапом расчета стала нормировка исходных показателей по формуле:

Xij = (xij – xmin)/(xmax – xmin), i = 1, 2, 3,…, nj = 1, 2, 3. (1)

где xmin — наименьшие величины выбранных показателей; xmax — наибольшие величины показателей; n — количество исследуемых населенных пунктов.

Путем сравнения показателей всех населенных пунктов со значениями xmin произведено их ранжирование. Оно вычислено с использованием евклидовых расстояний (d°) как меры близости всех территориальных единиц с условной точкой в трехмерном пространстве, имеющей наименьшие значения xmin по всем показателям.

Полученные значения d° интегральных оценочных характеристик для удобства дальнейшего анализа были дополнительно нормированы по формуле (2):

D0i = (d0i – d0min)/(d0max – d0min), i = 1, 2, 3, … , n. (2)

Величина D0 варьирует в пределах от нуля до единицы. Нуль соответствует наименьшей степени обеспеченности информацией читателей «Википедии» о городском поселении, а единица — наибольшей.

Для городов с населением более 25 тыс. чел., где, как ранее было выяснено, существует зависимость значений исходных показателей от численности населения, проведены аналогичные расчеты, но для относительных показателей, т. е. предварительно проведено деление на численность населения. Полученные значения характеризуют степень соответствия обеспеченности информацией о городе его численности населения.

Результаты и обсуждение. По перегибам кривых значений рассчитанных показателей исследуемые городские поселения разделены на пять групп. Всего выделено три группы значений для малых городов и поселков городского типа (до 25 тыс. жителей) и две группы для крупных городов. Населенные пункты нанесены на карту (рис. 4) при помощи двух видов значков, размер которых соответствует численности населения, а светлота и структура — принадлежности к определенной группе.

В результате анализа собранных данных и составленной карты выявлены следующие особенности распределения городских поселений, относящихся к разным группам.

 

Рис. 4. Карта обеспеченности читателей «Википедии» информацией о городских поселениях Арктической зоны России с населением от 4 тыс. чел.

 

Среди городов и поселков городского типа с населением от 4 до 25 тыс. чел. высоким уровнем обеспеченности информацией читателей «Википедии» характеризуются такие населенные пункты как Анадырь, Певек, Дудинка, Тикси, Игарка (порты на Северном морском пути), Онега, Кемь и Кола (исторические поселения). Все они имеют четкие и информационно насыщенные образы в массовых представлениях, связанные либо с их статусом города-порта, либо с историческим прошлым, либо, в большинстве случаев, с обоими факторами одновременно.

Большинство исследуемых населенных пунктов находится на территории Мурманской области — наиболее густонаселенного региона Арктики. Однако среди малых городов этого субъекта РФ только Кола отнесена к группе с высоким уровнем обеспеченности информацией. Большинство остальных городов Мурманской области характеризуются низкими значениями рассчитанного индекса. Наиболее близкие к нулю уровни обеспеченности информацией относятся к поселкам городского типа Молочный, Высокий, Мурмаши, Зеленоборский. Предположительно, эти населенные пункты не имеют четких образов в массовых представлениях и их названия могут быть даже не знакомы среднестатистическому интернет-пользователю — можно сказать, что их образы как бы «затерялись» среди образов других городов этого региона.

Также в группу «безликих» попали многие населенные пункты, являющиеся спутниками более крупных городов. Например, поселки Искателей (пригород Нарьян-Мара), Воргашор (пригород Воркуты), Пурпе (сосед города Губкинский) и др. Образы этих населенных пунктов также оказались «в тени» более крупных и известных соседей.

Что касается городов с населением от 25 тыс. чел., как уже было указано выше, для них прослеживается взаимосвязь всех трех исследуемых показателей — количества просмотров статей «Википедии», объема статей и частоты их обновлений — от численности населения. Самые крупные города Арктики Архангельск и Мурманск, очевидно, и наиболее известны среднестатистическому читателю. Однако ранжирование перечисленных показателей, деленных на численность населения, дало возможность выделить подгруппу городов, обеспеченность информацией читателей «Википедии» о которых выше ожидаемой с учетом численности населения. В частности, в эту подгруппу попали Новый Уренгой и Салехард (крупные газодобывающие центры Ямало-Ненецкого АО), Кировск и Апатиты (города Мурманской области с развитой туристской отраслью), а также такие города, как Нарьян-Мар, Воркута, Кандалакша и Лабытнанги.

Выводы. Статистические данные о количестве просмотров, частоте обновлений и объеме статей о географических объектах в краудсорсинговой энциклопедии Wikipedia, являющейся одним из наиболее посещаемых интернет-ресурсов в мире, — новый перспективный источник информации для исследований массовых представлений о территориях.

На основе анализа перечисленных показателей, а также данных о численности населения выделено 5 групп городских населенных пунктов Арктической зоны РФ, различающихся по уровню обеспеченности информацией о них читателей русскоязычной «Википедии». В целом для Российской Арктики наблюдается высокая вариативность населенных пунктов по этому показателю: выделяются как лидеры по степени «заметности», так и «безликие» аутсайдеры, названия которых могут быть даже не знакомы среднестатистическому читателю «Википедии». Такие населенные пункты особенно нуждаются в проведении грамотной имиджевой политики, призванной сделать их более конкурентоспособными. Как отмечает Н. М. Старинщиков [6, с. 21], «проблема безликости российских городов, слабо выраженное, туманное представление о них в стране и мире — результат бессистемного подхода к имиджевой политике. В связи с обострением территориальной конкуренции формирование привлекательности города становится условием его развития».

Для более крупных городов (более 25 тыс. чел.) наблюдается зависимость числа просмотров статей, их объема и частоты обновлений от численности населения, тогда как для более мелких населенных пунктов (от 4 до 25 тыс. чел.) таких зависимостей не обнаружено. Это означает, что обеспеченность массового читателя информацией о малом городе определяется в основном факторами, не имеющими отношения к численности населения.

Факторы, повышающие уровень обеспеченности информацией читателей «Википедии» о городе, весьма разнообразны. Среди них присутствует исторический фактор (осведомленность о более древних поселениях, как правило, выше), наличие крупного порта, наличие туристических объектов, лидирующие позиции в добывающей отрасли, а также наличие каких-либо других символических объектов или ассоциаций (например, для Воркуты — Воркутлаг). Совокупность нескольких разных факторов в одном городе существенно повышает его известность, расширяя ассоциативный ряд.

Полученная классификация может быть использована при разработке имиджевой политики для населенных пунктов Арктической зоны РФ, направленной на повышение общественного интереса к ним, способствующей росту конкурентоспособности в разных областях развития, либо изменению уже сформированных образов городских поселений в массовом сознании.

 

Исследование выполнено при поддержке РФФИ, проект № 18-35-00160.

About the authors

M. V. Gribok

Lomonosov Moscow State University

Author for correspondence.
Email: gribok.marina@gmail.com

Russian Federation, Moscow

V. S. Tikunov

Lomonosov Moscow State University

Email: vstikunov@yandex.ru

Russian Federation, Moscow

References

  1. Gribok M. V., Tikunov V. S. Kartografirovanie prirodno-eʼkologicheskoj sostavlyayushhej obraznogo prostranstva Rossii v SMI (na primere «RIA-Novosti») // Vestnik Moskovskogo universiteta. Seriya 5: Geografiya. 2015. № 5. S. 17-24.
  2. Zamyatina N. Yu. Predstavleniya ob ustrojstve prostranstva kak kontekst formirovaniya obrazov sub’ektov RF (po materialam oficialʼnyh sajtov sub’ektov RF) // Izvestiya RAN. Seriya geograficheskaya. 2006. № 4. S. 58-67.
  3. Meshheryakov T. V. Imidzh goroda kak strategicheskij faktor eʼffektivnogo marketinga territorii // Problemy sovremennoj eʼkonomiki. 2009. № 2 (30). S. 31-36.
  4. Oreshkina D. D., Tikunov V. S. Obraz mira i Rossii v Internete // GIS-Obozrenie. 2001. № 2. S. 12-13.
  5. Socialʼno-eʼkonomicheskaya geografiya: ponyatiya i terminy. Slovarʼ-spravochnik / Otv. red. A. P. Gorkin. Smolensk: Ojkumena, 2013. 325 s.
  6. Starinshhikov N. M. Imidzh goroda kak virtualʼnyj faktor ego konkurentosposobnosti // Eʼkonomika. 2009. № 5. S. 41-49.
  7. Tikunov V. S. Modelirovanie v kartografii. M.: Izd-vo MGU, 1997. 405 s.
  8. Fauzer V. V., Lytkina T. S., Fauzer G. N. Osobennosti rasseleniya naseleniya v Arkticheskoj zone Rossii // Arktika: eʼkologiya i eʼkonomika. 2016. № 2 (22). S. 40- 50.
  9. Shakirov S. M. O bystroznanii / Gorizonty civilizacii. 2014. № 5. S. 300-314.
  10. Antin J., Cheshire C. Readers are not free-riders: reading as a form of participation on Wikipedia // Proceedings of the 2010 ACM conference on Computer supported cooperative work, February 06-10, 2010, Savannah, Georgia, USA. P. 127-130. doi: 10.1145/1718918.1718942
  11. Callahan E., Herring S. Cultural bias in Wikipedia content on famous persons // Journal of the American Society for Information Science and Technology 62, 10 (2011). P. 1899-1915.
  12. Dimitrov D., Lemmerich F., Flöck F., Strohmaier M. Query for Architecture, Click through Military: Comparing the Roles of Search and Navigation on Wikipedia // Proceedings of the 10th ACM Conference on Web Science, May 27-30, 2018, Amsterdam, Netherlands. P. 371-380. doi: 10.1145/3201064.3201092
  13. Gieck R., Kinnunen H.-M., Li Y., Moghaddam M., Pradel F., Gloor P. A., Paasivaara M., Zylka M. P. Cultural differences in the understanding of history on Wikipedia // Designing Networks for Innovation and Improvisation. Springer. 2016. P. 3-12.
  14. Gyllstrom K., Moens M.-F. Surfinʼ Wikipedia: an analysis of the Wikipedia (non-random) surferʼs behavior from aggregate access data // Proceedings of the 4th Information Interaction in Context Symposium, August 21-24, 2012, Nijmegen, The Netherlands. P. 155-163. doi: 10.1145/2362724.2362752
  15. Javanmardi S., Lopes C. Statistical measure of quality in Wikipedia // Proceedings of the First Workshop on Social Media Analytics, July 25-28, 2010, Washington D. C., District of Columbia. P. 132-138. doi: 10.1145/1964858.1964876
  16. Kittur A., Kraut R. Harnessing the wisdom of crowds in wikipedia: quality through coordination // Proceedings of the 2008 ACM conference on Computer supported cooperative work, November 08-12, 2008, San Diego, CA, USA. P. 37-46. doi: 10.1145/1460563.1460572
  17. Laufer P., Claudia Wagner C., Flöck F., Strohmaier M. Mining cross-cultural relations from Wikipedia: A study of 31 European food cultures // Proceedings of the ACM Web Science Conference, June 28-July 01, 2015, Oxford, United Kingdom. doi: 10.1145/2786451.2786452
  18. Lehmann J., Müller-Birn C., Laniado D., Lalmas M., Kaltenbrunner A. Reader Preferences and Behavior on Wikipedia // Proceedings of the 25th ACM Conference on Hypertext and Social Media, September 01-04, 2014, Santiago, Chile. P. 88-97. doi: 10.1145/2631775.2631805
  19. Mesgari M., Okoli C., Mehdi M., Nielsen F., Lanamäki A. The sum of all human knowledge: A systematic review of scholarly research on the content of Wikipedia // Journal of the Association for Information Science and Technology. 2015. 66 (2). P. 219-245. doi: 10.1002/asi.23172
  20. Singer P., Lemmerich F., West R., Zia L., Wulczyn E., Strohmaier M., Leskovec J. Why We Read Wikipedia // Proceedings of the 26th International Conference on World Wide Web, April 03-07, 2017, Perth, Australia. P. 1591-1600. doi: 10.1145/3038912.3052716
  21. Vilain P., Larrieu S., Cossin S., Caserio-Schönemann C., Filleul L. Wikipedia: a tool to monitor seasonal diseases trends? // Online Journal of Public Health Informatics 2017. 9 (1). doi: 10.5210/ojphi.v9i1.7630
  22. Wikipedia Statistics. Article count (official). [Elektronnyj resurs] URL: https://stats.wikimedia.org/EN/TablesArticlesTotal.htm (data obrashcheniya: 20.09.2018).
  23. www.alexa.com/topsites [Elektronnyj resurs] (data obrashcheniya: 28.10.2018)
  24. www.tools.wmflabs.org/pageviews [elektronnyj resurs] (data obrashcheniya: 28.10.2018).

Supplementary files

Supplementary Files Action
1.
Fig. 1. Scatterplots: population of urban settlements in Russian Arctic zone (at the beginning of 2018) and the number of signs in Wikipedia articles about these cities (as of 01.10.2018).

View (52KB) Indexing metadata
2.
Fig. 2. Scatterplots: population of urban settlements in Russian Arctic zone (at the beginning of 2018) and the average number of views of Wikipedia articles about these cities per month (from August 2015 to July 2018).

View (56KB) Indexing metadata
3.
Fig. 3. Scatterplots: population of urban settlements in Russian Arctic zone (at the beginning of 2018) and the average number of updates to Wikipedia articles about these cities (for the period from August 2015 to July 2018).

View (49KB) Indexing metadata
4.
Fig. 4. Map of Wikipedia readersʼ provision with information about the urban settlements with a population of more than 4 thousand people in Russian Arctic zone.

View (279KB) Indexing metadata

Statistics

Views

Abstract - 193

PDF (Russian) - 40

Cited-By


PlumX

Refbacks

  • There are currently no refbacks.

Copyright (c) 2019 Russian academy of sciences

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies