Problems of identifying time series intervals when predicting the dynamics of the number of infected Covid-19 by statistical methods using the example of Yugra

Mikhail G. Korotkov; Коротков Михаил Геннадьевич; Aleksey A. Petrov; Петров Алексей Аверьянович; Maria V. Kurkina; Куркина Мария Викторовна

doi:10.17816/byusu2020370-74

Problems of identifying time series intervals when predicting the dynamics of the number of infected Covid-19 by statistical methods using the example of Yugra

Authors: Korotkov M.G.¹, Petrov A.A.¹, Kurkina M.V.¹
Affiliations:
1. Yugra State University
Issue: Vol 16, No 3 (2020)
Pages: 70-74
Section: MATHEMATICAL MODELING AND INFORMATION TECHNOLOGIES
Published: 28.10.2020
URL: https://vestnikugrasu.org/byusu/article/view/59630
DOI: https://doi.org/10.17816/byusu2020370-74
ID: 59630

Cite item

Full Text

Abstract
Full Text
About the authors
References
Supplementary files
Statistics

Abstract

The aim of this work is to develop an approach to isolate the data interval for statistical forecasting from the time series of dynamics of new cases of coronavirus infection in the Yugra of the number of COVID-19 infected in the spring-summer of 2020.

Keywords

time series, statistical methods, forecasting, model

Full Text

Введение

При исследовании процесса распространения COVID-19 в открытых источниках доступными являются данные о:

количестве зараженных за день;
количестве выздоровевших за день;
количестве умерших за день.

Остальные данные являются производными этих трех.

Скорее всего, нельзя рассматривать данные 2, 3 в качестве временного ряда случайных величин [1], чего нельзя сказать о количестве зараженных за день, поскольку отсутствуют ежедневно меняющиеся неслучайные воздействия, влияющие на эту величину. Возможны разовые изменения, влияющие на характер (режим) процесса распространения коронавируса (введение/отмена режима самоизоляции, запрет отдельных видов деятельности, ввод масочного режима и т. п.). Реакция количества ежедневных заражений на эти изменения запаздывает, и какое-то время продолжает сказываться влияние предыдущего режима.

Все это оставляет возможность применения статистических подходов к прогнозированию [2] количества ежедневных заражений с учетом вышеизложенных замечаний.

Описание алгоритма

Рассмотрим временной ряд числа зараженных COVID-19 за сутки в ХМАО с 14.04.2020 по 31.08.2020 (открытые данные сайта coronavirus-monitor.ru) длиной 140 (рис. 1).

Рисунок 1

Поведение ряда близко к «колоколообразной» гауссовой кривой [3], поэтому имеет смысл прологарифмировать исходный ряд (рис. 2).

Рисунок 2

В прологарифмированном ряду наблюдается квадратичная трендовая зависимость. Применив МНК, получим модель тренда

$y = - 0, 00050 x^{2} + 0, 08439 x + 1, 94620$

Удалив из прологарифмированного ряда тренд, получим ряд остатков (рис. 3).

Рисунок 3

Из графика видно, что, начиная с 64 уровня исходного ряда, наблюдается изменение характера процесса. Включение в рассмотрение данных с 1 по 63 уровень (с 14.04.20 по 15.06.20) при идентификации типа и оценки параметров модели [4] для статистического прогноза может только ухудшить его качество.

Результат удаления из рассмотрения указанного интервала исходного временного ряда представлен на рис. 4.

Рисунок 4

Повторив вышеизложенные шаги, получим модель тренда:

$y = - 0, 00041 x^{2} + 0, 06706 x + 3, 37319$

для прологарифмированного исходного ряда. Удалив этот тренд из логарифмированного ряда, получим ряд остатков для логарифмированного ряда (рис. 5).

Рисунок 5

Данный ряд нестационарен [5], что препятствует переходу к следующим шагам построения модели прогноза. Для приведения ряда к стационарному применим стандартную операцию нахождения разностей ряда первого порядка [4] (рис. 6).

Рисунок 6

Как видим, полученный ряд также не является стационарным. Ряд разностей второго порядка (рис. 7) показывает, что начиная с 110 уровня (31.07.20) наблюдается существенное изменение характера процесса.

Рисунок 7

Следовательно, при построении модели статистического прогноза целесообразно использовать данные начиная с 31.07.20.

Повторив шаги, аналогичные предыдущим, получим соответствующий ряд остатков, приводящийся к стационарному взятием первых и вторых разностей. Это позволит перейти к следующим этапам построения статистической модели (идентификации типа и оценки параметров модели) и прогноза.

Обобщая вышеизложенное, перечислим этапы, позволяющие, по крайней мере, не ухудшить качество статистической модели прогноза при ее построении:

Визуализация исходных данных.
Выявление вида тренда исходя из результатов визуализации.
Преобразование (при необходимости) исходных данных к виду, удобному для выделения тренда.
Получение оценок параметров тренда на основе МНК.
Удаление из преобразованного ряда тренда.
Проверка на стационарность полученного ряда остатков (графический способ, способ применения автокорреляционной функции и ряд других).
Выявление временных интервалов, соответствующих принципиально различным по характеру процессам.
Определение интервала данных для построения прогностической статистической модели.

Выводы

При использовании полного ряда данных при статистическом прогнозировании очень часто возникает ситуация, когда учет более ранних данных вносит существенное ухудшение качества модели, используемой для прогноза.

Такого рода проблема может возникнуть и при построении иных (не статистических) моделей, используемых для прогнозирования. В этом случае подход, рассмотренный в данной работе, может также оказаться полезным.

About the authors

Mikhail G. Korotkov

Yugra State University

Author for correspondence.
Email: mkorotkov@rambler.ru

Candidate of Physical and Mathematical Sciences, Associate Professor of the Institute of Digital Economy

Russian Federation

Aleksey A. Petrov

Yugra State University

Email: a_petrov@ugrasu.ru

Candidate of Physical and Mathematical Sciences, Associate Professor of the Institute of Digital Economy

Russian Federation

Maria V. Kurkina

Yugra State University

Email: mavi@inbox.ru

Candidate of Technical Sciences, Associate Professor of the Institute of Digital Economy

Russian Federation

References

Мишулина, О. А. Статистический анализ и обработка временных рядов / О. А. Мишулина. – Москва : МИФИ, 2004. – 180 с. – ISBN 5-7262-0536-7. – Текст : непосредственный.
Айвазян, С. А. Прикладная статистика и основы эконометрики / С. А. Айвазян, В. С. Мхитарян. – Москва : ЮНИТИ-ДАНА, 2001. – 656 с. – Текст : непосредственный.
Вентцель, Е. С. Теория вероятностей / Е. С. Вентцель. – 10-е издание, стереотипное. – Москва : Academia, 2005. – 576 с. – Текст : непосредственный.
Боровиков, В. П. Прогнозирование в системе STATISTICA в среде Windows / В. П. Боровиков, Г. И. Ивченко. – Москва : Финансы и статистика, 1999. – 384 с. – Текст : непосредственный.
Дуброва, Т. А. Статистические методы прогнозирования : учебное пособие для вузов / Т. А. Дуброва. – Москва : Юнити, 2003. – 106 с. – ISBN 5-238-00497-4. – Текст : непосредственный.