EXPLORING THE CAPABILITIES OF PREDICTIVE DATA ANALYTICS IN FMCG INDUSTRY


Cite item

Full Text

Abstract

This research paper considered the possibilities of using predictive analytics in the FMCG market to increase business process efficiency, in particular in the field of demand forecasting. The existing business processes in FMCG companies were considered as well as existing tools for sales forecasting such as SAP, RapidMiner, Azure ML Studio, SPSS and others. As an illustrative example of FMCG business process data collection and analytics, the data on the sales of the key customer of the company from the tobacco industry was analyzed and several regression models of sales forecasting were created on the basis of the use of the Azure ML Studio toolset.

Full Text

Введение Существуют различные рынки в зависимости от продаваемого продукта или услуги. Наибо- лее привычным для обычного потребителя яв- ляется рынок «товаров повседневного спроса», известных также как «ширпотреб» (сокраще- ние от «широкое потребление») или FMCG (по английской аббревиатуре термина Fast Moving Consumer Goods). Эта область рынка является высоко конкурентной, что подтверждается тем фактом, что существует множество транснаци- ональных компаний, таких как Coca-Cola, Pepsi, PMI, P&G, Unilever, Johnson&Johnson и другие. В прошлом году по данным NielsenIQ розничные продажи FMCG в России выросли на 3 % в де- нежном выражении, тогда как в 2019 году рост составил 3,9 % [1]. При этом потенциал роста за счет расширения торговых площадей и повы- шения цен оказался практически исчерпан. Этот факт, а также острая конкуренция заставляют крупнейших ретейлеров инвестировать в техно- логии, обеспечивающие преимущества, которых нет (пока) у других конкурентов [2]. Эти техноло- гические решения могут быть основаны на самых разных принципах - психологических, маркетин- «Infokommunikacionnye tehnologii» 2021, Vol. 19, No. 4, pp. 439-454 говых, технических. Их главное назначение - это обеспечение более точного соответствия предло- жения продуктов потребностям покупателя. На- пример, технология компьютерного зрения уже сегодня позволяет сократить очереди на кассах в магазинах сети «Перекресток». Магазины компа- нии «Лента» использует технологию обработки больших данных, чтобы знать, что вы, как покупа- тель, купите в следующий раз, когда пойдете в ма- газин. В компании «Магнит» технология машин- ного обучения позволяет всегда иметь в наличии именно те товары, которые нужны покупателям. Наиболее интересной технологией для анализа данных на рынке FMCG является предиктивная аналитика, поскольку она способна (потенциаль- но) предсказывать неизвестные будущие собы- тия, отвечая на вопрос «Что может произойти?» на основе анализа накопленной информации о покупках и продажах товаров. Для этих целей ис- пользуется множество методов: математическая статистика, моделирование, машинное обучение и другие направления «науки о данных» (Data Science), а также интеллектуальный анализ дан- ных (Data Mining) [3]. Эти технологии позволяют предприятиям торговли не только накапливать данные, генерируемые бизнес-процессами, но и использовать их для улучшения бизнес-процессов. Целью данной исследовательской работы яв- ляется поиск путей улучшения эффективности бизнеса на рынке FMCG на основе применения методов и моделей предиктивной аналитики дан- ных для решения задач прогнозирования продаж FMCG. Для достижения указанной цели в работе ре- шается ряд задач, включая: Анализ существующих бизнес-процессов и бизнес-моделей на рынке FMCG; Исследование методов предиктивной ана- литики, которые используются для работы с дан- ными, генерируемыми бизнес-процессами на рынке FMCG, и выбора методов и технических решений для прогнозирования продаж и плани- рования складских запасов продуктов для ретейла; Демонстрация примера использования предиктивной модели в процессе прогнозирова- ния продаж на рынке FMCG на примере данных продаж продуктов определенной товарной груп- пы FMCG. Особенности бизнес- процессов рынка FMCG Продукты FMCG характеризуются, как пра- вило, коротким сроком службы, быстрым тем- пом потребления и многократными покупками со стороны потребителей. В теории любой продукт с такими характеристиками может быть отнесен к рынку FMCG, включая продукты питания, на- питки, косметику, моющие средства, батарейки, туалетную бумагу и другие. Главное характерное свойство и главный критерий здесь - это обора- чиваемость или частота покупок, а это означает, что компания в данной отрасли должна работать с товарами очень быстро, иначе конкуренты сде- лают новый запуск продукта и переманят к себе потребителя. Иногда FMCG также называют PMCG (т. е. упакованные товары повседневного спроса). Как следует из названия, продукты упаковываются в отдельные небольшие единицы для продажи. Са- мые простые примеры продуктов этой категории включают упакованные продукты питания, сред- ства личной гигиены, табак, алкоголь и напитки. Не случайно, что компании на рынке FMCG уде- ляют все больше внимания влиянию упаковки, брен- динга и популяризации товаров этой категории. Выделяют следующие важные атрибуты рын- ка товаров повседневного спроса FMCG: Короткий цикл оборота продукции; Доступ на рынок короткий и широкий; Рынок является ярким, т. е. в местах с вы- сокой проходимостью и высоким качеством про- дукции устанавливаются наружные рекламные щиты для рекламы имиджа товара, а в магазинах проводятся демонстрации на месте, рекламные акции, распродажи со скидками и другие меро- приятия; Удобство: потребители могут привычно со- вершать покупки поблизости; Визуализированные продукты: на потре- бителей легко влияет атмосфера магазина, когда они совершают покупку; Низкая лояльность к бренду: потребите- ли легко меняют бренды среди аналогичных товаров. Все эти ключевые моменты рынка обеспе- чивают то, что потребитель покупает продукты FMCG просто, быстро, импульсивно и эмоцио- нально. По предпочтительным бизнес-моделям и реа- лизуемым бизнес-процессам компании FMCG в мире обычно относятся к розничной торговле он- лайн или офлайн, поскольку это основные кана- лы продаж и связи с конечным потребителем для многих компаний-производителей. В таблицах 1 и 2 представлены Топ-10 брендов рынка FMCG в мире и в России [4; 5]. Исходя из данных в таблице 1, видно, что по охвату, присутствию на рынке и выбору потреби- Таблица 1. Топ-10 брендов FMCG в мире № Компания Бренд CRPs* охват потребителей, млн чел. Изменение, % Доля на мировом рынке Выбор потребителей 2019 2020 2019 2020 1 The Coca-Cola Company Coca-Cola 6509 4 42,2 43 12,4 12,3 2 Colgate- Palmolive Colgate 4311 -2 59,8 58,5 6,1 6 3 Unilever Lifebuoy 3014 15 25,5 27,7 8,6 8,9 4 Nestlé Maggi 3004 -4 32 33,9 8,1 7,2 5 PepsiCo Inc. Lay’s 2768 4 30,4 31,2 7,3 7,2 6 PepsiCo Inc. Pepsi 2354 6 22,7 23,3 8,1 8,2 7 Indofood Indomie 2221 0 6 6,1 30,9 29,5 8 Unilever Dove 2033 1 37 37,1 4,5 4,5 9 Unilever Sunsilk 1943 -4 23,5 23,4 7,2 6,8 10 Nestlé Nescafé 1814 -3 22,7 23,2 6,9 6,4 Таблица 2. Топ-10 брендов FMCG в России № Компания Бренд CRPs* охват потребителей, млн чел. Изменение, % Доля на мировом рынке Выбор потребителей 2019 2020 2019 2020 1 Danone Простоквашино 487 -3 75,7 75,4 11,5 11,2 2 PepsiCo Inc. Lay’s 481 8 67,4 69,1 12,1 12,8 3 ОАО «Эфко продук- ты питания» Слобода 304 -7 77 76 7,5 7,1 4 ЗАО Эссен Продакшн АГ Махеев 286 10 72,6 77,2 6,3 6,5 5 The Coca-Cola Company Coca-Cola 248 7 48,2 49,3 8,9 9,2 6 ОАО «Прогресс» Фрутоняня 242 -4 43,5 43,7 9,5 9,1 7 Группа КДВ Яшкино 236 -3 71 71,1 6,1 5,9 8 PepsiCo Inc. Домик в деревне 236 -7 61,2 59,1 7,3 7,1 9 Mareven Food Holdings Ролтон 232 5 64,1 65 6,1 6,3 10 Wm. Wrigley Jr.Company, Wrigley Orbit 229 -10 52,7 49,2 8,9 8,5 телей лидируют транснациональные компании, в топ-3 список входят компании The Coca-Cola Company, Colgate-Palmolive, Unilever. Бренды этих компаний известны и присутствуют в боль- шинстве крупных стран и относятся к пищевой или бытовой категории товаров. Для России этот список будет немного другим, так как в каждой стране есть своя специфика. Как это видно по данным из таблицы 2, бренды по ключевым показателям в России относятся в основном к пищевой отрасли. Однако доля транснациональных компаний тут заметно ниже: 6 из 10 в России против 10 из 10 в мире. Это говорит о том, что потребитель в России по- своему уникален и к нему нужен особый подход. Но независимо от страны или региона все топ-10 продуктов потребитель с легкостью может найти в ближайшем супермаркете или на их сай- те. Поэтому для FMCG-компаний важно распро- странять свою продукцию через рынок ретейла, т. е. рынок розничных продаж. Все продвижение и маркетинговые активности со стороны ком- паний-производителей в ретейле направлены на поддержание своего продукта в числе самых продаваемых из категории. Это обусловлено тем, что если компании-производители продукта X и Y предлагают ретейлу одинаковую маржу с 1 продажи, то розничному бизнесу условно без разницы, какой продукт продавать. Таким обра- зом, в сложных условиях, где потребитель может с легкостью выбирать новый бренд конкурента, бизнес должен понимать, сколько необходимо производить нового или существующего продук- та на рынке. И так как производить больше, чем можно продать, неэффективно, то компании в FMCG-сфере должны как можно точнее прогно- зировать спрос на свою продукцию. Предиктивная аналитика в прогнозировании продаж товаров В компаниях сферы FMCG существует множе- ство бизнес-процессов, в которых можно исполь- зовать предиктивную аналитику, оптимизацию или автоматизацию. Например, логистика и це- почки поставок, управление запасами и бережли- вое производство, управлением кадрами. В каж- дом отдельном бизнес-процессе есть входные данные (начало процесса) и выходные данные (результат). Наиболее интересной для нашего ис- следования темой является прогнозирование про- даж продукции, так как с одной стороны чрезмер- ное производство продукции порождает загрузку складов компании, что негативно сказывается на общем ее финансовом положении. С другой стороны, недопроизводство продукции можно оценить как упущенную прибыль из-за несвоев- ременных поставок в точки реализации продук- та. Поэтому планирование и прогнозирование продаж/спроса - очень важный бизнес-процесс, который можно сделать еще более эффективным за счет внедрения моделей и методов машинного обучения и предиктивной аналитики. Прогнозирование спроса является одной из проблем, которую можно решить за счет пре- диктивной аналитики. Согласно SAS Institute, предиктивная аналитика - это использование данных, статистических алгоритмов и методов машинного обучения для определения вероятно- сти будущих результатов на основе исторических данных. Цель аналитики данных здесь состоит в том, чтобы не ограничиваться знанием статисти- ки прошлого, а чтобы дать наилучшую оценку того, что произойдет в будущем. Предиктивная аналитика уже является одной из наиболее широ- ко используемых технологий интеллектуальной автоматизации в мире. По данным Statista, более 80 % крупных предприятий внедряют предиктив- ную аналитику [6]. Предиктивная аналитика часто обсуждает- ся в контексте больших данных, например ин- женерных данных, поступающих от датчиков, приборов и подключенных систем в бизнес. Бизнес-системы компании могут включать дан- ные о транзакциях, результатах продаж, жалобах клиентов и маркетинговую информацию. Все чаще компании принимают решения на основе данных, основываясь на этой информации. Что- бы извлечь ценность из больших данных, пред- приятия применяют алгоритмы к большим мас- сивам данных с помощью таких инструментов, как Hadoop и Spark [7]. Источники данных могут состоять из баз данных транзакций, журнальных файлов оборудования, изображений, видео, ау- дио, сенсорных и других типов данных. Инно- вации часто появляются благодаря объединению данных из нескольких источников. При наличии всех этих данных необходимы инструменты для извлечения информации и выявления тенденций. Методы машинного обучения используются для поиска закономерностей в данных и построе- ния моделей, которые предсказывают будущие результаты. Существует множество алгоритмов машинного обучения, включая линейную и не- линейную регрессию, нейронные сети, деревья решений и другие алгоритмы. В предыдущих работах авторы уже обсуж- дали и анализировали индустрию FMCG в сво- их странах. А также исследовали, как компании FMCG пытаются улучшить свои позиции на рынке. Одна из работ связана с рынком Китая и каналом электронной коммерции в отрасли [8]. Другая работа связана с рынком товаров массо- вого спроса в Бангладеш и влиянием COVID-19 на HR-процессы [9]. Примеры работ показывают, что важно предварительно проанализировать, как компания может улучшить свой бизнес за счет внедрения новых цифровых возможностей. На- пример, компания может получить больше кон- курентных преимуществ за счет внедрения IT- технологий, таких как предиктивная аналитика. В последние годы предиктивной аналитике уделяется большое внимание в связи с развити- ем вспомогательных технологий, особенно в об- ласти больших данных и машинного обучения. Предиктивная аналитика помогает командам в таких различных отраслях, как финансы, здраво- охранение, фармацевтика, автомобилестроение, аэрокосмическая промышленность и производ- ство [10]. Машинное обучение - это категория алгоритмов, которая позволяет программным приложениям становиться более точными в про- гнозировании результатов без явного программирования. Основная предпосылка машинного обучения заключается в построении моделей и применении алгоритмов, которые могут полу- чать входные данные и использовать статисти- ческий анализ для прогнозирования выходных данных, обновляя их по мере поступления новых данных. Эти модели можно применять в раз- личных областях и обучать их в соответствии с ожиданиями руководства, чтобы предпринимать точные шаги для достижения целей организации [11]. Предиктивная аналитика, включая прогно- зирование, является важным инструментом для функции продаж [12]. Прогнозы дают представ- ление об анализе клиентов и счетов [13], коэф- фициентах конверсии, достижении квоты, стра- тегии командных продаж [14], подборе и оценке персонала [15]. Предиктивная аналитика - это категория ана- лиза данных, предназначенная для составления прогнозов на основе исторических данных с целью моделирования будущих сценариев с ис- пользованием аналитических методов, таких как статистическое моделирование и машинное обу- чение или глубокое обучение. Используя предик- тивную аналитику, организация может обнару- жить тенденции и адаптировать свою политику к тому, что может произойти [16]. Для обзора всех возможностей предиктивной аналитики мы рассмотрим проект с открытым ис- ходным кодом и код на языке Python. Язык Python стал самым популярным языком машинного обучения благодаря своей простоте, читабель- ности и расширяемости. Расширяя библиотеку NumPy, можно добиться быстрой обработки мас- сивов. В то же время Python может напрямую ре- ализовать алгоритм машинного обучения, расши- рив фреймворк TensorFlow [17]. Методы решения задач предиктивной аналитики данных FMCG Подходы и методы, используемые для прове- дения прогнозных анализов, можно разделить на два вида: методы классификации и методы кла- стеризации. Классификация объекта - номер или наиме- нование класса, выдаваемый алгоритмом класси- фикации в результате его применения к данному конкретному объекту [18]. Обучение классифи- катора - процесс построения алгоритма в слу- чае, когда задано конечное множество объектов, для которых известно, к каким классам они от- носятся. Это множество называется выборкой. Классовая принадлежность остальных объектов неизвестна. Это также называется «обучением с учителем». Кластеризация - процесс разбиения заданной выборки объектов (наблюдений) на непересека- ющиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров суще- ственно отличались [18]. Одной из целей кла- стеризации является понимание данных путем выявления кластерной структуры. Разбиение на- блюдений на группы схожих объектов позволяет упростить дальнейшую обработку данных и при- нятия решений, применяя к каждому кластеру свой метод анализа. Данный метод машинного обучения относится к «обучению без учителя», так как у данных нет заранее возможных классов. Рассмотрим более подробно последователь- ность действий при внедрении модели предиктивной аналитики в бизнес-процесс. Определить бизнес-цели моделирования; Выбор/получение данных; Подготовить данные; Анализ и преобразование переменных; Выбор и разработка моделей с учетом по- требностей бизнеса; Тренировка модели (на тренировочной вы- борке данных); Валидация модели (на тестовой выборке); Оптимизация модели (если требуется); Внедрение и масштабирование в бизнес- процессе. Эти шаги можно сгруппировать в три основ- ные категории: подготовка данных, прогнозиро- вание модели и развертывание [16]. Подготовка данных - это самостоятельная деятельность, ко- торая преобразует разрозненные, необработан- ные и беспорядочные данные в четкое, последо- вательное представление. Этот процесс включает в себя исследование, очистку, преобразование, организацию и сбор данных. Подготовка данных важна, но требует времени; команды по работе с данными тратят до 80 % своего времени на пре- образование необработанных данных в высо- кокачественные результаты, готовые к анализу. Данные могут поступать из разных источников и объединяться в одном файле. На этапе построе- ния модели прогнозирования мы строим модель, которая будет учиться на исторических и текущих данных, чтобы предсказывать будущее состояние системы. Как уже говорилось выше, любой вид алгоритма, который может быть использован, за- висит от типа данных и бизнес-цели. Созданная прогностическая модель должна быть протести- рована и подтверждена. После завершения всех шагов, связанных с настройкой и отладкой моде- ли, она должна быть запущена в организации и Таблица 3. Инструменты для анализа данных и ма- шинного обучения Продукт Применение SAP Analytics Cloud Наиболее сбалансированный программный продукт с возможностью постройки сложных предиктивных моделей SAS Advanced Analytics Глобальный продукт для крупных компаний, подходит для любых задач в области анализа данных RapidMiner Бесплатный сервис с автоподбором лучшей предиктивной модели на основе используемых данных IBM SPSS Лучше всего подходит для работы с данными при исследованиях Azure ML Studio Имеет широкий выбор моделей, подходит для специалистов без знания программирования быть доступной для всех лиц, принимающих ре- шения, или людей, вовлеченных в процесс. Для анализа данных и постройки моделей ма- шинного обучения в бизнесе используются раз- личные инструменты и готовые пакетные реше- ния. Наиболее известные из них представлены в таблице 3, где даны краткие характеристики каж- дого инструмента или пакетного решения, кото- рое компания FMCG может внедрить и использо- вать в своих бизнес-процессах. SAP Analytics Cloud - это облачное реше- ние, объединяющее функции планирования, бизнес-аналитики и прогнозного анализа. Оно упрощает финансовое планирование и анализ и позволяет сотрудникам исследовать данные и со- вместно работать в общем контексте в реальном времени [19]. SAS Visual Analytics - это высокопроизводи- тельное решение in-memory для анализа больших объемов данных. Оно позволяет пользователям обнаруживать закономерности, определять на- правления дальнейшего анализа, передавать по- лученные визуальные результаты в виде отчетов для web- или мобильных устройств [20]. RapidMiner - платформа, которая работает по принципу клиент-серверной модели, причем сер- вер может быть размещен как в локальной, так и в облачной инфраструктуре. Основная особен- ность этой платформы - отсутствие необходимо- сти в написании рабочих кодов, что существенно повышает скорость обработки данных и умень- шает количество ошибок [21]. Alteryx разработал среду для перетаскивания и смешивания данных и расширенной аналитики, которая помогает аналитику получить необходи- мую информацию в течение нескольких часов, а не недель. Программа делает это с помощью широкого спектра инструментов, которые дают доступ, готовят, анализируют и выводят данные быстрее и проще. Каждая вкладка представля- ет собой образец определенных инструментов Designer Alteryx, которые поддерживают полный спектр возможностей в пределах Alteryx [22]. Платформа SPSS компании IBM предлагает передовые инструменты статистического анали- за, обширную библиотеку алгоритмов машинного обучения, анализа текста, расширения компонен- тов с открытым кодом, интеграции с большими данными и беспрепятственного внедрения в при- ложения. Благодаря простоте эксплуатации, гиб- кости и масштабируемости SPSS отлично подхо- дит пользователям с любым уровнем подготовки. Более того, SPSS подходит для реализации про- ектов любого объема и сложности, направленных на поиск новых возможностей, повышение эф- фективности и снижение рисков [23]. Платформа Azure ML от компании Microsoft представлена двумя компонентами: Azure ML Studio - средой разработки, доступной через бра- узер и предоставляющей визуальный интерфейс для создания моделей в стиле Drag&Drop, а так- же web-сервисами Azure ML для использования моделей в промышленном решении. Ядро Azure ML основано на самых современных реализа- циях алгоритмов машинного обучения, которые используются внутри Microsoft, а также предо- ставляет сотни пакетов для таких популярных языков, как R и Python [24]. Пример предиктивной аналитики данных FMCG для прогнозирования продаж Для дальнейшего примера мы будем использо- вать одно из описанных выше решений, а имен- но: Azure ML Studio. В качестве тестовых данных для построения и настройки предиктивной моде- ли будут использоваться количественные данные продаж клиента из России, осуществляющего реализацию продукции табачной компании X рынка FMCG. Особенность этого сегмента рынка FMCG обусловлена тем, что компания-произво- дитель не может осуществлять такую же марке- тинговую активность, как в случае других това- ров FMCG [25]. Тем не менее прогнозирование спроса данной продукции является приоритетной задачей для производителя. Также персональные данные о покупателях получить можно только через третьих лиц, что не всегда качественно от- ражается на прогнозах компании. Поэтому для работы модели можно использовать данные из открытых источников. Таблица 4. Тестовый набор данных продаж ключевого клиента Год Месяц Ключевая ставка Обменный курс руб./доллар Уровень инфляции Отгрузки в 10 млн штук 2013 1 8,25 30,2414 7,07 31,41172 2013 2 8,25 30,1245 7,28 31,90266 2013 3 8,25 30,7769 7,02 38,06697 2013 4 8,25 31,3169 7,23 39,83486 2013 5 8,25 31,3285 7,38 42,89173 2013 6 8,25 32,2822 6,88 40,53027 2013 7 8,25 32,64 6,45 41,44613 2013 8 8,25 33,0004 6,49 41,40899 2013 9 5,5 32,5091 6,13 39,06895 2013 10 5,5 32,125 6,25 38,64342 2013 11 5,5 32,6874 6,48 36,4045 2013 12 5,5 32,8658 6,45 39,88357 2014 1 5,5 33,6429 6,05 36,44582 2014 2 5,5 35,2366 6,2 32,81735 2014 3 7 36,2344 6,92 32,88184 2014 4 7 35,6656 7,33 32,77991 2014 5 7,5 34,7221 7,59 35,33578 2014 6 7,5 34,3936 7,8 35,11416 2014 7 8 34,4258 7,45 39,64588 2014 8 8 36,1098 7,56 40,76325 2014 9 8 37,9861 8,03 38,15826 2014 10 8 40,7457 8,3 38,0874 2014 11 9,5 46,3379 9,07 36,26518 2014 12 17 54,4367 11,36 40,37127 2015 1 17 65,2869 14,97 35,17325 2015 2 15 64,2972 16,71 34,64783 2015 3 14 60,6649 16,93 39,41995 2015 4 14 52,363 16,42 39,6544 2015 5 12,5 50,3419 15,78 42,6393 2015 6 11,5 54,3683 15,29 42,8885 2015 7 11,5 56,9774 15,64 43,4949 2015 8 11 65,0169 15,77 42,86166 2015 9 11 66,5954 15,68 40,44601 2015 10 11 62,7061 15,59 41,89715 2015 11 11 64,912 14,98 40,94255 2015 12 11 70,2244 12,91 45,25844 2016 1 11 76,5845 9,77 40,69214 2016 2 11 77,1326 8,06 41,27969 2016 3 11 70,2305 7,26 45,43016 2016 4 11 66,4756 7,24 45,7325 2016 5 11 65,9681 7,3 47,78067 2016 6 10,5 65,1339 7,48 47,06741 2016 7 10,5 64,1127 7,21 49,43757 2016 8 10,5 64,8139 6,84 48,39184 2016 9 10 64,7579 6,42 43,63153 Продолжение таблицы 4 2016 10 10 62,4583 6,09 43,96002 2016 11 10 64,1833 5,76 42,27497 2016 12 10 61,6368 5,38 47,19977 2017 1 10 59,6526 5,02 43,4317 2017 2 10 58,0967 4,59 42,72794 2017 3 9,75 58,2437 4,25 50,31987 2017 4 9,25 56,3131 4,13 52,01197 2017 5 9,25 56,756 4,09 56,61702 2017 6 9,25 57,4437 4,35 57,19999 2017 7 9 59,5787 3,86 60,60408 2017 8 9 59,799 3,29 60,97246 2017 9 9 57,7192 2,96 57,6521 2017 10 8,5 57,6869 2,73 57,11693 2017 11 8,25 59,0061 2,5 54,07691 2017 12 8,25 58,6932 2,52 58,42475 2018 1 7,75 56,5925 2,21 52,68072 2018 2 7,5 56,6278 2,2 48,74953 2018 3 7,5 57,0113 2,36 53,69429 2018 4 7,25 61,5539 2,41 54,69175 2018 5 7,25 62,3033 2,42 59,86509 2018 6 7,25 62,7565 2,3 59,1236 2018 7 7,25 62,9471 2,5 66,30797 2018 8 7,25 66,8932 3,07 61,99188 2018 9 7,5 68,0447 3,39 57,48137 2018 10 7,5 65,7492 3,55 58,53678 2018 11 7,5 66,0499 3,83 55,71769 2018 12 7,75 66,7848 4,27 58,44602 Используя последовательность действий, опи- санных выше, следует начать с определения биз- нес-целей. Бизнес-цель компании X - это улуч- шить точность прогнозирования продаж, чтобы точнее определять спрос на свою продукцию в условиях рыночной неопределенности. Далее необходимо определить, какие данные для создания предиктивной модели необходимо использовать. Были выбраны данные по коли- чественным продажам продукции компании Х за период 2013-2018 гг. Также можно предпо- ложить, что существует зависимость между макроэкономическими показателями и прода- жами табачной продукции ключевого клиента. Для данного примера были использованы такие данные, как ключевая ставка, курс рубля к долла- ру, инфляция (таблица 4). Этот набор данных был назван dataset и сохранен в формате csv. Так как никаких дополнительных преобразований с дан- ными происходить не будет, то далее мы перехо- дим к выбору и разработке предиктивной модели. В качестве основного программного инстру- мента по анализу данных и созданию моделей было выбрано готовое решение Microsoft Azure Machine Learning Studio [26], или, сокращенно, Azure ML Studio. Эта достаточно мощная плат- форма аналитики больших данных позволяет реализовать настройку, обучение и тестирование моделей машинного обучения без необходимости написания самого программного кода модели, а с помощью элементов графического интерфейса пользователя, как это представлено на рисунке 1. Так как прогнозирование продаж есть пробле- ма правильной классификации объекта в число- вом виде, то выбор оптимальной модели прово- дился среди регрессионных моделей машинного обучения. В данной работе рассматривались сле- дующие пять основных моделей. Байесовская линейная регрессия - это под- ход в линейной регрессии, в котором статистиче- ский анализ проводится в контексте байесовского вывода. Когда регрессионная модель характери- Рисунок 1. Часть интерфейса из платформы Azure ML Studio зуется ошибками, имеющими нормальное рас- пределение, и принимается определенная форма априорного распределения, доступны явные ре- зультаты для апостериорных распределений ве- роятностей параметров модели [27]. Задаваемые параметры модели в Azure ML Studio в этом слу- чае следующие: L1 regularization weight = 1; Allow unknown categorical levels = True. Нейросетевая регрессия - модель является контролируемым методом обучения, основан- ным на принципах построения искусственных нейронных сетей с несколькими слоями узлов обработки данных [28]. Задаваемые параметры модели здесь следующие: Hidden layer specification = «fully-connected case»; Number of hidden nodes = 300; • Learning rate = 0,01, 0,02, 0,04; Number of iterations = 20, 40, 80, 160, 320; The initial learning weights diameter = 0,1; The momentum = 0; The type of normalizer = «Min-Max norma- lizer». Модуль регрессии повышающегося дерева принятия решений - эта модель используется для создания ансамблей деревьев регрессии пу- тем повышения. Повышение означает, что каж- дое дерево зависит от предыдущих деревьев. Алгоритм обучается путем подгонки остатка предыдущего дерева. Таким образом, «бустинг» в наборе деревьев принятия решений обычно обеспечивает повышение точности с небольшим риском снижения покрытия [29]. Параметры мо- дели в этом случае следующие: Maximum number of leaves per tree = 40; Minimum number of samples per leaf node = 10; Learning rate = 0,1; Total number of trees constructed = 100; Random number seed = 1; Allow unknown categorical levels = True. Линейная регрессия - это общий статистиче- ский метод, который был реализован в машинном обучении и дополнен многими новыми методами для подгонки строки и измерения ошибок. Про- стыми словами, регрессия связана с прогнозиро- ванием числовых целевых значений [30]. Пара- метры модели в этом случае следующие: Solution method = «Online Gradient Descent»; • Learning rate = 0,025; 0,05; 0,1; 0,2; Number of training epochs = 1, 10, 100; L2 regularization weight = 0,001; 0,01; 0,1; Normalize features, Average final hypothesis, Decrease learning rate = True; Random number seed = 1; Allow unknown categorical levels = True. Деревья принятия решений - это непараме- трические модели, выполняющие последователь- ность простых тестов для каждого экземпляра данных при обходе древовидной структуры дво- ичных данных до достижения конечного узла Рисунок 2. Архитектура простроенных моделей в Azure ML Studio, ч.1 Рисунок 3. Архитектура простроенных моделей в Azure ML Studio, ч.2 (решения) [31]. Параметры модели в этом случае следующие: Resampling method = «Bagging»; Number of decision trees = 1, 8, 32; Maximum depth of the decision trees = 1, 16, 64; Number of random splits per node = 1, 128, 1024; Minimum number of samples per leaf node = = 1, 4, 16; Allow unknown categorical levels = True. Последовательность действий при работе с инструментарием платформы Azure следующая. Загрузить данные на платформу. Выбрать компонент Split data и выбрать те колонки таблицы набора данных, которые не представляют ценности для анализа (в нашем те- стовом примере была исключена колонка с дан- ными показателя года). Выбрать разделение набора данных на те- стовую и тренировочную выборку данных. В на- шей модели тренировочная выборка составляет 20 % от набора данных, и 80 % используются для тренировки модели. Оценка модели: показатели моделей можно оценить по среднеквадратическому отклонению. Все показатели пяти сравниваемых моде- лей собираются скриптом на языке R для обзора и выбора наиболее точной модели прогнозиро- вания. Таблица 5. Результаты разработанных и протестированных моделей прогнозирования продаж Средний модуль отклонения Средний квадрат отклонения Относитель- ная абсолют- ная погреш- ность Средний квадрат от- носительной абсолютной погрешности Коэффициент детерминации Байесовская линейная регрессия 4,40 5,29 0,59 0,41 0,59 Регрессия нейронной сети 3,28 3,76 0,44 0,21 0,79 Модуль регрессии повышающегося дерева принятия решений 2,24 2,61 0,30 0,10 0,90 Линейная регрессия 19,75 21,26 2,63 6,64 -5,64 Деревья принятия решений 2,10 2,47 0,28 0,09 0,91 Рисунок 4. Пример результата работы предиктивной модели Сохранение результатов моделирования, оценка полученных данных и финальный выбор модели. Результаты работы пяти регрессионных мо- делей на тестовом наборе данных сведены в таблице 5. Из таблицы 5 видно, что наиболее успешно прогнозирует модель на основе деревьев приня- тия решений. Имея наименьшую ошибку и мак- симальный коэффициент детерминации, данная модель может быть использована для реального прогнозирования будущих значений на основе выбранных признаков. Результаты моделирования, представленные на рисунке 4, показывают, что в некоторых мо- ментах модель довольно точно описывает и про- гнозирует спрос на продукцию, но случаются и сильные отклонения, большие чем средняя ошиб- ка. Это может быть связано с тем, что модель ока- залась сильно завязана на макроэкономические события, которые напрямую на клиента не по- влияли, но модель их тем не менее учитывала в процессе выработки предсказаний. Выводы Как было отмечено в начале работы, россий- ский рынок FMCG имеет свои характеристики и особенности, но и в этом случае с помощью учета макроэкономических факторов может быть выполнен последовательный процесс по разра- ботке, анализу и оценке предиктивной модели для предсказания ситуации на рынке, прежде всего в отношении продаж специфических про- дуктов. Нами было продемонстрировано, как предсказательная аналитика может работать на данных продаж табачной продукции как типич- ного примера пакетированных товаров FMCG. В результате была построена модель, способная прогнозировать количество продаваемой продук- ции табачной компании Х через ключевого кли- ента со средней ошибкой 2,1 %, что составляет величину, меньшую 4,3 % от среднего значения тестовой выборки. Коэффициент детерминации 0,91 также высок, что является хорошим резуль- татом. Также показатели других регрессионных моделей обнаруживают, что для более точной оценки и прогнозирования продаж у клиента необходимо рассматривать дополнительные ис- точники информации и данных. Этот результат может быть внедрен непосредственно в биз- нес-процесс планирования и прогнозирования продаж на будущие периоды. С помощью ин- струмента аналитики данных Azure ML Studio можно и дальше улучшать показатели выбран- ной предиктивной регрессионной модели за счет обогащения ее данными о клиенте. В ходе даль- нейших практических исследований планируют- ся внедрение данной модели в бизнес-процесс компании FMCG и оценка его эффективности на основе, в частности, анализа показателей загру- женности складских помещений и запасов про- дукта в абсолютных числах.
×

About the authors

K. I Pavlyuchenko

National Research University Higher School of Economics

Email: pavlyuchenkoki@gmail.com
Moscow, Russian Federation

P. B Panfilov

National Research University Higher School of Economics

Email: ppanfilov@hse.ru
Moscow, Russian Federation

G. S Gorshkov

Moscow University of Finance and Law MFUA

Email: gorshkov.e@mfua.ru
Moscow, Russian Federation

References

  1. В 2020 году рынок FMCG в России замедлил рост до 3 %. URL: http://www.finmarket.ru/news/5407578 (дата обращения: 01.11.2021)
  2. успешных кейсов внедрения технологий в ритейле. URL: https://rb.ru/longread/retail-new-tech/ (дата обращения: 01.11.2021)
  3. Вичугова А. Какая бывает аналитика: предиктивная, описательная и еще 2 вида аналитики больших данных. URL: https://www.bigdataschool.ru/blog/types-of-data- analytics.html (дата обращения: 01.11.2021)
  4. Explore the data. Access the data and rankings from all the countries and sectors. URL: https://www.kantar.com/campaigns/brand-footprint/explore-the-data (дата обращения: 01.11.2021)
  5. Фролов Д. Топ-50 FMCG-брендов в России. Исследование Nielsen. URL: https://www.sostav.ru/publication/top-50-fmcg-brendov-v-rossii-issledovanie-nielsen-41081.html (дата обращения: 01.11.2021)
  6. Алексей PostMonitor. Предиктивная аналитика в маркетинге: где применяется, какой эффект можно получить. URL: https://vc.ru/marketing/156155-prediktivnaya-analitika-v-marketinge-gde-primenyaetsya-kakoy-effekt-mozhno-poluchit (дата обращения: 01.11.2021)
  7. Predictive Analytics. 3 Things You Need to Know. URL: https://www.mathworks.com/discovery/predictive-analytics.html (дата обращения: 01.11.2021)
  8. Shiqian Yu. Economic Analysis of the FMCG Industry in China (Fast Moving Consumer Goods). URL: https://webthesis.biblio.polito.it/17759/1/tesi.pdf (дата обращения: 01.11.2021)
  9. Tania Akter. Impact of COVID-19 on Human Resource Management Practices of FMCG Industry in Bangladesh. URL: http://dspace.uiu.ac.bd/handle/52243/2029 (дата обращения: 01.11.2021)
  10. Kumar V., Garg M.L. Predictive analytics: A review of trends and techniques // International Journal of Computer Applications. 2018. Vol. 182, no. 1. P. 31-37. DOI: https://doi.org/10.5120/ijca2018917434
  11. Malik N., Singh K. Sales Prediction Model for Big Mart. URL: https://www.researchgate.net/publication/344099746_SALES_PREDICTION_MODEL_FOR_BIG_MART (дата обращения: 01.11.2021)
  12. An information system for sales team assignments utilizing predictive and prescriptive analytics /j.K.V. Bischhoffshausen [et al.] // 2015 IEEE 17th Conference on Business Informatics. 2015. Vol. 1. P. 68-76. DOI: https://doi.org/10.1109/CBI.2015.38
  13. Gilliland M., Tashman L., Sglavo U. Business forecasting: Practical problems and solutions // International Journal of Forecasting. 2017. DOI: https://doi.org/10.1016/j.ijforecast.2017.06.002
  14. Prescriptive analytics for allocating sales teams to opportunities / B. Kawas [et al.] // 2013 IEEE 13th International Conference on Data Mining Workshops. 2013. P. 211-218. DOI: https://doi.org/10.1109/ICDMW.2013.156
  15. Green D. Episode 16: McKinsey’s Approach to Data-Driven HR (Interview with Keith McNulty, Global Director of People Analytics and Measurement at McKinsey). URL: https://www.myhrfuture.com/digital-hr-leaders-podcast/2019/10/1/mckinseys-approach-to-data-driven-hr (дата обращения: 01.11.2021)
  16. Henrys K. Role of Predictive Analytics in Business. 2021. 13 p. URL: https://ssrn.com/abstract=3829621 (дата обращения: 01.11.2021)
  17. Shen G., Liu Q. Performance Analysis of Linear Regression Based on Python // Communications in Computer and Information Science. 2020. Vol 1227. DOI: https://doi.org/10.1007/978-981-15-6113-9_80
  18. Черезов Д.С., Тюкачев Н.А. Обзор основных методов классификации и кластеризации данных // Вестник ВГУ, Серия: Системный анализ и информационные технологии. 2009. № 2. С. 25-29
  19. SAP BusinessObjects Cloud. URL: https://www.id-mt.ru/produkty/sap/sap-businessobjects-cloud/ (дата обращения: 01.11.2021)
  20. SAS Visual Analytics // Tadviser. URL: https://www.tadviser.ru/index.php/%D0%9F%D1%80%D0%BE%D0%B4%D1%83%D0%BA%D1%82:SAS_Visual_Analytics (дата обращения: 01.11.2021)
  21. Платформа RAPIDMINER для анализа данных // Центр развития компетенций в области бизнес-информатики Высшей школы бизнеса НИУ ВШЭ. URL: https://hsbi.hse.ru/articles/platforma-rapidminer-dlya-analiza-dannykh/ (дата обращения: 01.11.2021)
  22. Инструменты Alteryx Designer. URL: https://biconsult.ru/products/instrumenty-alteryx-designer (дата обращения: 01.11.2021)
  23. Приложения IBM SPSS. URL: https://www.ibm.com/ru-ru/analytics/spss-statistics-software (дата обращения: 01.11.2021)
  24. Microsoft Azure // Tadviser. URL: https://www.tadviser.ru/index.php/%D0%9F%D1%80%D0%BE%D0%B4%D1%83%D0%BA%D1%82:Microsoft_Azure (дата обращения: 01.11.2021)
  25. С 28.01.2021 года вступят в силу изменения в Федеральный закон «О рекламе». URL: http://kurgan.fas.gov.ru/news/14080 (дата обращения: 01.11.2021)
  26. Создавайте, обучайте и развертывайте модели машинного обучения с бесплатной учетной записью Azure. URL: https://azure.microsoft.com/ru-ru/free/machine-learning/ (дата обращения: 01.11.2021)
  27. Minka T.P. Bayesian Linear Regression. URL: https://tminka.github.io/papers/minka-linear.pdf (дата обращения: 01.11.2021)
  28. Регрессия нейронной сети // Azure. Машинное обучение. URL: https://docs.microsoft.com/ru-ru/azure/machine-learning/algorithm-module-reference/neural-network-regression (дата обращения: 01.11.2021)
  29. Модуль регрессии повышающегося дерева принятия решений // Azure. Машинное обучение. URL: https://docs.microsoft.com/ru-ru/azure/machine-learning/algorithm-module-reference/boosted-decision-tree-regression (дата обращения: 01.11.2021)
  30. Модуль линейной регрессии // Azure. Машинное обучение. URL: https://docs.microsoft.com/ru-ru/azure/machine-learning/algorithm-module-reference/linear-regression (дата обращения: 01.11.2021)
  31. Модуль регрессии леса принятия решений // Azure. Машинное обучение. URL: https://docs.microsoft.com/ ru-ru/azure/machine-learning/algorithm-module-reference/decision-forest-regression (дата обращения: 01.11.2021)

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2021 Pavlyuchenko K.I., Panfilov P.B., Gorshkov G.S.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies