INPUT DATA CLEANING IN AUTOMATIC SYSTEMS FOR COMMERCIAL MEASUREMENT OF POWER CONSUMPTION

Aleksander Sergeevich Fedosin; Федосин Александр Сергеевич; Sergey Alekseevich Fedosin; Федосин Сергей Алексеевич

doi:10.18469/ikt.2016.14.2.08

INPUT DATA CLEANING IN AUTOMATIC SYSTEMS FOR COMMERCIAL MEASUREMENT OF POWER CONSUMPTION

Authors: Fedosin A.S.¹, Fedosin S.A.¹
Affiliations:
1. National Research Mordovia State University
Issue: Vol 14, No 2 (2016)
Pages: 162-168
Section: Articles
URL: https://journals.eco-vector.com/2073-3909/article/view/56079
DOI: https://doi.org/10.18469/ikt.2016.14.2.08
ID: 56079

Cite item

Full Text

Abstract
Full Text
About the authors
References
Supplementary files
Statistics

Abstract

Quality of service is the main issue for modern large information systems. Their parameters mostly depend on data sources. Power usage meter reading might be used for billing and data mining analysis, and errors in these time series are undesired. Therefore, effective data cleaning should be performed before necessary data processing. Data quality problems in automatic systems for commercial measurement of power consumption can occur due to various reasons. This work describes classification of those problems, and we propose two-step procedure for cleaning of time series containing errors in automatic systems for commercial measurement of power consumption. The first step applies hierarchical clustering based on Euclidian distance that provides detection the most “unusual” profiles. The second step uses statistical data processing to determine time series outliers. We assume expert makes the final decision. This work is concerned with comparison of two methods for error data detection: SD-method and “Supersmopther” algorithm. We produced comparison for 100 power usage profiles that preliminarily were analyzed by expert.

Keywords

data cleaning, automatic system for commercial measurement of power consumption, data store, Supersmoother, hierarchical clustering, power usage profile, Euclidian distance

Full Text

Введение Данные, получаемые из реальных источников никогда не бывают идеальными. Степень искажений первоначальной картины зависит от числа факторов, воздействующих как на объект измерений, так и на средства измерения (включая факторы, влияющие на этапе передачи сведений по каналам связи). Специалистам, работающим с современными SCADA-системами также знакомы проблемы качества данных. Несмотря на всю мощь и эффективность подобных технологий, сведения, получаемые с их помощью, как правило, нуждаются в предварительной обработке. Получившие широкое распространение на территории нашей страны автоматизированные системы коммерческого учета энергопотребления (АСКУЭ) по западной классификации относятся именно к SCADA-системам [5]. Искаженные данные об объемах потребления энергоресурсов могут стать проблемой при проведении операций, связанных как с техническим, так и с коммерческим учетом, и чем масштабнее система учета, тем более серьезны последствия могут нести проблемы качества данных. Постановка задачи Очевидны потенциальные опасности, которые могут возникнуть при использовании данных, содержащих ошибки, для выставления счетов. Тема энергетики в ЖКХ является очень проблемной в нашей стране, и лишние споры относительно представленных к оплате сумм не представляют интереса ни для поставщиков, ни для потребителей [2]. В ряде городов РФ в качестве меры совершенствования управления процессами потребления электроэнергии системы коммерческого учета были установлены в многоквартирных жилых домах. Преимущества АСКУЭ в данном контексте неоспоримы: установка подобных систем выгодна поставщикам энергоресурсов, управляющим компаниям и жильцам. В то же время недостаточное внимание уделяется потенциальным проблемам, связанным с эксплуатацией АСКУЭ. Как и в любой сложной технической системе, для автоматизированных систем учета энергоресурсов характерно множество факторов, имеющих возможность негативным образом повлиять на работу как отдельных частей, так всего механизма в целом. Ошибки прежде всего различны по локализации. В этой связи можно выделить следующие уровни: - уровень прибора учета (ПУ); - уровень устройства сбора и передачи данных (УСПД); - уровень хранилища данных. Возникающие ошибки можно также разделить на одиночные и продолжительные, исходя из времени воздействия негативных факторов на систему (см. рис. 1). Основываясь на опыте эксплуатации, следует отметить, что большое число ошибок возникает на этапе интеграции АСКУЭ с различными системами (в первую очередь биллинговыми) [3]. Нередки случаи, когда с целью профилактического обслуживания приборов учета производится процедура снятия с последующей некорректной установкой. Имеют место ошибки, связанные с неправильной установкой коэффициентов трансформации в программном обеспечении верхнего уровня (сами счетчики фиксируют показания без учета этого коэффициента). Следует отметить, что ошибочность или корректность любых значений не может быть на 100% определена автоматически: в любом случае итоговое решение должен принимать эксперт (оператор или аналитик). Завышенные или заниженные значения могут стать результатом воздействия конкретных обстоятельств [8]. К примеру, в средней полосе резкий всплеск потребления электроэнергии может наблюдаться при наступлении холодов до начала отопительного сезона: жильцы многоквартирных домов начинают использовать электрообогреватели. Рис. 1. Ошибочные данные в профилях потребления электроэнергии (одиночная ошибка и ряд ошибочных значений) На первом этапе подготовки данных для дальнейшей обработки целесообразным может быть выполнение процедуры кластеризации исходных временных рядов [9]. В контексте решаемой задачи этот этап может оказаться полезным по двум причинам. 1. Позволяет заранее определить абсолютно «безнадежные» ПУ, фиксирующие либо передающие очевидно некорректные значения (подобную ситуацию иллюстрирует рис. 2). 2. Позволяет эксперту при дальнейшей работе оценить масштаб тех или иных явлений, наблюдаемых в отдельных профилях. Следующим этапом очистки данных должно стать непосредственно выявление потенциально ошибочных значений. Методы очистки В качестве меры идентичности временных рядов при решении задачи кластеризации может быть предложено евклидово расстояние [6]. Для двух временных рядов Q и C длиной n евклидово расстояние определяется как . На основе значений, определенных для всех пар профилей строится матрица расстояний , где - евклидово расстояние между i-ым и j-ым временными рядами. Данная матрица может быть использована для применения процедуры иерархической кластеризации методом полной связи. а б Рис. 2. а) Значения, зафиксированные неисправным прибором учета; б) Профили потребления, которые могут быть объединены в один кластер Исходно каждый элемент выборки объявляется отдельным кластером. После чего кластеры последовательно объединяются, пока все элементы не попадут в один кластер. На каждом шаге алгоритма объединяются два кластера, расстояние между которыми минимально: , где - расстояние между - различные кластеры. Рис. 3. Фрагмент дендограммы для некоторого подмножества приборов учета (полная картина не может быть приведена по причине масштабности - для анализа были использованы профили, зафиксированные более чем 8000 ПУ) На первом этапе ПУ разделены на кластеры по принципу схожести профилей. Это позволяет значительно упростить работу аналитика: сразу же выявить неисправные приборы (их профили будут значительно отличаться от остальных и попадут в отдельную ветвь дендрограммы, берущую начало непосредственно из корня). На втором этапе в качестве одного из способов определения ошибочных (а точнее сказать, подозрительных) данных во временных рядах на практике может быть использован алгоритм «Supersmoother», разработанный Д. Фридманом. Данный алгоритм по сути производит процедуру «сглаживания», основываясь на следующей гипотезе [7]: , (1) где - некоторая функция от X; - случайные ошибки, для которых математическое ожидание равно нулю. Целью является нахождение способа аппроксимировать условное математическое ожидание так, чтобы минимизировать при этом математическое ожидание квадрата невязки . Один из способов решить поставленную задачу - применить линейную регрессию , (2) где N определяет область вблизи - отрезок, на котором построена данная регрессия. Этот параметр (ширина окна) определяет баланс вариации и смещения, он коренным образом влияет на точность восстанавливаемой зависимости. Следует отметить, что ширина окна может как варьироваться, так и оставаться постоянной для всего массива данных. Для заданной ширины окна J локальную линейную регрессию на рассматриваемом участке можно представить как , (3) где коэффициенты получены для точек на интервале , причем . Оптимальная ширина окна, минимизирующая математическое ожидание квадрата невязки: может быть определена при помощи контроля по отдельным объектам (leave-one-out cross validation) для значения Минимизация в свою очередь позволяет определить оптимальную ширину окна: Квадрат суммы невязок для контроля по отдельным блокам может быть вычислен следующим образом: , где , . Для построения оценочной функции с варьируемой шириной окна Фридман предложил минимизировать оценку относительно . Для этого мы прежде всего строим регрессию (3) на отрезке J (рекомендованные величины для J - 0,05n; 0,2n; 0,5n). Далее мы вычисляем кросс-валидированные невязки для каждого из выбранных J: и сглаживаем относительно с шириной окна J=0.2n для того, чтобы оценить значение , используемое впоследствии для определения оптимальной ширины окна в каждой из точек: Найденные оптимальные значения для ширины окна впоследствии сглаживаются еще раз (при этом значение J выбирается равным 0,2n) относительно , и выбираются два наиболее близких значения из начального множества, такие, что . Следующий, предпоследний шаг предполагает линейную интерполяцию относительно для двух вышеупомянутых значений. Наконец, результат еще раз подвергается операции сглаживание. Значение ширины окна J при этом задается равным 0,05. Хорошо известен относительно простой способ выявления «подозрительных» значений в данных - метод стандартных отклонений (SD-method). Его можно кратко представить в следующем виде: 2-SD метод: ; 3-SD метод: , где - стандартное отклонение. Все точки, лежащие за границами упомянутых интервалов, считаются «выбросами». Согласно неравенству Чебышева, для случайной величины X со средним и дисперсией для любого имеет место . Значение позволяет определить часть данных, находящуюся «на расстоянии» стандартных отклонений от среднего [1]. Данный способ также может быть использован при выявлении потенциально ошибочных данных. С целью исследования и сравнения возможностей описанных методов выявления «подозрительных» данных был проведен вычислительный эксперимент, исходные данные для которого собраны при помощи АСКУЭ, функционирующей в ряде многоквартирных жилых домов г. Саранск [4]. Из начального массива данных, представляющего собой наборы суточных значений для 8000 приборов учета, зафиксированных на временном интервале с 25.12.2013 по 21.04.2015 выбраны 100 тестовых профилей. Предварительно была произведена их иерархическая кластеризация, позволившая отбросить неисправные ПУ, данные от которых не подлежат очистке. Выборка 100 случайных профилей произведена из различных кластеров с целью сделать эксперимент максимально объективным. Временные ряды, составляющие выборку, предварительно были проанализированы и размечены экспертом на предмет наличия «подозрительных» значений. Для сравнения описанных подходов были выбраны два показателя: процент выявленных ошибок и отношение числа «ложных» ошибок к числу действительных (также выраженное в процентном соотношении). Следует отметить, что для эксперта, работу которого призван автоматизировать тот или иной подход, более важны правильно определенные действительные ошибки, нежели меньшее количество «ложных срабатываний». Рис. 4. Гистограмма, демонстрирующая результативность метода стандартных отклонений Рис. 5. Гистограмма, демонстрирующая результативность метода стандартных отклонений (число ложных срабатываний) Это объясняется относительно высокой ценой ошибки и простотой проверки отдельного профиля опытным аналитиком. В то же время другая крайность - большое число ложных срабатываний - тоже является нежелательной. При таких обстоятельствах попросту теряется целесообразность применения статистических методов в работе. Результаты экспериментов проиллюстрированы рис. 4, 5, 6 и 7. Из гистограмм рис. 4 и рис. 6 видно, что процент выявленных ошибок при использовании метода стандартных отклонений оказался выше, чем для алгоритма Supersmoother. Как было сказано выше, этот критерий сравнения на практике имеет большее значение. Рис. 6. Гистограмма, демонстрирующая результативность алгоритма Supersmoother Рис. 7. Гистограмма, демонстрирующая результативность алгоритма Supersmoother (число ложных срабатываний) В то же время, как можно заметить по гистограммам рис. 5 и рис. 7, для алгоритма Supersmoother при работе было характерно меньшее число «ложных» срабатываний. Заключение Подводя итог, следует отметить, что несмотря на результаты проведенного эксперимента, алгоритм, показавший лучшие результаты, нельзя однозначно признать безальтернативным решением. Причина этого в том, что профили потребления электрической энергии в МКД определяются совокупностью факторов: таких как температура воздуха (при резких похолоданиях потребление электроэнергии возрастает), длина светового дня и т.д. Более сложные, многофакторные статистические модели, возможно, могли бы показать более высокие результаты [10]. В то же время описанный в данной работе подход может значительно упростить труд аналитика - как связанный с коммерческим или техническим учетом, так и преследующий более сложные цели, имеющие отношение к области Data Mining.

About the authors

Aleksander Sergeevich Fedosin

National Research Mordovia State University

Email: nsdfxela@gmail.com

Sergey Alekseevich Fedosin

National Research Mordovia State University

Email: fedosinsa@mrsu.ru

References

Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1982. - 465 с.
Коренюк Т.С. Вопросы достоверности телеизмерений мощности в задачах ведения режима электроэнергетической системы // Современные проблемы науки и образования. №1, 2005. - С. 78-80.
Саркисов С. А. Анализ основных особенностей сбора периодических типов данных в современных АСКУЭ // Наука, техника и образование. № 11(17), 2015. - С. С. 46-49.
Федосин А.С., Савкина А.В. Проблемы качества данных в автоматизированных системах коммерческого учета потребления энергоресурсов // Прикаспийский журнал: управление и высокие технологии. №2, 2014. - С. 158-164.
Jiyi Chen, Wenyuan Li, Adriel Lau, Jiguo Cao, Ke Wang. Automated Load Curve Data Cleaning in Power Systems // IEEE Transactions on Smart Grid. Vol. 1, № 2, September, 2010. - P. 213-221. doi: 10.1109/TSG.2010.2053052
Loureiro A., Torgo. L., Soares C. Outlier Detection Using Clustering Methods: a data cleaning application. URL: http://www. dcc.fc.up.pt/~ltorgo/Papers/ODCM.pdf (д.о. 15.09.2015).
Luedicke J. Friedman’s Super Smoother URL: http://fmwww.bc.edu/repec/bocode/s/supsmooth_doc.pdf (д.о. 13.05.2016).
Rahm E., Do H.H. Data Cleaning: Problems and Current Approaches. URL: http://wwwiti.cs.uni-magdeburg.de/iti_db/ lehre /dw/paper/data_cleaning. pdf (д.о.15.07.2015).
Seo S. A Review and Comparison of Methods for Detecting Outliers in Univariate Data Sets. URL: http://d-scholarship.pitt.edu/7948/1 /Seo.pdf (д.о. 13.05.2016).
Zhang Xiaoxing, Sun Caixin. Dynamic intelligent cleaning model of dirty electric load data // Energy Conversion and Management. Vol. 49, № 4, April, 2008. - P. 564-569. doi: 10.1016/j.enconman.2007.08.007

Supplementary files

Supplementary Files

Action

1. JATS XML

Download

Username
Password
Remember me

Forgot password?	Register

Username
Password
Remember me

Forgot password?	Register