Use system-analytical method «decision trees» to the process of selecting the attributes «cart» for building system of short-term forecast

Abstract


The analytical method «A tree of decisions: CART» is considered and applied. Options of obtaining expected values of power consumption are considered. Errors of forecasting are analyzed.

Full Text

Прогнозирование режимных параметров и технико-экономических показателей является одной из важных задач как при планировании, так и при ведении текущих режимов энергообъединения. Составляя планы по различным показателям на предстоящие сутки, неделю, месяц, квартал, год, службы и отделы ЭО решают задачу планирования энергобаланса – соотношения между потребностью в электроэнергии (мощности) и средствами ее удовлетворения. Одним из важнейших показателей при планировании является уровень ожидаемого электропотребления в целом по объединению, группам и отдельным потребителям. В этом смысле величина прогноза электропотребления является опорным показателем для планирования балансов электроэнергии и мощности. Для построения прогноза поведения системы необходимо понимание ее функционирования и представление ее структуры. Для построения структуры воспользуемся системно-аналитическим методом «дерево решений» с алгоритмом выбора атрибута CART [1, 2, 3]. В алгоритме CART каждый узел дерева решений согласно методу дихотомии имеет два листа. На каждом шаге построения дерева правило, формируемое в узле, делит заданное множество примеров (обучающую выборку) на две части – часть, в которой правило выполняется и часть, в которой правило не выполняется [4]. Для выбора оптимального правила используется функция оценки качества разбиения , (1) где – вероятность появления класса в наборе данных . Входными данными являются временные ряды значений потребления электроэнергии и соответствующих им значений окружающей температуры. Для анализа использованы реально зарегистрированные временные ряды , содержащие по 8329 значений, снятых с интервалом 1 час. Ряды квантованы на суточные выборки , где На основе визуального анализа значений годичного интервала ряда потребления выдвигаются гипотезы о подобии суточных выборок. Критерием для проверки гипотез примем линейный коэффициент корреляции Пирсона. В случае подтверждения гипотезы наличия подобия прогнозные значения анализируемых факторов определяются путем экстраполяции выборки по предыдущим ее значениям или значениям аппроксимирующей выборки. Значениями аппроксимирующей выборки являются средние значения: , где . Экстраполируя данные, получим прогнозные значения факторов: , (2) где – текущие значения энергопотребления. Среднее значение ошибки экстраполирования аппроксимирующей выборки также будет являться входными данными для построения дерева решения. Рассмотрим различные варианты характера изменения значений температуры и энергопотребления на отдельных участках временных рядов (табл. 1). Таблица 1 Характер изменения значений температуры и энергопотребления на отдельных участках временных рядов № Температура Потребление Участок Ошибка, % 1 Снижение Увеличение 5 2 Увеличение Снижение 5 3 Снижение Увеличение 4 4 Увеличение Снижение 4 5 Снижение Увеличение 5 6 Увеличение Снижение 5 7 Снижение Снижение 5 8 Увеличение Увеличение 5 9 Отсутствие изменения Отсутствие изменения 0,5 С учетом выявленной в результате статистического анализа данных регрессионной зависимости значений энергопотребления от температуры окружающей среды можно ввести поправку в прогнозный уровень, относительно которого будет производиться экстраполяция выборки на сутки вперед: , (3) где – текущие значения температуры; – прогнозные значения температуры; – коэффициент линейной регрессии (в рассматриваемом примере ). С учетом поправки прогнозные значения будут рассчитываться по формуле . (4) В табл. 2 приведены результаты анализа ошибок прогнозирования с учетом введенных выше поправок, отнесенные к некоторым характерным интервалам. Таблица 2 Значения ошибки на выборках с определенным сдвигом № Сдвиг Ошибка, % Соответствие 1 5 Праздничный – выходной (воскресенье) 2 4 Суббота при 6-дневной рабочей неделе 3 3 Предпраздничный (пятница) 4 3 Послепраздничный (понедельник) 5 2 Вторник, среда, четверг при 5-дневной рабочей неделе Дальнейшее уточнение прогноза может быть обеспечено рациональным выбором участков опорной выборки исходных данных. В табл. 3 показано изменение ошибок прогнозирования энергопотребления в рабочие дни, обусловленных ошибками аппроксимации суточного графика при переходе от участка к и от к . Таблица 3 Изменение ошибки аппроксимации в зависимости от выбора участка исходной выборки № Сдвиг Ошибка, % Ошибка аппроксимации, % 1 2 3 4 В результате учета температурного сезона ошибка прогнозирования снижается до ~ 2 %. Построение дерева регрессии схоже с процедурой построения дерева классификации. Сначала строится дерево максимального размера, затем уменьшается размер дерева с помощью алгоритма «отсечения» (pruning) до приемлемого размера. Дерево решений дает возможность работать с многомерными задачами и задачами, в которых существует зависимость выходной переменной от переменных категориального типа. Главный принцип построения – разбиение всего пространства на участки, в которых выходная переменная считается постоянной. При этом следует учитывать, что существует сильная зависимость между объемом обучающей выборки и результирующей ошибкой ответа дерева. Процесс построения дерева происходит последовательно. На первом шаге мы получаем регрессионную оценку как константу по всему пространству примеров, которая учитывается как среднее значение выходной переменной в обучающей выборке. Р и с. 1. Фрагмент дерева решений Для построения дерева решений имеющиеся данные сведены в табл. 4, где указана степень влияния атрибутов на ошибку. Результатом получим дерево с максимальной глубиной в 9 узлов, состоящее из категориальных и регрессионных переменных (атрибутов). Первым выбирается атрибут с наибольшей степенью влияния, т. е. тот, который максимально сузит диапазон значений, – прогнозная температура (регрессия). Локализуя температурный сезон, выполняем разбиение ряда температуры сравнением со вторым атрибутом (категориальным) «Температура 1-4». Третьим атрибутом выбирается сезон недельного потребления, характер которого зависит от второго атрибута. Визуально фрагмент дерева решений представлен на рисунке. Таблица 4 Перечень атрибутов № Наблюдение Степень влияния, % Обозначение Вид атрибута 1 Температура 1. Зима 1 Категориальный 2 Температура 2. Осень, весна Категориальный 3 Температура 3. Лето Категориальный 4 Температура 4. Повышение ночной летней Категориальный 5 Потребление. Функция зависимости потребления от прогнозной температуры 2 Регрессионный 6 Потребление 1. Рабочие дни при 5-дневной неделе 1 Категориальный 7 Потребление 2. Рабочие дни при 6-дневной неделе Категориальный 8 Потребление 3. Праздничные и выходные дни Категориальный 9 Потребление 4. Предпраздничные дни Категориальный 10 Потребление 5. Послепраздничные дни Категориальный Решением будет служить среднее значение дневного потребления, по которому будет экстраполирован график, выбранный по второму и третьему атрибуту. Дерево позволяет сделать прогноз с точностью до 2 %, а также визуализирует основные зависимости.

About the authors

Ilidar M Sunagatov

Samara State Technical University

244, Molodogvardeyskaya st., Samara, 443100
Postgraduate Student

Vitaly I Batishchev

Samara State Technical University

244, Molodogvardeyskaya st., Samara, 443100
(Dr. Sci. (Techn.)), Professor

References

  1. Ананий В. Левитин. Алгоритмы: введение в разработку и анализ = Introduction to The Design and Analysis of Aigorithms. – М.: Вильямс, 2006. – С. 409-417.
  2. Breiman Leo, Friedman J.H., Olshen R.A. & Stone C.J. (1984). Classification and regression trees. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software.
  3. Hyafil, Laurent; Rivest, RL (1976). Constructing Optimal Binary Decision Trees is NP-complete. Information Processing Letters 5 (1): 15-17.
  4. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. – М.: Юнити, 1998.

Statistics

Views

Abstract - 29

PDF (Russian) - 22

Cited-By


Article Metrics

Metrics Loading ...

PlumX

Dimensions

Refbacks

  • There are currently no refbacks.

Copyright (c) 2013 Samara State Technical University

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies