Применение системно-аналитического метода «дерево решений» с методом выбора атрибута cart для построения системы краткосрочного прогнозирования



Цитировать

Полный текст

Аннотация

Рассмотрен и применен аналитический метод «Дерево решений: CART». Рассмотрены варианты получения прогнозных значений энергопотребления. Проанализированы ошибки прогнозирования.

Полный текст

Прогнозирование режимных параметров и технико-экономических показателей является одной из важных задач как при планировании, так и при ведении текущих режимов энергообъединения. Составляя планы по различным показателям на предстоящие сутки, неделю, месяц, квартал, год, службы и отделы ЭО решают задачу планирования энергобаланса – соотношения между потребностью в электроэнергии (мощности) и средствами ее удовлетворения. Одним из важнейших показателей при планировании является уровень ожидаемого электропотребления в целом по объединению, группам и отдельным потребителям. В этом смысле величина прогноза электропотребления является опорным показателем для планирования балансов электроэнергии и мощности. Для построения прогноза поведения системы необходимо понимание ее функционирования и представление ее структуры. Для построения структуры воспользуемся системно-аналитическим методом «дерево решений» с алгоритмом выбора атрибута CART [1, 2, 3]. В алгоритме CART каждый узел дерева решений согласно методу дихотомии имеет два листа. На каждом шаге построения дерева правило, формируемое в узле, делит заданное множество примеров (обучающую выборку) на две части – часть, в которой правило выполняется и часть, в которой правило не выполняется [4]. Для выбора оптимального правила используется функция оценки качества разбиения , (1) где – вероятность появления класса в наборе данных . Входными данными являются временные ряды значений потребления электроэнергии и соответствующих им значений окружающей температуры. Для анализа использованы реально зарегистрированные временные ряды , содержащие по 8329 значений, снятых с интервалом 1 час. Ряды квантованы на суточные выборки , где На основе визуального анализа значений годичного интервала ряда потребления выдвигаются гипотезы о подобии суточных выборок. Критерием для проверки гипотез примем линейный коэффициент корреляции Пирсона. В случае подтверждения гипотезы наличия подобия прогнозные значения анализируемых факторов определяются путем экстраполяции выборки по предыдущим ее значениям или значениям аппроксимирующей выборки. Значениями аппроксимирующей выборки являются средние значения: , где . Экстраполируя данные, получим прогнозные значения факторов: , (2) где – текущие значения энергопотребления. Среднее значение ошибки экстраполирования аппроксимирующей выборки также будет являться входными данными для построения дерева решения. Рассмотрим различные варианты характера изменения значений температуры и энергопотребления на отдельных участках временных рядов (табл. 1). Таблица 1 Характер изменения значений температуры и энергопотребления на отдельных участках временных рядов № Температура Потребление Участок Ошибка, % 1 Снижение Увеличение 5 2 Увеличение Снижение 5 3 Снижение Увеличение 4 4 Увеличение Снижение 4 5 Снижение Увеличение 5 6 Увеличение Снижение 5 7 Снижение Снижение 5 8 Увеличение Увеличение 5 9 Отсутствие изменения Отсутствие изменения 0,5 С учетом выявленной в результате статистического анализа данных регрессионной зависимости значений энергопотребления от температуры окружающей среды можно ввести поправку в прогнозный уровень, относительно которого будет производиться экстраполяция выборки на сутки вперед: , (3) где – текущие значения температуры; – прогнозные значения температуры; – коэффициент линейной регрессии (в рассматриваемом примере ). С учетом поправки прогнозные значения будут рассчитываться по формуле . (4) В табл. 2 приведены результаты анализа ошибок прогнозирования с учетом введенных выше поправок, отнесенные к некоторым характерным интервалам. Таблица 2 Значения ошибки на выборках с определенным сдвигом № Сдвиг Ошибка, % Соответствие 1 5 Праздничный – выходной (воскресенье) 2 4 Суббота при 6-дневной рабочей неделе 3 3 Предпраздничный (пятница) 4 3 Послепраздничный (понедельник) 5 2 Вторник, среда, четверг при 5-дневной рабочей неделе Дальнейшее уточнение прогноза может быть обеспечено рациональным выбором участков опорной выборки исходных данных. В табл. 3 показано изменение ошибок прогнозирования энергопотребления в рабочие дни, обусловленных ошибками аппроксимации суточного графика при переходе от участка к и от к . Таблица 3 Изменение ошибки аппроксимации в зависимости от выбора участка исходной выборки № Сдвиг Ошибка, % Ошибка аппроксимации, % 1 2 3 4 В результате учета температурного сезона ошибка прогнозирования снижается до ~ 2 %. Построение дерева регрессии схоже с процедурой построения дерева классификации. Сначала строится дерево максимального размера, затем уменьшается размер дерева с помощью алгоритма «отсечения» (pruning) до приемлемого размера. Дерево решений дает возможность работать с многомерными задачами и задачами, в которых существует зависимость выходной переменной от переменных категориального типа. Главный принцип построения – разбиение всего пространства на участки, в которых выходная переменная считается постоянной. При этом следует учитывать, что существует сильная зависимость между объемом обучающей выборки и результирующей ошибкой ответа дерева. Процесс построения дерева происходит последовательно. На первом шаге мы получаем регрессионную оценку как константу по всему пространству примеров, которая учитывается как среднее значение выходной переменной в обучающей выборке. Р и с. 1. Фрагмент дерева решений Для построения дерева решений имеющиеся данные сведены в табл. 4, где указана степень влияния атрибутов на ошибку. Результатом получим дерево с максимальной глубиной в 9 узлов, состоящее из категориальных и регрессионных переменных (атрибутов). Первым выбирается атрибут с наибольшей степенью влияния, т. е. тот, который максимально сузит диапазон значений, – прогнозная температура (регрессия). Локализуя температурный сезон, выполняем разбиение ряда температуры сравнением со вторым атрибутом (категориальным) «Температура 1-4». Третьим атрибутом выбирается сезон недельного потребления, характер которого зависит от второго атрибута. Визуально фрагмент дерева решений представлен на рисунке. Таблица 4 Перечень атрибутов № Наблюдение Степень влияния, % Обозначение Вид атрибута 1 Температура 1. Зима 1 Категориальный 2 Температура 2. Осень, весна Категориальный 3 Температура 3. Лето Категориальный 4 Температура 4. Повышение ночной летней Категориальный 5 Потребление. Функция зависимости потребления от прогнозной температуры 2 Регрессионный 6 Потребление 1. Рабочие дни при 5-дневной неделе 1 Категориальный 7 Потребление 2. Рабочие дни при 6-дневной неделе Категориальный 8 Потребление 3. Праздничные и выходные дни Категориальный 9 Потребление 4. Предпраздничные дни Категориальный 10 Потребление 5. Послепраздничные дни Категориальный Решением будет служить среднее значение дневного потребления, по которому будет экстраполирован график, выбранный по второму и третьему атрибуту. Дерево позволяет сделать прогноз с точностью до 2 %, а также визуализирует основные зависимости.
×

Об авторах

Ильдар Маратович Сунагатов

Самарский государственный технический университет

аспирант 443100, г. Самара, ул. Молодогвардейская, 244

Виталий Иванович Батищев

Самарский государственный технический университет

(д.т.н., проф.), заведующий кафедрой «Информационные технологии» 443100, г. Самара, ул. Молодогвардейская, 244

Список литературы

  1. Ананий В. Левитин. Алгоритмы: введение в разработку и анализ = Introduction to The Design and Analysis of Aigorithms. – М.: Вильямс, 2006. – С. 409-417.
  2. Breiman Leo, Friedman J.H., Olshen R.A. & Stone C.J. (1984). Classification and regression trees. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software.
  3. Hyafil, Laurent; Rivest, RL (1976). Constructing Optimal Binary Decision Trees is NP-complete. Information Processing Letters 5 (1): 15-17.
  4. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. – М.: Юнити, 1998.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Самарский государственный технический университет, 2013

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах