Obtaining of non-linear regression equations with parabolic optimization



Cite item

Full Text

Abstract

The paper proposed a new approximate method of obtaining of non-linear regression equation - parabolic optimization. There is an example of its application to obtain a nonlinear equation that can not be obtained by known methods. As a statistical criterion for evaluation of the quality of the re- sulting equation standard deviation is used.

Full Text

Получение нелинейных уравнений регрессии с помощью параболической оптимизации к.э.н. Ивашнев Л.И. Университет машиностроения 8(985) 284-26-98 Аннотация. В статье предложен новый приближенный метод получения нели- нейных уравнений регрессии - параболическая оптимизация. Дан пример его применения для получения нелинейного уравнения, которое известными метода- ми получить невозможно. В качестве статистического критерия оценки качества полученного уравнения используется среднеквадратичное отклонение. Ключевые слова: метод получения, нелинейное уравнение регрессии, парабо- лическая оптимизация, статистический критерий, оценка качества уравнения регрессии, среднеквадратичное отклонение. Нелинеаризуемые уравнения регрессии Если задана некоторая выборка: y1 x11 x21 … xm1, y2 x121 x22 …xm21, ………………….. yn x1n x2n … xmn и требуется получить приближенную зависимость между показателем Y и факторами X1, X2, … Xm Y = f(X1, X2, … Xm), или F(X1, X2, … Xm) = 1, то для получения такой зависимости можно воспользоваться методом наименьших квадратов [1, 2], или методом получения вырожденных уравнений регрессии [4], или методом получе- ния взвешенных уравнений регрессии [5], или методом получения уравнений регрессии об- щего вида [6], или «методом трех точек» [3]. Однако, ни одним из этих методов нельзя получить сравнительно простое уравнение регрессии вида: Y  a0 1  a X a2 . (1) Более того, можно указать бесчисленное множество вариантов нелинейных уравнений регрессии, которые получить указанными методами нельзя. Действительно, для линеаризации уравнения (1) из обеих его частей можно извлечь ко- рень степени 1/a2. Тогда это уравнение примет вид: 0 Y 1/ a2  a a1 X . (2) Если теперь выполнить замену V  Y 1/ a2 , то уравнение (2) примет вид: V  a0  a1 X . (3) Отмечаем, что уравнение (3) является линейным уравнением, однако дополнительный показатель V  Y 1/ a2 не является простым слагаемым, поскольку значения элементов столбца V расширенной выборки зависят от неизвестного коэффициента а2. Следовательно, приме- нить только метод наименьших квадратов для расчета коэффициентов уравнения (1) нельзя. В [4] отмечено, что некоторые разновидности нелинейных уравнений регрессии не мо- гут быть линеаризованы и для получения таких уравнений необходимо использование опти- мизации. Применение оптимизации для получения нелинейных уравнений регрессии доста- точно подробно изложено в [4], причем предлагается использовать «метод покоординатного спуска» и «метод луча». Оптимизация, т.е. поиск точки минимума или максимума, может выполняться с помо- щью «метода случайного поиска», «метода покоординатного спуска» или «метода луча» по схеме «с оракулом», которые подробно изложены в [4]. Однако эти методы характеризуются слишком большим временем использования ЭВМ, причем дают приближенное решение. Значительно более эффективным является метод параболической оптимизации, для ре- ализации которого может быть использована система EXCEL и который будет представлен в последующем изложении. Уравнение параболы, проведенной через 3 точки Через 3 точки можно провести параболу, уравнение которой определяется следующими зависимостями:  y  a x 2  a x a , 1 1 1 2 1 3  y  a x 2  a x a , (4)  2 1 2 2 2 3  y  a x 2  a x a ,  3 1 3 2 3 3 где: (x1 ; y1 ), (x2 ; y2 ), (x3 ; y3 ) - координаты точек параболы. Если из 2-го уравнения вычесть 1-е, а из 3-го - второе, то получим систему уравнений:  y  y  a (x 2  x 2 )  a (x x ), 2 1 1 2 1 2 2 1  y  y  a (x 2  x 2 )  a (x x ). (5)  3 2 1 3 2 2 3 2 Далее обе части каждого уравнения разделим на коэффициент при а2. Получим систему выражений:  y  y x 2  x 2 2 1  a 2 1  a , x   x 2 1 2 1 1 x x 2  y  y x 2  x 2  3 2  a 3 2  a , 1 2  x 3 x2 x 3 x2 откуда, пользуясь формулой x 2 2 2  x1  (x2  x1 )(x2  x1 ) , получаем систему:  y2  y1  a (x 2 1  x x  x )  a , 1 2 1 2    (6)  y3 y2  a (x  x )  a .  x 3 x2 1 3 2 2 Вычитая из 2-го уравнения 1-е получаем уравнение: y3  y2  y2  y1  a (x x ) , откуда: x 3 x2 x 2 x1 1 3 1 y3  y2  y2  y1 a1  x 3 x2 x 2 x1 . (7) x 3 x1 Из первого уравнения системы (6) получаем: y2  y1 а из 1-го уравнения системы (4): a2  x2 x1  a1 (x2  x1 ) , 2 a3  y1  a1 x1 2  a2 x1 . Итак, уравнение параболы имеет следующие коэффициенты: y  a1 x a2 x  a3 , проходящей через три заданные точки,   y3  y2 y2  y1   a1  x 3 x2 x 2 x1 ,  x 3 x1   a  y2 y1  a (x  x ), (8) 2 1   2 x x 1 2 1  a  y a x 2  a x .  3 1 1 1 2 1   Отмечаем, что если a1 < 0 (рисунок 1а), то ветви параболы направлены вниз, если же a1 > 0 (рисунок 1б), то ветви параболы направлены вверх. а) б) а1 < 0 a1 > 0 Рисунок 1. Вид параболы в зависимости от знака старшего члена Поэтому, если a1 > 0, то точкой минимума параболы является ее вершина, координата x которой вычисляется по формуле: x   a2 2a1 . (9) Если же а1 < 0, то точкой минимума является один из концов ветвей параболы (на ри- сунке 1а это конец правой ветви). Алгоритм получения уравнений регрессии с помощью параболической оптимизации Для получения нелинейного уравнения регрессии y  f  x1, x2 , , xk  или F  x1, x2 , , xk   1 любым из рассмотренных методов определяется точка минимума для суммы квадратов отклонений n 2 Q   y  f  x1, x2 , , xk  i1 или n 2 Q  F  x1, x2 , , xk  1 i1 точек выбранного уравнения регрессии от точек исходной выборки. При этом может исполь- зоваться либо метод наименьших квадратов с заменой факторов, либо метод оптимизации, либо совместное использование обоих этих методов для получения оптимального результата. Если уравнение регрессии получено, например, методом наименьших квадратов и ему соответствует минимальная сумма квадратов отклонений, то это уравнение может считаться наилучшим решением по заданной выборке и его дальнейшего уточнения не требуется. Если выполняется пошаговый процесс оптимизации совместно с заменой факторов и методом наименьших квадратов, то процесс поиска уравнения регрессии ориентировочно может представляться следующим алгоритмом: выбрать вид искомого уравнения регрессии; линеаризовать это уравнение; вычислить значения дополнительных факторов и подставить их в исходную выборку, т.е. сформировать расширенную выборку; определить слагаемые, не являющиеся простыми слагаемыми, т.е. содержащие оптимизируемые факторы; выбрать исходные (опорные) значения для оптимизируемых факторов и задать шаг пере- мещения для каждого из них. Выбрать текущий фактор, т.е. фактор с которого будет начата оптимизация; вычислить коэффициенты уравнения регрессии по текущим значениям дополнительных и оптимизируемых факторов и вычислить соответствующее значение СКО; задать приращение оптимизируемого фактора и рассчитать координаты точек, лежащих по обе стороны от текущей точки. Для этих точек вычислить значения СКО; получить координату точки минимума, т. е. точки, которой соответствует минимальное значение СКО. Зафиксировать точку минимума в качестве текущей точки; вычислить коэффициенты уравнения регрессии по приращенным значениям дополни- тельных и оптимизируемых факторов и вычислить соответствующее значение СКО; если перебор оптимизируемых факторов закончен, то проверить было ли улучшение СКО на цикле перебора. Если улучшения не было, то перейти к п. 13; если СКО не уменьшилось, то поменять знак приращения и перейти к п. 6; выбрать следующий оптимизируемый фактор и перейти к п. 7; вычислить коэффициенты уравнения регрессии по приращенным значениям дополни- тельных и оптимизируемых факторов и вычислить соответствующее значение СКО; печать наилучшего уравнения регрессии. Выполняя предложенный алгоритм можно получить уравнение регрессии даже в том случае, если его линеаризация окажется невозможной, т.е. если при линеаризации получена сумма слагаемых, причем некоторые из них содержат неизвестные коэффициенты, т.е. не яв- ляются простыми слагаемыми. Процесс получения уравнения регрессии с помощью параболической оптимизации Теперь можно выполнить в EXCEL процесс получения уравнения регрессии с помо- щью параболической оптимизации по данным следующей выборки: Выборка для параболической оптимизации Таблица 1 x Y x Y x Y 0,1 0,3125 1,3 7,595 2,5 27,565 0,2 0,7021 1,4 7,959 2,6 27,573 0,3 0,9654 1,5 10,375 2,7 39,438 0,4 1,062 1,6 12,376 2,8 37,863 0,5 1,7241 1,7 10,794 2,9 35,599 0,6 2,4014 1,8 12,772 3,0 48,534 0,7 2,3865 1,9 19,197 3,1 43,46 0,8 3,4591 2,0 17,707 3,2 52,656 0,9 3,7008 2,1 16,666 3,3 59,051 1,0 4,4696 2,2 17,991 3,4 58,165 1,1 5,975 2,3 24,05 3,5 51,191 1,2 5,4618 2,4 27,58 3,6 58,333 Эта выборка сгенерирована в системе EXCEL и предназначена для демонстрации про- цесса расчета коэффициентов уравнения регрессии, которое невозможно получить любым из известных к настоящему времени методов. Значения всех параметров перед началом процес- са оптимизации показаны на рисунке 2, где в столбце A показаны значения фактора X, а в столбце D - значения показателя Y, причем в правой части рисунка 2 внизу показан график рассматриваемой кривой, построенный по опорному значению а2 = 2 (кривая напоминает па- раболу), и точки исходной выборки, соединенные отрезками прямых. Из общего вида этого графика можно сделать вывод, что эта зависимость напоминает квадратичную параболу и описывается уравнением вида (1), для линеаризации которого из обеих частей уравнения (1) можно извлечь корень степени 1/a2. Тогда это уравнение примет вид: Y 1/ a2  a0  a1 X . Заменяя V  Y 1/ a2 получаем линейное уравнение V  a0 a1 X , где V - дополнительный показатель, значения которого при изменении значения а2 меняются. В столбце F получены опорные значения дополнительного показателя V, полученные при опорном значении а2 = 2. Наличие столбцов X и V позволяет получить коэффициенты линейного уравнение регрессии V  a0  a1 X решая систему нормальных уравнений:   na0  a1  xi  vi  i i . (10) a0  xi  a1  xi xi   xi vi  i i i На рисунке 2 эта система представлена в явном виде в диапазоне J1:N2, ниже показано ее решение. Рисунок 2. Окно монитора перед оптимизацией Решая систему (10) получены следующие опорные значения: а0 = 0,102461, а1 =2,1152 и использовано а2 = 2, т.е. получено опорное уравнение регрессии: Y  (0,102461 2,1152 X )2 . По формуле (1) получены расчетные значения Yp, которые показаны в столбце E. От- клонения Y - Yp показаны в столбце G. Затем по формуле: ( yi  y pi ) 2   i n (11) вычислено среднеквадратичное отклонение точек исходной выборки от поученного уравне- ния регрессии σ = 2,9618614, которое показано в ячейке N11. Отмечаем, что, судя по рисунку 2, график полученной кривой очень неплохо описывает исходную выборку. Тем не менее, выполним оптимизацию полученного уравнения регрес- сии. Для этого в ячейку J14 помещаем длину интервала интерполяции L = 1 и, пользуясь по- зицией «значение» в «специальной вставке», в ячейку N15 записываем значение а2 = 2, тогда в ячейках M15 и O15 появляются абсциссы х двух дополнительных точек, отстоящих на L/2 от середины интервала интерполяции и необходимых для построения параболы и получения координаты хмин вершины или нижней точки ветвей параболы. Эта координата появляется в ячейке Q16. Расчет координаты хмин выполняется параболическим интерполятором, помещенным в ячейки M17, O17 и Q16, причем в ячейке M17 помещен оператор b1: =((O16-N16)/(O15-N15)- (N16-M16)/(N15-M15))/(O15-M15), в ячейке O17 - b2: =(N16-M16)/(N15-M15)- M17*(N15+M15) и в ячейке Q16 - оператор: =ЕСЛИ(M17>0;- O17/(2*M17);ЕСЛИ(O16>M16;M16;O16)). При этом, в ячейке M17 рассчитывается коэффициент а1 для системы (8) (он обозначен как b1), в ячейке O17 рассчитывается а2 (обозначен как b2) и в ячейке Q16 вычисляется хмин по формуле (9) xмин   a2 . 2a1 Отмечаем, что на первом цикле оптимизации получено значение хмин = 2,323094. Это значение подставляем в N10 и получаем новое значение СКО σ = 2,9389408. Полученное значение СКО на 0,23 меньше ранее полученного значения. Рисунок 3. Результат оптимизации уравнения регрессии Далее можно выполнить оптимизацию и по другим коэффициентам а0 и а1. Можно также последовательно уменьшать длину интервала интерполяции в 2 или в 3 раза. При этом величина СКО еще несколько уменьшится. Однако принципиального значения это уже не имеет, поскольку, судя по рисунку 3, полученный результат оптимизации вполне соответствует погрешности метода. Итак, в результате выполненной оптимизации получено нелинейное уравнение регрессии: Y  0,4324 1,5196 x2,3231 . Этому уравнению соответствует СКО σ = 2,939. Сформулированная задача решена, поскольку мы получили уравнение регрессии, которое известными методами получить невоз- можно. В заключение отмечаем, что как метод наименьших квадратов, так и методы вырож- денной и взвешенной регрессии дают уравнение регрессии, минимизирующее среднеквадра- тичное отклонение значений показателя Y от точек полученного уравнения регрессии. Это означает, что использование дополнительного показателя V, который используется вместо показателя Y, может являться причиной возникновения дополнительных погрешностей. В этом случае оптимизация может служить для проверки и уточнения зависимости, получен- ной в результате применения методов регрессии.
×

About the authors

L. I Ivashnev

Moscow State University of Mechanical Engineering (MAMI)

Ph.D.; +7(985) 284-26-98

References

  1. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. Учебник для ВУЗов. -М.:ЮНИТИ, 1998. - 1022 с.
  2. Кремер Н.Ш., Путко Б.А. Эконометрика: Учебник для вузов / Под ред. проф. Н.Ш. Кре- мера. - М.: ЮНИТИ-ДАНА, 2002. - 311 с.
  3. Кремер Н.Ш. Теория вероятностей и математическая статистика: Учебник для вузов. - М.: ЮНИТИ-ДАНА, 2003. - 543 с.
  4. Эконометрика: Учебник / И.И. Елисеева, С.В. Курышева, Т.В. Костеева и др.: Под ред. И.И. Елисеевой. - 2-е изд., перераб. и доп. - М.: Финансы и статистика, 2006. - 576 с.: ил.
  5. Ивашнев Л.И. Методы и модели в экономике: Учеб. пособие. - М.: Издательский дом «Лидер-М», 2011. - 328 с.
  6. Ивашнев Л.И. Методы регрессии в экономической математике: Монография. - М.: Изд- во МГОУ, 2005.

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2015 Ivashnev L.I.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies