Algorithm for detecting outliers in the model uniformly fuzzy regression

Abstract

When constructing mathematical models based on statistical data, the researcher faces the need to assess the homogeneity of the sample, in particular, the study of data on emissions. Availability in a sample of outliers negatively affects the modeling results and the adequacy of the model as a whole. In this work, an algorithm has been developed that allows one to quantitatively measure the effect of the influence of each observation on the quality of the constructed model. The description of this algorithm is given. Previously the author carried out similar studies for various regression models.

Full Text

1. Введение

Актуальным направлением развития регрессионного моделирования является применение теории нечетких множеств. В этом направлении можно выделить работы [1-6]. В данной работе за основу выбрана равномерно-нечеткая регрессионная модель [7].

Целью исследования является получение алгоритма позволяющего проверить исходную статистическую выборку на наличие выбросов. Подобным исследованиям посвящены работы [8-11]. Отличительной особенность данной методики является использование “двойной” оценки - при построении регрессионной модели и при вычислении характеристики наблюдения. В результате работы алгоритма каждому наблюдению ставится в соответствие числовая характеристика - расстояние Кука. Данная характеристика будет полезна исследователю при проведении экспертного анализа выборки.

Рассмотрим равномерно-нечеткую регрессионную модель

fX=a0+j=1kajxij                                      (1)

которая равна моде нечеткого числа A=ƒ(X). В данной модели ƒ ϵ  Ф - нечеткая числовая функция; a0, a1......., aк являются параметрами модели, а xij - регрессорами.

Предполагая, что функция принадлежности будет иметь конкретный вид

μA(y)=φfXyσ                                 (2)

где φ : [0, ∞) → [0, 1] - фиксированная убывающая функция, φ (0)=1; σ > 0 - параметр, определяем из условия нормировки достоверности модели.

Пусть имеется некоторая выборка Ω={ (xi1,..., xik, уi) : і=1,..., N}. Достоверность модели будет определяться величиной

fδf=mini=1,,NμAi(yi)

В виду того, что спецификация модели является линейной функцией, задача нахождения наиболее достоверной модели сводится к нахождению

α(X,y)=minaj,j=0,k¯maxi=1,,na0+j=1kajxijyi  (3)

Задача нахождения (3) можно сформулировать в виде задачи линейного программирования

minu;v;aj,j=0,k¯uv,uj=1kajxsjys,  s=1,,N,vj=1kajxtjyt,  t=1,,N

где и - верхняя огибающая, ѵ - нижняя огибающая.

Графическая реализация алгоритма решения представлен на рисунке 1.

 

Рисунок 1. Минимальное значение разности двух огибающих в двумерном случае

 

2. Модификация расстояния Кука

В силу вероятностных предположений относительно регрессионной модели, все наблюдения имеют одинаковое значение, равнозначное влияние на результат моделирования. Поэтому в [9] предполагается, что удаление из выборки одного значения не должно в значительной мере изменять коэффициенты регрессии. Показателем изменения коэффициентов регрессии, влиянием наблюдения на результат будет служить расстояние Кука.

Определение 1. Пусть имеется регрессионная модель

Yi=b0 +b1xi1 + ... + bkxik + εі,

где b, b(i) - оценки коэффициентов регрессии по исходным данным и после исключения i-го наблюдения.

Расстоянием Кука будем называть величину

CD(Y^,Y^(i))=(a^(i)a^)T(XTX)(a^(i)a^)(k+1)s2,

где X - матрица регрессоров; k - количество регрессоров; s2 - оценка дисперсии ошибок.

Предельным значением расстояния Кука считается значение статистики F(a,k+1,N—k — 1).

Таким образом, имеем следующий алгоритм исследования исходных данных методом расстояния Кука:

  1. Вычисляются оценки коэффициентов регрессии а и дисперсия s2.
  2. Из набора наблюдений исключается і-ое наблюдение и находятся оценки а^.
  3. Определяется расстояние Кука CD(Y,Y(i))и сравнивается с Fα k + 1, Nk — 1).
  4. Если CD(Y^,Y^(i))>F(α,k+1,Nk1), то делается заключение что і-ое наблюдение является выбросом.

Заметим, что расстояние Кука можно представить в виде

CD(Y^,Y^(i))=(X(a^(i)a^))T(X(a^(i)a^))(k+1)s2=(Y^Y^(i))'(Y^Y^(i))(k+1)s2 (4)

что позволяет рассматривать данную метрику как аналог обычного евклидова расстояния.

Определение 2. Евклидовым расстоянием между нечеткими числами A=(zi,μA(zi)),i=1,n¯, B=(zi,μB(zi)),i=1,n¯ называется величина

Объединим метрики (4) и (5) и введем следующее определение.

d(A,B)=i=1nμA(zi)μB(zi)2          (5)

Определение 3. Расстоянием Кука между нечеткими числами A и В называется величина , где z¯ - среднее значение.

FDK(A,B)=i=1nμA(zi)μB(zi)2i=1n(ziz¯)2n1

3. Алгоритм исследования данных на выбросы

Рассмотрим модель (1) с треугольной функцией принадлежности, т.е. φ - линейная убывающая функция.

Проверка исходных данных будет заключаться в построении расстояния (6) между вектором теоретических Y={y1,,yN} и расчетных Y^={y^1,,y^N} значений. Соответствующий алгоритм можно представить следующим образом.

  1. Решая задачу (3), определяются оценки коэффициентов â регрессии (1).
  2. По формуле (2) вычисляются расчетные значения выходной переменной и соответствующие им функции принадлежности Y^=y^i,μA(y^i)
  3. Из набора данных исключается j-oe наблюдение и повторяются шаги 1 и 2. Получаем значение Y^(j)=y^i*,μA(y^i*),ij
  4. Определяется расстояние Кука (6) FDK(Y^,Y^(j)).
  5. Шаги 3 и 4 повторяются для всех j=1,N¯.

Для проверки работоспособности данного алгоритма был создан комплекс программ. Комплекс был запрограммирован в системе компьютерной математики MatLab и включает в себя три отдельные программы. Первая программа по заданному объему и размерности генерирует выборку одинаково распределенных случайных величин и искусственно “засоряет” ее небольшим (обычно 5% от объема исходной выборки) количеством дополнительных наблюдений. Эти наблюдения отличаются по распределению от основной выборки и играют роль выбросов.

Вторая программа строит модель равномерно-нечеткой регрессии. От пользователя требуется указать массивы входных и результирующей переменных. На выходе получаются два массива: коэффициентов и значений функции принадлежности для результирующей переменной μA(y^i).

Третья программа производит пошаговое исключение из исходной выборки по одному наблюдению и вычисляет для оставшихся наблюдений новые значения функции принадлежности μA(y^i*) с использованием второй программы. На каждом таком шаге вычисляется расстояние Кука между получеными нечеткими числами. Результат записывается в массив и выводится графическая иллюстрация (диаграмма).

 

Рисунок 2. Диаграмма значений расстояний Кука для тестовой выборки

 

На рисунке 2 представлена диаграмма рассеяния расстояний Кука для одной из тестовых выборок. Легко заметить, что критическими могут быть признаны четыре наблюдения. Все эти наблюдения и были заранее введены в выборку.

С использованием разработанного программного комплекса был проведен ряд подобных испытаний с различными выборками. Результаты анализа показали, что данный метод верно определяет 3-4 выброса при объеме выборки 60-100 наблюдений. Уменьшение объема выборки влечет за собой увеличение разброса данных и тем самым осложняет процесс нахождения выбросов. При тестировании малых выборок представленный алгоритм верно определял 1-2 выброса. Таким образом, данный алгоритм пригоден для анализа результатов регрессионного моделирования. Полученный программный комплекс позволяет за разумное время обработать достаточное число наблюдений.

Заметим, что окончательный ответ на вопрос об отнесении наблюдения к выбросам дает непосредственно исследователь. Разработанный алгоритм и комплекс программ являются удобными инструментами для обнаружения “подозрительных” элементов и вычисляет соответствующую численную характеристику.

×

About the authors

Igor V. Ponomarev

Altai State University

Author for correspondence.
Email: igorpon@mail.ru

Candidate of Physical and Mathematical Sciences, Assistant Professor of the Department of Mathematical

Russian Federation, Barnaul

References

  1. David, В. Alternativ Methods of Regression / В. David, D. Yadolah. - New York : Jonh Wiley & Sans, Inc., 1993. - 248 p.
  2. Gomez, A. T. Applications Of Fuzzy Regression In Actuarial Analysis / A. T. Gomez, J. de A. Sanchez // Journal of Risk & Insurance. - 2003. - Vol. 30. - P. 665-699.
  3. Tanaka, H. Linear regression analysis with fuzzy model / H. Tanaka, S. Uejima, K. Asai // IEEE Transactions on Systems, Man and Cybernetics. - 1982. - Vol. 12 (6). - P. 903-907.
  4. Брюс, П. Практическая статистика для специалистов Data Science : перевод с английского / П. Брюс, Э. Брюс. - Санкт-Петербург : БХВ-Петербург, 2018. 304 с. - Текст : непосредственный.
  5. Дрейпер, Н. Прикладной регрессионный анализ. Множественная регрессия=Applied Regression Analysis / Н. Дрейпер, Г. Смит. - 3-е издание. - Москва, 2007. - 369 с. - Текст : непосредственный.
  6. Стрижов, В. В. Методы выбора регрессионных моделей / В. В. Стрижов, Е. А. Крымова. - Москва : ВЦ РАН, 2010. - 60 с. - Текст : непосредственный.
  7. Пономарев, II. В. Нечеткая модель линейной регрессии / II. В. Пономарев, В. В. Славский. - Текст : непосредственный // Доклады Академии наук. - 2009. - Т. 428, № 5. - С. 598-600.
  8. Andrews, D. F. Finding the outliers that matter / D. F. Andrews, D. Pregibon // Journal of the Royal Statistical Society. - 1978. - Vol. 40. - P. 85-93.
  9. Cook, R. D. Detection of Influential Observation in Linear Regression / R. D. Cook // Technometrics. - 1977. - Vol. 42, - 1. - P. 15-18.
  10. Weisberg, S. Applied linear regression / S. Weisberg. - 3rd editor. - New York : Jonh Wiley & Sans, Inc., 2005. - 260 p.
  11. Пономарев, И. В. Метод поиска экстремальных наблюдений в задаче нечеткой регрессии / И. В. Пономарев, Т. В. Саженкова, В. В. Славский. - Текст : непосредственный // Известия Алтайского государственного университета. - 2018. - № 4 (102). - С. 98-101.

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Figure 1. The minimum value of the difference of two envelopes in the two-dimensional case

Download (34KB)
3. Figure 2. Diagram of Cook's distance values for the test sample

Download (44KB)

Copyright (c) 2021 Ponomarev I.V.

Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies