Algorithm for detecting outliers in the model uniformly fuzzy regression

Igor V. Ponomarev; Пономарев Игорь Викторович

doi:10.17816/byusu20210130-35

Алгоритм обнаружения выбросов в модели равномерно-нечеткой регрессии

Авторы: Пономарев И.В.¹
Учреждения:
1. Алтайский государственный университет
Выпуск: Том 17, № 1 (2021)
Страницы: 30-35
Раздел: Геометрические методы в математическом моделировании
Статья опубликована: 23.12.2021
URL: https://vestnikugrasu.org/byusu/article/view/90768
DOI: https://doi.org/10.17816/byusu20210130-35
ID: 90768

Цитировать

Полный текст

Аннотация
Полный текст
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

При построении математических моделей по статистическим данным перед исследователем возникает необходимость оценки однородности выборки, в частности, изучение данных на выбросы. Наличие в выборке выбросов негативно сказывается на результатах моделирования и адекватности модели в целом. В данной работе разработан алгоритм, позволяющий количественно измерить эффект влияния каждого наблюдения на качество построенной модели. Приводится описание данного алгоритма. Ранее автором проводились аналогичные исследования для различных регрессионных моделей.

Ключевые слова

модель нечеткой линейной регрессии, расстояние Кука, статистические выбросы

Полный текст

1. Введение

Актуальным направлением развития регрессионного моделирования является применение теории нечетких множеств. В этом направлении можно выделить работы [1-6]. В данной работе за основу выбрана равномерно-нечеткая регрессионная модель [7].

Целью исследования является получение алгоритма позволяющего проверить исходную статистическую выборку на наличие выбросов. Подобным исследованиям посвящены работы [8-11]. Отличительной особенность данной методики является использование “двойной” оценки - при построении регрессионной модели и при вычислении характеристики наблюдения. В результате работы алгоритма каждому наблюдению ставится в соответствие числовая характеристика - расстояние Кука. Данная характеристика будет полезна исследователю при проведении экспертного анализа выборки.

Рассмотрим равномерно-нечеткую регрессионную модель

$f (X) = a_{0} + \sum_{j = 1}^{k} a_{j} x_{i j}$ (1)

которая равна моде нечеткого числа A=ƒ(X). В данной модели ƒ ϵ Ф - нечеткая числовая функция; a₀, a₁......., a_к являются параметрами модели, а x_ij - регрессорами.

Предполагая, что функция принадлежности будет иметь конкретный вид

$μ_{A} (y) = φ (\frac{|f (X) - y|}{σ})$ (2)

где φ : [0, ∞) → [0, 1] - фиксированная убывающая функция, φ (0)=1; σ > 0 - параметр, определяем из условия нормировки достоверности модели.

Пусть имеется некоторая выборка Ω={ (x_i₁,..., x_ik, у_i) : і=1,..., N}. Достоверность модели будет определяться величиной

$f δ (f) = \min_{i = 1, \dots, N} \{μ_{A_{i}} (y_{i})\}$

В виду того, что спецификация модели является линейной функцией, задача нахождения наиболее достоверной модели сводится к нахождению

$α_{\infty} (X, y) = \min_{a_{j}, j = \bar{0, k}} \max_{i = 1, \dots, n} |a_{0} + \sum_{j = 1}^{k} a_{j} x_{i j} - y_{i}|$ (3)

Задача нахождения (3) можно сформулировать в виде задачи линейного программирования

$\{\begin{cases} \min_{u; v; a_{j}, j = \bar{0, k}} (u - v), u \geq \sum_{j = 1}^{k} a_{j} x_{s j} - y_{s}, \\ s = 1, \dots, N, v \leq \sum_{j = 1}^{k} a_{j} x_{t j} - y_{t}, \\ t = 1, \dots, N \end{cases}$

где и - верхняя огибающая, ѵ - нижняя огибающая.

Графическая реализация алгоритма решения представлен на рисунке 1.

Рисунок 1. Минимальное значение разности двух огибающих в двумерном случае

2. Модификация расстояния Кука

В силу вероятностных предположений относительно регрессионной модели, все наблюдения имеют одинаковое значение, равнозначное влияние на результат моделирования. Поэтому в [9] предполагается, что удаление из выборки одного значения не должно в значительной мере изменять коэффициенты регрессии. Показателем изменения коэффициентов регрессии, влиянием наблюдения на результат будет служить расстояние Кука.

Определение 1. Пусть имеется регрессионная модель

Yi=b₀ +b₁x_i₁ + ... + b_kx_ik + ε_і,

где b, b₍_i₎ - оценки коэффициентов регрессии по исходным данным и после исключения i-го наблюдения.

Расстоянием Кука будем называть величину

$C D (\hat{Y}, {\hat{Y}}_{(i)}) = \frac{{({\hat{a}}_{(i)} - \hat{a})}^{T} (X^{T} X) ({\hat{a}}_{(i)} - \hat{a})}{(k + 1) s^{2}},$

где X - матрица регрессоров; k - количество регрессоров; s² - оценка дисперсии ошибок.

Предельным значением расстояния Кука считается значение статистики F(a,k+1,N—k — 1).

Таким образом, имеем следующий алгоритм исследования исходных данных методом расстояния Кука:

Вычисляются оценки коэффициентов регрессии а и дисперсия s².
Из набора наблюдений исключается і-ое наблюдение и находятся оценки а^.
Определяется расстояние Кука CD(Y,Y₍_i₎)и сравнивается с Fα k + 1, N — k — 1).
Если $C D (\hat{Y}, {\hat{Y}}_{(i)}) > F (α, k + 1, N - k - 1)$ , то делается заключение что і-ое наблюдение является выбросом.

Заметим, что расстояние Кука можно представить в виде

$C D (\hat{Y}, {\hat{Y}}_{(i)}) = \frac{{(X ({\hat{a}}_{(i)} - \hat{a}))}^{T} (X ({\hat{a}}_{(i)} - \hat{a}))}{(k + 1) s^{2}} = \frac{{(\hat{Y} - {\hat{Y}}_{(i)})}^{'} (\hat{Y} - {\hat{Y}}_{(i)})}{(k + 1) s^{2}}$ (4)

что позволяет рассматривать данную метрику как аналог обычного евклидова расстояния.

Определение 2. Евклидовым расстоянием между нечеткими числами $A = \{(z_{i}, μ_{A} (z_{i})), i = \bar{1, n}\}$ , $B = \{(z_{i}, μ_{B} (z_{i})), i = \bar{1, n}\}$ называется величина

Объединим метрики (4) и (5) и введем следующее определение.

$d (A, B) = \sqrt{\sum_{i = 1}^{n} {(μ_{A} (z_{i}) - μ_{B} (z_{i}))}^{2}}$ (5)

Определение 3. Расстоянием Кука между нечеткими числами A и В называется величина , где $\bar{z}$ - среднее значение.

$F D K (A, B) = \frac{\sqrt{\sum_{i = 1}^{n} {(μ_{A} (z_{i}) - μ_{B} (z_{i}))}^{2}}}{\frac{\sum_{i = 1}^{n} {(z_{i} - \bar{z})}^{2}}{n - 1}}$

3. Алгоритм исследования данных на выбросы

Рассмотрим модель (1) с треугольной функцией принадлежности, т.е. φ - линейная убывающая функция.

Проверка исходных данных будет заключаться в построении расстояния (6) между вектором теоретических $Y = {y_{1}, \dots, y_{N}}$ и расчетных $\hat{Y} = {{\hat{y}}_{1}, \dots, {\hat{y}}_{N}}$ значений. Соответствующий алгоритм можно представить следующим образом.

Решая задачу (3), определяются оценки коэффициентов â регрессии (1).
По формуле (2) вычисляются расчетные значения выходной переменной и соответствующие им функции принадлежности $\hat{Y} = \{({\hat{y}}_{i}, μ_{A} ({\hat{y}}_{i}))\}$
Из набора данных исключается j-oe наблюдение и повторяются шаги 1 и 2. Получаем значение ${\hat{Y}}_{(j)} = \{({\hat{y}}_{i}^{*}, μ_{A} ({\hat{y}}_{i}^{*}))\}$ , $i \neq j$
Определяется расстояние Кука (6) $F D K (\hat{Y}, {\hat{Y}}_{(j)})$ .
Шаги 3 и 4 повторяются для всех $j = \bar{1, N}$ .

Для проверки работоспособности данного алгоритма был создан комплекс программ. Комплекс был запрограммирован в системе компьютерной математики MatLab и включает в себя три отдельные программы. Первая программа по заданному объему и размерности генерирует выборку одинаково распределенных случайных величин и искусственно “засоряет” ее небольшим (обычно 5% от объема исходной выборки) количеством дополнительных наблюдений. Эти наблюдения отличаются по распределению от основной выборки и играют роль выбросов.

Вторая программа строит модель равномерно-нечеткой регрессии. От пользователя требуется указать массивы входных и результирующей переменных. На выходе получаются два массива: коэффициентов и значений функции принадлежности для результирующей переменной $μ_{A} ({\hat{y}}_{i})$ .

Третья программа производит пошаговое исключение из исходной выборки по одному наблюдению и вычисляет для оставшихся наблюдений новые значения функции принадлежности $μ_{A} ({\hat{y}}_{i}^{*})$ с использованием второй программы. На каждом таком шаге вычисляется расстояние Кука между получеными нечеткими числами. Результат записывается в массив и выводится графическая иллюстрация (диаграмма).

Рисунок 2. Диаграмма значений расстояний Кука для тестовой выборки

На рисунке 2 представлена диаграмма рассеяния расстояний Кука для одной из тестовых выборок. Легко заметить, что критическими могут быть признаны четыре наблюдения. Все эти наблюдения и были заранее введены в выборку.

С использованием разработанного программного комплекса был проведен ряд подобных испытаний с различными выборками. Результаты анализа показали, что данный метод верно определяет 3-4 выброса при объеме выборки 60-100 наблюдений. Уменьшение объема выборки влечет за собой увеличение разброса данных и тем самым осложняет процесс нахождения выбросов. При тестировании малых выборок представленный алгоритм верно определял 1-2 выброса. Таким образом, данный алгоритм пригоден для анализа результатов регрессионного моделирования. Полученный программный комплекс позволяет за разумное время обработать достаточное число наблюдений.

Заметим, что окончательный ответ на вопрос об отнесении наблюдения к выбросам дает непосредственно исследователь. Разработанный алгоритм и комплекс программ являются удобными инструментами для обнаружения “подозрительных” элементов и вычисляет соответствующую численную характеристику.

Об авторах

Игорь Викторович Пономарев

Алтайский государственный университет

Автор, ответственный за переписку.
Email: igorpon@mail.ru

Кандидат физико-математических наук, доцент кафедры математического анализа

Россия, Барнаул

Список литературы

David, В. Alternativ Methods of Regression / В. David, D. Yadolah. - New York : Jonh Wiley & Sans, Inc., 1993. - 248 p.
Gomez, A. T. Applications Of Fuzzy Regression In Actuarial Analysis / A. T. Gomez, J. de A. Sanchez // Journal of Risk & Insurance. - 2003. - Vol. 30. - P. 665-699.
Tanaka, H. Linear regression analysis with fuzzy model / H. Tanaka, S. Uejima, K. Asai // IEEE Transactions on Systems, Man and Cybernetics. - 1982. - Vol. 12 (6). - P. 903-907.
Брюс, П. Практическая статистика для специалистов Data Science : перевод с английского / П. Брюс, Э. Брюс. - Санкт-Петербург : БХВ-Петербург, 2018. 304 с. - Текст : непосредственный.
Дрейпер, Н. Прикладной регрессионный анализ. Множественная регрессия=Applied Regression Analysis / Н. Дрейпер, Г. Смит. - 3-е издание. - Москва, 2007. - 369 с. - Текст : непосредственный.
Стрижов, В. В. Методы выбора регрессионных моделей / В. В. Стрижов, Е. А. Крымова. - Москва : ВЦ РАН, 2010. - 60 с. - Текст : непосредственный.
Пономарев, II. В. Нечеткая модель линейной регрессии / II. В. Пономарев, В. В. Славский. - Текст : непосредственный // Доклады Академии наук. - 2009. - Т. 428, № 5. - С. 598-600.
Andrews, D. F. Finding the outliers that matter / D. F. Andrews, D. Pregibon // Journal of the Royal Statistical Society. - 1978. - Vol. 40. - P. 85-93.
Cook, R. D. Detection of Influential Observation in Linear Regression / R. D. Cook // Technometrics. - 1977. - Vol. 42, - 1. - P. 15-18.
Weisberg, S. Applied linear regression / S. Weisberg. - 3rd editor. - New York : Jonh Wiley & Sans, Inc., 2005. - 260 p.
Пономарев, И. В. Метод поиска экстремальных наблюдений в задаче нечеткой регрессии / И. В. Пономарев, Т. В. Саженкова, В. В. Славский. - Текст : непосредственный // Известия Алтайского государственного университета. - 2018. - № 4 (102). - С. 98-101.

Дополнительные файлы

Доп. файлы

Действие

1. JATS XML

Скачать

2. Рисунок 1. Минимальное значение разности двух огибающих в двумерном случае

Скачать (34KB)

Метаданные

3. Рисунок 2. Диаграмма значений расстояний Кука для тестовой выборки

Скачать (44KB)

Метаданные

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация