Nonparametric estimation of regression curves in the conditions of large samples


如何引用文章

全文:

详细

The technique of construction of a nonparametric regression in the conditions of training samples of large volume is offered. Model synthesis is based on decomposition of initial statistical data and the analysis of probabilistic characteristics of received random variables sets. Asymptotic properties of a nonparametric regression are investigated and results of computing experiment are considered. Association of nonparametric regression properties on an amount of sampling intervals of values of an random variable and volume of input datas is established. Comparison of approximating properties of offered model and a traditional nonparametric regression is spent. The results of researches are important to the solution of problems of a confidential estimation of a probability density and a regression curves.

全文:

Вычислительная эффективность непараметрических алгоритмов обработки информации во многом определяется объемом статистических данных и снижается по мере его увеличения, что затрудняет построение систем принятия решений в условиях больших выборок [1; 2]. В подобной ситуации используются принципы декомпозиции исходных статистических данных по их объему и технологии параллельных вычислений. К этому направлению относится смесь непараметрических оценок плотностей вероятности для одномерных и многомерных случайных величин [3-7]. При этом сокращение времени вычислений сопоставимо с количеством составляющих смеси. Полученные результаты обобщены при оценивании решающей функции в задаче распознавания образов для условий больших выборок. Разработаны двухуровневые непараметрические системы классификации [8; 9]. Установлены асимптотические свойства непараметрических оценок их уравнений разделяющих поверхностей для одномерного и многомерного случаев [10; 11]. Данный подход при восстановлении стохастических зависимостей предполагает разбиение обучающей выборки по её объёму. На этой основе осуществляется синтез семейства частных непараметрических регрессий с последующей их интеграцией в обобщённой модели [12; 13]. Перспективное направление «обхода» проблем больших выборок связано с использованием регрессионной оценки плотности вероятности. Её синтез основан на декомпозиции исходных статистических данных и последующем анализе количественных характеристик получаемого множества случайных величин [14-17]. Цель настоящего исследования состоит в разработке методики синтеза и анализа непараметрических моделей стохастических зависимостей в условиях больших выборок, которая основана на использовании регрессионной оценки плотности вероятности. Синтез регрессионной оценки плотности вероятности Пусть имеется выборка V = (x1, i = 1, n ) из n независимых значений одномерной случайной величины x с неизвестной плотностью вероятности p(x). Разобьем область определения p(x) на N непересе-кающихся интервалов длиной 2р и сформируем множества случайных величин XJ, j = 1, N . В качестве характеристик X1 примем частоту P3 попадания случайной величины x в j-й интервал и его центр -1. На основе полученной информации определим эледанных V = (x1, i = 1 (x1, i = 1, n). Поэтому центры интервалов менты выборки V = (-, ( = P3 / (2P), j = 1, N), где - - , j = 1, N являются случайными величинами и имеют равномерный закон распределения p1 (-) = (2pN) 1. Объем N полученной выборки V1 значительно меньше объема n исходных статистических данных V. Выборка V1 позволяет оценивание плотности вероятности p(x) свести к задаче восстановления стохастической зависимости. В качестве приближения по эмпирическим данным V1 искомой плотности вероятности p(x) примем статистику [14] N - . ( x - -j Л p (x) = c1 YР3Ф - , (1) з=1 V c J которая является непараметрической оценкой условного математического ожидания 2PN J yp (x, y) dy . (2) Здесь и далее бесконечные пределы интегрирования опускаются. В регрессионной оценке плотности вероятности (1) ядерные функции ф(и) удовлетворяют условиям H: ф(и ) = ф(-и), 0 <ф(и) <да, |ф(и^и = 1, J u^(u)du = 1. Коэффициенты размытости c = c(N) ядерных функций характеризуют область их определения. При синтезе p( x) в выражение (2) подставляется непараметрическая оценка p (x, y )=-Yф f x - ZJ ncc 1 1=1 ф f y - y (3) совместной плотности вероятности p(x, y). Интегрируя выражение (2) при y - yJ Л d j j PJ - dy = yJ и yJ =- 2 p центры введенных интервалов и соответствующих им значений оценок yJ плотности вероятности. Границы области А изменения случайной величины x априори неизвестны и определяются минимальным и максимальным значениями исходных статистических получим регрессионную оценку плотности вероятности (1). В многомерном случае x = (xv,v =1 ,k) статистика (1) имеет вид 1 Nk _ k (x - -j Л p (x)=- YpJ Пф . (4) c j=1 v=1 V c J Регрессионные оценки плотности вероятности (1), (4) обладают свойствами асимптотической несмещённости и состоятельности [14]. Из условия минимума асимптотического выражения среднеквадратического отклонения p (x) от p(x) определена процедура оптимального выбора количества интервалов дискретизации [18; 19] N = -\Ja n J p2 (x)dx . (5) Количество интервалов дискретизации зависит от вида восстанавливаемой плотности вероятности, длины А интервала значений случайной величины и объёма n исходных статистических данных. 40 Вестник СибГАУ. № 1(53). 2014 Непараметрическая оценка кривой регрессии Пусть V=(x, У, i =1, n) статистическая выборка независимых наблюдений одномерных случайных величин (x, y), распределенных с неизвестной плотностью вероятности p(x, y) и p(x)>0 V xeQ(x). Априори вид однозначной стохастической зависимости y = F(x) не задан. В качестве её модели будем использовать условное математическое ожидание y = Ф(Х )=“J yp (x, у ) dy. p (x )J (6) Решающая функция (6) является оптимальной в смысле минимума квадратического критерия [20]. При оценивании p(x, у) используем технологию синтеза регрессионной оценки плотности вероятности типа (1). Для упрощения преобразований будем считать, что интервалы значений (x, y) одинаковы. Тогда p (x, у )=c 2 Y p ф j=1 x - xJ j Л (• ф (7) У p ( x, У ) = 2 N р p (x, y) .x J p (x) непараметрическую оценку (6) представим в виде У = 9(x ) = 2Np N' Y У p ф i=1 ( Л x - x (8) Исследуем свойство асимптотической несмещённости статистики (8). Пусть функции 9(x), p(x, y) ограничены и непрерывны со всеми своими производными до 2-го порядка включительно. Ядерные функции Ф(и) удовлетворяют условиям H. Определим частоту появления случайных величин в виде ( Л ( У - У Л где h (и ) = 1 V | и |< 1, плотностью вероятности p(t1, t2). Тогда M (cP(x )) = ^ J - J -1ф -2 I h -2 t2 P x h-1 t1 P p (t1, t2 )p (-1, -2 )dt1 - d-2, где M - знак математического ожидания. Осуществим замену переменных (-1-t1)/p = u1, (-2-t2)/p = u2. С учетом p(-1, -2) = (2pN)2 получим M ((x ))=^J - J^pu1+11 )ф( x -pu; ~t2 x h (u2 ) h (u1) p (t1, t2) du1 - dt2 = = NPffft1 фГ x-eu2 -t2 2c J JJ V c x h (u2 ) p (t1, t2 ) du2 dt1 dt2 . (9) где N2 - объем массива данных (xJ, yj, P], j = 1, N2), формируемых на основе исходной статистической выборки V = ( x1 , y1, i = 1, n ) . Значение P3 определяет частоту встречаемости наблюдений из V в элементе (x1 ± р, y1 ± Р) равномерной сетки в пространстве (x, y). Тогда с учетом Обозначим <p(t2) = M(t1/t2). Проведём замену (x-pu2-t2)/c = u. На этой основе преобразуем (9) к виду M (ф (x)) = Nр JJ ф(x - Pu2 - cu) x x ф^) h(u2) p(x - Pu2 - cu) du du2 . Разложим функции ф(x-pu2-cu), p(x-Pu2-cu) в ряд Тейлора в точке x. Тогда при достаточно больших n приходим к утверждению M (ф( x))~ ф( x) + A( x) 2 в 2 - + c2 3 J (ф(x) pP>(x) +ф<1)(x) p<1)(x) +ф(2)(x) p(x) 2 p1( x) p1( x) + ф^Чx) p<2>(x) e2 p2 + O(c4, p4, c2p2). (10) Статистика (8) обладает свойством асимптотической несмещенности по отношению к оптимальному решающему правилу (6), если закон распределения исходной выборки наблюдений x равномерный, т. е. p(x) = p1(x). Это возможно при проведении активного эксперимента при исследовании зависимости y = F(x). Для устранения смещения необходимо умножить статистику (8) на отношение p1 (x) / p(x). В результате получим N Y у1 а (x) N аг- (x) = P ф c V J . (11) i=1 [0 V | u |> 1. Наблюдения из выборки (x1, y1), i = 1, n имеют один и тот же закон распределения p(-1, -2). Элементы массива данных (xJ, yJ) j = 1, N2 В многомерном случае при x = (x1, ..., xk) непараметрическая регрессия имеет вид N‘ k+1 характеризуются _ Y у1 а (x) ф(x )^‘JNt+^-, a1 (x) = P1 Пф Y a1 (x) v=1 i=1 2 x i=1 41 Математика, механика, информатика Анализ результатов вычислительных экспериментов Исследовались свойства непараметрических моделей типа (8), (10) и традиционной непараметрической регрессии [20] методом вычислительного эксперимента. Исходные данные (x1, y , i = 1, n) формировались в соответствии с примером работы [21] y = F(x) = 1-x+exp(-200(x-0,5)2). (12) Значения у1 вычислялись по формуле у1 = F(xi)+2(0,5-ei) F(x1) r, i = ТТй. Случайная величина ее[0; 1] имеет равномерный закон распределения, а r - уровень помех. Оценка эффективности изучаемых моделей определялась критерием F ( xJ )-ф( xJ) 1 т 3=1 F где m - объём контрольной выборки. При построении непараметрических моделей в качестве ядерных функций использовалось ядро В. А. Епанечникова [22]. 3u 4V5 20V5 0 v |u| < >/5" V |>л/5. Вычислительные эксперименты при фиксированных условиях исследования повторяются 20 раз. По полученным результатам вычислялись ошибки аппроксимации Wt, t = 1,20 и среднее W их значение. Установлено, что объём исходной выборки n может быть сокращён на порядок и выше. На такую же величину повышается вычислительная эффективность непараметрической регрессии. Обнаружена линейная зависимость между значениями уровня помех r и количеством N интервалов дискретизации. Зависимость средней относительной ошибки аппроксимации W от количества интервалов дискретизации N при n = 10000, r = 0,05: кривая 1 соответствует модели ф(x) (11); прям^1е 2 и 3 характеризуют традиционную непараметрическую регрессию при объёме обучающей выборки n = 500 и n = 200 Точность аппроксимации непараметрической регрессии ф( x) (11) выше в два и более раза, чем со смещением (8). Традиционная непараметрическая регрессия менее устойчива к уровню помех. С ростом количества N интервалов дискретизации аппроксимационные свойства статистики (11) улучшаются, что согласуется с результатами аналитических исследований (см. рисунок). Данный факт особенно проявляется при высоком уровне помех. Непараметрическая модель стохастической зависимости (11) является эффективным средством обработки данных большого объема. Ее синтез осуществляется путем декомпозиции исходной статистической информации и анализа количественных характеристик, получаемых множеств случайных величин. На этой основе осуществляется «сжатие» исходных данных. Предлагаемая статистика обладает свойством асимптотической несмещенности. По своим аппроксимационным свойствам и устойчивости к помехам она значительно превосходит традиционную непараметрическую регрессию. Особенность структуры разработанной непараметрической модели стохастической зависимости позволяет решить проблему её доверительного оценивания.
×

作者简介

Alexander Lapko

Siberian State Aerospace University named after academician M. F. Reshetnev; Institute of Computational Modelling of Russian Academy of Sciences, Siberian Branch

Email: lapko@icm.krasn.ru
Doctor of Engineering Science, professor, Leading researcher of Institute of Computational Modelling of Russian Academy of Sciences, Siberian Branch, professor of the Space craft and Technologies Department, Siberian State Aerospace University named after academician M. F. Reshetnev.

Vasily Lapko

Institute of Computational Modelling of the Russian Academy of Sciences, Siberian Branch; Siberian State Aerospace University named after academician M. F. Reshetnev

Email: valapko@yandex.ru
Doctor of Engineering Sciences, associate professor, Leading researcher of Institute of Computational Modelling of the Russian Academy of Sciences, Siberian Branch, head of the Space craft and Technologies Department, Siberian State Aerospace University named after academician M. F. Reshetnev

Dmitry Borisov

Siberian State Aerospace University named after academician M. F. Reshetnev

Email: dimbo2007@yandex.ru
a student

参考

  1. Лапко А. В., Лапко В. А. Непараметрические системы обработки неоднородной информации. Новосибирск : Наука, 2007. 174 с.
  2. Лапко В. А., Капустин А. Н. Синтез нелинейных непараметрических коллективов решающих правил в задачах распознавания образов // Автометрия. 2006. Т. 42, № 6. С. 26-33.
  3. Лапко А. В., Лапко В. А., Егорочкин И. А. Непараметрические оценки смеси плотностей вероятности и их применение в задаче распознавания образов // Системы управления и информационные технологии. 2009. № 1 (35). С. 60-64.
  4. Лапко А. В., Лапко В. А. Анализ свойств смеси непараметрических оценок плотности вероятности многомерной случайной величины // Вестник СибГАУ. 2010. № 2 (28). С. 32-35.
  5. Лапко А. В., Лапко В. А. Анализ свойств непараметрических оценок смеси плотностей вероятности при различных условиях распределения статистических данных // Информатика и системы управления. 2013. № 1 (35). С. 119-126.
  6. Лапко А. В., Лапко В. А. Свойства непараметрической оценки плотности вероятности многомерных случайных величин в условиях больших выборок // Информатика и системы управления. 2012. № 2. С. 121-126.
  7. Лапко А. В., Лапко В. А. Синтез структуры смеси непараметрических оценок плотности вероятности многомерной случайной величины // Системы управления и информационные технологии. 2011. Т. 43, № 1. С. 12-15.
  8. Лапко А. В., Лапко В. А. Разработка и исследование двухуровневых непараметрических систем классификации // Автометрия. 2010. Т. 46, № 1. С. 70-78.
  9. Лапко А. В., Лапко В. А. Коллектив непараметрических решающих функций в двуальтернативной задаче распознавания образов // Системы управления и информационные технологии. 2009. № 3.1 (37). С. 156-160.
  10. Лапко А. В., Лапко В. А. Асимптотические свойства многомерной непараметрической оценки уравнения разделяющей поверхности в двуальтернативной задаче распознавания образов // Системы управления и информационные технологии. 2010. № 1 (39). С. 16-19.
  11. Лапко А. В., Лапко В. А. Непараметрическая оценка уравнения разделяющей поверхности в условиях больших выборок и её свойства // Системы управления и информационные технологии. 2010. № 1.2 (39). С. 300-304.
  12. Лапко А. В., Лапко В. А., Варочкин С. С. Коллектив непараметрических регрессий, основанный на принципе декомпозиции обучающей выборки // Вестник СибГАУ. 2009. № 1 (22). Ч. 2. С. 38-40.
  13. Лапко А. В., Лапко В. А. Коллектив многомерных непараметрических регрессий, основанный на декомпозиции обучающей выборки по её обьёму // Вестник СибГАУ. 2012. № 3 (43). С. 42-46.
  14. Лапко А. В., Лапко В. А. Регрессионная оценка плотности вероятности и ее свойства // Системы управления и информационные технологии. 2012. Т. 49, № 3. С. 152-156.
  15. Лапко А. В., Лапко В. А. Непараметрические методики анализа множеств случайных величин // Автометрия. 2003. Т. 39, № 1. С. 54-61.
  16. Лапко А. В., Лапко В. А. Дискретизация интервала изменения значений случайной величины на основе результатов оптимизации непараметрической оценки плотности вероятности // Информатика и системы управления. 2013. 4 (38). С. 63-69.
  17. Лапко А. В., Лапко В. А. Построение доверительных границ для плотности вероятности на основе ее регрессионной оценки // Метрология. 2013. № 12. С. 3-9.
  18. Лапко А. В., Лапко В. А. Оптимальный выбор количества интервалов дискретизации области изменения одномерной случайной величины при оценивании плотности вероятности // Измерительная техника. 2013. № 7. С. 24-27.
  19. Lapko A. V., Lapko V. A. Optimal selection of the number of sampling intervals in domain of variation of a one-dimensional random variable in estimation of the probability density // Measurement Techniques. 2013. Vol. 56, no. 7. P. 24-27 (doi: 10.1007/s11018-013-0279-x).
  20. Надарая Э. А. Замечания о непараметрических оценках плотности вероятности и кривой регрессии // Теория вероятности и её применения. 1970. Т. 15, № 1. С. 139-142.
  21. Хардле В. Прикладная непараметрическая регрессия. М. : Мир, 1993. 300 с.
  22. Епанечников В. А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятности и ее применения. 1969. Т. 14, вып. 1. С. 156-161.

补充文件

附件文件
动作
1. JATS XML

版权所有 © Lapko A.V., Lapko V.A., Borisov D.V., 2014

Creative Commons License
此作品已接受知识共享署名 4.0国际许可协议的许可
##common.cookie##