COLLECTIVE OF MANY-DIMENSIONAL NONPARAMETRIC REGRESSIONS, GROUNDED ON DECOMPOSITION OF LEARNING SAMPLE ACCORDING TO ITS SIZE


Citar

Texto integral

Resumo

The technique of synthesis and analysis of collective of many-dimensional nonparametric regressions, which provides for high computing efficiency of problem solving of restoration of stochastic dependencies, at the account of usage of technology of parallel calculations, is offered. Asymptotic properties of collective are researched, results of their comparison with properties of traditional nonparametric regression, are presented.

Texto integral

Непараметрические регрессии, основанные на оценках плотности вероятности типа Розенблатта-Парзена, широко используются при восстановлении однозначных стохастических зависимостей. На их Будем считать, что плотность вероятности p ( x) известна. В этих условиях на основании каждой выборки Vj осуществим синтез непараметрической основе создаются типовые информационные средства, регрессии [1]: 1 Щф np (x)П iej f i Л x, - x j = 1, T , (2) адаптируемые к условиям функционирования объектов различной природы. Однако при увеличении объ- Ф/(x ) = " ема обучающей выборки вычислительная эффективность непараметрических статистик снижается. Подобные ситуации часто ^третаютс^ например при где ядерные функции ф(иv ) удовлетворяют услови-обработке больших массивов аэрокосмической ин- ям H : ф(и, ) = ф(-и,), 0 <ф(и,)<», {ф(и,)du, = 1, Jul ф(и,)dUv = 1, j и™ ф (и, ) duv < œ, 0 < m < œ, v = 1, k , а их коэффициенты размытости cv = cv (n ) ^ 0 с ростом n . Здесь и далее бесконечные пределы интегрирования опускаются. При синтезе каждой статистики ïpj (x) будем ис-борка, составленная из n независимых наблюдений пользовать непараметрическую оценку многомерной плотности вероятности p (x, y ) типа Розенблатта-Парзена [2]. формации. В этих условиях использование традиционной непараметрической регрессии приводит к значительным временным затратам при формировании решений. В данной статье рассмотрена разработка методики синтеза и анализа коллектива многомерных непараметрических регрессий, основанного на декомпозиции обучающих выборок по их объему. Синтез коллектива многомерных непараметрических регрессий. Пусть V =(, ( , i = 1, n) - вы- случайной величины (x = (xv, v = 1, k j, y j с плотностью вероятности p (x, y). Обозначим плотность вероятности случайной величины x через p (x), а кривую регрессии y по х - через В качестве приближения y = <p(x) (1) возьмем статистику вида 9(x )= J yp I -I dy. (1) _ _ 1 t _ y = Hx )=T Хф/(x ). T j=1 (3) Оптимизация частных непараметрических регрессий (2) по коэффициентам размытости cv, v = 1, k, ядерных функций осуществляется в режиме скользящего экзамена из условия минимума статистической Разобьем выборку V на T групп наблюдений Vj = (xi, ( , i е I j ), j = 1, T , где Ij - множество номеров наблюдений переменных (x, y ), составляющих оценки точности аппроксимации зависимости (1): " Шу‘-Ф/ (x'))2. j-ю группу, причем ^ I j = I = (i = 1, n ). Количество Wj =- j=1 nj = I l элементов в выборках Vj одинаково и равно j _ n n = —. T При формировании критерия W j ситуация (x', y' ) в выражении непараметрической регрессии (2) исключается из процесса обучения. 42 Вестник Сибирского государственного аэрокосмического университета имени академика М. Ф. Решетнева Статистика (3) допускает использование технологии параллельных вычислений при оценивании кривой регрессии (1) в условиях больших выборок. Асимптотические свойства коллектива непараметрических регрессий. Для получения аналитически значимых результатов при исследовании свойств коллектива непараметрических регрессий (3) будем считать, что интервалы изменения значений компонент xv, v = 1, k, вектора x одинаковы. В этих условиях появляется возможность полагать одинаковыми значения коэффициентов размытости cv = c, v = 1, k, ядерных функций в статистике (2). Тогда частные непараметрические регрессии (2) запишутся в виде Фj(x) = з 1 k -л-г ХП ф np (x)С ie7j v=1 Mi j=1 =T X ^X j-j y П ф T j =1 nc p\x)ieIj v=1 : p (yi, x1,..., xk j dy1 dx1... dx1k i xv - x c y _1_ 'p (x ) J ••• J y П ф{^^p (y, '1,•••, 'k )dydh • •• d'k = v=1 I c J kj-) J-Jф(' )п ф p (x ) c где M - ' y v=1 знак x,, - ',. математического ожидания; (xv - 'v )c-1 =* разложим ф(xv -c'v, v = 1, k), p(xv -c'v, v = 1, k) в ряд Тейлора в точке x . Тогда с учетом свойств H ядерных функций при достаточно больших значениях n получим асимптотическое выражение смещения коллектива непараметрических регрессий: „2 k M (ф(x)-ф(x)) 2 p (x) v=1 i((x) p (x)) (2) k k x ЕфРМ p=4{*) v =1 r=1 j = 1, T . (4) Асимптотические свойства ф^) определяются следующей теоремой. Теорема. Пусть ф^) , p (x, y), p (x)^ 0 и первые две их производные по каждой компоненте xv , v = 1, k , ограничены и непрерывны; ядерные функции ф(и„ ) удовлетворяют условиям H ; последовательности c = c (n ) коэффициентов размытости ядерных функций такие, что при n ^œ значения c ^ 0 , а nck ^œ. Тогда при конечных значениях T коллектив многомерных непараметрических регрессий ф( x ) обладает свойствами асимптотической несмещенности и состоятельности. Доказательство. По определению имеем x ))=T Xм M j(x ))= 4 p (x ) X Ф) pv2)(x)J Uv4ф(Uv )duv + 0 (c6 ), (6) v=1 J где ф^ (x), pi2) (x), ((x) p (x)) - вторые производные функций ф(x), p (x) и их произведения по компоненте xv ; символом 0 (c6 ) обозначены слагаемые степени малости порядка c6 . Отсюда из условия c ^ 0 при n следует свойство асимптотической несмещенности коллектива непараметрических регрессий ф( x). Для доказательства состоятельности оценки ф( x ) вычислим ее дисперсию: D (((x))= M ((x)^(x))2 - (M ((x)^(x)) . (7) Исследуем асимптотические свойства среднеквадратического отклонения ( м(Ф(x)-Ф(x))2=Trм x(ф^ьф/(x))2 T i j=1 T T XXM(x )- (j (x )) M(x )- ф'(x ))) j=1 '=1 ' ^ j (8) Определим асимптотическое выражение м{ф^)-фj (x))2 = = M ((2 (x)) - 2ф(x)M =x (x)) + ф2 (x). (9) p ((•■■, 'k )d'1 •••d'k, (5) Следуя использованной ранее технологии вычислений, проведем преобразования: M ф (') = M ^—J . При выполнении данных преобразований учитывается, что элементы статистической выборки V являются значениями одних и тех же случайных величин (', y) с плотностью вероятности p (у , 1 •, 'k ). Проведем в выражении (5) замену переменных (ф2 (x )): 1 n 2 c2k- 2 p (x) f k (i 2 +X XM( y [Л ф( XM (y) Пф Tj I v Л k ( у Пф v=1 ■>Л / •>Л V /J функции —2 2k 2 / \ n c p (x) rj... Jф2 м,..., 'k )П ф2 2 I xv - 'v 4 с v=1 и 43 Математика, механика, информатика x p = ,...,'k)d'1...d'k + n (n -1) J..^,..., 'k )]П Ф xv tv ]pM,...,'k)d'1...d'k Пренебрегая величинами малости 01 — I n ( 1 У — k-2 inc j 0 (c6 ), найдем асимптотическое выраже- ние: M J2 (x ))~ ф2 (x )+ - k1 ( )ф2 (x )П Jф2 (uv )duv 4 f nc p(x) - v=1 4p (x) 'X MM p jx ccv2^l + c2 pß XMH p jx O' I v=1 J p\x)v=\ ф(х) ■ .J2) + c ф(х). 2 p (x ) X X M'=x) pM\x))- v=1 r=1 V ■ X (ф{2) (x) pM (x) J u> (uv ) duv ) v=1 (10) При достаточно большом объеме n статистических данных ^ф(х)) — (ф( х )). Тогда, подставляя выражения (6) и (10) в (9), получим M М/ (х)-ф(х ))2 ~ -к ^П Jф 2 (uv )du nc p(x) 4 p (x) X (ф(х ) p=x ° I v=1 (11) J2) С учетом свойства асимптотической несмещенности (6) и статистической независимости выборок V/, V' второе слагаемое выражения (8) представим в виде Tr X X (M Мх) -М (x))M (ф(х)-ф'(х ))) ~ T j=1'=1 ' ^ J -4 f k 4 p2 (x) XM(x ) p (x ))v2) +0 (c6 ). (12) V v=1 Подставляя выражения (11) и (12) в (8), получим асимптотическое выражение среднеквадратического отклонения: m М(х )-ф(х ))2 с T 2 4 ( k T ( ф2 (х) k 'p (Х) Щф2 (uv )d и.. + 4p2(х) XM(x ) p(х ^ (2) 2 I v=1 X (ф(х ) p(х )) I v=1 + T (T -1) ф2(х) ; T nckp (х) 4p2(х) П Jф2 (uv )d v=1 uv + - 4 p2 (x ) J2) . (13) Отсюда, если принять во внимание соотношения (6) и (13), то из условия c ^ 0, nck ^œ при n ^œ следует свойство состоятельности коллектива многомерных непараметрических регрессий ф(х). При T = 1, k = 1 полученный результат (13) совпадает с утверждением работы [3], что подтверждает корректность выполненных преобразований. Анализ аммроксимационных свойств статистики ф{ х). Для анализа в принятых условиях эффективности коллектива ф{ х) и традиционной непараметрической регрессии 1 k ( Х ф (х)= ( )-k X Пф np (x)c i=1 v=1 c I J рассмотрим отношения соответствующих им асимптотических выражений среднеквадратических отклонений, дисперсий и смещений при оптимальных значениях коэффициентов размытости ядерных функций. Определим минимальное значение W2 выражения 1П Jф2 (uv )duv Tnck J... Jф2 (x ) p 1 (x ) dx1... dxk + + T J. J|p-1 (x )XM(X ) p J*)) dx1 •••dxk , (14) 4 I v=1 J которое получено путем интегрирования результата (13). Из условия минимума (14) по коэффициенту размытости с нетрудно получить его оптимальное значение для составляющих статистики ф(х ): ( c = kA П Jф2 (uv)duv у/(k+4) n B где A = J. Jф2 {x)p 1 (x)dx1...dxk ; B=J---J| p-1 =x)XM(x)p(x))l,2) dx1 . Тогда, подставляя c * в выражение (14), получим W2 = ( k A Шф2 (uv )duv v=1 V (k+4) V Bk 4 + Tk 4Tkk M+4) . (15) 4 0 4 с + v=1 4 4 44 Вестник Сибирского государственного аэрокосмического университета имени академика М. Ф. Решетнева Асимптотическое выражение среднеквадратического отклонения непараметрической регрессии ф {х ) совпадает с результатом (13) при T = 1, n = n и c = c (n) = c , при этом его минимальное значение при оптимальном коэффициенте размытости =*„-1/ ( k+4) c = c T n ’ определяется выражением A Шф 2 Juv )duv \ 4 V (k+4 ) Bk 4 + k 4 k4 (k+4 ). После несложных преобразований получим отно шение W2 / W2 : 4 + Tk W T k/ (k+4) (4 + k ) Для статистики ф(х) и непараметрической регрессии ф (х ) главные дисперсионные составляющие определяются соответственно первыми слагаемыми выражений (13) и (11) при n = n . Вычислим отношение их минимальных значений W3 и W3 при оптимальных коэффициентах размытости c*, c * ядерных функций: r = W = 1 3 W3 Tk/Jk+4) Нетрудно убедиться, что отношение асимптотических выражений смещений W1, W1 анализируемых оценок кривой регрессии (1) ф(х ) и ф (х ) при оптимальных коэффициентах размытости ядерных функций соответствует значению r = = t 2 (k+4 ) 1 w ■ С ростом количества T составляющих коллектива непараметрических регрессий наблюдается увеличение значений отношений R1 >1 (см. рисунок, часть а) и R2 > 1 (см. рисунок, часть б). Отмеченное ухудшение аппроксимационных свойств коллектива ф{х) по сравнению с непараметрической регрессией ф {х) объясняется снижением объемов n выборок, используемых при оценивании составляющих ф{х). Такая тенденция особенно характерна для малых размерностей k случайной величины x . При усложнении условий оценивания кривой регрессии (1) с ростом k эффективность непараметрических оценок ф{х) и ф (х) снижается. Соответствующие им критерии W2, W2 и W1, W1 становятся соизмеримыми, что проявляется в снижении значений их отношений R2 и R1. Предлагаемый коллектив ф(х) имеет меньшую дисперсию по сравнению с непараметрической регрессией ф {х). Это обусловлено структурой статистики ф(х), так как ее синтез осуществляется на основе усредняющего оператора (см. рисунок, часть в), причем с увеличением количества T составляющих коллектива непараметрических регрессий ф(х) и размерности k аргументов восстанавливаемой зависимости преимущество этой статистики возрастает. Таким образом, на основе анализа асимптотических свойств коллектива непараметрических регрессий обоснована возможность декомпозиции исходных статистических данных при восстановлении многомерных зависимостей в условиях больших выборок. Исследуемая статистика по сравнению с традиционной непараметрической регрессией имеет значительно меньшую дисперсию и позволяет использовать технологию параллельных вычислений.
×

Sobre autores

A. Lapko

Email: lapko@icm.krasn.ru

V. Lapko

Email: lapko@icm.krasn.ru

Bibliografia

  1. Надарая Э. А. Непараметрические оценки кривой регрессии // Тр. ВЦ АН ГССР. 1965. Вып. 5. С. 56-68.
  2. Parzen E. On Estimation of a Probability Density Function and Mode // Ann. Math. Statistic. 1962. Vol. 33. P.1065-1076.
  3. Лапко А. В. Имитационные модели неопределённых систем. Новосибирск : Наука, 1993.

Arquivos suplementares

Arquivos suplementares
Ação
1. JATS XML

Declaração de direitos autorais © Lapko A.V., Lapko V.A., 2012

Creative Commons License
Este artigo é disponível sob a Licença Creative Commons Atribuição 4.0 Internacional.

Este site utiliza cookies

Ao continuar usando nosso site, você concorda com o procedimento de cookies que mantêm o site funcionando normalmente.

Informação sobre cookies