Dependence of the regression estimator properties of a probability density on singularities of its synthesis technique


Citar

Texto integral

Resumo

Approximating properties of the regression estimator of a probability density are investigated. Estimation synthesis is based on decomposition of initial statistical data and the analysis ofprobabilistic characteristics of received sets of random variables. Dependence of the regression estimator properties of a probability density on methods of digitization of an interval of values of a random variable is established. A deviation mean square procedure of an optimum choice of an amount of intervals of digitization is defined from a condition of a minimum of asymptotic expression. The received formula depends on an aspect of a restored probability density and volume of a priori data. Outcomes of researches are important to the solution of the problems of a hypothesis test about distributions of random variables and a confidential estimation of a probability density.

Texto integral

Непараметрические оценки плотности вероятности типа Розенблатта-Парзена широко используются при синтезе алгоритмов обработки информации и принятии решений в условиях априорной неопределённости [1-11]. Однако их вычислительная эффективность во многом определяется объёмом статистических данных и снижается по мере его увеличения. В данных условиях целесообразно использовать принципы декомпозиции исходных статистических данных по их объёму и технологию параллельных вычислений. С этих позиций предложена и исследована смесь непараметрических оценок плотностей вероят ности для одномерных и многомерных случайных величин [4; 12; 13]. Перспективное направление решения проблем больших выборок связано с декомпозицией исходных статистических данных и последующим анализом вероятностных характеристик получаемых множеств случайных величин [14; 15]. Пусть имеется выборка V = (x', i = 1, n) из n независимых значений одномерной случайной величины x с неизвестной плотностью вероятности p(x). Разобьем область определения p(x) на N непересекающихся * Работа выполнена в рамках базовой части государственного задания Минобрнауки РФ (СибГАУ № Б121/14). 4 Вестник СибГАУ. № 1(53). 2014 интервалов длиной 2р и сформируем множества случайных величин XJ, j = 1, N . В качестве характеристик XJ примем частоту PJ попадания случайной величины x в j-й интервал и его центр zJ. На основе полученной информации определим массив данных V = (zj, PJ /(2Р), j = 1, N), составленный из центров z j введенных интервалов и соответствующих им значений оценок плотности вероятности. Объём N полученных данных V1 может быть значительно меньше объёма n исходной статистической информации V. В качестве приближения по эмпирическим данным VI искомой плотности вероятности p(x) примем статистику [15] p (x) = c 1 ^ PJ Ф j=1 (1) в которой ядерные функции Ф(u) являются положительными, симметричными и нормированными [16]. Коэффициенты размытости c ядерных функций характеризуют область их определения. В работе исследуется зависимость аппроксимаци-онных свойств регрессионной оценки плотности вероятности (1) от известных методов дискретизации области изменения значений случайной величины. Выбор оптимального количества интервалов дискретизации области значений случайной величины. В работе [17] исследованы свойства среднеквадратического отклонения M \(Р (x)- p(x ))2 dx W2 (N ) = (lNu)f) Ip(2)(x)|| 2 N4 (2) N2 \V5 где N = VAI |p(x Я2 (3) которая определяется видом восстанавливаемой плотности вероятности, значением A и объёмом n исходных статистических данных. Полученная закономерность является объективной, так как не зависит от вида ядерных функций оценки плотности вероятности (1). Исследование аппроксимационной регрессионной оценки плотности вероятности. Будем восстанавливать плотность вероятности случайной величины с нормальным законом распределения p (x exp i^r Для выбора количества интервалов дискретизации области изменения значений случайной величины используется выражение (3), а также следующие формулы: - Хайнкольда и Гаеде N = sfn; (4) - Брукса и Каррузера N = 5 lg n ; (5) - Старджесса N = log2 n +1. (6) Синтез непараметрической оценки плотности вероятности (1) осуществлялся на основе ядерных функций В. А. Епанечникова [16] 3 3 u2 V 4л/5 20^ 0 V В данных условиях выражение (2) запишется в виде |u| <л/5, \u\ > л/5 . оценки p (x) (1) от восстанавливаемой плотности вероятности p(x) при больших объёмах исходных статистических данных, где M - знак математического ожидания. При оптимальных значениях коэффициентов размытости получено его асимптотическое выражение 1 ~5( N 2 2sfn (All p(x Ml2) +да +да Ф^ )|| = |Ф2 (u )du , ||p (x )|| =| p2 (x) dx, -да -да о -> l|p(2) (x) = I (p(2) (x))dx; A - длина интервала изменения значений случайной величины. Из условия минимума асимптотического выражения среднеквадратического отклонения p (x) от p(x) получена процедура оптимального выбора количества интервалов дискретизации [17; 18] 15 N4 При увеличении объёма n исходных статистических данных применение исследуемых методов дискретизации интервала изменения значений случайной величины приводит к уменьшению значений W2 (см. рисунок). Наблюдаемое улучшение аппроксима-ционных свойств p (x) объясняется увеличением объёма N массива данных V1 , используемого при построении регрессионной оценки плотности вероятности (см. таблицу). Данный факт согласуется с условиями её асимптотической сходимости [15]. Зависимость количества интервалов N от значений n и используемых формул дискретизации n Формулы дискретизации (3) (4) (5) (6) 50 9 7 8 7 100 13 10 10 8 150 16 12 11 8 200 18 14 12 9 250 21 16 12 9 300 23 17 12 9 5 Математика, механика, информатика Окончание таблицы n Формулы дискретизации (3) (4) (5) (6) 350 24 19 13 9 400 26 20 13 10 450 28 21 13 10 500 29 22 13 10 Применение формулы (3) при выборе количества N интервалов дискретизации является более предпочтительным по сравнению с другими, так как она получена на основе минимизации асимптотического выражения среднеквадратического отклонения (2). Зависимости W2 от объёма n исходных данных при использовании формул (3), (4) являются близкими. Им свойственны сопоставимые значения количества N интервалов дискретизации области изменения случайной величины (см. таблицу). При малых n < 100 количество N интервалов дискретизации, которые определяются формулами (3)-(6), и соответствующие им значения W2 отличаются незначительно. При восстановлении плотности вероятности с нормальным законом распределения целесообразно использовать формулы (3), (4). Менее предпочтительными являются формулы (5), (6). Полученные выводы согласуются с результатами исследований асимптотических свойств регрессионной оценки плотности вероятности. Зависимость среднеквадратического отклонения W2 (N) от объёма n значений случайной величины с нормальным законом распределения: кривые 1, 2, 3, 4 соответствуют значениям N, вычисленным по формулам (3)-(6)
×

Sobre autores

Dmitry Borisov

Siberian State Aerospace University named after academician M. F. Reshetnev

Email: dimbo2007@yandex.ru
a student

Alexander Lapko

Siberian State Aerospace University named after academician M. F. Reshetnev; Institute of Computational Modelling of Russian Academy of Sciences, Siberian Branch

Email: lapko@icm.krasn.ru
Doctor of Engineering Science, professor, Leading researcher of Institute of Computational Modelling of Russian Academy of Sciences, Siberian Branch, professor of the Space craft and Technologies Department, Siberian State Aerospace University named after academician M. F. Reshetnev.

Vasily Lapko

Institute of Computational Modelling of the Russian Academy of Sciences, Siberian Branch; Siberian State Aerospace University named after academician M. F. Reshetnev

Email: valapko@yandex.ru
Doctor of Engineering Sciences, associate professor, Leading researcher of Institute of Computational Modelling of the Russian Academy of Sciences, Siberian Branch, head of the Space craft and Technologies Department, Siberian State Aerospace University named after academician M. F. Reshetnev

Bibliografia

  1. Лапко А. В., Лапко В. А. Гибридные модели стохастических зависимостей // Автометрия. 2002. № 5. С. 38-48.
  2. Лапко В. А., Капустин А. Н. Синтез нелинейных непараметрических коллективов решающих правил в задачах распознавания образов // Автометрия. 2006. Т. 42, № 6. С. 26-33.
  3. Лапко А. В., Лапко В. А. Анализ непараметрических алгоритмов распознавания образов в условиях пропуска данных // Автометрия. 2008. Т. 44, № 3. С. 65-74.
  4. Лапко А. В., Лапко В. А., Егорочкин И. А. Непараметрические оценки смеси плотностей вероятности и их применение в задаче распознавания образов // Системы управления и информационные технологии. 2009. № 1 (35). С. 60-64.
  5. Лапко А. В., Лапко В. А. Коллектив непараметрических решающих функций в двуальтернативной задаче распознавания образов // Системы управления и информационные технологии. 2009. № 3.1 (37). С. 156-160.
  6. Лапко А. В., Лапко В. А. Разработка и исследование двухуровневых непараметрических систем классификации // Автометрия. 2010. Т. 46, № 1. С. 70-78.
  7. Лапко А. В., Лапко В. А. Асимптотические свойства многомерной непараметрической оценки уравнения разделяющей поверхности в двуальтернативной задаче распознавания образов // Системы управления и информационные технологии. 2010. № 1 (39). С. 16-19.
  8. Лапко А. В., Лапко В. А. Непараметрическая оценка уравнения разделяющей поверхности в условиях больших выборок и её свойства // Системы управления и информационные технологии. 2010. № 1.2 (39). С. 300-304.
  9. Лапко А. В., Лапко В. А. Применение непараметрического алгоритма распознавания образов в задаче проверки гипотезы о распределениях случайных величин // Системы управления и информационные технологии. 2010. № 3 (41). С. 8-11.
  10. Лапко А. В., Лапко В. А. Непараметрические алгоритмы распознавания образов в задаче проверки статистической гипотезы о тождественности двух законов распределения случайных величин // Автометрия. 2010. Т. 46, № 6. С. 47-53.
  11. Лапко А. В., Лапко В. А. Синтез структуры семейства непараметрических решающих функций в задаче распознавания образов // Автометрия. 2011. Т. 47, № 4. С. 76-82.
  12. Лапко А. В., Лапко В. А. Синтез структуры смеси непараметрических оценок плотности вероятности многомерной случайной величины // Системы управления и информационные технологии. 2011. № 1 (43). С. 12-15.
  13. Лапко А. В., Лапко В. А. Анализ свойств непараметрических оценок смеси плотностей вероятности при различных условиях распределения статистических данных // Информатика и системы управления. 2013. № 1 (35). С. 119-126.
  14. Лапко А. В., Лапко В. А. Непараметрические методики анализа множеств случайных величин // Автометрия. 2003. Т. 39, № 1. С. 54-61.
  15. Лапко А. В., Лапко В. А. Регрессионная оценка плотности вероятности и ее свойства // Системы управления и информационные технологии. 2012. № 3 (49). С. 152-156.
  16. Епанечников В. А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятности и ее применения. 1969. Т. 14. Вып. 1. С. 156-161.
  17. Лапко А. В., Лапко В. А. Оптимальный выбор количества интервалов дискретизации области изменения одномерной случайной величины при оценивании плотности вероятности // Измерительная техника. 2013. № 7. С. 24-27.
  18. Lapko A. V., Lapko V. A. Optimal selection of the number of sampling intervals in domain of variation of a one-dimensional random variable in estimation of the probability density // Measurement Techniques. 2013. Vol. 56, no. 7. P. 24-27 (doi: 10.1007/s11018-013-0279-x).

Arquivos suplementares

Arquivos suplementares
Ação
1. JATS XML

Declaração de direitos autorais © Borisov D.V., Lapko A.V., Lapko V.A., 2014

Creative Commons License
Este artigo é disponível sob a Licença Creative Commons Atribuição 4.0 Internacional.

Este site utiliza cookies

Ao continuar usando nosso site, você concorda com o procedimento de cookies que mantêm o site funcionando normalmente.

Informação sobre cookies