Зависимость свойств регрессионной оценки плотности вероятности от особенностей методики её синтеза

  • Авторы: Борисов Д.В.1, Лапко А.В.2,1, Лапко В.А.1,3
  • Учреждения:
    1. Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева
    2. Институт вычислительного моделирования Сибирского отделения Российская академия наук
    3. Институт вычислительного моделирования Сибирского отделения Российской академии наук
  • Выпуск: Том 15, № 1 (2014)
  • Страницы: 4-7
  • Раздел: Статьи
  • URL: https://journals.eco-vector.com/2712-8970/article/view/504008
  • ID: 504008

Цитировать

Полный текст

Аннотация

Исследуются аппроксимационные свойства регрессионной оценки плотности вероятности. Синтез оценки основывается на декомпозиции исходных статистических данных и анализе вероятностных характеристик получаемых множеств случайных величин. Устанавливается зависимость свойств регрессионной оценки плотности вероятности от методов дискретизации интервала значений случайной величины. Из условия минимума асимптотического выражения среднеквадратического отклонения определена процедура оптимального выбора количества интервалов дискретизации. Полученная формула зависит от вида восстанавливаемой плотности вероятности и объёма априорных данных. Результаты исследований имеют важное значение при решении задач проверки гипотез о распределениях случайных величин и доверительного оценивания плотности вероятности.

Полный текст

Непараметрические оценки плотности вероятности типа Розенблатта-Парзена широко используются при синтезе алгоритмов обработки информации и принятии решений в условиях априорной неопределённости [1-11]. Однако их вычислительная эффективность во многом определяется объёмом статистических данных и снижается по мере его увеличения. В данных условиях целесообразно использовать принципы декомпозиции исходных статистических данных по их объёму и технологию параллельных вычислений. С этих позиций предложена и исследована смесь непараметрических оценок плотностей вероят ности для одномерных и многомерных случайных величин [4; 12; 13]. Перспективное направление решения проблем больших выборок связано с декомпозицией исходных статистических данных и последующим анализом вероятностных характеристик получаемых множеств случайных величин [14; 15]. Пусть имеется выборка V = (x', i = 1, n) из n независимых значений одномерной случайной величины x с неизвестной плотностью вероятности p(x). Разобьем область определения p(x) на N непересекающихся * Работа выполнена в рамках базовой части государственного задания Минобрнауки РФ (СибГАУ № Б121/14). 4 Вестник СибГАУ. № 1(53). 2014 интервалов длиной 2р и сформируем множества случайных величин XJ, j = 1, N . В качестве характеристик XJ примем частоту PJ попадания случайной величины x в j-й интервал и его центр zJ. На основе полученной информации определим массив данных V = (zj, PJ /(2Р), j = 1, N), составленный из центров z j введенных интервалов и соответствующих им значений оценок плотности вероятности. Объём N полученных данных V1 может быть значительно меньше объёма n исходной статистической информации V. В качестве приближения по эмпирическим данным VI искомой плотности вероятности p(x) примем статистику [15] p (x) = c 1 ^ PJ Ф j=1 (1) в которой ядерные функции Ф(u) являются положительными, симметричными и нормированными [16]. Коэффициенты размытости c ядерных функций характеризуют область их определения. В работе исследуется зависимость аппроксимаци-онных свойств регрессионной оценки плотности вероятности (1) от известных методов дискретизации области изменения значений случайной величины. Выбор оптимального количества интервалов дискретизации области значений случайной величины. В работе [17] исследованы свойства среднеквадратического отклонения M \(Р (x)- p(x ))2 dx W2 (N ) = (lNu)f) Ip(2)(x)|| 2 N4 (2) N2 \V5 где N = VAI |p(x Я2 (3) которая определяется видом восстанавливаемой плотности вероятности, значением A и объёмом n исходных статистических данных. Полученная закономерность является объективной, так как не зависит от вида ядерных функций оценки плотности вероятности (1). Исследование аппроксимационной регрессионной оценки плотности вероятности. Будем восстанавливать плотность вероятности случайной величины с нормальным законом распределения p (x exp i^r Для выбора количества интервалов дискретизации области изменения значений случайной величины используется выражение (3), а также следующие формулы: - Хайнкольда и Гаеде N = sfn; (4) - Брукса и Каррузера N = 5 lg n ; (5) - Старджесса N = log2 n +1. (6) Синтез непараметрической оценки плотности вероятности (1) осуществлялся на основе ядерных функций В. А. Епанечникова [16] 3 3 u2 V 4л/5 20^ 0 V В данных условиях выражение (2) запишется в виде |u| <л/5, \u\ > л/5 . оценки p (x) (1) от восстанавливаемой плотности вероятности p(x) при больших объёмах исходных статистических данных, где M - знак математического ожидания. При оптимальных значениях коэффициентов размытости получено его асимптотическое выражение 1 ~5( N 2 2sfn (All p(x Ml2) +да +да Ф^ )|| = |Ф2 (u )du , ||p (x )|| =| p2 (x) dx, -да -да о -> l|p(2) (x) = I (p(2) (x))dx; A - длина интервала изменения значений случайной величины. Из условия минимума асимптотического выражения среднеквадратического отклонения p (x) от p(x) получена процедура оптимального выбора количества интервалов дискретизации [17; 18] 15 N4 При увеличении объёма n исходных статистических данных применение исследуемых методов дискретизации интервала изменения значений случайной величины приводит к уменьшению значений W2 (см. рисунок). Наблюдаемое улучшение аппроксима-ционных свойств p (x) объясняется увеличением объёма N массива данных V1 , используемого при построении регрессионной оценки плотности вероятности (см. таблицу). Данный факт согласуется с условиями её асимптотической сходимости [15]. Зависимость количества интервалов N от значений n и используемых формул дискретизации n Формулы дискретизации (3) (4) (5) (6) 50 9 7 8 7 100 13 10 10 8 150 16 12 11 8 200 18 14 12 9 250 21 16 12 9 300 23 17 12 9 5 Математика, механика, информатика Окончание таблицы n Формулы дискретизации (3) (4) (5) (6) 350 24 19 13 9 400 26 20 13 10 450 28 21 13 10 500 29 22 13 10 Применение формулы (3) при выборе количества N интервалов дискретизации является более предпочтительным по сравнению с другими, так как она получена на основе минимизации асимптотического выражения среднеквадратического отклонения (2). Зависимости W2 от объёма n исходных данных при использовании формул (3), (4) являются близкими. Им свойственны сопоставимые значения количества N интервалов дискретизации области изменения случайной величины (см. таблицу). При малых n < 100 количество N интервалов дискретизации, которые определяются формулами (3)-(6), и соответствующие им значения W2 отличаются незначительно. При восстановлении плотности вероятности с нормальным законом распределения целесообразно использовать формулы (3), (4). Менее предпочтительными являются формулы (5), (6). Полученные выводы согласуются с результатами исследований асимптотических свойств регрессионной оценки плотности вероятности. Зависимость среднеквадратического отклонения W2 (N) от объёма n значений случайной величины с нормальным законом распределения: кривые 1, 2, 3, 4 соответствуют значениям N, вычисленным по формулам (3)-(6)
×

Об авторах

Дмитрий Владимирович Борисов

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева

Email: dimbo2007@yandex.ru
студент

Александр Васильевич Лапко

Институт вычислительного моделирования Сибирского отделения Российская академия наук; Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева

Email: lapko@icm.krasn.ru
доктор технических наук, профессор, главный научный сотрудник, Институт вычислительного моделирования Сибирского отделения Российской академии наук; профессор кафедры космических средств и технологий, Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева.

Василий Александрович Лапко

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева; Институт вычислительного моделирования Сибирского отделения Российской академии наук

Email: valapko@yandex.ru
доктор технических наук, профессор, заведующий кафедрой космических средств и технологий, Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева; ведущий научный сотрудник, Институт вычислительного моделирования Сибирского отделения Российской академии наук

Список литературы

  1. Лапко А. В., Лапко В. А. Гибридные модели стохастических зависимостей // Автометрия. 2002. № 5. С. 38-48.
  2. Лапко В. А., Капустин А. Н. Синтез нелинейных непараметрических коллективов решающих правил в задачах распознавания образов // Автометрия. 2006. Т. 42, № 6. С. 26-33.
  3. Лапко А. В., Лапко В. А. Анализ непараметрических алгоритмов распознавания образов в условиях пропуска данных // Автометрия. 2008. Т. 44, № 3. С. 65-74.
  4. Лапко А. В., Лапко В. А., Егорочкин И. А. Непараметрические оценки смеси плотностей вероятности и их применение в задаче распознавания образов // Системы управления и информационные технологии. 2009. № 1 (35). С. 60-64.
  5. Лапко А. В., Лапко В. А. Коллектив непараметрических решающих функций в двуальтернативной задаче распознавания образов // Системы управления и информационные технологии. 2009. № 3.1 (37). С. 156-160.
  6. Лапко А. В., Лапко В. А. Разработка и исследование двухуровневых непараметрических систем классификации // Автометрия. 2010. Т. 46, № 1. С. 70-78.
  7. Лапко А. В., Лапко В. А. Асимптотические свойства многомерной непараметрической оценки уравнения разделяющей поверхности в двуальтернативной задаче распознавания образов // Системы управления и информационные технологии. 2010. № 1 (39). С. 16-19.
  8. Лапко А. В., Лапко В. А. Непараметрическая оценка уравнения разделяющей поверхности в условиях больших выборок и её свойства // Системы управления и информационные технологии. 2010. № 1.2 (39). С. 300-304.
  9. Лапко А. В., Лапко В. А. Применение непараметрического алгоритма распознавания образов в задаче проверки гипотезы о распределениях случайных величин // Системы управления и информационные технологии. 2010. № 3 (41). С. 8-11.
  10. Лапко А. В., Лапко В. А. Непараметрические алгоритмы распознавания образов в задаче проверки статистической гипотезы о тождественности двух законов распределения случайных величин // Автометрия. 2010. Т. 46, № 6. С. 47-53.
  11. Лапко А. В., Лапко В. А. Синтез структуры семейства непараметрических решающих функций в задаче распознавания образов // Автометрия. 2011. Т. 47, № 4. С. 76-82.
  12. Лапко А. В., Лапко В. А. Синтез структуры смеси непараметрических оценок плотности вероятности многомерной случайной величины // Системы управления и информационные технологии. 2011. № 1 (43). С. 12-15.
  13. Лапко А. В., Лапко В. А. Анализ свойств непараметрических оценок смеси плотностей вероятности при различных условиях распределения статистических данных // Информатика и системы управления. 2013. № 1 (35). С. 119-126.
  14. Лапко А. В., Лапко В. А. Непараметрические методики анализа множеств случайных величин // Автометрия. 2003. Т. 39, № 1. С. 54-61.
  15. Лапко А. В., Лапко В. А. Регрессионная оценка плотности вероятности и ее свойства // Системы управления и информационные технологии. 2012. № 3 (49). С. 152-156.
  16. Епанечников В. А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятности и ее применения. 1969. Т. 14. Вып. 1. С. 156-161.
  17. Лапко А. В., Лапко В. А. Оптимальный выбор количества интервалов дискретизации области изменения одномерной случайной величины при оценивании плотности вероятности // Измерительная техника. 2013. № 7. С. 24-27.
  18. Lapko A. V., Lapko V. A. Optimal selection of the number of sampling intervals in domain of variation of a one-dimensional random variable in estimation of the probability density // Measurement Techniques. 2013. Vol. 56, no. 7. P. 24-27 (doi: 10.1007/s11018-013-0279-x).

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Борисов Д.В., Лапко А.В., Лапко В.А., 2014

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах