Optimized algorithm to determine the probability distribution law on a sampling from total aggregate

Abstract


The article deals with the problem of reconstructing the density of distribution law on sampling from total aggregate. The existing reconstruction algorithms, their defects and a new algorithm for reconstruction have been supposed in the article.

Full Text

На сегодняшний день существует огромное количество информационных продуктов, которые могут проводить самые разнообразные расчеты. Все статистические данные легко можно обработать, используя эти пакеты. Однако в практике статистического анализа и моделирования точный вид закона распределения анализируемой генеральной совокупности, как правило, бывает неизвестен. Зачастую, исследователь располагает лишь выборкой из интересующей генеральной совокупности. Использование статистического пакета подразумевает, что исследователю точно известен вид закона распределения, который задается на начальном этапе обработки данных. Незнание же закона распределения, которому подчиняется выборка, приводит к тому, что исследователь, как правило, берет за основу нормальное распределение, что приводит к неграмотной (недостоверной) интерпретации показателей [3]. В практике статистического анализа и моделирования точный вид закона распределения анализируемой генеральной совокупности, как правило, бывает неизвестен. Зачастую, исследователь располагаем лишь выборкой из интересующей генеральной совокупности. Поэтому задача сводится к определению распределения вероятности по выборке, то есть к обратной задаче теории вероятности [7]. Для восстановления неизвестной функции плотности распределения в рамках непараметрической статистики разработан ряд методов и алгоритмов [4]. В то же время практика решения задач свидетельствует о том, что в подавляющем большинстве случаев для восстановления функции плотности используется метод гистограмм [1]. Ряд ученых-статистиков указывают на значительные недостатки данного способа [3], и, как следствие, недостоверность результатов. Поэтому нахождение закона распределения, перед анализом данных, является актуальной задачей статистики. Цель исследований – разработать алгоритм восстановления плотности вероятности по выборке из генеральной совокупности. Зная плотность вероятности можно делать выводы о свойствах изучаемых процессов, с применением стандартного набора методов, характерного для того или иного закона распределения [5]. Исходя из цели работы, в задачи исследований входило: 1) выявить отличительные свойства различных законов распределения; 2) на основе выявленных свойств, классифицировать существующие законы распределения; 3) создать функционирующие алгоритмы определения отличительных свойств закона распределения по выборке; 4) создать единый алгоритм распознавания закона распределения по выборке. Итак, за основу возьмем различные свойства законов распределения, которые позволят с большой долей вероятности принимать или отвергать гипотезу о принадлежности распределения тому или иному закону. Для этого необходимо классифицировать законы распределения по их свойствам. Классификация представлена на рисунке 1. Однако данная классификация нуждается в ведении строгой последовательности действий и определении очередности проверок [2]. Первый этап обработки результатов очевиден – определение, к какому классу относятся распределения, к количественному или к неколичественному (номинальному или ординальному). Этот этап определяется и в существующей схеме, являясь, по существу, вводным, поскольку анализ неколичественных случайных величин весьма специализирован, и исследователь, как правило, знает, о неколичественной природе изучаемых величин. Дальнейшие рассуждения будут относиться только к количественным величинам. Для правильного определения закона распределения необходимо определить последовательность действий. Сначала определение непрерывности или дискретности, затем определение отрицательности – не отрицательности, затем, конечность – бесконечность. Существуют еще законы распределения вероятностей, используемые при реализации техники статистических вычислений: «Хи-квадрат» – распределение с m степенями свободы, Стьюдента с m степенями свободы, распределение дисперсионного отношения с числом степеней свободы числителя m1 и числом степеней свободы знаменателя m2 [6]. Для описания этой группы используем термин «технические распределения». Как и в случае с неколичественными распределениями, исследователь, как правило, осведомлен о том, что имеет дело с техническим распределением, поэтому данный этап не составляет труда. Далее следует вычислить и сравнить моду, математическое ожидание и медиану. Равенство трех этих показателей отбрасывают сразу ощутимую часть законов распределений. Однако полного равенства не будет, поскольку исследователь имеет дело с выборкой, в расчетах будет небольшая погрешность. Определившись с видом случайных величин, рассчитывают эмпирическую функцию распределения (эмпирическую функцию плотности ) или эмпирическую относительную частоту появления i-го возможного значения Xi дискретной случайной величины. Классификация законов распределения По прерывности Дискретные Непрерывные По характеру распределения Технические распределения Распределения данных По промежутку задания данных По конечности По отрицательности Конечные Бесконечные Задаются только на положительных промежутках Задаются на всех промежутках По видам кривых распределения По количеству вершин Многовершинные Одновершинные По характеру вершин Островершинные Плосковершинные По виду хвостов С легкими хвостами С тяжелыми хвостами Симметричные Умеренно асимметричные Крайне асимметричные По виду распределения Количественные Неколичественные Номинальные Ординальные Математическое ожидание, мода, медиана Неравны Равны Рис. 1. Классификация законов распределения Наиболее информативной для непрерывных случайных величин является эмпирическая функция плотности . После проведенных выше операций можно приступать к построению гистограммы по алгоритму, описанному выше. Далее, эмпирически, по количеству и виду вершин, по характеру хвостов и асимметричности можно будет сделать предварительное заключение о законе распределения, которому подчиняется исследуемая выборка. Таким образом, иерархическая схема будет иметь следующий вид (рис. 2). 1. Исследование на количественность 2. Исследование на дискретность 3. Исследование на отрицательность 4. Исследование на конечность 5. Исследование на «технические распределения» 6. Сравнение моды, математического ожидания и медианы 7. Построение гистограммы и ее эмпирические исследования 8. Проверка гипотезы при помощи статистических критериев Рис. 2. Иерархическая схема определения закона распределения по выборке Для данной схемы необходимо отметить один момент: если нет возможности выполнить какой-либо этап (нехватка данных и т.п.) необходимо переходить к следующему этапу. В этом случае придется проверять большее количество гипотез о законах распределения. Стоит сказать о самих операциях исследования, которые изображены на рисунке 2. Выше уже говорилось об исследованиях, приведенных в этапе 1 и 5. Также был приведен алгоритм разбиения совокупности на интервалы и построения гистограммы (этап 7). Проверке гипотезы о законе распределения при помощи статистических критериев (этап 8) посвящено достаточно большое количество литературы. Этап 6 – сравнение моды, медианы и математического ожидания в процессе реализации особых вопросов не вызывает, поскольку расчет данных показателей элементарен. Поэтому «проблемными» этапами реализации данного алгоритма являются этапы 2, 3 и 4. Конечность или бесконечность распределения исследователь может оценить только при наличии дополнительной информации (например, об известных ограничениях). Исследование на отрицательность имеет только один доступный способ, который снижает неопределенность лишь отчасти: если в выборке имеются отрицательные значения, то закон распределения также должен включать в себя отрицательный интервал. Если отрицательных значений нет – неопределенность остается. Для исследования распределения на непрерывность или дискретность существует несколько способов, но «безотказного» механизма нет. Один из приближенных способов отличия непрерывного и дискретного распределения заключается в поиске частоты повторений f(x) отдельных вариантов значений распределения. Если максимальное значение max f(x) не является слишком большим, то справедливо утверждать, что распределение является непрерывным. Алгоритм для определения дискретности (непрерывности будет сведен к следующим действиям): нахождение наибольшего числа повторений признака max f(x); оценка этого значения. На основании этих данных можно делать предположение о непрерывности или дискретности распределения. Однако этот способ имеет очень большие трудности при интерпретации результатов [8]. Объединив приведенные выше способы, задав им иерархическую структуру, представленную на рисунке 2, получим искомый единый алгоритм распознавания закона распределения по выборке. Основным преимуществом данного алгоритма является его способность к адаптации. Вновь выявленный закон распределения можно подвести под существующую классификацию, задать всего лишь один дополнительный уточняющий параметр и алгоритм не потеряет своей актуальности. Полученный алгоритм позволяет существенно повысить точность расчетов и исследований, поскольку определяет закон распределения случайных величин. Может применяться в экономике, физике, биологии, медицине, социологии и других науках, в которых используется статистическая обработка данных.

About the authors

S S Akimov

FSBEI HVE Orenburg SU


References

  1. Сызранцев, В. Н. Адаптивные методы восстановления функции плотности распределения вероятности / В. Н. Сызранцев, Я. П. Невелев, С. Л. Голофаст // Известия вузов. Машиностроение. – 2006. – №12. – С. 3-11.
  2. Фомина, О. В. Изучение влияния алиментарных факторов питания на показатели крови лабораторных животных с использованием непараметрической статистики / М. В. Фомина, О. В. Кван, С. С. Акимов, О. Н. Суханова // Вестник Оренбургского Государственного университета. – 2011. – №15(134). – С. 150-153.
  3. Айвазян, С. А. Афанасьев М.Ю. Модель стохастической границы в оценке человеческого капитала // Байкальские экономические чтения. Трансформация социально-экономического пространства : тр. Международной научно-практической конференции. – 2010. – Т.2. – С. 74-79.
  4. Шепель, В. Н. Алгоритм определения эмпирической функции плотности по выборке из генеральной совокупности // Современные информационные технологии в науке и практике : мат. VIII Всероссийской научно-практической конференции (с международным участием). – Оренбург : ИПК ГОУ ОГУ, 2009. – С. 224-226.
  5. Шепель, В. Н. Эвристическая процедура определения подходящего распределения вероятности / В. Н. Шепель, С. С. Акимов // Компьютерная интеграция производства и ИПИ-технологии : мат. V Всероссийской научно-практической конференции. – Оренбург : ИП Осиночкин Я. В., 2011. – С. 137-140.
  6. Gritsak, V. V. A Bundle-Categorical Algorithm (Telescop) for the Decision of a Direct and Return Problems of Pattern Recognition / V. V. Gritsak, J. Gritsak, S. P. Iglin // The 2002 International Conference on Mathematics and Engineering Techniques in Medicine and Biological Sciences. – Las Vegas, 2006. – 129 ME.
  7. Богданов, Ю. И. Метод максимального правдоподобия и корневая оценка плотности распределения // Заводская лаборатория. Диагностика материалов. – 2004. – Т. 70, №3. – С. 52-61.
  8. Литвинов, В. А. Оценка уровня виртуальной интеллектуальности прикладной программно-технической системы на основе анализа эргономической модели / В. А. Литвинов, И. Н. Оксанич // Математические машины и системы. – Киев, 2008. – №2. – С. 100-105.

Statistics

Views

Abstract - 27

Cited-By


Article Metrics

Metrics Loading ...

PlumX

Dimensions

Refbacks

  • There are currently no refbacks.

Copyright (c) 2013 Akimov S.S.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies