The use of hermite special functions for investigation of power properties of grubbs statistics

Abstract


We consider a normal sample with a single upper outlier. A distribution of studentized form of outlier’s deviation from the sample mean is obtained. This distribution uses Hermite special functions with negative integer-valued index. The integral relationships for David’s power measures of Grubbs criteria are obtained. We discuss the case, when Grubbs statistic is the likelihood-ratio statistic. We find the maximal deviation of power function for Grubbs criteria from the probability that the contaminant is the outlier and it is identified as discordant. We receive the region of critical values of Grubbs statistic, where the second power measure of David equals to the third and forth power measures of David. We make calculations of power function for Grubbs criteria in the case of normal samples with a single upper outlier with the right shift. The results of calculations are similar to the theoretically expected facts.

Full Text

Введение. Пусть X1 , X2 , . . . , Xn−1 , Xn — случайная выборка из n значений нормально распределенной случайной величины X; X(1) X(2) . . . X(n−1) X(n) — построенный по ней упорядоченный вариационный ряд; X(j) — j-тая порядковая статистика (j = 1, 2, . . . , n). Проверяемая нулевая гипотеза H0 состоит в том, что наблюдения X1 , X2 , . . . , Xn−1 , Xn являются независимыми случайными величинами с нормальным распределением N (a, σ 2 ). В качестве конкурирующей гипотезы H1 рассмотрим случай, когда какие-либо (n − 1) из n наблюдений имеют одинаковое N (a, σ 2 ) распределение, а одно из них — выброс Xout — имеет распределение N (a + λσ, νσ 2 ). Параметр сдвига λ 0 характеризует среднее (ожидаемое) смещение выброса вправо, а параметр масштаба ν > 0 определяет изменение дисперсии выброса относительно остальных наблюдений. Гипотеза H1 моделирует ситуацию, когда вероятность «засорения» выборки аномальными наблюдениями весьма 131 Ш и р я е в а Л. К. мала [1], а сам выброс отличается от «обычных» наблюдений сдвигом вправо своего математического ожидания и измененной дисперсией. В частности, для случая λ > 0 и ν = 1 получаем модель, учитывающую только сдвиг вправо математического ожидания выброса, а для λ = 0 и ν = 1 модель учитывает только изменение дисперсии выброса. Статистика критерия Граббса для проверки на один верхний выброс имеет вид [2] (1) Gn = X(n) − X /S, 1 1 где X = n n Xi и S 2 = n−1 n (Xi − X)2 . i=1 i=1 Гипотеза H0 отвергается, если наблюдаемое значение статистики Граббса превысит критическое Gcr , отвечающее выбранному уровню значимости α. n;α Для исследования мощностных свойств критерия Граббса будем использовать следующие меры мощности Дэйвида для статистики Граббса [1]: P1 = P Gn > Gcr | H1 , n;α P2 = P (Xout − X)/S > Gcr | H1 , n;α P4 = P P3 = P {Gn > Gcr } ∩ X(n) = Xout | H1 , n;α (Xout − X)/S > Gcr ∩ (X(n−1) − X)/S < Gcr | H1 . n;α n;α Мера мощности P1 является, по сути, «классической» функцией мощности критерия Граббса, ибо она равна вероятности не допустить ошибку второго рода. Поэтому мера P1 особенно подходит для задачи выявления выборок с аномальными наблюдениями. Меры P2 –P4 могут быть использованы для обнаружения выброса в выборке. Заметим также, что вероятность выявления выборки с аномальным наблюдением не совпадает с вероятностью обнаружения выброса, так как [1] P1 P2 P3 P4 . (2) В работе [3] найдены формулы для вычисления мер мощности P1 –P4 в случае, когда для выборки объёма n (n 3) справедлива гипотеза H1 :  1 t √n ;  1,   t  (1) 1 √ 1− Fn−1 (ρn (t, x))fT˜ (x)dx, √n < t n−1 ; (3) P1 (t) = n n n−1  √ − n    0, √ t > n−1 ; n  n−1 1, t < − √n ;    n−1  √ n P2 (t) = (4) √ √ fTn (ξ)dξ, − n−1 t n−1 ; ˜ n n  t    √ 0, t > n−1 ; n  n−1 √  n  (1) 1  t √n ;   √ Fn−1 (gn (x)) fT˜n (x)dx,  1  n n−1 √ P3 (t) = (5) n (1) 1  √  Fn−1 (gn (x)) fT˜n (x)dx, √n < t n−1 ;  n   t  n−1  √ ; 0, t> n 132 Использование специальных функций Эрмита для исследования мощностных свойств. . . P4 (t) =      1 t < − √n ; 0, n−1 √ n t     (1) 1 Fn−1 (ρn (t, x)) fT˜ (x)dx, − √n n 0, t n−1 √ ; n (6) n−1 √ . n t> Здесь t — критическое значение статистики (1), отвечающее некоторому уровню значимости α (0 α 1); ρn (t, x) = t+ x n−1 n−1 n−2 / 1− n x2 (n−1)2 , (1) √ |x| < n−1 ; gn (x) = ρn (x, x); Fm (t) = P (Gm < t | H0 ). n Закон распределения случайной величины Gm в условиях справедливой гипотезы H0 известен [4, 5]: (1) Fm (t) = 0, 1,      t   m   где fTm (x) = +∞ = (1) 1 √ m Fm−1 (gm (x)) fTm (x)dx, m m−1 πΓ 2 1 m−1 t t> /Γ m−2 2 1− 1 √ m 1 √ , m m−1 √ , m m−1 √ , m 0. Тогда для n 3 плотность ˜ распределения вероятностей случайной величины Tn имеет вид  n−4 2  2 √ Kn (n−1) − t2 In (t), |t| < n−1 , n n (9) fT˜ (t) = n n−1  √ , 0, |t| n где (n − 1)2 Kn = √ n 2πΓ n−2 2 ∞ In (t) = 0 y n−3 2 n−2 2 η 2 √ etµ e− µ2 2 y−0,5q(t)y , dy, η= 1 + ν(n − 1) , n q(t) = η µ=λ n−1 , nη (n − 1)2 + (1 − η)t2 . n 133 Ш и р я е в а Л. К. В данной работе найдено новое представление для плотности fT˜n через специальную функцию Эрмита и показано, что это представление совпадает с формулой (9). Найденное представление было использовано для получения интегральных представлений для мер мощности критерия Граббса, использующих функции Эрмита. Отдельно рассмотрен случай, когда статистика критерия является статистикой отношения правдоподобия. 1. Вывод основных соотношений для плотности вероятностей случайной ˜ величины Tn . Чтобы вывести новое представление для плотности распределения вероятностей случайной величины (8), докажем два вспомогательных утверждения. Лемма 1. Пусть W и Z — независимые случайные величины с плотностями распределения вероятностей fW и fZ и областями √ значений R+ и R соответственно. Тогда ∀r ∈ R случайная величина U = r W − Z имеет плотность распределения вероятностей ∞ fU (u) = 0 √ fW (x)fZ (r x − u)dx. (10) Д о к а з а т е л ь с т в о. Интегральная функция распределения случайной √ величины U = r W − Z ∀r ∈ R следующая: √ √ FU (u) = P (U < u) = P (r W − Z < u) = P (Z > r W − u). По условию W и Z — случайные величины с областями значений R+ и R соответственно, поэтому √ FU (u) = P ({r W − u < Z < ∞} ∩ {W > 0}). Случайные величины W и Z независимы, следовательно, ∞ FU (u) = fW (x)dx 0 ∞ (11) fZ (z)dz. √ r x−u Продифференцировав (11), получим плотность случайной величины U : fU (u) = dFU (u) = du ∞ 0 √ fW (x)fZ (r x − u)dx, что и требовалось доказать. Лемма 2. Пусть случайные величины W и Z являются независимыми, причём величина W имеет распределение χ2 (n − 1), а Z имеет нормальное √ √ распределение N (a0 , 1). Тогда ∀t ∈ − n−1 ; n−1 плотность распределения n n √ вероятностей случайной величины Vn (t) = βn (t) W − Z в точке v = 0 следующая: fVn (t) (0) = 134 An h n−1 2 (t) (n − 1)2 − nt2 n−1 2 H−n+1 − a0 t , 2h(t) (12) Использование специальных функций Эрмита для исследования мощностных свойств. . . где ct βn (t) = (n − 1)2 − nt2 2 − a2 Γ(n − 1) 0 e 2 · ; π Γ( n−1 ) 2 An = c−n+1 Hk (z) = ∞ 1 Γ(−k) e−ξ , c = const > 0; h(t) = 2 −2zξ (n − 1)2 + (c2 − n)t2 ; c2 ξ −k−1 dξ, k < 0. 0 Д о к а з а т е л ь с т в о. Обозначим плотности случайных величин W и Z через fχ2 и fZ соответственно. По условию W и Z — независимые случайные n−1 величины с областями значений R+ и R соответственно. Следовательно, ∀t ∈ √ √ √ − n−1 ; n−1 плотность случайной величины Vn (t) = βn (t) W − Z можно n n найти по формуле (10): fVn (t) (v) = ∞ 0 √ fχ2 (x)fZ (βn (t) x − v)dx. n−1 Здесь плотность величины W следует вычислять по формуле [6]  k−2 x  x 2 e− 2 , x 0, k fχ2 (x) = 2 2 Γ( k ) 2 k  0, x < 0, (13) при k = n − 1, а плотность величины Z — по формуле (x−a0 )2 1 fZ (x) = √ e− 2 . 2π (14) Далее, в точке v = 0 плотность величины Vn (t) есть ∞ fVn (t) (0) = 0 √ fχ2 (x)fZ (βn (t) x)dx. n−1 Сделав под знаком интеграла в (15) замену переменных ξ = приведём его к виду fVn (t) (0) = где Hk (z) = 1 Γ(−k) 2fZ (0)Γ(n − 1) 2 (1 + βn (t)) ∞ e−ξ 2 −2zξ n−1 2 Γ( n−1 ) 2 H−n+1 − a0 βn (t) 2 2(1 + βn (t)) (15) 2 1+βn (t) √ x, 2 , ξ −k−1 dξ — функция Эрмита с отрицательным 0 целым значком (k < 0) [7]. Положим h(t) = (n − 1)2 + (c2 − n)t2 , c2 An = c−n+1 2 − a2 Γ(n − 1) 0 e 2 · , π Γ( n−1 ) 2 135 Ш и р я е в а Л. К. где c = const > 0. Легко убедиться, что ∀c > 0 справедливы равенства a0 βn (t) 2 2(1 + βn (t)) a0 t = 2h(t) 1 , (βn (t) + 1) n−1 2 = c−n+1 h n−1 2 (n − 1)2 − nt2 (t) n−1 2 . Отсюда fVn (t) (0) = An h n−1 2 (t) (n − 1)2 − nt2 n−1 2 H−n+1 − a0 t 2h(t) , что и требовалось доказать. Используя соотношения (10) и (12), можно найти новое представление для ˜ плотности вероятностей случайной величины Tn . Теорема 2. Пусть выполняются условия теоремы 1. Тогда для n 3 ˜ плотность распределения вероятностей случайной величины Tn имеет вид   Bn · √ (n−1)2 √ · fVn (t) (0), |t| < n−1 , n [(n−1)2 −nt2 ]3 (16) fT˜n (t) = n−1  √ , 0, |t| n где Bn = 2n η · Γ( n−1 ) 2 Γ( n−2 2 , η= 1+ν(n−1) ; n √ Vn (t) = βn (t) W − Z; fVn (t) (0) вычисn η; случайные величины W и Z являются ) ляется по формуле (12) при c = независимыми; W имеет распределение χ2 (n − 1), Z имеет нормальное распределение N (a0 , 1), a0 = µ, µ = λ n−1 nη . Д о к а з а т е л ь с т в о. Нетрудно проверить, что при n следующие равенства: n−1 ∗ Xout − X , Xout − X = n ∗ 3 справедливы ∗ n − 2 ∗2 (Xout − X )2 S + , S = n−1 n 2 (17) ∗ n−1 n−1 1 1 где X = n−1 i=1 Xi и S ∗2 = n−2 i=1 (Xi − X )2 вычисляются по выборке объёма (n − 1), не содержащей выброса. ˜ С учётом (17) для случайной величины Tn получим n−1 ˜ Tn = √ n ∗ sign(Xout − X ) n(n−2)S ∗2 ∗ (n−1)(Xout −X )2 . (18) +1 Рассмотрим случайные величины Y = (n − 2)S ∗2 /σ 2 , Z= n−1 ∗ (Xout − X )/σ. nη (19) Согласно теореме Фишера [6] случайная величина Y имеет распределение χ2 (n − 2). Легко проверить, что случайная величина Z имеет нормальное распределение N (µ,1). 136 Использование специальных функций Эрмита для исследования мощностных свойств. . . С учётом введенных обозначений формула (18) примет вид sign(Z) n−1 ˜ Tn = √ n 1 + η −1 Y /Z 2 (20) . ˜ Пусть t < 0. Найдём интегральную функцию FT˜ (t) = P (Tn < t). С учётом n (20) получаем FT˜ (t) = P n {Z < 0} FT˜ (t) = P n 1 − 1+ η −1 Y /Z 2 < √ nt n−1 (n − 1)2 Y < −1 ηZ 2 nt2 {Z < 0} √ Заметим, что для t − n−1 событие n можным, следовательно, FT˜ (t) = 0, n Y ηZ 2 (n−1)2 nt2 < , . становится невоз- −1 n−1 − √ . n t (21) √ Далее ∀t ∈ (− n−1 ; 0) имеем n FT˜ (t) = P n Z< t n · η (n − 1)2 − nt2 √ Y . Как и ранее (см. лемму 2), обозначим βn (t) = √ ct 2 2 , c = const > 0. (n−1) −nt √ n {0 < Y < ∞} . Z < βn (t) Y Положим c = η , тогда FT˜ (t) = P n Согласно теореме Фишера случайные величины Z и Y являются независимыми [6], следовательно, FT˜ (t) = n ∞ √ βn (t) y fY (y)dy (22) fZ (z)dz. 0 −∞ Здесь плотность fZ (z) случайной величины Z вычисляется по формуле (14) при условии a0 = µ, а плотность fY (y) случайной величины Y вычисляется согласно (13) для k = n − 2. Аналогичным образом можно получить для случая t 0: FT˜ (t) = n где Φ(z) =   1 2 − Φ(µ) +  √1 2π z ∞ 0 √ yβn (t) fY (y)dy 1, fZ (z)dz, 0 0 t< t n−1 √ , n n−1 √ , n (23) ξ2 e− 2 dξ — функция Лапласа. 0 137 Ш и р я е в а Л. К. Объединяя соотношения (21), (22) и (23), получим  √ 0, t − n−1 ;  n  √   βn (t) y ∞    √ fY (y)dy fZ (z)dz, − n−1 < t < 0;  n 0 −∞ √ FT˜ (t) = βn (t) y ∞ n  1  − Φ(µ) +  2 √ fZ (z)dz, 0 t < n−1 ; fY (y)dy  n   0 0   n−1 √ . 1, t n Продифференцировав FT˜ (t), найдём плотность распределения вероятностей n ˜ случайной величины Tn :  √ 0, |t| n−1 ;  n ∞ fT˜ (t) = (24) √ √ n−1 n  βn (t) yfY (y)fZ (βn (t) y)dy, |t| < √n , 0 где βn (t) = n (n − 1)2 . · η [(n − 1)2 − nt2 ] 3 2 (25) Используя соотношение (13), легко проверить, что √ 2Γ n−1 √ 2 yfY (y) = fχ2 (y). n−1 Γ n−2 2 (26) Тогда сотношение (24) с учётом (25) и (26) примет вид  ∞ √  B · √ (n−1)2 fχ2 (y)fZ (βn (t) y)dy, |t| < · n n−1 [(n−1)2 −nt2 ]3 fT˜n (t) = 0  0, |t| где Bn = 2n η · Γ( n−1 ) 2 Γ( n−2 ) 2 n−1 √ , n n−1 √ , n . Положим, что имеется случайная величина W , распределённая по закону χ2 (n − 1); кроме того, будем считать, что W и Z — независимые случайные √ √ величины и величина Z определена согласно (19). Тогда ∀t ∈ (− n−1 ; n−1 ) и n n √ n 3 можно определить случайную величину Vn (t) = βn (t) W − Z с плотностью fVn (t) . Используя формулу (10), получаем, что интеграл в (27) равен ∞ 0 √ fW (y)fZ (βn (t) y)dy = fVn (t) (0). Поэтому соотношение (27) примет вид   Bn · √ (n−1)2 · fVn (t) (0), |t| < [(n−1)2 −nt2 ]3 fT˜n (t) =  0, |t| 138 n−1 √ , n n−1 √ , n Использование специальных функций Эрмита для исследования мощностных свойств. . . что и требовалось доказать. Теперь, используя леммы 2 и 3, можно получить представление плотности fT˜ через функцию Эрмита. n Для этого найдём по формуле (12) плотность fVn (t) (0) для случая, когда c= n η и a0 = µ, и подставим полученное выражение в (16). Легко убедиться, что в результате формула (16) примет вид  n−4 n−1 2  nt2 Dn q − 2 (t) 1 − (n−1)2 H−n+1 − √tµ , |t| < 2q(t) fT˜ (t) = n  0, |t| где Dn = 2Γ(n−1) Γ( n−2 ) 2 µ2 · e− 2 √ π η n · · (n − 1) n−2 n−1 √ , n n−1 √ , n (28) . Покажем, что соотношения (9) и (28) для плотности fT˜ (t) совпадают. n Для k = −n + 1 можно записать [7] 1 tµ = Γ(n − 1) 2q(t) H−n+1 − ∞ −ξ 2 + √2tµ ξ n−2 2q(t) ξ e dξ. 0 Вводя новую переменную интегрирования y = 2ξ 2 /q(t), можно представить последнее соотношение в виде H−n+1 − tµ 2q(t) = q 2 n+1 2 Поскольку n−1 2 Γ(n − 1) ∞ In (t) = ∞ (t) √ etµ √ etµ y−0,5q(t)y y n−3 2 dy. 0 y−0,5q(t)y y n−3 2 dy 0 (см. теорему 1), то равенство (29) принимает вид n−1 H−n+1 − tµ q 2 (t) = n+1 In (t). 2q(t) 2 2 Γ(n − 1) С учётом (30) соотношение (28) можно привести к виду  n−4 √ n−4 (n−1)2 2 n  Dn − t2 In (t), |t| < n+1 n−1 n fT˜n (t) = 2 2 Γ(n−1)  0, |t| (30) n−1 √ , n n−1 √ . n (31) Если вернуться к обозначению (см. теорему 1) (n − 1)2 Kn = √ n 2πΓ n−2 2 η 2 n−2 2 то легко убедиться в справедливости равенства √ Dn n Kn = n+1 2 2 Γ(n − 1) n − 1 e− µ2 2 , n−4 . 139 Ш и р я е в а Л. К. Поэтому соотношение (31) принимает вид соотношения (9). Откуда следует, что соотношения (9) и (28) совпадают. 2. Интегральные представления для мер мощности в случае, когда статистика критерия является статистикой отношения правдоподобия. Предположим, что выброс Xout имеет сдвиг вправо в математическом ожидании и ту же дисперсию, что и остальные наблюдения в выборке. Это предположение часто считают правдоподобным приближением к действительности, поэтому его исследование наиболее интересно с практической точки зрения. Известно, что в такой ситуации статистика Gn становится статистикой отношения правдоподобия [5]. В этом случае параметр масштаба ν = 1, в то время как параметр сдвига λ > 0. Поэтому соотношение (28) примет вид  n−4  √n 2 nt2 √ H−n+1 − √tµ , |t| < n−1 , dn 1 − (n−1)2 n−1 n 2q0 fT˜ (t) = (32) n n−1  √ , 0, |t| n где dn = Γ(n−1) Γ( n−2 ) 2 2 · µ 2 √ e− 2 π ,µ=λ n−1 n , q0 = (n−1)2 . n √ Подставив (32) в (3)–(6) и выполнив замену переменных x = n−1 sin ϕ, n получим следующие интегральные представления для мер мощности:  1 1, t √n ;   √   nt  arcsin n−1   (1) Fn−1 (rn (t, ϕ)) × 1 − dn (33) P1 (t) = −π/2   n−1 1 n−3 ϕH √ √n ;  √ 1, t < − n−1 ;  n   π/2  √ √ dn cosn−3 ϕH−n+1 (θn (ϕ))dϕ, − n−1 t n−1 ; (34) P2 (t) = √ n n nt  arcsin n−1    √ 0, t > n−1 ; n  π/2  (1)  d  Fn−1 (sn (ϕ)) ×  n  1  arcsin n−1    1  × cosn−3 ϕH−n+1 (θn (ϕ))dϕ, t √n ;   π/2 P3 (t) = (35) (1)  dn Fn−1 (sn (ϕ)) × √  nt   arcsin n−1   n−1 1  √ n−1 ; n  1 0, t < − √n ;     π/2   (1)  d Fn−1 (rn (t, ϕ)) × √ n nt (36) P4 (t) = arcsin n−1  n−1 1  n−3 ϕH √ ;  × cos − √n t −n+1 (θn (ϕ))dϕ,  n   n−1  0, t > √n . 140 Использование специальных функций Эрмита для исследования мощностных свойств. . . Здесь rn (t, ϕ) = θn (ϕ) = µ − √2 √ nt cos ϕ n−2 n(n−1) (n−2)n n−1 + tg ϕ , sn (ϕ) = sin ϕ. tg ϕ, |ϕ| < π/2; 1 √ , n−1 √ n n Из соотношений (33) и (36) следует, что ∀t ∈ P1 (t) = δn (t, λ) + P4 (t). Здесь δn (t, λ) = 1 − dn π 2 −π 2 (1) Fn−1 (rn (t, ϕ)) cosn−3 ϕH−n+1 (θn (ϕ))dϕ (37) — величина отклонения. Из условия (2) вытекает, что P1 (t) − P2 (t) P1 (t) − P3 (t) P1 (t) − P4 (t) ≡ δn (t, λ). Таким образом, величина δn (t, λ) на заданном уровне значимости α определяет максимально возможное отклонение вероятности обнаружить присутствие одиночного выброса в выборке (мера P1 ) от вероятности его точного обнаружения (меры P2 –P4 ). Из формулы (37) следует также, что δn (t, λ) — убывающая функция аргумента t. Поскольку с ростом критических значений уровень значимости критерия уменьшается, то переход, например, от пятипроцентного уровня значимости к однопроцентному приведёт лишь к уменьшению величины δn (t, λ). Легко проверить, что в области Q= tf t n−1 √ , arcsin n n−2 2(n − 1) имеем ϕ n−2 √ , n−1 rn (t, ϕ) π/2 , sn (ϕ) tf = (n − 1)(n − 2) 2n n−2 √ . n−1 Следовательно, с учётом (7) получим (1) Fn−1 (rn (t, ϕ)) = 1, (1) Fn−1 (sn (ϕ)) = 1 arcsin (t, ϕ) ∈ Q; n−2 2(n − 1) ϕ π/2 . Поэтому для критических значений t, удовлетворяющих условию tf n−1 √ , третья и четвёртая меры мощности совпадают со второй: n t P3 (t) = P4 (t) = P2 (t). 141 Ш и р я е в а Л. К. n tf α(n; tf ) n tf α(n; tf ) 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 0,87 1,10 1,29 1,46 1,62 1,76 1,90 2,02 2,14 2,25 2,36 2,46 2,56 2,66 2,75 0,8453 0,6806 0,5334 0,4109 0,3126 0,2356 0,1763 0,1312 0,0972 0,0717 0,0527 0,0387 0,0283 0,0206 0,0150 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 2,84 2,92 3,01 3,09 3,17 3,25 3,32 3,40 3,47 3,54 3,61 3,68 3,75 3,81 3,88 0,0109 0,0079 0,0058 0,0042 0,0030 0,0022 0,0016 0,0011 0,0008 0,0006 0,0004 0,0003 0,0002 0,0002 0,0001 Уровни значимости α(n; tf ) критерия, соответствующие критическим значениям tf , можно найти из условия α(n; tf ) = P (Gn > tf | H0 ) = (1) = 1 − Fn (tf ), (1) где значение Fn (tf ) может быть найдено численно по формуле (7). В таблице приведены результаты численных расчётов уровней значимости α(n; tf ) для критических значений tf нулевого распределения статистики Gn в случае выборок объёмов n от 4 до 33. Из таблицы видно, что на пятипроцентном уровне значимости для числа наблюдений 4 n 14 получаем P2 (Gcr ) = P3 (Gcr ) = P4 (Gcr ). n;0,05 n;0,05 n;0,05 Для выборок объёмом 15 n 19 имеем P2 (Gcr ) = P3 (Gcr ) = P4 (Gcr ). n;0,01 n;0,01 n;0,01 Для n 20 можно записать cr cr P2 (Gcr n;α<0,005 ) = P3 (Gn;α<0,005 ) = P4 (Gn;α<0,005 ). Обычно исследователь использует «стандартные» уровни значимости (0,01 α 0,05), поэтому можно быть уверенным, что для выборок объёмом n 20 имеет место строгое неравенство P2 (Gcr ) > P3 (Gcr ) > P4 (Gcr ), n;α n;α n;α 0,01 α 0,05. 3. Численное моделирование. Полученные интегральные соотношения для мер (33)–(36) могут быть использованы для исследования чувствительности критерия Граббса к наличию в выборке одного выброса. Цель расчётов — продемонстрировать возможности практического применения мер мощности. Для этого был разработан алгоритм вычисления мер мощности по формулам (33)–(36). Определенные интегралы в мерах P1 –P4 вычислялись приближен(1) но по формуле Симпсона, при этом значения функции распределения Fn−1 (x) вычислялись рекурсивно по формуле (7), плотности fT˜n (t) — по формуле (28). Алгоритм вычисления мер мощности P1 –P4 был реализован на языке программирования Object Pascal. Численные расчёты мер P1 –P4 , а также отклонения δn были выполнены для случая нормально распределенной выборки, в которой присутствовал выброс с параметрами λ > 0 и ν = 1. 142 Использование специальных функций Эрмита для исследования мощностных свойств. . . На рис. 1 представлены результаты численных расчётов меры P1 (tcr ) по формуле (33) для выборок объёмом n от 5 до 100 и значений параметра λ от 1 до 5. Величина tcr была выбрана равной критическому значению статистики Gn на стандартном уровне значимости α = 0,05, т. е. tcr = Gcr . n;0,05 Мера P1 (tcr ), таким образом, равна вероятности не совершить ошибку второго рода на пятипроцентном уровне значимости. Как и следовало ожидать в соответствии с общей теорией вопроса, для выборки фиксированного объёма с ростом параметра λ наблюдалось увеличение мощности критерия. Из рис. 1 видно, как мера P1 (tcr ) возрастает с ростом параметра сдвига λ для разных значений n. Вероятность не совершить ошибку второго рода, т. е. обнаружить присутствие аномального наблюдения в выборке объёма n, мала для λ 2 и близка к 1 для λ 4. Видно также, что вероятность обнаружить присутствие выброса в выборке из 20 наблюдений практически не отличается от вероятности обнаружить его присутствие в выборке из 100 наблюдений. Рис. 1. Графики зависимости первой меры мощности P1 (tcr ) от объёма выборки n для значений λ от 1 до 5 (tcr = Gcr n;0,05 ) Рис. 2. Графики зависимости отклонения δn (tcr , λ) от λ для объёмов выборок n от 5 до 100 (tcr = Gcr n;0,05 ) 143 Ш и р я е в а Л. К. На рис. 2 представлены результаты численных расчётов по формуле (37) величины отклонения δn (tcr , λ) = P1 (tcr ) − P4 (tcr ) для случая, когда в нормально распределенной выборке объёма n имеется выброс с параметром сдвига λ. Видно, что при фиксированных уровне значимости α и объёме выборки n величина отклонения δn является убывающей функцией параметра сдвига λ. Если не менять параметр сдвига λ и уровень значимости α, то увеличение числа наблюдений n будет приводить к росту отклонения δn . Из рис. 2 видно также, что выборка объёма n = 20 может считаться более предпочтительной для исследователя, чем, например, объёма n = 50 или n = 100; при переходе от n = 20 к n 50 мера P1 меняется незначительно (см. рис. 1), однако отклонения от нее мер P2 –P4 могут существенно вырасти. Заключение. Получено новое представление для закона распределения стьюдентизированного отклонения выброса от среднего в нормально распределенной выборке, основанное на использовании функции Эрмита с отрицательным целым значком. Это представление было использовано для получения интегральных представлений мер мощности Дэйвида P1 –P4 критерия Граббса в случае, когда статистика критерия является статистикой отношения правдоподобия. При этом нулевой гипотезой H0 служило предположение о том, что выборка из n наблюдений случайно извлечена из нормальной N (a; σ 2 ) генеральной совокупности. Конкурирующая гипотеза H1 состояла в том, что в выборке имеется одно аномальное наблюдение Xout с распределением N (a + λσ; σ 2 ). Определена область критических значений статистики Граббса, в которой меры мощности Дэйвида P2 –P4 , предназначенные для обнаружения выброса, совпадают. Получена формула для вычисления максимально возможного отклонения мер мощности Дэйвида, предназначенных для обнаружения выброса, от классической функции мощности критерия. Выполнены модельные расчёты классической функции мощности критерия для случая нормально распределенной выборки с выбросом, отличающимся от остальных наблюдений сдвигом вправо. Результаты вычислений оказались близки к теоретически ожидаемым. Автор выражает искреннюю благодарность профессору Олегу Александровичу Репину за помощь и поддержку, оказанные им при работе со специальными функциями.

About the authors

Ludmila K Shiryaeva

Samara State Economic University

Email: shiryeva_lk@mail.ru
141, Sovetskoy Armii st., Samara, 443090, Russia
(Ph. D. (Phys. & Math.)), Associate Professor, Dept. of Mathematic Statistics and Econometrics

References

  1. David H. A. Order Statistics: 2nd ed. / Wiley Series in Probability and Mathematical Statistics. New York: John Wiley & Sons, 1981. xiii+360 pp.
  2. Grubbs F. E. Sample criteria for testing outlying observations // Ann. Math. Statistics, 1950. Vol. 21, no. 1. Pp. 27–58.
  3. Ширяева Л. К. Вычисление мер мощности критерия Граббса проверки на один выброс // Сиб. журн. индустр. матем., 2010. Т. 13, № 4. С. 141–154.
  4. Zhang J., Keming Y. The null distribution of the likelihood-ratio test for one or two outliers in a normal sample // Test, 2006. Vol. 15, no. 1. Pp. 141–150.
  5. Barnett V., Lewis T. Outliers in statistical data: 3nd ed. / Wiley Series in Probability and Mathematical Statistics: Applied Probability and Statistics. Chichester: John Wiley & Sons, 1994. xviii+584 pp.
  6. Айвазян С. А., Мхитарян В. С. Теория вероятностей и прикладная статистика. Т. 1. М.: Юнити-Дана, 2001. 656 с.
  7. Лебедев Н. Н. Специальные функции и их приложения. М.: Физ.-мат. лит., 1963. 358 с.

Statistics

Views

Abstract - 9

PDF (Russian) - 2

Cited-By


Refbacks

  • There are currently no refbacks.

Copyright (c) 2012 Samara State Technical University

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies