Ocena rozkładu na podstawie wykresów kwantylowych Zofia Hanusz, Joanna Tarasińska Katedra Zastosowań Matematyki i Informatyki Uniwersytet Przyrodniczy w Lublinie
Jednowymiarowe wykresy kwantylowe - niezależne punkty powinny się układać wzdłuż linii kwantyl z próby rzędu kwantyl z N(0,1) Miarą współliniowości punktów jest statystyka Shapiro-Wilka. Jej małe wartości świadczą o braku współliniowości i powodują odrzucenie hipotezy o normalności rozkładu.
kwantyl z rozkładu o dystrybuancie F Jeśli próba nie pochodzi z rozkładu normalnego, to punkty Pi układają się przeważnie w krzywą nieliniową a po jej kształcie można czasem odgadnąć takie cechy rozkładu, jak skośność czy rodzaj „ogonów”. Na dalszych rysunkach przedstawiono teoretyczny kształt krzywych, wzdłuż których układają się punkty gdy próba jest generowana z określonych rozkładów. Krzywe te opisane są równaniem : kwantyl z rozkładu F kwantyl z rozkładu o dystrybuancie F kwantyl z N(0,1)
rozkład jednostajny na (0,1) n=20 p-value= 0.0734 n=100 p-value= 0.0013
rozkład Beta(2,2) n=20 p-value=0,1534 n=100 p-value=0,0169
Rozkład t(1) n=20 p-value = 4,427 E-05 n=100 p-value = 2,2 E-16
Rozkład t(5) n=20 p-value = 0,0592 n=100 p-value = 0,0066
Rozkład wykładniczy(l=1) n=20 p-value = 0,00074 n=100 p-value = 3,21 E-11
Mieszanina ½ z N(0,1), ½ z N(5,1) n=20 p-value = 0,0324 n=100 p-value = 6,256 E-06
scale contaminated normal (Tukey) Mieszanina Mieszanina ½ z N(0,1), ½ z N(0,9) scale contaminated normal (Tukey) n=100 p-value = 6.758 E-05 n=20 p-value = 0.1542
dwumianowy (10,0.1) n=20 p-value = 0.001575 n=100 p-value = 3.994 E-09
Poissona (l=1) n=100 p-value = 4,344 E-10 n=20 p-value = 0,0085
Poissona (l=20) n=20 p-value = 0,737 n=100 p-value = 0,7532
Dane wielowymiarowe – metoda graficzna Small’a (Small, 1978, Biometrika 65) - iid (Gnanadesikan & Kettenring, 1972, Biometrika 28) as. niezależne powinny ułożyć się wzdłuż prostej c=d kwantyl rozkładu Beta rzędu (Blom,1958,”Statistical estimates and transformed Beta-variables” Wiley, New York)
Następnie narysowano (czerwoną) linię łączącą punkty Obliczono średnie Aby znaleźć prawdziwą teoretyczną linię, wokół której układają się punkty w metodzie Smalla generowano 100 000 prób o liczebności n z ustalonego rozkładu. Dla każdej próby znaleziono ciąg Następnie narysowano (czerwoną) linię łączącą punkty ( ) i j c .
Rozkład t(1)p n=20, p= 2 p-value 4.796 E-06 n=100, p=2, p-value = 0
Rozkład jednostajny(0,1)p n=20, p=2, p-value = 0.158 Uwaga! tu słaba moc H-Z a na wykresie Smalla wyraźnie widać nienormalność n=100, p=2, p-value = 0.0001
n=20, p=2, jedn(0,1)p Beta(2,2)p MPII(0) t(1)p t(2)p MPVII(2)
N(0,I) t(2)2 MPVII(2)
Symetryczny czy skośny? n = 20, p = 2 t(1)p t’(1,l=5)p
Mieszanina ½ z N([0,0],I), ½ z N([5,0],I) n=20, p=2 p-value = 0.106 (widać, że kiepsko Small wykrywa) n=100, p=2 p-value = 0.0004
Rozkład dwumianowy(n=10, q=0,1)p 100-elementowa próba p=4, p-value = 4.430 E-07 p=2, p-value = 6.668 E-05
Dane wielowymiarowe – wykres kwantylowy Adaptacja pomysłu Roystona (Royston , 1983, „Some techniques for assessity multivariate normality based on Shapiro-Wilk W”, Appl. Statist.32, 121-133) dystr. asymp.
Aby znaleźć teoretyczną linię, wokół której układają się punkty na wykresie kwantylowym generowano po 10 000 prób o liczebności n z różnych rozkładów . Dla każdej próby j znaleziono ciąg statystyk porządkowych Narysowano linię łączącą punkty punkty powinny ułożyć się wzdłuż prostej y = x
n=100, p=2 Rozkład t(1)2 Roystona Smalla
n=100, p=2 Rozkład jednost.(0,1)2 Roystona Smalla
Mieszanina ½ z N([0,0],I), ½ z N([5,0],I) n=100, p=2 Mieszanina ½ z N([0,0],I), ½ z N([5,0],I) Smalla Roystona