Benutzer:Boomdiada/Shapiro-Wilk-Test

Der Shapiro-Wilk-Test (nach S. Shapiro und M. Wilk) ist ein statistischer Test zur Überprüfung der Hypothese, dass eine univariate Stichprobe aus einer normalverteilten Grundgesamtheit stammt. Eine Weiterentwicklung des Tests, der sogenannte Royston's H-Test, ermöglicht die Überprüfung mehrdimensionaler Stichproben auf multivariate Normalverteilung.

Die vergleichsweise hohe Teststärke des Shapiro-Wilk-Tests in zahlreichen Situationen, insbesondere bei kleineren Stichproben, erklärt seine Beliebtheit als Vortest: um sicherzustellen, dass die Daten die Normalitätsannahme weiterführender statistischer Verfahren nicht verletzen. So ist er oder seine Abwandlungen (wie der Ryan-Joiner-Test) in zahlreichen Statistik-Softwarepaketen vertreten.

Konzept

Man verfüge über n unabhängigen Beobachtungen einer metrisch skalierten Zufallsvariable X, wobei der Stichprobenumfang n zwischen 3 und 5000 liegen sollte:

$x_{(1)},\ x_{\left(2\right)},\dots ,\ x_{(n)}$

Überprüft werden soll, ob die Zufallsvariable X eine Normalverteilung befolgt. Oder alternativ ausgedrückt: ob eine Normalverteilung der Grundgesamtheit vorliegt. Die zweiseitig formulierten Hypothesen:

Nullhypothese	Alternativhypothese
$\!\,H_{0}:F_{X}(x)=\Phi (x)$	$H_{1}:F_{X}(x)\neq \Phi (x)$
Die Grundgesamtheit ist normalverteilt.	Die Grundgesamtheit ist nicht normalverteilt.

Zur Überprüfung der Nullhypothese fasst das Shapiro-Wilk-Testverfahren die graphischen Informationen in einer Kennzahl zusammen, die einer Analyse mittels Normalwahrscheinlichkeitsplot entspringen würden. Diese Kennzahl, die Teststatistik W, drückt das Verhältnis zweier Varianz-Schätzer zueinander aus.
$W={{b^{2}} \over {(n-1)s^{2}}}$

Der Ausdruck im Zähler der Teststatistik schätzt die Varianz einer Stichprobe, die aus einer normalverteilten Grundgesamtheit stammt. Die Teststatistik vergleicht dann diese unter der Nullhypothese „erwartete“ Varianz mit der tatsächlichen Varianz der Stichprobe, deren Schätzer im Nenner der Teststatistik zu finden ist. Das Verfahren stützt sich also einer Varianzanalyse (ANOVA) der Stichprobe. Die Teststatistik $W$ kann auch als ein Korrelationskoeffizient interpretiert werden, ähnlich dem Bestimmtheitsmaß. Je näher die Teststatistik an 1 liegt, desto weniger Abweichungen zeigt die tatsächliche Varianz von der hypothetischen Varianz unter Annahme von Normalverteilung.

Sollte die Nullhypothese zutreffen, die Grundgesamtheit der Stichprobe also in der Tat normalverteilt sein, müssten beide Varianz-Schätzer unabhängig voneinander zu etwa demselben Ergebnis kommen. Je geringer folglich die geschätzten Varianzen voneinander abweichen, desto wahrscheinlicher ist es, dass die Grundgesamtheit der Stichprobe in Wirklichkeit normalverteilt ist.

Ursprünglich war der Test nur im Stande, univariaten Stichproben vom Umfang 3 < n < 50 zu untersuchen. Im Jahr 1972 wurde es möglich, den Test durch eine Erweiterung von Shapiro und Francia auch für Stichproben vom Umfang n < 100 einzusetzen. Danach gab es weitere Anpassungen, die den möglichen Anwendungsbereich weiter vergrößerten. Royston führte 1992 eine weitere Verbesserung ein und machte Stichproben der Größe n < 2000 möglich. Rahman und Govidarajulu erweiterten 1997 den Einsatzbereich des Tests auf Stichproben vom Umfang n < 5000, wobei in diesem Fall angepasste kritische Werte notwendig sind.

Wenn der Wert der Teststatistik ${W}$ größer ist als der kritische Wert ${W}_{kritisch}$ , wird die Nullhypothese nicht abgelehnt und es wird angenommen, dass eine Normalverteilung vorliegt.Für die kritischen Werte mit n < 50 existieren Tabellen, die in vielen Statistikbüchern abgedruckt werden. Kritische Werte für Stichproben mit n > 50 können mittels Monte-Carlo-Simulation ermittelt werden. Die Dichtefunktion der W-Teststatistik ist sehr linksschief und der Ablehnungsbereich des Tests fällt ins kleine Ende der Verteilung.

Die Methode zur Berechnung des p-Wertes ist abhängig vom Stichprobenumfang $n$ . Für $n=3$ ist die Wahrscheinlichkeitsverteilung von $W$ bekannt. Für Stichproben mit $n>3$ wird eine Transformation in die Normalverteilung durchgeführt.

Die Werte σ,γ,μ für die jeweiligen Stichprobengrößen $n>3$ werden per Monte-Carlo-Simulation errechnet.

Die Varianzschätzer

Der Schätzer für die Stichprobenvarianz im Nenner der Teststatistik ist die korrigierte Stichprobenvarianz $s^{2}$ .

$s^{2}={\frac {1}{n-1}}\sum \limits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}$

Die erwartete Varianz einer Stichprobe, die aus einer normalverteilten Grundgesamtheit stammt, wird mittels der verallgemeinerten Methode der kleinsten Quadrate geschätzt. Dieses gewöhnliche lineare Modell stellt die geordneten Beobachtungen der Stichprobe den entsprechenden Ordnungsstatistiken einer Standardnormalverteilung gegenüber. Der Schätzer $b^{2}$ für die erwartete Varianz ist damit die quadrierte Steigung der Regressionsgeraden im QQ-Plot. Die Regressionsgleichung lautet:

$x_{i}=\mu +\sigma m_{i}+\varepsilon _{i}$

wobei

- $x_{i}$ die Ordnungsstatistiken aus der Stichprobe sind

- $\mu$ der Schnittpunkt mit der y-Achse und der Schätzer für den Mittelwert ist

- $\sigma$ die Steigung der Regressionsgeraden beschreibt

- $m_{i}$ die erwarteten Ordnungsstatistiken einer Standardnormalverteilung sind

- $\varepsilon _{i}$ die Störgröße ist, die nichterfassbare Einflüsse darstellt

Testablauf

Der Test überprüft die Hypothese, dass eine Stichprobe aus einer normalverteilten Grundgesamtheit entnommen wurde.

I. Erstellung der Ordnungsstatistiken

Alle Beobachtungen der Stichprobe $x_{(1)},\ x_{\left(2\right)},\dots ,\ x_{(n)}$ werden nach aufsteigender Größe sortiert $x_{(1)}\leq x_{(2)}\leq \cdots \leq x_{(n)}$ und jedem Wert wird ein Rangplatz zugeordnet. So erhält man die Ordnungsstatistiken der Stichprobe $X_{(1)},X_{(2)},\ldots ,X_{(n)}$ mit den Werten $x_{(1)},x_{(2)},\ldots ,x_{(n)}$ . Dabei ist $X_{(i)}$ als die $i$ -te geordnete Statistik definiert.

II. Berechnung der Schätzer $b^{2}$ und $s^{2}$ sowie der Teststatistik W

$b$ wird berechnet als die Summe aus $k$ Zahlenpaaren der Ordnungsstatistiken $\left(x_{\left(n\right)}-x_{\left(i\right)}\right)$ , jeweils multipliziert mit einem entsprechenden Gewichten $a_{(i)}$ . Wenn die Anzahl der Beobachtungen in der Stichprobe gerade ist, ist $k=n/2$ , bei ungerader Anzahl ist $k=(n-1)/2$ . Somit gilt:

b=a_{(1)}\left(x_{\left(n\right)}-x_{\left(1\right)}\right)+a_{(2)}\left(x_{\left(n-1\right)}-x_{\left(2\right)}\right)\ +\cdots

Die Koeffizienten $a_{(i)}$ sind gegeben sind durch

a_{(i)}={[(m^{\top }V^{-1}V^{-1}m)}^{-\ {{1} \over {2}}}]\ m^{\top }V^{-1}

mit $m_{(i)}$ stellvertretend für die erwarteten Ordnungsstatistiken einer Normalverteilung

m_{(i)}={(m_{(1)},\dots ,\ m_{(n)})}^{\top }

wobei

m_{(i)}={\Phi }^{-1}\left({{i-{{3} \over {8}}} \over {n+{{1} \over {4}}}}\right)

mit

{\Phi }\left(x_{(i)}\right)=\ {{1} \over {\sigma {\sqrt {2\pi }}}}e^{-\ {{{\left(x_{(i)}-\mu \right)}^{2}} \over {2{\sigma }^{2}}}}

und der Kovarianzmatrix V der erwarteten Ordnungsstatistiken

V={\begin{pmatrix}\operatorname {Cov} (m_{1},m_{1})&\cdots &\operatorname {Cov} (m_{1},m_{n})\\\vdots &\ddots &\vdots \\\operatorname {Cov} (m_{n},m_{1})&\cdots &\operatorname {Cov} (m_{n},m_{n})\end{pmatrix}}

Die Koeffizienten $a_{(1)},\ \dots \ a_{(n)}$ sind auch häufig für die ersten 50 Zahlenpaare in Tabellen vieler Statistikbücher zu finden.

Die Varianz $s^{2}$ sowie dem Mittelwert ${\overline {x}}$ der Stichprobe werden berechnet durch

s^{2}={{\sum _{i=1}^{n}{{(x_{i}-{\overline {x}})}^{2}}} \over {n-1}}

mit

{\overline {x}}={{\sum _{i=1}^{n}{x_{i}}} \over {n}}

Der Wert der Teststatistik für die Stichprobe wird ermittelt:

W={{b^{2}} \over {(n-1)s^{2}}}

III. Testentscheidung

Der unter II. ermittelte Wert der Teststatistik W wird mit dem kritischen Wert ${W}_{kritisch}$ für den entsprechenden Stichprobenumfang n und ein festgelegtes Signifikanzniveau α (oft 5 %) verglichen. Falls der Wert der Teststatistik $W$ größer ist als der kritische Wert, wird die Nullhypothese nicht abgelehnt. Die Daten sprechen in diesem Fall nicht gegen eine Normalverteilung der Grundgesamtheit. Gibt es jedoch statistisch signifikante Abweichungen, d.h. ist die Teststatistik $W$ kleiner als der kritische Wert, so wird die Nullhypothese zu Gunsten der Alternativhypothese abgelehnt. Eine Normalverteilung der Grundgesamtheit wird aufgrund der Stichprobe ausgeschlossen.

Alternativ könnte die Auswertung über den p-Wert des Tests vorgenommen werden. Der p-Wert gibt beim Shapiro-Wilk-Test die Wahrscheinlichkeit an, die vorhandene Stichprobe aus einer normalverteilten Grundgesamtheit zu ziehen.(Also: je kleiner der p-Wert, desto kleiner die Wahrscheinlichkeit, dass die Stichprobe bei einer normalverteilten Grundgesamtheit vorkäme). Die Nullhypothese wird nicht abgelehnt, wenn der p-Wert größer ist als das festgelegte Signifikanzniveau α.

Zahlenbeispiel

I. Überprüft wird die Hypothese, dass folgende Stichprobe (n = 10) aus einer Normalverteilung stammt:

200, 545, 290, 165, 190, 355, 185, 205, 175, 255

Die Beobachtungen werden der Größe nach geordnet:

165, 175, 185, 190, 200, 205, 255, 290, 355, 545

II. Der Stichprobenumfang ist eine gerade Zahl, somit werden $k=n/2=5$ Zahlenpaare der Ordnungsstatistiken $\left(x_{\left(n\right)}-x_{\left(i\right)}\right)$ gebildet. Die entsprechenden Gewichte $a_{(i)}$ werden einer Tabelle entnommen.

b = 0,5739*(545-165) + 0,3291*(355-175) + 0,2141*(290-185) + 0,1224*(255-190) + 0,0399*(205-200)= 218,08 + 59,24 + 22,48 + 7,96 + 0,2 = 307, 96

s = 117,59

Demzufolge,

$W={{{307,96}^{2}} \over {\left(10-1\right){117,59}^{2}}}=0,76$

III. Der kritische Wert bei $n=10$ und einem Signifikanzniveau von $\alpha =5\%$ beträgt ${W}_{kritisch}=0,842$ . Da ${W<W}_{kritisch}$ (0,76 < 0,842), fällt $W$ in den Ablehnungsbereich und die Nullhypothese wird abgelehnt. Folglich wird angenommen, dass die Stichprobe keiner normalverteilten Grundgesamtheit entstammt.

Eigenschaften des Shapiro-Wilk-Tests

Im Gegensatz zu manchen alternativen Verfahren (allgemeinen Anpassungstests wie der Kolmogorow-Smirnow-Test oder der Chi-Quadrat-Test, die die Stichprobe auf diverse hypothetische Verteilungen testen können) ist der Shapiro-Wilk-Test einzig auf die Untersuchung hinsichtlich Normalität konzipiert.

Als Omnibus-Test ist der Shapiro-Wilk-Test lediglich in der Lage festzustellen, ob eine signifikante Abweichung zur Normalverteilung besteht, jedoch nicht im Stande zu beschreiben, in welcher Form die Abweichung auftritt (Links-/Rechtsschiefe, Endlastigkeit der Verteilung).

Obwohl kein uniform optimaler Test gegen jedliche Art von Abnormalität zur Zeit bekannt ist, zeichnet sich der Shapiro-Wilk-Test nachweislich durch seine insgesamt hohe Teststärke aus. Diverse Monte-Carlo-Studien bestätigen seine Überlegenheit vor allem bei kleinem Stichprobenumfang (n < 50): Zum Beispiel zeigte das Shapiro-Wilk-Verfahren bei einer tatsächlichen Chi-Quadrat-Verteilung eine Teststärke von 54 % (Stichprobengröße: 20 Beobachtungen). Der D'Agostino-Test von 1972 wies dagegen eine Teststärke von 29 % auf. ^[1] So wird der Shapiro-Wilk-Test, neben dem Anderson-Darling-Test, stellenweise als Benchmark für andere Normalitätstests herangezogen.

Der Test reagiert sehr sensibel auf Ausreißer, sowohl für einseitige als auch beidseitige Ausreißer. Ausreißer können das Verteilungsbild stark verzerren, so dass dadurch die Normalverteilungsannahme fälschlicherweise abgelehnt werden könnte.

Die Tatsache, dass gerade größere Untersuchungen durch Computerprogramme durchgeführt werden, kann unter Umständen zu Fehlentscheidungen des Tests führen: Da Daten aus der Standardnormalverteilung auf reellen Zahlen basieren, Computer jedoch mit gerundeten Werten rechnen, können sich Rundungsfehler schnell addieren, so dass Abweichungen zwischen theoretischen und empirischen Daten künstlich generiert werden, die, wenn sie groß genug sind, zur Ablehnung der Nullhypothese führen könnten.

Der Test ist relativ anfällig gegenüber Bindungen (Ties), d.h. wenn es viele identische Werte gibt, wird die Teststärke stark beeinträchtigt. Falls ursprünglich mit gerundeten Daten gearbeitet wurde, lässt sich die Teststärke mit der sogenannten Sheppard-Korrektur verbessern. Die Korrektur von Sheppard produziert ein angepasstes $W$ , gegeben durch $W_{angepasst}=W*\ {{\sum {{(x_{\left(i\right)}-{\overline {x}})}^{2}}} \over {\left\{\sum _{i=1}^{n>}{{(x_{\left(i\right)}-{\overline {x}})}^{2}-{{n-1} \over {12}}}\omega ^{2}\right\}}}$

mit

\omega

als Rundungsdifferenz.

Einzelnachweise

↑ Edith Seier: Comparison of Tests for Univariate Normality, Department of Mathematics. East Tennessee State University, 2002

Literatur

Sam S. Shapiro, Martin Bradbury Wilk: An analysis of variance test for normality (for complete samples), Biometrika, 1965
D. G. Rees: Essential Statistics, Chapman & Hall, 2000
Berna Yazici, Senay Yolacan: A comparison of various tests of normality, Journal of Statistical Computation and Simulation, 77(2), 2007, pp. 175-183
Edith Seier: Comparison of Tests for Univariate Normality, Department of Mathematics. East Tennessee State University, 2002
Manfred Precht, Roland Kraft, Martin Bachmaier: Angewandte Statistik, Oldenbourg, 2005
J.R. Leslie, M.A. Stephens und Fotopoulos: Asymptotic Distribution of the Shapiro-Wilk W for Testing Normality, The Annals of Statistics, 1986

Weblinks

Kategorie:Nicht-Parametrischer Test

[1] Edith Seier: Comparison of Tests for Univariate Normality, Department of Mathematics. East Tennessee State University, 2002

[1]

Benutzer:Boomdiada/Shapiro-Wilk-Test

Inhaltsverzeichnis