„Varianz“ – Versionsunterschied

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
[gesichtete Version][gesichtete Version]
Inhalt gelöscht Inhalt hinzugefügt
1. vorschlag
Zeile 1: Zeile 1:
Die '''Varianz''', ist in der [[Statistik]] ein Maß für die Streubreite von numerischen Werten basierend auf der [[Mittlere quadratische Abweichung|mittleren quadratischen Abweichung]] vom Mittelwert. Der Begriff "Varianz" leitet sich ab von: {{laS}} ''variantia'' = „Verschiedenheit“ bzw. ''variare'' = „(ver)ändern, verschieden sein“. Die Varianz ist eine positive reelle Zahl. Eine Varianz von Null bedeutet, dass alle betrachteten Werte identisch sind.

Zum Themenbereich Varianz gehören:
:* die ''[[Varianz (Stochastik)]]'': Maß für die Streuung einer [[Zufallsvariable|Zufallsvariablen]]
:* die ''[[empirische Varianz]]'': Berechnung der Varianz, basierend auf einem [[Stichprobe|Stichproben]]-Datensatz
:* die ''[[Stichprobenvarianz (Schätzfunktion)]]'': Schätzfunktion für eine unbekannte Varianz, basierend auf [[Zufallsvariable|Zufallsvariablen]]

== Zusammenhang zur Standardabweichung ==

Die Wurzel aus der Varianz ist die '''Standardabweichung'''. Varianz und Standardabweichung gehören beide zu den [[Streuungsmaß (Statistik)|Streuungsmaßen]]. Die Standardabweichung ist oft einfacher interpretierbar als die Varianz, da sie dieselbe Größenordnung und Einheit wie die ursprünglichen Einzelwerte hat. Zum Beispiel ist eine Standardabweichung von 10 cm anschaulicher als die entsprechende Varianz von 100 cm². Die Varianz hat dagegen manche mathematischen Vorteile bei der Weiterverarbeitung.

== Berechnung der Varianz ==
{{Infobox
{{Infobox
| Titel = Formelzeichen
| Titel = Formelzeichen
Zeile 33: Zeile 21:
| Daten5 = Stichprobe: beobachtete Werte der <math>n</math> Zufallsvariablen
| Daten5 = Stichprobe: beobachtete Werte der <math>n</math> Zufallsvariablen
| Feldname6 = <math>\overline x</math>
| Feldname6 = <math>\overline x</math>
| Daten6 = Stichprobenmittel / [[empirischer Mittelwert]] von <math>x_1,\ldots, x_n</math>
| Daten6 = Stichprobenmittel / empirischer Mittelwert von <math>x_1,\ldots, x_n</math>
| Feldname7 = <math>s^2</math>
| Feldname7 = <math>s^2</math>
| Daten7 = Stichprobenvarianz / empirische Varianz von <math>x_1,\ldots, x_n</math>
| Daten7 = Stichprobenvarianz / empirische Varianz von <math>x_1,\ldots, x_n</math>
| Feldname8 = <math>\overline X</math>
| Feldname8 = <math>\overline X</math>
| Daten8 = [[Stichprobenmittel]] (als Funktion der Zufallsvariablen)
| Daten8 = Stichprobenmittel (als Funktion der Zufallsvariablen)
| Feldname9 = <math>S^2</math>
| Feldname9 = <math>S^2</math>
| Daten9 = Stichprobenvarianz (als Funktion der Zufallsvariablen)
| Daten9 = Stichprobenvarianz (als Funktion der Zufallsvariablen)
}}
}}
Die '''Varianz''' ({{laS|variantia}} „Verschiedenheit“ bzw. {{lang|la|''variare''}} „(ver)ändern, verschieden sein“) ist der [[Statistik]] und [[Stochastik]] die [[mittlere quadratische Abweichung]] um den Mittelwert. In der in der deskriptiven (beschreibenden) Statistik ist sie definiert als mittlere quadratische Abweichung der Stichprobenwerte von ihrem [[Arithmetisches Mittel|arithmetischen Mittel]]. Die induktive (schließende Statistik) dagegen betrachtet die Varianz als mittlere quadratische Abweichung der [[Stichprobenvariable]]n von ihrem [[Stichprobenmittel]]. In der deskriptiven bzw. induktiven Statistik gibt die Varianz daher an, wie stark die Stichprobenwerte bzw. Stichprobenvariablen um ihr arithmetisches Mittel bzw. Stichprobenmittel streuen (siehe [[Streuungsmaß (Statistik)]]). In der Stochastik ist die Varianz eine wichtige Kenngröße einer [[Wahrscheinlichkeitsverteilung]] und ist definiert als erwartete quadratische Abweichung einer Zufallsgröße von ihrem [[Erwartungswert]]. Sie gibt in der Stochastik daher an, wie stark die Zufallsgröße um ihrem Erwartungswert streut (siehe [[Dispersionsmaß (Stochastik)]]).


== Stichprobenvarianz ==
Die konkrete Wahl des Berechnungsverfahrens hängt von verschiedenen Faktoren ab. Die wichtigsten Fälle werden im folgenden dargestellt.
{{Hauptartikel|Empirische Varianz}}
Zur Ermittlung der Varianz der Werte <math>x_1,\ldots, x_n</math> werden zunächst die Abweichungen der jeweiligen Werte von ihrem arithmetischen Mittel <math>(x_1 - \overline{x}),\ldots, (x_n - \overline{x})</math> gebildet. Im Anschluss quadriert man diese Abweichungen und erhält die ''Abweichungsquadrate'' <math>(x_1 - \overline{x})^2,\ldots, (x_n - \overline{x})^2</math>. Summiert man diese Abweichungsquadrate erhält man eine sogenannte [[Abweichungsquadratsumme]]. Je nachdem, ob man diese Abweichungsquadratsumme <math>\sum\nolimits_{i=1}^n (x_i - \overline x)^2</math> durch die Anzahl der Werte <math>n</math> oder um die um Eins verringerte Anzahl der Werte <math>n-1</math> dividiert erhält man eine unterschiedliche Darstellung der Varianz. Im letzteren Fall ist die Varianz gegeben durch


{{NumBlk|:|<math>s^2=\tfrac1{n-1} \sum_{i=1}^n (x_i - \overline{x})^2</math>|1}}
=== {{Anker|empirisch}} Varianzberechnung basierend auf einer Stichprobe ===
[[Datei:Stichprobenvarianz.png|mini|Stichprobenvarianz (Schätzfunktion)]]
[[Stichprobe|Stichproben]] sind ein Ausschnitt einer größeren Datenmenge. Die größere Datenmenge wird auch [[Grundgesamtheit]], Gesamtheit oder [[Population]] genannt. Stichproben werden so gewählt, dass sie eine Aussage über die Gesamtheit aller Daten dieser größeren Datenmenge ermöglichen. Man sagt auch: die Stichprobendaten werden [[empirisch]] erhoben. Das führt zu den ebenfalls häufig verwendeten Begriffen "''Empirische Varianz''"<ref name=":1" /> oder "Stichprobenvarianz". Leider ist die präzise Unterscheidung dieser Begriffe in der Literatur nicht einheitlich<ref name=":3">FernUni Hagen 2020: {{Internetquelle |url=https://www.youtube.com/watch?v=uUp745p-CoM |titel=Empirische vs Stichprobenvarianz |werk=YouTube |hrsg=FernUni Hagen: https://www.statstutor.de/ |datum=19.04.2020 |abruf=2022-02-01}}</ref>. Daher verwenden wir zur Unterscheidung der typischen Berechnungsformeln nicht diese Begriffe, sondern den Bedeutungsunterschied der Formeln.


und kann als „durchschnittliches Abweichungsquadrat“ interpretiert werden. Dieses auf Basis von konkreten Werten berechnete „durchschnittliche Abweichungsquadrat“ wird auch als ''Stichprobenvarianz'' oder ''empirische Varianz'' bezeichnet. Da der Faktor <math>1/(n-1)</math> auch als ''Korrekturfaktor'' bezeichnet wird, spricht man auch von der ''korrigierten Stichprobenvarianz'' oder der ''korrigierten empirischen Varianz''. Wenn die Abweichungsquadratsumme jedoch statt durch <math>n-1</math> durch <math>n</math> dividiert wird erhält man die ''unkorrigierten Stichprobenvarianzen''
Die Grundgesamtheit wird charakterisiert durch den "''Wahren Mittelwert''" <math>\mu</math> und die "''Wahre Varianz''" <math>\sigma^2</math>, die oft auch "''Theoretische Varianz''"<ref>[https://www.pschyrembel.de/Varianz/K0NHS#:~:text=Die%20(theoretische)%20Varianz%20einer%20Wahrscheinlichkeitsverteilung,Stichprobe%20sch%C3%A4tzt%20die%20theoretische%20Varianz. Pschyrembel Online: Varianz], abgerufen am 1. Februar 2022.</ref><ref>[https://www.gabler-banklexikon.de/definition/varianz-62180 Gabler-Banklexikon: Varianz], abgerufen am 1. Februar 2022.</ref> genannt wird.


{{NumBlk|:|<math>\tilde{s}^2=\tfrac1n \sum_{i=1}^n (x_i - \overline{x})^2</math>|2}}
==== Varianzberechnung basierend auf einer Stichprobe bei unbekanntem Mittelwert der Gesamtheit ====
Zuerst muss der ''Mittelwert'' der Gesamtheit aller Daten näherungsweise bestimmt werden. Dazu wird aus den Stichprobendaten (x<sub>1</sub>, ..., x<sub>n</sub>) der Mittelwert <math>\overline x</math>, den wir als ''empirisches Mittel'' bezeichnen, mit
{{1GL|<math> \overline x = \frac 1n \sum_{k=1}^n x_k </math>|1a}}
berechnet.<ref>Bronstein-Semendjajew 2020: ''Taschenbuch der Mathematik, 16.3.2.2 Statistische Parameter - Mittelwert,'' S. 848.</ref>


{| class="wikitable mw-collapsible mw-collapsed"
Dieser Wert konvergiert für große Anzahlen von Probenwerten (oder gemittelt über eine große Anzahl von Stichproben) gegen den Mittelwert der Gesamtheit. Damit kann er als "[[Erwartungstreue]] [[Schätzung]]" bezeichnet werden.
|-
| Beispiel
|-
|
Gegeben sei die Stichprobe
:<math> x_1= 10; \quad x_2= 9; \quad x_3= 13; \quad x_4= 15; \quad x_5= 16 </math>,


es ist also <math> n=5 </math>. Für den empirischen Mittelwert ergibt sich
Im nächsten Schritt lässt sich aus der Stichprobe (x<sub>1</sub>, ..., x<sub>n</sub>) und dem empirischen Mittelwert <math>\overline x</math> die sogenannte ''Empirische Varianz''<ref name=":1">Hartung 2020: ''Statistik, Kap. IV: Spezielle Verteilungen und statistische Schlüsse,'' S. 153f.</ref> der Stichprobe <math> s^2</math> berechnen:
{{1GL|<math> s^2 = \frac{1}{n - 1} \sum_{k=1}^n (x_k - \overline x )^2 </math>|1b}}
:<math> \overline x = \frac15 (10+9+13+15+16) = \frac{63}{5}= 12 {,}6 </math>.
Die ''empirische Varianz'' ist eine erwartungstreue Schätzung der Varianz der Gesamtheit.<ref name=":1" /><ref>Bronstein-Semendjajew 2020: ''Taschenbuch der Mathematik, 16.3.2.2 Statistische Parameter - Streuung,'' S. 848.</ref> D.h. Dieser Wert konvergiert für große Anzahlen von Probenwerten (oder gemittelt über eine große Anzahl von Stichproben) gegen die Varianz der Gesamtheit.


Bei stückweiser Berechnung ergibt sich dann
Bei der Begründung für den Nenner <math> n-1</math> in der Formel (1b) wird oft der Begriff "[[Anzahl der Freiheitsgrade (Statistik)|Anzahl der Freiheitsgrade]]" verwendet: Ein Freiheitsgrad wird bereits für die Berechnung des Mittelwertes "verbraucht". Daher verbleiben nur <math> n-1</math> Freiheitsgrade für die Varianzberechnung.
:<math> \begin{align} \sum \limits_{i=1}^5 \left(x_i-\overline x\right)^2 &= (10-12 {,}6)^2+(9-12 {,}6)^2+(13-12 {,}6)^2+(15-12 {,}6)^2+(16-12 {,}6)^2 \\ \; &=(-2 {,}6)^2+(-3 {,}6)^2+0 {,}4^2+2 {,}4^2+3 {,}4^2 = 37{,}2 \end{align} </math>.


Über die erste Definition (Gleichung (1)) erhält man
Die Verwendung von <math> n-1</math> statt <math> n</math> im Nenner wird oft auch [[Friedrich Wilhelm Bessel|"Bessel]] Korrektur" genannt.
:<math> s^2 = \frac {1}{5-1} \sum_{i=1}^5 (x_i- \overline x)^2 = \frac{ 37{,}2}{4} = 9 {,}3 </math>


wohingegen die zweite Definition (Gleichung (2))
==== Varianzberechnung basierend auf einer Stichprobe bei bekanntem Mittelwert der Gesamtheit ====
:<math> \tilde s^2= \frac {1}{5} \sum_{i=1}^5 (x_i- \overline x)^2 = \frac{ 37{,}2}{5} = 7 {,}44</math>
In diesem Fall ist der "wahre Mittelwert" der Gesamtheit <math>\mu</math> bereits vorab bekannt. Es entfällt die Aufgabe den Mittelwert zu schätzen. Es sind also <math>x_k</math> und <math>\mu</math> gegeben. Damit ist obige Korrektur nicht erforderlich und es vereinfacht sich die Berechnung der Varianz zu:<ref name=":1" />
liefert.
{{1GL|<math> s^2 = \frac{1}{n} \sum_{k=1}^n (x_k - \mu )^2 </math>|2}}
|}
{{NumBlk|:|<math>{s^*}^2=\tfrac1n \sum_{i=1}^n (x_i - \mu)^2</math>|3}}


Gleichung (2) und (3) unterscheiden sich darin, dass bei Gleichung (3) im Gegensatz zu Gleichung (2), der Mittelwert der Grundgesamtheit <math>\mu</math> bekannt ist und daher in die Formel eingesetzt werden kann. Die Verwendung der Bezeichnungen „Stichprobenvarianz“ und „empirische Varianz“ ist in der Literatur nicht einheitlich. Einige Autoren bezeichnen Gleichung (1) als Stichprobenvarianz und Gleichung (2) als empirische Varianz unter anderem mit der Begründung, dass nur Gleichung (1) in der induktiven Statistik zur Schätzung der Varianz der Grundgesamtheit auf Basis einer Stichprobe herangezogen wird und nicht Gleichung (2), da diese Definition der Varianz gängige Qualitätskriterien nicht erfüllt (siehe [[#Varianz (im Sinne der induktiven Statistik)]]).
Auch diese Formel liefert einen erwartungstreuen Schätzwert.


Für die Division durch <math>(n-1)</math> anstatt durch <math>n</math> kann die folgende intuitive Begründung gegeben werden: aufgrund der Tatsache, dass Summe der Abweichungen der Werte von ihrem arithmetischen Mittel stets Null ergibt <math>\sum\nolimits_{i=1}^n \left(x_i - \overline{x}\right)=0</math> (siehe [[Arithmetisches Mittel#Schwerpunkteigenschaft]]) ist die letzte Abweichung <math>\left(x_n-\overline x\right)</math> bereits durch die ersten <math>(n-1)</math> Abweichungen <math>(x_1 - \overline{x}),\ldots, (x_{n-1} - \overline{x})</math> bestimmt. Die Anzahl der in die Summe eingehenden unabhängigen Summanden ([[Anzahl der Freiheitsgrade (Statistik)|Anzahl der Freiheitsgrade]]) ist also um Eins reduziert <math>(n-1)</math> bzw. man verliert einen Freiheitsgrad.<ref>Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, Gerhard Tutz: ''Statistik. Der Weg zur Datenanalyse.'' 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2016, ISBN 978-3-662-50371-3, S.&nbsp;65</ref> Eine weitere Begründung für den Korrekturfaktor <math>1/(n-1)</math> ergibt sich aus der Betrachtung [[#Stichprobe ist eine Zufallsstichprobe]].
Wenn man mit dem Begriff "[[Anzahl der Freiheitsgrade (Statistik)|Anzahl der Freiheitsgrade]]" argumentiert: Da der Mittelwert in diesem Fall eine vorgegebene Größe ist, geht kein Freiheitsgrad durch eine vorausgegangene Mittelwertbildung verloren. Daher muss die Summe in Formel (2) durch <math> n</math> geteilt werden.


=== Stichprobe ist eine Vollerhebung ===
=== Varianzberechnung basierend auf einer endlichen "Gesamtheit" von Werten ===
Im Fall, dass die Stichprobe ist eine Vollerhebung ist, enthält die Stichprobe alle Elemente der Grundgesamtheit <math>N</math> und <math>{\tilde{s}}^2</math> und <math>{s^*}^2</math> fallen zusammen. Der wahre Mittelwert der Grundgesamtheit <math>\mu</math> fällt mit dem arithmetischen Mittel <math>\overline{x}</math> zusammen und berechnet sich aus allen Elementen der Grundgesamtheit als
Das entspricht einem Grenzfall von Formel (1). Die gegebenen Datenwerte entsprechen jetzt der vollständigen Gesamtheit. Es wird also keine "Schätzung" des wahren Mittelwertes benötigt da man ja wirklich alle Daten kennt und den Mittelwert ausrechnen kann. Ebenso wird die Varianz der Gesamtheit aller Werte nicht "geschätzt" sondern einfach berechnet.
{{1GL|<math>\mu = \frac 1n \sum_{k=1}^n x_k </math>|3a}}
{{1GL|<math>\sigma^2 = \frac{1}{n} \sum_{k=1}^n (x_k - \mu )^2 </math>|3b}}


{{NumBlk|:|<math>\mu = \tfrac1N \sum_{i=1}^N x_i = \tfrac1n \sum_{i=1}^n x_i = \overline{x}</math>|4}}
Tatsächlich ist die Gesamtheit aller Werte häufig nicht bekannt. Daher kommt diese Berechnungsformel seltener zum Einsatz.


Bei einer Vollerhebung gilt dass die Anzahl der Elemente in der Stichprobe <math>n</math> der Anzahl der Elemente der Grundgesamtheit <math>N</math> entspricht (<math>N=n</math>) und damit <math>\mu=\overline{x}</math> gilt. Die '''Varianz der Grundgesamtheit''' (auch ''Populationsvarianz'' genannt) ist dann gegeben durch
=== Varianzberechnung basierend auf einer statistischen Verteilungsfunktion ===


{{NumBlk|:|<math>\sigma^2 = \tfrac1N \sum_{i=1}^N (x_i - \mu)^2</math>|5}}
==== Varianzberechnung basierend auf einer kontinuierlichen Verteilungsfunktion ====
Gegeben ist in diesem Fall eine Zufallsvariable <math>X</math> mit einer Verteilungsfunktion, beziehungsweise einer [[Wahrscheinlichkeitsdichtefunktion]] (kurz: ''Dichte'') <math>f(x)</math>, die eine Aussage trifft, wie wahrscheinlich das Auftreten von welchem Wert <math>x</math> ist.


=== Stichprobe ist eine Zufallsstichprobe ===
Dann ergeben sich Mittelwert und Varianz der Grundgesamtheit aus folgenden Formeln:<ref name=":0">Bronstein-Semendjajew 2020: ''Taschenbuch der Mathematik, 16.2.2.3 Erwartungswert und Streuung,'' S. 827, Formel 16.52.</ref>
Ist eine Stichprobe eine (einfache) Zufallsstichprobe, dann ersetzt man in Gleichung (1) die Stichprobenwerte <math>x_1,\ldots, x_n</math> durch die [[Stichprobenvariable]]n <math>X_1,\ldots, X_n</math>. Dies führt zur Darstellung der Varianz als Funktion (genauer [[Stichprobenfunktion]]) von Zufallsvariablen
{{NumBlk|:|<math>S^2 = \tfrac1{n-1} \sum_{i=1}^n (X_i-\overline X )^2 </math>|6}}


{{1GL|<math>\mu = \int_{-\infty}^{\infty} x f(x) \, \mathrm{d}x</math>|4a}}
{{NumBlk|:|<math>\tilde{S}^2 = \tfrac1n \sum_{i=1}^n (X_i-\overline X )^2 </math>|7}}
{{1GL|<math>\sigma^2 = \int_{-\infty}^{\infty} (x-\mu)^2 f(x) \, \mathrm{d}x\quad</math>|4b}}


Die Gleichungen (3) und (4) sind Analog zur Stichprobenvarianz in der deskriptiven Statistik definiert und werden in der induktiven (schließenden) Statistik verwendet. In den Verfahren der [[induktive Statistik|induktiven Statistik]] ([[Statistischer Test|Statistische Tests]], [[Konfidenzintervall]]e etc.) fließt oft die Varianz der Grundgesamtheit <math>\sigma^2</math> ein. In der Praxis ist die Varianz der Grundgesamtheit jedoch unbekannt, so dass sie geschätzt werden muss. Die Gleichungen (6) und (7) dienen in der induktiven Statistik also als [[Schätzfunktion]], um die unbekannte Varianz der Grundgesamtheit <math>\sigma^2</math> zu schätzen. Wenn die Stichprobe eine Zufallsstichprobe <math>X_1,\ldots, X_n</math> ist, dann kann das Stichprobenmittel <math>\overline X</math> als Schätzung (die Schätzung eines Parameters der Grundgesamtheit wird konventionell mit einem [[Zirkumflex|Dach]] gekennzeichnet <math>\hat{(\cdot)}</math>) des Mittelwerts der Grundgesamtheit <math>\mu</math> herangezogen werden (<math>\hat\mu = \overline X</math>). Durch die Bildung des Stichprobenmittels wird eine Abhängigkeit zwischen den <math>n</math> Summanden in Gleichung (6) hergestellt, d. h. ein Freiheitsgrad wird gebunden bzw. geht verloren.<ref>Otfried Beyer, Horst Hackel: ''Wahrscheinlichkeitsrechnung und mathematische Statistik.'' 1976, S.&nbsp;92.</ref> Daher dividiert man auch hier durch <math>(n-1)</math> statt durch <math>n</math>. Die induktive Statistik, die die Definition der Varianz in Gleichung (6) zur Schätzung der Varianz der Grundgesamtheit verwendet, liefert eine weitere Begründung für den Korrekturfaktor <math>1/(n-1)</math> (siehe [[#Varianz (im Sinne der induktiven Statistik)]]).
==== Varianzberechnung basierend auf einer diskreten Verteilungsfunktion ====
Im Unterschied zu Formel (4) kann die Zufallsvariable <math>X</math> in diesem Fall nur bestimmte (diskrete) Werte <math>x_k</math> annehmen. Die Verteilungsfunktion ist in diesem Fall gegeben als Wahrscheinlichkeiten <math>p_k</math>, mit denen der zugehörige Wert <math>x_k</math> auftritt.


== Varianz (im Sinne der induktiven Statistik) ==
Das führt zu folgenden Formeln für Mittelwert und Varianz der Grundgesamtheit:<ref name=":0" />
=== Stichprobenvarianz (Schätzfunktion) ===
{{Hauptartikel|Stichprobenvarianz (Schätzfunktion)}}
In der induktiven (schließenden) Statistik wird Gleichung (6) verwendet, um die unbekannte Varianz der Grundgesamtheit <math>\sigma^2 = \operatorname{Var}(X)</math> zu schätzen. Dies geschieht meist durch einen einfachen [[Punktschätzer]]. Sei <math>X</math> eine Zufallsvariable mit unbekannter Verteilung und sei eine Stichprobe <math>X_1,\ldots, X_n</math> gegeben, dann ist eine [[Schätzfunktion]] für die unbekannte Varianz der Grundgesamtheit gegeben durch


{{1GL|<math>\mu = \sum_{k=1}^n x_k p_k</math>|5a}}
{{NumBlk|:|<math>\widehat{\operatorname{Var}(X)} = S^2 =\tfrac1{n-1} \sum_{i=1}^n (X_i-\overline X )^2 </math>|8}}


Der Grund warum Gleichung (6) anstatt Gleichung (7) zur Schätzung der Varianz der Grundgesamtheit herangezogen wird ist, dass die unkorrigierte Stichprobenvarianz (Gleichung (7)) gängige [[Punktschätzer#Qualitätskriterien für Punktschätzer|Qualitätskriterien für Punktschätzer]] nicht erfüllt. Gleichung (7) ist nicht [[erwartungstreu]] für die unbekannte Varianz der Grundgesamtheit, wohingegen die korrigierte Stichprobenvarianz (Gleichung (6)) erwartungstreu für die unbekannte Varianz der Grundgesamtheit <math>\sigma^2</math> ist. Man kann zeigen, dass gerade die Normierung <math>1/(n-1)</math> Gleichung (6) zu einer erwartungstreuen Schätzfunktion für die Varianz der Grundgesamtheit macht (siehe [[Stichprobenvarianz (Schätzfunktion)#Erwartungstreue]]).<ref>Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, Gerhard Tutz: ''Statistik. Der Weg zur Datenanalyse.'' 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2016, ISBN 978-3-662-50371-3, S.&nbsp;341</ref> Die Sicherstellung des Qualitätskriteriums der Erwartungstreue ist somit ein weiter Grund für den Korrekturfaktor <math>1/(n-1)</math>, der aus der induktiven Statistik stammt.
{{1GL|<math>\sigma^2 = \sum_{k=1}^n (x_k - \mu)^2 p_k</math>|5b}}


== Varianz (im Sinne der Wahrscheinlichkeitstheorie) ==
=== Varianzberechnung basierend auf Daten aus einer Zeitreihe ===
{{Hauptartikel|Varianz (Stochastik)}}
In diesem Fall sind Werte <math> x_{k}</math> als [[Zeitreihe]] gegeben. Beispielsweise wird sekündlich ein Wert <math> x_{k}</math> gemessen. Zu jedem Zeitpunkt <math> k</math> der Zeitreihe soll die Varianz aus den letzten <math> k</math> Werten von <math> x</math> bestimmt werden. Die Schätzung der Varianz wird damit mit der Zeit immer genauer. Die Rechnung soll in [[Echtzeit]] erfolgen, also jeweils unmittelbar nach dem Eintreffen von jedem Wert <math> x_{k}</math>. In [[Echtzeitsystem]]en wird stark auf die erforderliche Rechenzeit in jedem Zeitschritt geachtet, daher werden bevorzugt rekursive Formeln verwendet. Mit Formeln (1) bis (3) würde die erforderliche Rechenzeit mit der Zeit steigen, da ja auch die Summen immer mehr Werte umfassen.
In der [[Stochastik]] ist die Varianz ein wichtiges [[Dispersionsmaß (Stochastik)|Streuungsmaß]] der Verteilung einer Zufallsvariablen. Sofern der [[Erwartungswert]] <math>\operatorname{E}(X)</math> existiert, ist in der Stochastik die Varianz definiert als erwarte quadratische Abweichung der Zufallsvariablen von ihrem Erwartungswert
{{NumBlk|:|<math>\operatorname{Var}(X)= \operatorname{E}\left\{(X-\operatorname{E}(X))^2\right\}</math>|9}}


Für diese Definition der Varianz gelten eine Vielzahl nützlicher Eigenschaften (siehe [[Varianz (Stochastik)#Rechenregeln und Eigenschaften]]).
Das wird vermieden mit folgenden [[Rekursion|rekursiven]] Formeln, die auf den Ergebnissen für <math> \tilde \mu_{k-1}</math> und <math> \tilde \sigma_{k-1}^2</math> zum vergangenen Zeitpunkt <math> k-1</math> aufbauen:<ref>Young 2011 - Chapter 2: Recursive Estimation, Seite 19</ref>


=== Varianzberechnung basierend auf einer Verteilungsfunktion ===
{{1GL|<math>\tilde \mu_k = \tilde \mu_{k-1} + \frac 1k ( x_k - \tilde \mu_{k-1} ) </math>|6a}} {{1GL|<math>\tilde \sigma_k^2 = \tilde \sigma_{k-1}^2 + \frac 1k [ ( x_k - \tilde \mu_k )^2 - \tilde \sigma_{k-1}^2 ] </math>|6b}}
==== Varianzberechnung basierend auf einer stetigen Verteilungsfunktion ====
Diese Formeln benötigen natürlich Startwerte, die geeignet gewählt werden sollten. Bei ungünstiger Wahl nähern sich die Schätzwerte nur langsam den wahren Werten an. Wenn ab dem Zeitpunkt <math> k=1</math> neue Messwerte eintreffen, dann sind günstige Vorbelegungen für den Zeitpunkt <math> k=0</math> :
Gegeben ist in diesem Fall eine stetige Zufallsvariable <math>X</math> mit einer [[Wahrscheinlichkeitsdichtefunktion]] (kurz: ''Dichte'') <math>f(x)</math>, die eine Aussage trifft, wie wahrscheinlich das Auftreten von welchem Wert <math>x</math> ist. Dann ergeben sich Erwartungswert und Varianz der Grundgesamtheit aus den folgenden Formeln:<ref name=":0">Bronstein-Semendjajew 2020: ''Taschenbuch der Mathematik, 16.2.2.3 Erwartungswert und Streuung,'' S. 827, Formel 16.52.</ref>
* <math> \tilde \mu_{0}</math> kann mit <math> 0</math> oder dem ersten erhaltenen Messwert oder einem vorab erwarteten Mittelwert vor belegt werden
* <math> \tilde \sigma_{0}</math> kann mit <math> 0</math> oder einem vorab erwarteten Varianzwert vor belegt werden


{{NumBlk|:|<math>\mu = \int_{-\infty}^{\infty} x f(x) \, \mathrm{d}x</math>|10}}
== Genauigkeit der berechneten Stichprobenvarianz ==
{{NumBlk|:|<math>\sigma^2 = \int_{-\infty}^{\infty} (x-\mu)^2 f(x) \, \mathrm{d}x\quad</math>|11}}
Aus den Werten in einer Stichprobe lässt sich mit den Formeln (1) und (2) näherungsweise die Varianz der Grundgesamtheit <math>\sigma^2</math> berechnen. Die Genauigkeit der Näherung hängt von der Streuung der Datenwerte und von der Anzahl der Datenwerte ab.


==== Varianzberechnung basierend auf einer diskreten Verteilungsfunktion ====
Die aus einer Stichprobe berechnete Varianz <math> s^2</math> ist eine Zufallsvariable: D.h. wenn man viele Stichproben nimmt, dann wird jede Stichprobe zu einer anderen Stichprobenvarianz <math> s^2</math> führen. Gesucht ist also die Streuung dieser Zufallsvariable – die "Varianz der Stichprobenvarianz", die wir im Folgenden mit <math> Var(s^2)</math> abkürzen.
Im Unterschied zu Gleichungen (10) und (11) kann die Zufallsvariable <math>X</math> in diesem Fall nur bestimmte (diskrete) Werte <math>x_k</math> annehmen. Die Verteilungsfunktion ist in diesem Fall gegeben als Wahrscheinlichkeiten <math>p_k</math>, mit denen der zugehörige Wert <math>x_k</math> auftritt. Dies führt zu folgenden Formeln für Erwartungswert und Varianz der Grundgesamtheit:<ref name=":0" />


{{NumBlk|:|<math>\mu = \sum_{k=1}^n x_k p_k</math>|12}}
Die Berechnung der "Varianz der Stichprobenvarianz" baut auf den Formeln (1) und (2) auf.

Alternativ kann die Genauigkeit der berechneten Stichprobenvarianz auch durch die Berechnung des [[Konfidenzintervall]]es mit Hilfe der [[Chi-Quadrat-Verteilung#Beispiel|Chi-Quadrat-Verteilung]] beurteilt werden.

=== Varianz der Varianz – bei unbekanntem wahren Mittelwert der Gesamtheit ===
In diesem Fall ist der Ausgangspunkt die Formel (1). Die "Varianz der Stichprobenvarianz" wird dann abgeschätzt durch:<ref name=":2">''HU-Berlin 2018: [https://wikis.hu-berlin.de/mmstat/Verteilung_der_Stichprobenvarianz Verteilung der Stichprobenvarianz], Kapitel 1.2, abgerufen am 1. Februar 2022.''</ref>

{{1GL|<math> Var(s^2) = \frac 2{n-1} s^4 </math>|7}}

=== Varianz der Varianz – bei bekanntem wahren Mittelwert der Gesamtheit ===
In diesem Fall ist der Ausgangspunkt die Formel (2). Die "Varianz der Stichprobenvarianz" wird dann abgeschätzt durch:<ref name=":2" />

{{1GL|<math> Var(s^2) = \frac 2{n} s^4 </math>|8}}

== Wikipedia Links ==
siehe auch die thematisch eng verwandten Seiten in Wikipedia:
* [[Varianz (Stochastik)]]
* [[Empirische Varianz]]
* [[Stichprobenvarianz (Schätzfunktion)]]
* [[Gleichung von Bienaymé]]
* [[Schätzung der Varianz der Grundgesamtheit]]
* [[Schätzung der Varianz einer Schätzfunktion]]
* [[Standardfehler]]
* [[Variationskoeffizient]]
* [[Mittlere quadratische Abweichung]]
* [[Varianzanalyse]]
* [[Kovarianz]]{{Index|Varianz|no-präfix}}
sowie die Begriffserklärung in Wiktionary:
{{Wiktionary|Varianz
}}


{{NumBlk|:|<math>\sigma^2 = \sum_{k=1}^n (x_k - \mu)^2 p_k</math>|13}}
== Weblinks ==
* FernUni Hagen 2020 – [https://www.youtube.com/watch?v=uUp745p-CoM Empirische vs Stichprobenvarianz] (YouTube)
* HU-Berlin 2018 – [https://wikis.hu-berlin.de/mmstat/Verteilung_der_Stichprobenvarianz Verteilung der Stichprobenvarianz (MediaWiki)]


== Literatur ==
== Literatur ==
* Bronstein-Semendjajew 2020 – {{Literatur |Titel=Taschenbuch der Mathematik |Autor=I. N. Bronstein, K. A. Semendjajew, G. Musiol, H. Mühlig |Hrsg= |Auflage=11 |Verlag=Verlag Europa-Lehrmittel Nourney, Vollmer GmbH & Co. KG |Ort=Haan-Gruiten |Datum=2020 |ISBN=978-3-8085-5792-1}}
* Bronstein-Semendjajew 2020 – {{Literatur |Titel=Taschenbuch der Mathematik |Autor=I. N. Bronstein, K. A. Semendjajew, G. Musiol, H. Mühlig |Hrsg= |Auflage=11 |Verlag=Verlag Europa-Lehrmittel Nourney, Vollmer GmbH & Co. KG |Ort=Haan-Gruiten |Datum=2020 |ISBN=978-3-8085-5792-1}}
* Hartung 2005 – {{Literatur |Titel=Statistik. Lehr- und Handbuch der angewandten Statistik |Autor=Dr. Joachim Hartung, Dr. Bärbel Elpelt, Dr. Karl-Heinz Klösener |Hrsg= |Auflage=14 |Verlag=R. Oldenbourg Verlag |Ort=München / Wien |Datum=2005 |ISBN=3-486-57890-1}}
* Hartung 2005 – {{Literatur |Titel=Statistik. Lehr- und Handbuch der angewandten Statistik |Autor=Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener |Hrsg= |Auflage=14 |Verlag=R. Oldenbourg Verlag |Ort=München / Wien |Datum=2005 |ISBN=3-486-57890-1}}
* Young 2011 – {{Literatur |Autor=Peter C. Young |Titel=Recursive Estimation and Time-Series-Analysis |Hrsg= |Auflage=2 |Verlag=Springer-Verlag |Ort=Berlin / Heidelberg |Datum=2011 |ISBN=978-3-642-21980-1}}


== Einzelnachweise ==
== Einzelnachweise ==
<references />
<references responsive />


[[Kategorie:Statistischer Grundbegriff]]
[[Kategorie:Statistischer Grundbegriff]]

Version vom 20. März 2022, 02:29 Uhr

Formelzeichen
Mittelwert der Grundgesamtheit
Varianz der Grundgesamtheit
Anzahl der gegebenen Werte
Zufallsvariablen (Zufallsgrößen)
Stichprobe: beobachtete Werte der Zufallsvariablen
Stichprobenmittel / empirischer Mittelwert von
Stichprobenvarianz / empirische Varianz von
Stichprobenmittel (als Funktion der Zufallsvariablen)
Stichprobenvarianz (als Funktion der Zufallsvariablen)

Die Varianz (lateinisch variantia „Verschiedenheit“ bzw. variare „(ver)ändern, verschieden sein“) ist der Statistik und Stochastik die mittlere quadratische Abweichung um den Mittelwert. In der in der deskriptiven (beschreibenden) Statistik ist sie definiert als mittlere quadratische Abweichung der Stichprobenwerte von ihrem arithmetischen Mittel. Die induktive (schließende Statistik) dagegen betrachtet die Varianz als mittlere quadratische Abweichung der Stichprobenvariablen von ihrem Stichprobenmittel. In der deskriptiven bzw. induktiven Statistik gibt die Varianz daher an, wie stark die Stichprobenwerte bzw. Stichprobenvariablen um ihr arithmetisches Mittel bzw. Stichprobenmittel streuen (siehe Streuungsmaß (Statistik)). In der Stochastik ist die Varianz eine wichtige Kenngröße einer Wahrscheinlichkeitsverteilung und ist definiert als erwartete quadratische Abweichung einer Zufallsgröße von ihrem Erwartungswert. Sie gibt in der Stochastik daher an, wie stark die Zufallsgröße um ihrem Erwartungswert streut (siehe Dispersionsmaß (Stochastik)).

Stichprobenvarianz

Zur Ermittlung der Varianz der Werte werden zunächst die Abweichungen der jeweiligen Werte von ihrem arithmetischen Mittel gebildet. Im Anschluss quadriert man diese Abweichungen und erhält die Abweichungsquadrate . Summiert man diese Abweichungsquadrate erhält man eine sogenannte Abweichungsquadratsumme. Je nachdem, ob man diese Abweichungsquadratsumme durch die Anzahl der Werte oder um die um Eins verringerte Anzahl der Werte dividiert erhält man eine unterschiedliche Darstellung der Varianz. Im letzteren Fall ist die Varianz gegeben durch

 
 
 (1)
 

und kann als „durchschnittliches Abweichungsquadrat“ interpretiert werden. Dieses auf Basis von konkreten Werten berechnete „durchschnittliche Abweichungsquadrat“ wird auch als Stichprobenvarianz oder empirische Varianz bezeichnet. Da der Faktor auch als Korrekturfaktor bezeichnet wird, spricht man auch von der korrigierten Stichprobenvarianz oder der korrigierten empirischen Varianz. Wenn die Abweichungsquadratsumme jedoch statt durch durch dividiert wird erhält man die unkorrigierten Stichprobenvarianzen

 
 
 (2)
 
Beispiel

Gegeben sei die Stichprobe

,

es ist also . Für den empirischen Mittelwert ergibt sich

.

Bei stückweiser Berechnung ergibt sich dann

.

Über die erste Definition (Gleichung (1)) erhält man

wohingegen die zweite Definition (Gleichung (2))

liefert.

 
 
 (3)
 

Gleichung (2) und (3) unterscheiden sich darin, dass bei Gleichung (3) im Gegensatz zu Gleichung (2), der Mittelwert der Grundgesamtheit bekannt ist und daher in die Formel eingesetzt werden kann. Die Verwendung der Bezeichnungen „Stichprobenvarianz“ und „empirische Varianz“ ist in der Literatur nicht einheitlich. Einige Autoren bezeichnen Gleichung (1) als Stichprobenvarianz und Gleichung (2) als empirische Varianz unter anderem mit der Begründung, dass nur Gleichung (1) in der induktiven Statistik zur Schätzung der Varianz der Grundgesamtheit auf Basis einer Stichprobe herangezogen wird und nicht Gleichung (2), da diese Definition der Varianz gängige Qualitätskriterien nicht erfüllt (siehe #Varianz (im Sinne der induktiven Statistik)).

Für die Division durch anstatt durch kann die folgende intuitive Begründung gegeben werden: aufgrund der Tatsache, dass Summe der Abweichungen der Werte von ihrem arithmetischen Mittel stets Null ergibt (siehe Arithmetisches Mittel#Schwerpunkteigenschaft) ist die letzte Abweichung bereits durch die ersten Abweichungen bestimmt. Die Anzahl der in die Summe eingehenden unabhängigen Summanden (Anzahl der Freiheitsgrade) ist also um Eins reduziert bzw. man verliert einen Freiheitsgrad.[1] Eine weitere Begründung für den Korrekturfaktor ergibt sich aus der Betrachtung #Stichprobe ist eine Zufallsstichprobe.

Stichprobe ist eine Vollerhebung

Im Fall, dass die Stichprobe ist eine Vollerhebung ist, enthält die Stichprobe alle Elemente der Grundgesamtheit und und fallen zusammen. Der wahre Mittelwert der Grundgesamtheit fällt mit dem arithmetischen Mittel zusammen und berechnet sich aus allen Elementen der Grundgesamtheit als

 
 
 (4)
 

Bei einer Vollerhebung gilt dass die Anzahl der Elemente in der Stichprobe der Anzahl der Elemente der Grundgesamtheit entspricht () und damit gilt. Die Varianz der Grundgesamtheit (auch Populationsvarianz genannt) ist dann gegeben durch

 
 
 (5)
 

Stichprobe ist eine Zufallsstichprobe

Ist eine Stichprobe eine (einfache) Zufallsstichprobe, dann ersetzt man in Gleichung (1) die Stichprobenwerte durch die Stichprobenvariablen . Dies führt zur Darstellung der Varianz als Funktion (genauer Stichprobenfunktion) von Zufallsvariablen

 
 
 (6)
 
 
 
 (7)
 

Die Gleichungen (3) und (4) sind Analog zur Stichprobenvarianz in der deskriptiven Statistik definiert und werden in der induktiven (schließenden) Statistik verwendet. In den Verfahren der induktiven Statistik (Statistische Tests, Konfidenzintervalle etc.) fließt oft die Varianz der Grundgesamtheit ein. In der Praxis ist die Varianz der Grundgesamtheit jedoch unbekannt, so dass sie geschätzt werden muss. Die Gleichungen (6) und (7) dienen in der induktiven Statistik also als Schätzfunktion, um die unbekannte Varianz der Grundgesamtheit zu schätzen. Wenn die Stichprobe eine Zufallsstichprobe ist, dann kann das Stichprobenmittel als Schätzung (die Schätzung eines Parameters der Grundgesamtheit wird konventionell mit einem Dach gekennzeichnet ) des Mittelwerts der Grundgesamtheit herangezogen werden (). Durch die Bildung des Stichprobenmittels wird eine Abhängigkeit zwischen den Summanden in Gleichung (6) hergestellt, d. h. ein Freiheitsgrad wird gebunden bzw. geht verloren.[2] Daher dividiert man auch hier durch statt durch . Die induktive Statistik, die die Definition der Varianz in Gleichung (6) zur Schätzung der Varianz der Grundgesamtheit verwendet, liefert eine weitere Begründung für den Korrekturfaktor (siehe #Varianz (im Sinne der induktiven Statistik)).

Varianz (im Sinne der induktiven Statistik)

Stichprobenvarianz (Schätzfunktion)

In der induktiven (schließenden) Statistik wird Gleichung (6) verwendet, um die unbekannte Varianz der Grundgesamtheit zu schätzen. Dies geschieht meist durch einen einfachen Punktschätzer. Sei eine Zufallsvariable mit unbekannter Verteilung und sei eine Stichprobe gegeben, dann ist eine Schätzfunktion für die unbekannte Varianz der Grundgesamtheit gegeben durch

 
 
 (8)
 

Der Grund warum Gleichung (6) anstatt Gleichung (7) zur Schätzung der Varianz der Grundgesamtheit herangezogen wird ist, dass die unkorrigierte Stichprobenvarianz (Gleichung (7)) gängige Qualitätskriterien für Punktschätzer nicht erfüllt. Gleichung (7) ist nicht erwartungstreu für die unbekannte Varianz der Grundgesamtheit, wohingegen die korrigierte Stichprobenvarianz (Gleichung (6)) erwartungstreu für die unbekannte Varianz der Grundgesamtheit ist. Man kann zeigen, dass gerade die Normierung Gleichung (6) zu einer erwartungstreuen Schätzfunktion für die Varianz der Grundgesamtheit macht (siehe Stichprobenvarianz (Schätzfunktion)#Erwartungstreue).[3] Die Sicherstellung des Qualitätskriteriums der Erwartungstreue ist somit ein weiter Grund für den Korrekturfaktor , der aus der induktiven Statistik stammt.

Varianz (im Sinne der Wahrscheinlichkeitstheorie)

In der Stochastik ist die Varianz ein wichtiges Streuungsmaß der Verteilung einer Zufallsvariablen. Sofern der Erwartungswert existiert, ist in der Stochastik die Varianz definiert als erwarte quadratische Abweichung der Zufallsvariablen von ihrem Erwartungswert

 
 
 (9)
 

Für diese Definition der Varianz gelten eine Vielzahl nützlicher Eigenschaften (siehe Varianz (Stochastik)#Rechenregeln und Eigenschaften).

Varianzberechnung basierend auf einer Verteilungsfunktion

Varianzberechnung basierend auf einer stetigen Verteilungsfunktion

Gegeben ist in diesem Fall eine stetige Zufallsvariable mit einer Wahrscheinlichkeitsdichtefunktion (kurz: Dichte) , die eine Aussage trifft, wie wahrscheinlich das Auftreten von welchem Wert ist. Dann ergeben sich Erwartungswert und Varianz der Grundgesamtheit aus den folgenden Formeln:[4]

 
 
 (10)
 
 
 
 (11)
 

Varianzberechnung basierend auf einer diskreten Verteilungsfunktion

Im Unterschied zu Gleichungen (10) und (11) kann die Zufallsvariable in diesem Fall nur bestimmte (diskrete) Werte annehmen. Die Verteilungsfunktion ist in diesem Fall gegeben als Wahrscheinlichkeiten , mit denen der zugehörige Wert auftritt. Dies führt zu folgenden Formeln für Erwartungswert und Varianz der Grundgesamtheit:[4]

 
 
 (12)
 
 
 
 (13)
 

Literatur

  • Bronstein-Semendjajew 2020 – I. N. Bronstein, K. A. Semendjajew, G. Musiol, H. Mühlig: Taschenbuch der Mathematik. 11. Auflage. Verlag Europa-Lehrmittel Nourney, Vollmer GmbH & Co. KG, Haan-Gruiten 2020, ISBN 978-3-8085-5792-1.
  • Hartung 2005 – Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener: Statistik. Lehr- und Handbuch der angewandten Statistik. 14. Auflage. R. Oldenbourg Verlag, München / Wien 2005, ISBN 3-486-57890-1.

Einzelnachweise

  1. Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, Gerhard Tutz: Statistik. Der Weg zur Datenanalyse. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2016, ISBN 978-3-662-50371-3, S. 65
  2. Otfried Beyer, Horst Hackel: Wahrscheinlichkeitsrechnung und mathematische Statistik. 1976, S. 92.
  3. Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, Gerhard Tutz: Statistik. Der Weg zur Datenanalyse. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2016, ISBN 978-3-662-50371-3, S. 341
  4. a b Bronstein-Semendjajew 2020: Taschenbuch der Mathematik, 16.2.2.3 Erwartungswert und Streuung, S. 827, Formel 16.52.