Letzter Kommentar: vor 6 Jahren30 Kommentare14 Personen sind an der Diskussion beteiligt
In der Statistik ist die Methode der verallgemeinerten kleinsten Quadrate auch verallgemeinerte Kleinste-Quadrate-Methode bzw. VKQ-Methode, Generalisierte Kleinste-Quadrate-Methode oder – engl. generalized least squares kurz GLS – eine Prozedur, um unbekannte wahreRegressionsparameter in einer linearen Regressionsgleichung, unter problematischen Voraussetzungen (vorliegen von Autokorrelation und Heteroskedastizität), unverzerrt zu schätzen. Die GLS-Methode kann benutzt werden, um bei einem Modell mit einer allgemeinen Fehlerstruktur zielführend eine lineare Regression durchzuführen. Eine verallgemeinerte Fehlerstruktur liegt vor, wenn ein bestimmter Grad an Korrelation zwischen den Residuen und eine nicht konstante Fehlervarianz zulässig sind. In diesen Fällen können die gewöhnliche Methode der kleinsten Quadrate und die Gewichtete Kleinste-Quadrate-Methode statistisch ineffizient sein oder sogar zu falschen Resultaten der statistischen Inferenz führen. Aus diesem Grund wird, um valide Resultate der statistischen Inferenz zu erhalten, eine Transformation des klassischen linearen Modells durchgeführt, durch welche die benötigten Annahmen für die statistische Inferenz weiterhin erfüllt sind. Die GLS-Methode minimiert im Gegensatz zur gewöhnlichen Methode der kleinsten Quadrate eine gewichtete Residuenquadratsumme. Sie wurde von Alexander Aitken entwickelt und 1934 veröffentlicht.
Tut mir leid für meine Wortwahl. Bezüglich des Beispiels hat die IP ja auch recht, das Beispiel mit der heteroskedastischen Fehlervarianz könnte ich noch weiter ausbauen. Kenne nur einen Benutzer von dem ich weiß, dass er sich mit dem Thema auskennt. Wenn der sich äußern könnte wäre es optimal. MfG.--JonskiC (Diskussion)
„Weiterhin wird für das Modell angenommen, dass der Erwartungswert für gegeben eine lineare Funktion von ist, wobei die Kovarianzmatrix der Fehlerterme eine beliebige bekannte reelle nicht-singuläre positiv definite Matrix darstellt.“
ist die Varianz der Fehlerterme bzw. Residuen. Sigma ist ja ein Skalar und keine Zufallsvariable also hat jeder Fehlerterm die gleiche Streeung bzw. es liegt eine konstante Streeung vor. sagt nur dass die Varianz wie hier im Bild aussieht Homoskedastizität: Die Streuung der Punkte um die Gerade in vertikaler Richtung ist konstant.. Im multiplen Fall gilt dann natürlich
Hm, wofür das da ist, wird aber mMn immer noch nicht klar. Es sollte zumindest dastehen, dass ein weiterer zu schätzender Parameter ist (sein kann?). Zum Beispiel unten bei „Anwendungen“ ist es bei
Lesenswert Das ist ein sehr hübscher Artikel. Viele geben Dir das gleiche Feedback, es müsste an manchen Stellen noch etwas mehr erklärt werden. Im Vergleich startet der Artikel Methode_der_kleinsten_Quadrate#Voraussetzungen mit: Man betrachtet eine abhängige Größe , die von einer Variablen oder auch von mehreren Variablen beeinflusst wird. So hängt die Dehnung einer Feder nur von der aufgebrachten Kraft ab, der Gewinn eines Unternehmens jedoch von mehreren Faktoren wie Umsatz, den verschiedenen Kosten oder dem Eigenkapital. Hier werden Physik oder Wirtschaft als anschauliche Anwendungsgebiete herangezogen. Ich denke, um den Unterschied in den Annahmen nicht nur zu nennen, sondern deutlich zu machen, kommt man um einen einführenden Abschnitt zu Autokorrelation und Heteroskedastizität nicht herum. Die Notwendigkeit der Verallgemeinerung sollte im Einstieg klar sein. Ein Vergleich:
KQM: mathematische Standardverfahren zur Ausgleichungsrechnung. Dabei wird zu einer Datenpunktwolke eine Kurve gesucht, die möglichst nahe an den Datenpunkten verläuft.
VKQM: In der Statistik eine Prozedur, um unbekannte wahre Regressionsparameter in einer linearen Regressionsgleichung, unter problematischen Voraussetzungen (vorliegen von Autokorrelation und Heteroskedastizität), unverzerrt zu schätzen.
Lesenswert Ein undankbares Thema, weil es sich in meinen Augen mit einer Technik befasst, die (sowohl didaktisch als auch praktisch) sich eher mit einem "Problem zweiter Ordnung" befasst, nämlich der Effizienz der Schätzung, und nicht ihrer Konsistenz oder Erwartungstreue. Letzteres lässt sich imho einfacher motivieren. Dazu kommt noch, dass mir spontan kein aktuelles Paper einfällt, dass GLS wirklich benutzt, zumindest in der Ökonomie. Einerseits ist der Fokus da stark auf Konsistenz, andererseits gibt es ja seit den 80er robuste Standardfehler, die einen großen Teil der Probleme von Autokorrelation und Heteroskedaszität lösen. Schlussendlich muss man ja bei GLS in der Praxis auch durchaus heftige Annahmen treffen. Aber das sind nur meine zwei Cents. Sorry. Exkurs Ende und zurück zum Artikel. Ja, besonders allgemeinverständlich ist er nicht, und andere Benutzer haben hier schon Vorschläge gemacht, die ich auch gutheiße. Andererseits ist das auch schon ein fortgeschrittenes Thema, im Endeffekt eine Verfeinerung der OLS-Schätzung. Realiter werden die meisten Leser, die diese Seite besuchen, also wahrscheinlich entweder schon den OLS-Artikel gelesen haben oder zumindest die Inhalte davon kennen, und dann empfinde ich den Artikel als okay.
Meine Hauptkritik ist, dass der Artikel GLS vielleicht ein wenig zu sehr „verkauft“. GLS bringt mir die Effizienz wieder zurück, die OLS verliert, wenn Homoskedaszitität nicht gilt, und erlaubt es, korrekte Standardfehler zu schätzen. Für letzteres Problem gibt es inzwischen aber andere Methoden, die imho auf weniger restriktiven Annahmen beruhen, und Effizienz ist oft eine sekundäre (oder tertiäre) Erwägung. Ganz alleine stehe ich damit nicht da, denn [r}obust standard errors, automated clustering, and larger samples have also taken the steam out of issues like heteroskedasticity and serial correlation. A legacy of White’s (1980a) paper on robust standard errors, one of the most highly cited from the period, is the near death of generalized least squares in crossectional applied work. In the interests of replicability, and to reduce the scope for errors, modern applied researchers often prefer simpler estimators though they might be giving up asymptotic efficiency. In diese Richtung zielen auch die meisten meiner Kritteleien:
„eine Prozedur, um unbekannte wahre Regressionsparameter in einer linearen Regressionsgleichung, unter problematischen Voraussetzungen (vorliegen von Autokorrelation und Heteroskedastizität), unverzerrt zu schätzen“ Unbesehen der validen Anmerkungen von WissenDürster eins über mir: Warum der Fokus auf unverzerrt? Unverzerrt schätzen kann ich bei Autokorrelation und Heteroskedastizität auch mit OLS, dafür brauche ich kein GLS. Der Fokus von GLS ist doch vor allem, wieder effizient zu schätzen.
„Die verallgemeinerte kleinste Quadrate-Schätzung baut auf der Gauß-Markov-Theorie auf und spielt immer noch eine große Rolle in theoretischen und praktischen Aspekten der statistischen Inferenz in generalisierten linearen Modellen.“ Da habe ich irgendwie so meine Zweifel, zumindest, was die praktischen Aspekte angeht. Aber gut, die Quelle sagt so…
„Für gewöhnlich stellt man an ein solches Modell die Anforderung, dass die Gauß-Markov-Annahmen gelten sollen. Dies soll hier aber nicht der Fall sein, da man nicht opportunistisch von problematischen Voraussetzungen ausgeht. Aus diesem Grund wird ein Modell betrachtet, bei dem eine allgemeine Fehlerstruktur zulässig ist.“ Naja, die meisten GM-Annahmen werden ja trotzdem angenommen, einzig die Homoskedazistität wird vernachlässigbar. In der Praxis dürfte ein zero conditional mean in den meisten Fällen ähnlich unrealistisch sein wie Homoskedaszitität ;)
„Es wird jedoch ersichtlich, dass die Kovarianzmatrix bei einem Modell mit allgemeiner Fehlerstruktur zwar unverzerrt, aber nicht mehr effizient ist.“ Ist hier nicht der Punktschätzer gemeint?
„Aus diesem Grund sollte man die Intervallschätzung auf dem verallgemeinerten Kleinste-Quadrate-Schätzer aufbauen.“ oder robuste Standard-Fehler à la Eicker-Huber-White benutzen.
Vielen Dank SEM für die wirklich hilfreichen Anmerkungen. Du hast recht in der Einleitung müsste man "unverzerrt" gegen "effizient" austauschen und habe dies soeben getan Ok, da der Fokus auf der Effizienz liegt. Ich denke vorallem in der Lehre, aber auch in der Forschung ist die Methode der verallgemeinerten kleinsten Quadrate noch von großer Relevanz. Vielleicht wird dies in den nächsten Jahren abnehmen, wenn neue bessere Verfahren entwickelt werden, aber zurzeit denke ich hat das Thema noch Top-Relevanz hat (siehe dazu auch die Einstufung in der englischsprachigen Wikipedia). Zu deinem genannten vierten Punkt hast du auch Recht. Da muss ich mich vertan haben. Habe es korrigiert Ok.
Deinen Zusatz mit dem robusten Standard-Fehler à la Eicker-Huber-White habe ich ebenfalls ergänzt Ok
Die Kandidatur IST gescheitert. Der Hauptautor hat das Thema nicht richtig verstanden, sondern lediglich Lehrbuchfragmente zusammengekleistert. Das sieht man ganz deutlich bei den ausweichenden Antworten auf die Fragen des Mathematikers HilberTraum. Entsprechend schlecht und unverständlich für Dritte ist das eigentlich gut erklär- und vor allem illustrierbare Thema dargestellt. Die Einleitung beispielsweise ist eine mittlere Katastrophe. Auf meine zunächst recht freundlich formulierten Anmerkungen (Einzelgliederungspunkte, Beispiele, Unterschiede zu anderen Verfahren) wurde überhaupt nicht eingegangen, stattdessen kamen wüste und inzwischen wieder gelöschte verbale Ausfälle auch gegen andere Kritiken. 2003:46:1A5B:200:E40D:D4D2:5618:1DD8Diskussion:Verallgemeinerte Kleinste-Quadrate-Sch%C3%A4tzung#c-2003:46:1A5B:200:E40D:D4D2:5618:1DD8-2017-08-21T07:19:00.000Z-Tönjes-2017-08-14T14:17:00.000Z11Beantworten
Hallo Trabeschaur! Nein, die Schreibweise mit ist absolut korrekt und sollte daher beibehalten werden. Die Schreibweise mit beschreibt ja gerade die Notation mit Heteroskedastizität. Nur in manchen Fällen kann man weglassen z.B. bei dieser Gleichheit . Bei Heteroskedastie (aber Unkorelliertheit) wird das nur so notiert um den Unterschied zur Homoskedastie herauszustellen.
Nicht wirklich, lieber Jonski (Diskussion). Dass in Spezialfällen wie Autokorrelation ein vernünftiger Faktor herausgezogen werden kann, bestreite ich nicht. Doch was bringt das? Wenn man den Faktor im allg. Fall als beliebig annimmt und mit bezeichnet, suggeriert das doch so etwas wie Varianz. Nach meinem Geschmack würde ich alles mit dem allgemeinen machen. Wenn , dann ist man bei der klassischen KQ. Wenn man dann die Formel für die VKQ mit (und nicht mit ) hat, kann man ja noch sagen, dass diese invariant bzgl. anderer Skalierung von ist, d.h. dass zur Berechnung der VKQ die Fehlerkovarianzmatrix nur bis auf einen Faktor bekannt sein muss.-- So, nun halte ich aber das dritte Gebot ein! --Trabeschaur (Diskussion) Diskussion:Verallgemeinerte Kleinste-Quadrate-Sch%C3%A4tzung#c-Trabeschaur-2018-11-18T16:02:00.000Z-JonskiC-2018-11-18T14:42:00.000Z11Beantworten
Hallo Trabeschaur (die Varianz der Fehlerterme) ist ja auch nur ein beliebiger konstanter Faktor bzw. Skalar, da bei Homoskedastizität Varianzhomogenität bzw. Varianzkonstanz vorliegt. Aber dieser konstanter Faktor ist die Varianz der Fehlerterme. Deswegen schreibt man ja auch statt . Man will bei Heteroskedastizität ja auch eine Analogie zu Fall Homoskedastizität herstellen deswegen notiert man das so. Bei Homoskedasitzität ist es ja und bei Heteroskedastizität und dann kann man einfach sagen . Du sagst: Wenn , dann ist man bei der klassischen KQ. Damit sagst du dann ja damit nichts anderes als: „Das verallgemeinerte lineare Regressionsmodell mit Heteroskedastizität und/oder Autokorrelation ist gleich dem multiplen linearen Regressionsmodell mit Homoskedastizität, wenn die Modelle gleich sind.“ Das macht keinen Sinn. Es müsste doch heißen: „Das verallgemeinerte lineare Regressionsmodell mit Heteroskedastizität und/oder Autokorrelation ist gleich dem multiplen linearen Regressionsmodell mit Homoskedastizität, wenn geeignet gewählt ist.“ Ja das stimmt, aber wie willst du dann mittels der Cholesky-Zerlegung auf die Matrix kommen? Beim VKQ-Schätzer kann man ja bennutzen (die Darstellungen sind äquivalent wie im Artikel steht), aber wie willst du dann z.B. diese Formel nur mit darstellen, sodass man die Analogie zu im KQ-Fall erkennt? Anhand der Matrix soll man ja erkennen, dass die Gauß-Markov-Annahmen dadurch erfüllt sind, dass man setzt; wie lässt sich mit der Matrix zeigen, dass die Gauß-Markov-Annahmen erfüllt sind? Vielleicht verstehe ich auch einfach nicht was du meinst. Ich werde nochmal versuchen intensiv darüber nachzudenken. PS: Welches dritte Gebot meinst du? --Jonski (Diskussion) Diskussion:Verallgemeinerte Kleinste-Quadrate-Sch%C3%A4tzung#c-JonskiC-2018-11-18T16:41:00.000Z-Trabeschaur-2018-11-18T16:02:00.000Z11Beantworten
Hallo Jonski (Diskussion), da bin ich wieder. Hast ja noch lange bis in die Nacht gearbeitet! Deine neuesten Ergänzungen machen's m.E. nicht wirklich besser, sie blähen eigentlich nur auf. Wahrscheinlich reden wir viel zu kompliziert über eigentlich einfache Dinge. Klar ist uns doch, dass die VKQ die KQ als Speziealfall enthalten muss, und zwar im Fall der Homoskedastie . (Übrigens heißt es, glaube ich, besser Homoskedastie und nicht Homoskedastizität, genauso mit Heteroskedastie.) Jetzt im allgemeinen Fall haben wir und damit dann mit . Im Spezialfall bekommt man natürlich die klassischen Lösungen mit . Klar kann man auch mit dem symmetrischen und positiv definiten eine Choleskizerlegung machen und führt damit formal das verallgemeinerte Modell auf das klassische mit zurück. Also immer wieder meine Frage: Wozu brauchst Du wirklich , verwirrenderweise mal als , mal als beliebigen Faktor? Was ist z.B in folgendem simplen Zweipunkte-Beispiel: . Damit ist .
Hallo Trabeschaur. Ja, sollte das Ergebnis nicht verändern, da das Skalar ein Proportionalitätsfaktor ist. Bei deinem Beispiel kann mand dann einfach ein rausziehen.
Die Schreibweise hat mE dennoch entscheidende Vorteile um die Analogien zu erkennen. Bspw. beim normalen Modell vs. das verallgemeinerte Modell. Da wird der Zusammenhang zwischen beiden Modellen mE bei
vs.
viel klarer als bei
vs.
Auch bei ist die Darstellung besser als mit , dann sieht man nämlich dass die beiden Formeln für VKQ und KQ gleich sind bis auf die Matrix ,
die dann als Gewichtsmatrix interpretiert werden kann. Bei dieser Schreibweise gibt es die Interpretation der Gleichheit bis auf nicht, da dann ja noch das fehlt;) Die Grundlage des Artikels stellt die Monographie von Judge et al. dar.
Dort ist es nun einmal genauso dargestellt. Ich sehe daher keinen Änderungsbedarf bzgl. der Notation. Der Artikel hat mE viel gravierendere Schwächen als diese Kleinigkeit bzgl. der Notation;) Aus heutiger Perspektive würde ich ihn nicht mehr zur Kandidatur stellen wie damals. Wieso heißt es besser Homoskedastie und nicht Homoskedastizität (genauso mit Heteroskedastie)? Das würde mich sehr interessieren, da ich schon oft beide Termini vorgefunden habe und mir unsicher bzgl. der optimalen Verwendung war:).
Hallo Trabeschaur, du kannst den Artikel natürlich komplett überarbeiten und die von dir vorgeschlagene Literatur verwenden. Wenn da dann nur mit gearbeitet wird, dann kann man das natürlich auch hier anpassen. Ich habe übringens in 5 unterschiedlichen Büchern nachgeguckt und da ausschließlich die Schreibweise des Artikels in der gegenwärtigen Fassung vorgefunden. Meiner Meinung nach ist es an manchen Stellen – je nach Kontext – besser mit zu arbeiten und an anderen mit . Aber in der allgemeinen Modellnennung sollte man mE schon beibehalten. Aber momentan basiert der Artikel noch fast ausschließlich auf der von mir o.g. Monographie, daher halte ich das nicht für sinnvoll. Das Buch ist übrigens mein absoluter Favorit. Ist meiner Meinung nach eines der besten Ökonometrie/Statistik Abhandlungen die es gibt;)--Jonski (Diskussion) Diskussion:Verallgemeinerte Kleinste-Quadrate-Sch%C3%A4tzung#c-JonskiC-2018-11-21T17:50:00.000Z-Trabeschaur-2018-11-19T15:58:00.000Z11Beantworten