Diskussion:Logistische Regression/Archiv

aus Wikipedia, der freien Enzyklopädie
Letzter Kommentar: vor 6 Monaten von Biggerj1 in Abschnitt Graphik entfernt
Zur Navigation springen Zur Suche springen

Darstellung der Funktion

Kann jemand vielleicht die Skalierung der ersten Abbildung verändern. Da ja nur Werte zwischen 0 und 1 möglich sind, sollten auch in der Abbildung nur diese Werte dargestellt werden, könnte sonst etwas verwirrend sein.

So besser? Die Marker -0.2 und 1.2 sind weg, ein wenig Sicherheitsabstand zu den Rändern ist dennoch da. (Die Marker hatte ich nur übernommen aus der schlecht aufgelösten alten Bild:Logistisch.png11) --Hagman Diskussion:Logistische Regression/Archiv#c-Hagman-2007-04-27T11:30:00.000Z-Darstellung der Funktion11
Archivierung dieses Abschnittes wurde gewünscht von: --Sigma^2 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Sigma^2-20230821164600-Hagman-2007-04-27T11:30:00.000Z11

Lizenz

ElRakı fragte auf meiner Diskussionsseite nach: "Ich hoffe du hast für oben genannten Artikel eine Erlaubnis um ihn unter der GNU-FDL einstellen zu dürfen. Anstonsten muss er als URV gekennzeichnet werden. Kansnt du die Erlaubnis (falls du sie besitzt) auf der dortigen Diskussionsseite nachtragen? Und am Besten eine E-Mail-Adresse, die auf der dortigen HP zu finden ist, bei der man nachfragen kann, ob das korrekt ist."

Ja, ich habe vorher per e-Mail bei Prof. Dr. Wolfgang Ludwig-Mayerhofer (ludwig-mayerhofer@soziologie.uni-siegen.de) nachgefragt. Zitat: "Dann machen Sie sich also an die Arbeit." Der Mailverkehr fand am 24.05.2005 statt. --Andre M. 02:14, 19. Dez 2005 (CET)
Archivierung dieses Abschnittes wurde gewünscht von: --Sigma^2 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Sigma^2-20230821164700-Lizenz11

Aufbau und Inhalt des Artikels

Ich habe die ursprüngliche Version mit Teilen aus meiner Dissertation ergänzt. Allerdings ist das Ergebnis etwas unübersichtlich. Ich wollte auch nicht zuviel vom ursprünglichen Text ändern/löschen.

Die Darstellung und die Gliederung sind daher noch verbesserungswürdig.

Ja, verbessern sollte man den Artikel auf jedenfall, ich habe schon mal einen Anfang gemacht. Allerdings sollte man meiner Meinung nach erstmal einen Artikel zu Generalisierte lineare Modelle verfassen, von dem aus kann man nämlich meiner Meinung nach den Artikel zur logistischen Regression sehr viel effizienter und verständlicher gestalten, ich werde versuchen in nächster Zeit hierzu einen Artikel zu verfassen. --Pi666 13:35, 5. Aug 2006 (CEST)
Archivierung dieses Abschnittes wurde gewünscht von: --Sigma^2 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Sigma^2-20230821165600-Aufbau und Inhalt des Artikels11

Löschung von wichtigen Textteilen

Der Beitrag ist in seiner jetzigen Form unbrauchbar!

Wichtige Abschnitten wurden gelöscht. Maßgebliche Literatur ist ebenfalls *nicht mehr* erwähnt.

Wer macht so einen Mist? Ich bin in der epidemiologischen Forschung tätig und arbeite routinemäßig mit logistischer Regression und finde das Murks (verkürzt, unvollstängig), was da steht.

Archivierung dieses Abschnittes wurde gewünscht von --Sigma^2 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Sigma^2-20230821165700-Löschung von wichtigen Textteilen11, Unsigniert. Kein Vorschlag zur Verbesserung des Artikels

Unverständlich

  • Die Formel ist unverständlich bzw. entspricht nicht mathematischen Gepflogenheiten.
  • Die Variablen G und k, die in der Bildunterschrift verwendet werden, werden im Text nicht erklärt.
  • Der Ausdruck angegebenen Form darstellen lässt ist unklar: Was bedeutet das T?

--<|> Pygmalion <|> Diskussion:Logistische Regression/Archiv#c-Pygmalion-2007-06-21T18:53:00.000Z-Unverständlich11

1.* Halte ich für verständlich, zumal und auch im Folgetext erklärt werden.
2.* Bezieht sich wohl auf die in Logistische Funktion genannte Funktion. In diesem Artikel könnte man den Zusatz "für den Fall G=1, k=1, f(0)=1/2" meiner Meinung nach auch weglassen. Oder eben zu Logistische Funktion verlinken.
3.* bezeichnet den transponierten Vektor . Muss meiner Meinung nach in diesem Artikel auch nicht weiter erklärt werden.
1.* und 3.* würden vielleicht verständlicher wenn statt geschrieben würde.
Der Hinweis auf Unverständlichkeit kann meiner Meinung nach aber weg.Mfg Nils --87.78.82.121 Diskussion:Logistische Regression/Archiv#c-87.78.82.121-2007-06-26T18:18:00.000Z-Pygmalion-2007-06-21T18:53:00.000Z11
Der Artikel ist wesentlich besser und verständlicher als andere statistische Beiträge im deutschen Wikipedia. Bitte weg mit dem Hinweis auf Unverständlichkeit! [Dieser Eintrag war nicht signiert, Sigma^2 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Sigma^2-2013-06-11T22:02:00.000Z-Pygmalion-2007-06-21T18:53:00.000Z11.]
Es ist noch sehr viel Unverständliches in diesem Artikel. Z. B.:
  • Warum sollte die Anzahl n der Beobachtungen genauso groß sein wie die Anzahl der Variablen? Wie soll dann irgendeine statistische Methodik funktionieren?
  • Der Vektor ist als Zeilenvektor definiert, dann ist das Produkt entweder nicht definiert, wenn ein Spaltenvektor ist, oder es ist ein Matrix, wenn ein Zeilenvektor und damit ein Spaltenvektor ist. Beides ist nicht gemeint, sondern das Skalarprodukt.
  • Was soll die Bedingung bei der Logit-Definition bedeuten?
  • Es heißt , kurz danach . Es geht mir um den Index i an Y, der mal da ist, mal nicht.
  • Wird in diesem Artikel ein Notation angestrebt, bei der Zufallsvariablen mit Großbuchstaben und deren Realisationen mit Kleinbuchstaben bezeichnet werden? Falls ja, ist schon der Einstieg mit und unverständlich; falls nein, was ist mit der Unterscheidung gemeint?
Usw. Sigma^2 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Sigma^2-2013-06-11T22:04:00.000Z-Sigma^2-2013-06-11T22:02:00.000Z11
Archivierung dieses Abschnittes wurde gewünscht von --Sigma^2 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Sigma^2-20230821192300-Pygmalion-2007-06-21T18:53:00.000Z11, Überholt durch Überarbeitung

Anwendungsvoraussetungen

Hallo, in dem genannten Abschnitt wird zuerst davon gesprochen, dass es eine "Reihe" von Anwendungsvoraussetzungen gibt und direkt danach wir nur eine einzige genannt, nämlich eine nicht zu hohe Multikollinearität. Was ist mit den anderen? --Jazzman Diskussion:Logistische Regression/Archiv#c-Jazzman-2016-05-13T10:42:00.000Z-Anwendungsvoraussetungen11

Inhaltsleerer Satz gestrichen. Multikollinearität zur Schätzung verschoben.--Sigma^2 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Sigma^2-20230821171800-Jazzman-2016-05-13T10:42:00.000Z11
Archivierung dieses Abschnittes wurde gewünscht von: --Sigma^2 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Sigma^2-20230821171800-Jazzman-2016-05-13T10:42:00.000Z-111

Anwendungsvoraussetzungen der linearen Regressionsanalyse

Im Artikel steht:

Die Einflüsse auf diskrete Variablen können nicht mit dem Verfahren der klassischen linearen Regressionsanalyse untersucht werden, da wesentliche Anwendungsvoraussetzungen, insbesondere eine Normalverteilung der Residuen und Homoskedastizität, nicht gegeben sind.

Das ist zwar grundsätzlich richtig, aber irreführend, denn normalverteilte Störgrößen und Homoskedastizitität werden i. A. für die üblichen Verfahren (Kleinste-Quadrate etc.) schon seit langer Zeit gar nicht mehr angenommen. Das Problem liegt stattdessen darin, dass für den Fall eines Dummies als endogener Variable dessen Verteilung auf die Störgrößen ,,durschschlägt`` und deren Verteilung in einer Art und Weise festlegt, die mit der tatsächlichen Verteilung typischerweise nicht vereinbar ist --- selbst, wenn es sich bei dieser nicht um eine Normalverteilung handelt. 88.71.15.182 Diskussion:Logistische Regression/Archiv#c-88.71.15.182-2020-01-07T09:26:00.000Z-Anwendungsvoraussetzungen der linearen Regressionsanalyse11

Archivierung dieses Abschnittes wurde gewünscht von --Sigma^2 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Sigma^2-20230821171100-88.71.15.182-2020-01-07T09:26:00.000Z11, So nicht mehr im Artikel

Beta-Regression

Was soll das sein? Wer verwendet diesen Begriff und wofür?--Sigma^2 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Sigma^2-20230201224100-Beta-Regression11

@Sigma^2: Die Beta-Regression ist auf en:wiki beschrieben : https://en.wikipedia.org/wiki/Beta_regression biggerj1 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Biggerj1-20230821100700-Sigma^2-2023020122410011
In der Einleitung steht der Satz: "Alternativ zur logistischen Regression ist die Beta-Regression". Bei der logistischen Regression ist die erklärte Variable (y) eine diskrete Variable, die entweder den Wert 0 oder den Wert 1 annimmt. Bei der Beta-Regression, so wie sie hier en:Beta_regression beschrieben ist, ist die erklärte Variable eine stetige Variable, die Werte im Einheitsintervall (0,1) annimmt. Ich glaube nicht, dass es irgendwelche Datensätze gibt, wo diese Verfahren 'alternativ' verwendet werden können.--Sigma^2 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Sigma^2-20230821103900-Biggerj1-2023082110070011
Ich denke du hast Recht! Besten Dank für den Hinweis. Ich lösche den Verweis, dein Hinweis ist offensichtlich wahr, wenn man an die Likelihood-Funktion der logistischen Regression denkt :) Hier trotzdem noch ein Link, wann Beta-Regression benutzt werden kann: https://stats.stackexchange.com/questions/29038/regression-for-an-outcome-ratio-or-fraction-between-0-and-1 biggerj1 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Biggerj1-20230821105900-Sigma^2-2023082110390011
Archivierung dieses Abschnittes wurde gewünscht von: biggerj1 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Biggerj1-20230821144200-Sigma^2-2023020122410011

die Definition der zugrundeliegenden Likelihood fehlt, vgl en:wiki

biggerj1 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Biggerj1-20230821100600-die Definition der zugrundeliegenden Likelihood fehlt, vgl en:wiki11

Danke @Sigma^2 :Archivierung dieses Abschnittes wurde gewünscht von: biggerj1 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Biggerj1-20230821144200-Biggerj1-2023082110060011

Fehlerhaft

Der Artikel enthält mehrere Fehler. Der schwerwiegendste ist, dass die Formel für die Hosmer-Lemeshow-Statistik H falsch ist. Die richtige Formel für H enthält 2g Summanden. Sigma^2 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Sigma^2-2013-06-11T17:50:00.000Z-Fehlerhaft11

Hab jetzt ein paar mal mit http://www.biostat.wisc.edu/~cook/642.tex/notes0412.pdf (ganz oben) verglichen und finde den Fehler nicht. Warum korrigierst Du die Formel nicht selbst? fossa net ?! Diskussion:Logistische Regression/Archiv#c-Fossa-2013-06-11T18:04:00.000Z-Sigma^2-2013-06-11T17:50:00.000Z11
Auch wenn man mathematisch nicht geschult ist, sieht man, dass erstens der Summationsindex einmal bis 10 geht (in der Quelle) und einmal bis n geht (im Artikel) und dass zweitens die Nenner der Brüche völlig verschieden sind. An dieser Formel ist nicht einfach irgendetwas zu korrigieren. Es handelt sich im Artikel um eine falsch abgeschriebene Chiquadrat-Statistik, die nichts mit der HL-Statistik zu tun hat. Inzwischen ist diese falsche Formel für die HL-Statistik schon mehrfach im Internet zu finden, vermutlich von Wikipedia-Abschreibern. Der ganze Artikel ist statistisch-mathematisch sehr fehlerhaft, da alles viel komplexer ist. Im Artikel wird z. B. der Index i=1,...n verwendet für die Beobachtungen, die Variablen und für die Anzahl der Klassen der HL-Statistik. Das ist so daneben, dass es nur mit sehr großem Aufwand korrigiert werden kann. Das Minimum ist zu unterscheiden zwischen der Anzahl der Beobachtungen, der Anzahl der erklärenden Variablen und der Anzahl der Klassen. Das lässt sich nur mit drei verschiedenen Indizes verstehbar aufschreiben. Hier http://www.oliverkuss.de/science/publications/Kuss_Dissertation.pdf steht auf S. 25 Formel (45) eine richtige Formel für die HL-Statistik. Auf S. 12 Formel (7) findet sich eine Formel der Chiquadrat-Statistik, die im Artikel nachempfunden ist. Sigma^2 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Sigma^2-2013-06-11T18:57:00.000Z-Fossa-2013-06-11T18:04:00.000Z11
Mal aus dem Kopf zitiert, ich guck später nach, ob's falsch ist: Hosmer und Lemeshow diskutieren zunächst den allgemeinen Fall (1...n) und empfehlen danach n=10. Die Nenner der Brüche sind in der Tat verschieden, aber nach endlichen Umformungen (endlich=ca. 2) kommt das aufs Gleiche raus. Die Kuss-Dissertation schaue ich mir gleich mal an. fossa net ?! Diskussion:Logistische Regression/Archiv#c-Fossa-2013-06-11T19:02:00.000Z-Sigma^2-2013-06-11T18:57:00.000Z11
Aus n Beobachtungen n Gruppen zu bilden ist sinnlos, denn dann gibt es keine vernünftige Asymptotik und keine asymptotische Chiquadratverteilung der Teststatistik. Deswegen wird bei HL eine endliche, fixierte Anzahl von Gruppen (z. B. g = 10) mit n \to \infty betrachtet. D. h. die Asymptotik erfolgt über die Anzahl der Beobachtungen, nicht über die Anzahl der Gruppen. Nach endlichen Umformungen (endlich = 2, einverstanden) kommt nicht etwa das Gleiche heraus, sondern nur etwas formal Ähnliches, wenn man n_gE_g = \pi_g setzt. Aber bei HL gibt es keine Wahrscheinlichkeit \pi_g, wie beim Chiquadrat-Test, sondern nur geschätzte (!) Zell-Wahrscheinlichkeiten \hat\pi_g, die nur asymptotisch (für n \to \infty) die Wahrscheinlichkeiten \pi_g approximieren. Zusätzlich sind die Klassengrenzen datenabhängig und damit zufällig. Die von mir zunächst reklamierte Tatsache, dass die HL-Statistik 2g Summanden hat, ist nicht der springende Punkt, da sich die HL-Statistik auch mit g Summanden darstellen lässt, vgl. Formel (2.11) in HL (1980). Noch einmal: solange nicht zwischen der Anzahl der Beobachtungen (z. B. n), der Anzahl der erklärenden Variablen (z. B. p, wie bei HL) und der Anzahl der Klassen (z. B. g, wie bei HL) unterschieden wird, bleibt es nebulös. Das ist HL im Original: Hosmer, David W. and Lemeshow, Stanley (1980) 'Goodness of fit tests for the multiple logistic regression model', Communications in Statistics - Theory and Methods, 9:10, 1043 - 1069. Sigma^2 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Sigma^2-2013-06-11T21:26:00.000Z-Fossa-2013-06-11T19:02:00.000Z11
Wie in vielen Statistikartikeln fühlen sich die ursprünglichen Autoren leider nicht angesprochen. --Sigma^2 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Sigma^2-20230821172600-Sigma^2-2013-06-11T21:26:00.000Z11
Zunächst Anzahl der Klassen von n nach G geändert.--Sigma^2 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Sigma^2-20230821173400-Sigma^2-2013-06-11T21:26:00.000Z11
Eigener Abschnitt für HL-Statistik, überarbeitet, mit Quellen versehen.--Sigma^2 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Sigma^2-20230822105600-Sigma^2-2013-06-11T21:26:00.000Z11

Vielen Dank, mittlerweile ausgelagert :Archivierung dieses Abschnittes wurde gewünscht von: biggerj1 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Biggerj1-20230830115400-Fehlerhaft11

Bildbeschreibung fehlt bei [[Bild:Logitkurve.jpg]]

Der Artikel enthält ein Bild, dem eine Bildbeschreibung fehlt, überprüfe bitte, ob es sinnvoll ist, diese zu ergänzen. Gerade für blinde Benutzer ist diese Information sehr wichtig. Wenn du dich auskennst, dann statte bitte das Bild mit einer aussagekräftigen Bildbeschreibung aus. Suche dazu nach der Textstelle [[Bild:Logitkurve.jpg]] und ergänze sie.

Wenn du eine fehlende Bildbeschreibung ergänzen willst, kannst du im Zuge der Bearbeitung folgende Punkte prüfen:
Archivierung dieses Abschnittes wurde gewünscht von --Sigma^2 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Sigma^2-20231006085500-SpBot-2009-03-01T22:23:00.000Z11, Beschriftung ist erfolgt

Der Response?

Im Einleitungssatz: "...wobei Yi einen binären Response bezeichnet, das heißt, Yi nimmt nur die Werte 0 oder 1 an." Ist "Response" in diesem Kontext wirklich männlich? Der Response-Link führt zu Abhängige und unabhängige Variable, wo Response ebenfalls männlich ist, als Synonyme allerdings "interessierende Variable, endogene Variable oder Zielvariable" genannt werden. Könnte man nicht der besseren Verständlichkeit wegen "Response" in beiden Artikeln durch "die Zielvariable" ersetzen? "Der Response" verwirrt garantiert jeden Laien. Oder verändert das die Aussage? Viele Grüße, --Biologos Diskussion:Logistische Regression/Archiv#c-Biologos-2009-12-11T12:43:00.000Z-Der Response?11

Archivierung dieses Abschnittes wurde gewünscht von: --Sigma^2 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Sigma^2-20231006085600-Biologos-2009-12-11T12:43:00.000Z11

Graphik entfernt

Logistische Regression mit Datenpunkten

Ich habe die Graphik entfernt und hierhin kopiert, da sie nichts mit logistischer Regression zu tun hat. Bei der logistischen Regression gilt für . --Sigma^2 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Sigma^2-20240129175600-Graphik entfernt11

+1 danke biggerj1 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Biggerj1-20240129182800-Sigma^2-2024012917560011
Das Bild auf der englischen Wikipedia wäre passender. biggerj1 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Biggerj1-20240129185000-Biggerj1-2024012918280011
Archivierung dieses Abschnittes wurde gewünscht von: biggerj1 (Diskussion) 20:30, 29. Jan. 2024 (CET) --biggerj1 (Diskussion) Diskussion:Logistische Regression/Archiv#c-Biggerj1-20240129193000-Biggerj1-2024012918500011