Logistische Regression |
Methodisch gehört die logistische Regression zu den strukturprüfenden Verfahren und hat eine verwandtschaftliche Beziehung zur Diskriminanzanalyse und natürlich zur Regressionsanalyse. Kann die Zielgröße Y (abhängige Variable) nur eine binäre (dichotome Verteilung) oder allgemein eine diskrete Ausprägung, z. B. yi = 1 (für Erfolg oder wahr oder ...) oder annehmen, kann die unter lineare Regression dargestellte Methode nicht angewendet werden. Dieser Regressionsansatz würde Werte für die abhängige Variable (Zielgröße) yi < 0 und yi > 1 erlauben. Hier kommt das Verfahren der logistischen Regression zur Anwendung. Über die logistische Regression wird geschätzt, mit welcher Erfolgswahrscheinlichkeit P ein Ereignis Y, das Eintreten von Erfolg oder Misserfolg, von der/den unabhängige(n) Variablen X1 und X2 (oder allgemein von X1, ..., Xn) abhängt. Der Modellansatz nach P = a + bx beinhaltet die Herausforderung, dass die Wahrscheinlichkeit P, wie bekannt, nur zwischen 0 <= P <= 1 liegen kann. Über die logistische Transformation (F1) werden die Funktionswerte auf diesen Bereich begrenzt: |
|
|
Ist die Wahrscheinlichkeit P = 0,5, hat das Merkmal X keinen Einfluss auf die Erfolgswahrscheinlichkeit des Ereignisses Y. D. h., ob das Ereignis Y auftritt oder nicht, hängt nicht von X ab! Die folgende Grafik beschreibt diese Aussage: |
Über die logistische Transformation kann der obige Modellansatz linearisiert werden (Linkfunktion Logit): log(P(x)) = a + bx Die Schätzung der Parameter a und b erfolgt nach der Maximum-Likelihood-Methode. Um den rechnerischen Aufwand gering zu halten, wird allerdings das Statistikprogramm R zur Schätzung bemüht. Zur Schätzung der Parameter a und b wird die Funktion glm() (GLM: Generalisierte lineare Modelle) mit exponentielle Verteilungsmodelle verwendet. |
|
|
Nun schätzen wir über die Funktion glm() die Parameter a und b und legen das geschätzte Modell im R-Objekt Ergebnis ab: > Ergebnis <- glm(Zustand ~ Temp, family = binomial("logit")) Unter family wird das exponentielle Verteilungsmodell Binomial und logit (Linkfunktion) angegeben. über die Funktion coef() lassen wir uns die Parameter a (= Intercept) und b (= Temp) ausgeben: > coef(Ergebnis) Über beide Parameter lässt sich durch Einsetzen in F1 die Eintrittswahrscheinlichkeit schätzen, ob die Gummidichtung bei z. B. -0,6 Grad Celsius (= 31 Grad Fahrenheit) ihre Bestimmung aufgibt, also undicht wird: |
Nach diesem Modell liegt die Ausfallwahrscheinlichkeit der Gummidichtung bei 99,96%! |
Eine Kenngrößenzusammenfassung erhalten Sie über die R-Funktion summary(): > summary(Ergebnis) |
Auffällig sind die Kenngrößen zu Deviance Residuals (Deviance: Abweichung, frz. “dévier”) und zu den Koeffizienten (Coefficients), hier der Standardfehler (Std. Error)! Das geschätzte Modell haben wir im R-Objekt Ergebnis abgelegt. Darauf basierend können wir eine Prognose hinsichtlich der Zielgröße Y, also der Eintrittwahrscheinlichkeit in Bezug einer bestimmten Temperatur, durchführen. Dazu werden wir die R-Funktion predict() verwenden. Zuerst legen wir einen Datensatz über die Vorhersagetemperatur an: > T.min = 20 #
Grad Fahrenheit Nun wird die Prognose über die Funktion predict() durchgeführt: > Temp.Prognose <- predict(Ergebnis, Temp.Modell, type = "response") Hinweis zum Funktionsaufruf: Da wir glm-R-Objekte nutzen, müssen wir den type = “response” als predict-Attribut mitgeben (siehe predict.glm)! Lassen wir uns die Prognosetemperatur Temp.Prognose (d. h. die Wahrscheinlichkeiten P) gegen die Vorgabetemperatur Temp.X grafisch darstellen: > sunflowerplot(Temp, Zustand, main = "Darstellung der Prognose", xlab = "Temperatur", ylab = "Wahrscheinlichkeit P") | |||
Obige Grafik zeigt, je tiefer die Temperatur desto höher die Eintrittswahrscheinlichkeit, dass der Dichtungsring undicht wird. |
Hat der Inhalt Ihnen weitergeholfen und Sie möchten diese Seiten unterstützen? |