Multiple lineare Regression |
Auf der Seite Korrelations- und Regressionsanalyse wurde nur der Zusammenhang zwischen dem abhängigen Merkmal (y, Zielgröße) und einem unabhängigen Merkmal (x, Einflussgröße) betrachtet. Auf dieser Seite wird die lineare Einfachregession derart erweitert, dass auf das abhängige Merkmal mehrere (multiple) unabhängige Merkmale einwirken. Zur Einführung in das Thema empfehle ich Ihnen zusätzlich das Video Multiple lineare Regresssion mit R. Das abhängige Merkmal (Zielgröße) ist vom Skalenniveau her metrisch und die unabhängigen Merkmale (Einflussgrößen) können metrisch (siehe auch Transformation), binär oder auch mehrkategorial sein. In der Regel müssen die binäre oder mehrkategoriale Merkmale zur Dummyvariablen kodiert werden. Die binäre Kodierung für ein Merkmal, das nur z. B. die Ausprägung trifft nicht zu / trifft zu aufnehmen kann, ist recht übersichtlich: xbinär = (0 für trifft nicht zu und 1 für trifft zu) Liegt z. B. ein mehrkategoriales Merkmal mit 3 Ausprägungen (k = 3) vor, wird dieses Merkmal in m = k -1 Dummyvariablen kodiert:
(Zu dieser methodischen Variante der Regressionsanalyse siehe auch logistische Regression!) Die multiple lineare Funktion wird durch y = a + b1x1 + b2x2 + ... bnxn + e y: beobachtetes abhängiges Merkmal beschrieben. Obige Funktion ist ein additiv-lineares System mit e als Fehlervariable. Die Schätzung der Regressionskoeffizienten für eine multiple lineare Funktion ist deutlich aufwändiger als die gezeigte Schätzung für ein einfaches lineares Beispiel. Deswegen werden die Regressionskoeffizienten hier mit dem Statistikprogramm R geschätzt. Sollte R Ihnen unbekannt sein, empfehle ich Ihnen zum Einstieg das Buch Einführung in R. Die multiple lineare Regression wird auf Basis des folgenden Beispiels (Abb. 1) unter Anwendung von R gezeigt. Voraussetzung ist, dass die Anzahl der Merkmalsausprägungen die Anzahl der unabhängigen Merkmale (deutlich) überschreitet. Diese Merkmalsausprägungen müssen auch unabhängig voneinander sein, d. h., sie dürfen nicht durch Rechenoperationen aus einer z. B. beobachteten Ausprägung hervorgegangen sein! |
|
|
Zur Schätzung der multiplen linearen Regressionskoeffizienten wird die R -Funktion lm() verwendet und die Funktionsrückgabe, das Model, in dem Objekt Funktion abgelegt: > Funktion <- lm(Beispiel$y ~ Beispiel$x1 + Beispiel$x2) Dieser “Umweg” ist notwendig, um weitere Schätzungen zum Model durchführen zu können. Schauen wir uns die Koeffizienten an: > Funktion Intercept ist das konstante Glied, Beispiel$x1 und Beispiel$x2 die Regressionskoeffizienten für x1 bzw x2. Die Funktion sieht also wie folgt aus: y = -0,06189 + 2,064x1 - 0,03702x2 Um die oben angedeuteten weitere Schätzungen zum Model durchzuführen, wird Funktion der Funktion summary() übergeben: > summary(Funktion) Nach Call wird die eingegebene Funktion und unter Residuals der Abstand zwischen beobachtetem y und geschätztem y ausgegeben. In der Spalte Estimate werden die Koeffizienten und in der Spalte Std. Error der Standardfehler der Kleinste-Quadrate-Schätzer ausgegeben. In der Spalten t value und Pr(>|t|) werden Angaben zur Güte des Zusammenhanges gemacht. In diesem Beispiel, zeigt der p-Wert (Pr(>|t|)) für x1 einen Signifikanz-Code und x2 trägt nicht zur Erklärung der abhängigen Variable bei. R bietet noch weitere Möglichkeiten, insbesondere sei hier die 3D-Grafik-Funktion erwähnt. Sie liefert ein recht guten Überblick z. B. über die Güte des geschätzten Models. |
Hat der Inhalt Ihnen weitergeholfen und Sie möchten diese Seiten unterstützen? |