Zurück...

Kreuz- oder Kontingenztabelle:

Eine methodische Einführung in eine 2x2-Kontingenztabelle zeigt auch das YouTube-Video “Vierfeldertafel und R”.

Über Kontingenztabellen können zwei Merkmale X und Y, z. B. ein ordinal- mit einem nominalskalierten (siehe Skalen), in Beziehung gebracht werden, um die Zusammenhänge der Merkmalsausprägungen strukturiert als Häufigkeiten h (siehe Klassenbildung) darstellen zu können (multivariate Analysenmethode).
Stetige Merkmale können ebenfalls, wenn sie zuvor kategorisiert (klassiert) wurden, als ordinalskalierte Merkmale in Kontingenztabellen einfließen.
Die linke Grafik zeigt den formalen Aufbau einer Kontingenztabelle und die rechte Grafik ein praktisches Beispiel:

Abb. 1

Abb. 2

Werden Kontingenztabellen durch Spalten- und Zeilensummen, den sog, Randhäufigkeiten der Merkmale X und Y, ergänzt, können weitere Zusammenhänge sichtbar gemacht werden:

Abb. 3

Die Berechnung der oben berechneten absoluten Randhäufigkeiten h(X,Y) erfolgt nach folgendem Schema und Formel:

Abb. 4

Randhäufigkeit X:

    i = 1,..., k
    hi. = hi1 + ... + him

Randhäufigkeit Y:

    j = 1,..., m
    h.j = h1j + ... + hkj

Die Punktnotation, z. B.  hi., zeigt über welchem Index summiert wurde. Hier wurde i konstant gehalten und von 1 bis m die Ausprägung aufsummiert.

Die relative Darstellung der Häufigkeiten der Merkmalsausprägungen in Kontingenztabellen sind oft anschaulicher:

Abb. 5

Brechnung der realtiven Häufigkeiten:

Abb. 6

Mit den bisher gezeigten Kontingenztabellen konnte die Auswirkung des Ausbildungsniveau auf die Arbeitslosendauer befriedigend dargestellt werden. Um aber einzelnen Ausbildungsniveaus bezüglich der Dauer der Arbeitslosigkeit besser betrachten zu können, bietet sich die Darstellung der bedingte relative Häufigkeitverteilung über die Kontingenztabelle an:

Abb. 7

Im obigen Beispiel wurde jedes Zeilenelement, z. B. die  Häufigkeit Kurz 52, durch die Zeilensumme (Randhäufigkeit X), 264 dividiert. So ist deutlich zu erkennen, dass unter den  Arbeitslosen mit Hochschulabschluss der Anteil der Langzeitarbeitslosen sehr gering ist.
Wird die beschriebene Berechnung spaltenweise durchgeführt, kann der Arbeitslosenanteil der Hochschulabänger unter den gesamten Langzeitarbeitslosen abgelesen werden (0.03 = 3%):

Abb. 8

Kontingenzanalyse (Abhängigkeits-)

In den obigen Tabellen wurden bisher die Ausprägungen der Merkmale X und Y in einer geeigneten Weise dargestellt, um einen möglichen Zusammenhang über die Häufigkeitsverteilung zwischen ihnen zu erkennen.
Mit Hilfe der Kontingenzanalyse kann nun dieser mögliche Zusammenhang geprüft werden, d. h., ob die betrachteten Merkmale statistisch abhängig oder unabhängig voneinander sind.

Als erster Schritt zur Prüfung wird nachfolgend der Chiquadrat-Test (-Test, siehe auch hier!) dargestellt.

Auf Basis des obigen Beispiels, kann die Hypothese

H0 : Ausbildung und Dauer der Arbeitslosigkeit sind voneinander unabhängig

aufgestellt werden. Die Berechnung der -Prüfgröße erfolgt, wie auch schon auf der Seite Chiquadrat-Test beschrieben, als Summe über die normierte quadrierte Differenz zwischen beobachtete Häufigkeit h und der erwarteten Häufigkeit hE:

Berechnung Chiquadrat-Prüfgröße

Die erwartete Häufigkeit hEij wird über das Postulat der empirischen Unabhängigkeit berechnet:

Erwartete Zellenhäufigkeit hEij

Die Berechnung der erwarteten Häufigkeit hEij auf obige Ausgangsdaten in Abb.3 zeigt folgende Tabelle (Abb. 9):

Abb. 9

Mit dem Vorliegen der erwarteten Häufigkeit hEij kann nun die -Prüfgöße nach obiger Formel berechnet werden (Abb. 10):

Abb. 10

In der Abb. 10 erkennen Sie neben der -Prüfgröße (Chi2-Koeffizient) 57,28 auch den Wert der -Verteiltung (Chi2-Verteilung) 12, 59 für die Irrtumswahrscheinlichkeit 5% bei einem Freiheitsgrad FG = (k-1) * (m-1) = 6.

Von einem Vergleich der -Prüfgröße mit dem -Verteilungswert sollte allerdings abgesehen werden, da die -Prüfgröße vom Stichprobenumfang abhängig ist! Die folgende Abbildung (Nr. 11) zeigt diesen Sachverhalt bei einer Verdoppelung des Stichprobenumfangs:

Abb. 11

Der -Koeffizient hat sich durch die Verdoppelung des Stichprobenumfangs ebenfalls verdoppelt, von 57,28 auf 114,56.

Diese Abhängigkeit des -Koeffizienten vom Stichprobenumfang begründet den Normierungsschritt zum Kontingenzkoeffizienten K:

Kontingenzkoeffizient K

Der Kontingenzkoeffizient K liegt im Wertebereich zwischen 0 und Kmax. Kmax als obere Grenze ist eine Funktion aus der Dimension der Tabelle, also abhängig von der Anzahl Spalten und Zeilen:

M = min{k, m}

k und m sind die Dimension der Tabelle und M ist gleich der kleineren Zahl von k oder m.

Da K noch von der Dimension der Tabelle abhängt, ist ein weiterer Normierungsschritt hin zum korrigierten Kontingenzkoeffizienten K* nötig:

Der korrigierte Kontingenzkoeffizient K* liegt im Wertebereich zwischen 0 und 1 und ist nicht mehr von der Dimension der Kontingenztabelle abhängig.
Über K* kann eine Aussage über die Stärke des Zusammenhangs zwischen den Merkmalen X und Y aber nicht über die Richtung der Wirkung gemacht werden. Liegt K* nahe bei Null, besteht wahrscheinlich kein Zusammenhang zwischen den Merkmalen, liegt es nahe bei 1 kann sehr wahrscheinlich von einem Zusammenhang ausgegangen werden.
Wie die Berechnung der erwarteten Häufigkeit hE zeigt, hat ein Zeilen- und Spaltentausch keine Auswirkung auf das Berechnungsergebnis. Durch diese Invarianz gegenüber Vertauschung kann letztlich keine Aussage über die Richtung der Wirkung gemacht werden.

Auf obiges Beispiel bezogen, zeigt der korrigierte Kontingenzkoeffizienten K* eine Ausprägung von 0,407 (Abb. 12):

Abb. 12, korrigierter kontingenzkoeffizient K*

Obige Tabellen können Sie zur eigenen Veranschaulichung als Datei im OpenOffice- oder Excel-Format laden...

... oder über das freie Statisikprogramm R berechnen lassen!

OpenOffice-Tabelle

MS-Excel

Der obige Beispieldatensatz wurde im R-Objekt Daten gespeichert (Abb. 13) ...

... und über die Funktion kontingenz die Schätzung des Korrigierten Kontingenzkoeffizienten durchgeführt:

> kontingenz(Daten)

                 Kontingenzanalyse
 
                               Chquadrat-Prüfgröße:  57.28007
                                     Freiheitsgrad:  6
Vergleichswert der Chiquadratverteilung mit P 95 %:  12.59159
                                           p-value:  1.603292e-10
 
                Anzahl Beobachtungen in der Matrix:  462
                             Kontingenzkoeffizient:  0.3321245
                      M (zur Berechnung von K max):  3
                                             K max:  0.8164966
 
                Korrigierter Kontingenzkoeffizient:  0.4067678
 

Sollte R Ihnen noch unbekannt sein, finden Sie einen Einstieg über das Buch Einführung in R.

Seitenanfang

Hat der Inhalt Ihnen weitergeholfen und Sie möchten diese Seiten unterstützen?

Impressum

Datenschutz