Zur Startseite  
 
  LernStats    Glossar    Texte    Impressum    
backIndexnext Sprache wechseln: english
 



Download
LernStats zum Download
 Download von LernStats als zip-File (3.2MB)
 get Macromedia Flash


Jetzt Neu!
Der Methodenlehre-
Baukasten
Ein interaktives Lehr-Lernpropramm zur Deskriptiv- und Inferenzstatistik incl. multivariater Verfahren und weiteren Lernmodulen für die Methodenlehre


Interdisziplinäres Zentrum für Hochschuldidaktik - IZHD, Hamburg
   / Home / Texte / Spezielle Korrelationstechniken / Kontingenzkoeffizient


Texte
(Kapitel 9 - Seite 4 / 10)

Kontingenzkoeffizient

Wir haben bisher Korrelationen kennengelernt, deren Berechnung Intervallskalenqualität, Ordinalskalenqualität und mit rphi auch einen Koeffizienten, der nur Nominalskalenqualität voraussetzte. rphi läßt sich jedoch nur in dem Sonderfall berechnen, wo die zu korrelierenden Variablen nur 2fach gestuft vorliegen. Nun gibt es aber Fälle, in denen wir etwas über die Enge des Zusammenhangs zwischen Variablen wissen wollen, die mehrfach gestuft auftreten, aber dennoch Nominalskalenqualität aufweisen. Wir berechnen dann den Kontingenzkoeffizienten C, etwa wenn wir wissen wollen, wie eng bei Studenten die Variablen ´überwiegende Finanzierung des Studiums´ und ´Studienfach´ zusammenhängen.

Folgende Mehrfeldertafel (hier eine 4 x 5-Tafel) sei gegeben. Die Tabelle zeigt empirisch ´beobachtete´ Häufigkeiten:

    Psych. Jura Wirt. Päd. Math.
    Bafög 5 7 11 24 3 50
    elterl.Geld 12 10 6 2 1 31
    Jobs 8 6 15 3 4 36
    Beruf 14 2 10 9 2 37
    39 25 42 38 10 154

Die Zahlen in den Feldern bedeuten Häufigkeiten von Vpn, die jeweils beiden Bedingungen genügen!

Wir überlegen uns nun, welche Häufigkeiten die 4x5-Felder aufweisen müßten, wenn beide Variablen überhaupt nichts miteinander zu tun hätten. Von den 154 Vpn sind lediglich 50 Bafög-Empfänger. Die Wahrscheinlichkeit, daß eine zufällig herausgegriffene Vpn Bafög erhält, beträgt demnach 50/154. Andererseits sind von den 154 Vpn 39 Psychologiestudenten. Die Wahrscheinlichkeit, daß eine beliebig gewählte Vp Psychologiestudent ist, beträgt 39/154. Wenn zutrifft, daß ´Studienfach´ und ´Finanzierung des Studiums´ unabhängig voneinander sind, läßt sich die Wahrscheinlichkeit für die Kombinationen der Ereignisklassen mit dem Multiplikationssatz der Wahrscheinlichkeit berechnen:

(39/154) *(50/154)

Das ist die Wahrscheinlichkeit dafür, daß bei einer beliebigen Vp beide Klassifikationen - nämlich Psychologie und Bafög - zutreffen. Nun haben wir insgesamt 154 Fälle zu betrachten; wenn wir also die Wahrscheinlichkeit mit 154 multiplizieren, erhalten wir die sog.´erwartete Häufigkeit´ für die Zeile Psychologie/Bafög;

in unserem Beispiel:

(39/154) * (50/154 ) * 154 = 12,7

Eine allgemeine Rechenregel zur Bestimmung der erwarteten Häufigkeiten ist:

    Zeilensumme X Spaltensumme durch Gesammtsumme.

Diese Regel - angewandt auf unser Beispiel - ergibt die folgende Tabelle erwarteter Häufigkeiten:

    Psych. Jura Wirt. Päd. Math.
    Bafög 12,7 8,1 13,6 12,3 3,3
    elterl.Geld 7,9 5,0 8,5 7,7 2,0
    Jobs 9,1 5,8 9,8 8,9 2,3
    Beruf 9,4 6,0 10,1 9,1 2,4

Wir berechnen jetzt ein sog. Chi2 nach folgender Formel:

hierin bedeuten:

  • = beobachtete Häufigkeit im i-ten Tafelfeld
  • = erwartete Häufigkeit im i-ten Tafelfeld
  • K = Zahl der Tabellenfelder

Da diese ´erwarteten Häufigkeiten´ unter der Annahme der Unabhängigkeit beider Variablen (ihrer Unkorreliertheit) errechnet wurden, liegt es nahe, über Differenzbildung pro Tafelfeld festzustellen, ob sich beobachtete und erwartete Häufigkeit entsprechen; sind nämlich die Differnzen gering (genauer: die Summe der Differenzen, aufsummiert über alle Tafelfelder), dann stimmt offensichtlich die Hypothese der Unkorreliertheit.

Wird die Differenz-Summe groß (genauer: überschreitet sie einen sog. kritischen Wert (dazu später)), dann läßt sich die Hypothese der Unabhängigkeit beider Variablen voneinander nicht aufrechterhalten.

Verfolgen wir den Rechengang zunächst weiter, wie er durch die Chi2-Formel vorgegeben wird. Wir müssen also für jedes Feld der Tabelle die Differenz zwischen beobachteten und erwarteten Häufigkeiten berechnen, diesen Wert quadrieren, durch die erwarteten Häufigkeiten dividieren und über alle n Felder aufsummieren; also

Chi2 = (5-12,7)2/12,7 + (7-8,1)2/ 8,1 + ?

Dieses errechnete Chi2 müssen wir nun daraufhin überprüfen, ob es als eher gering einzustufen ist, oder den kritischen Wert übersteigt. Klar ist, daß ein Chi2-Wert umso größer wird, je mehr Felder die Tafel hat, aus der er bestimmt wurde. Bei der Bewertung des errechneten Chi2-Wertes muß also n = Anzahl der Tabellenfelder berücksichtigt werden. Aus einer sog. Chi2-Tabelle (s. CLAUSS/EBNER, S. 484) ist nun genau der kritische Grenzwert bei gegebenen n [ für f Freiheitsgrade = (4-1)*(5-1) = 12] abzulesen. Übersteigt der errechnete Wert den Tabellenwert, so bedeutet das, daß die Hypothese, die beiden Variablen seien unkorreliert, verworfen werden muß, also beide Variablen untereinander korrelieren. Da die Anwendung der Chi2-Tabelle einige Kenntnis der Inferenzstatistik voraussetzt, die hier nicht be-sprochen wird, begnügen wir uns mit folgender Aussage:

Der errechnete Chi2-Wert ist mit 43,37 größer als der kritische Tabellenwert, d.h. die Hypothese der Unkorreliertheit muß verworfen werden, was eben weiter bedeutet, daß beide Variablen zusammenhängen.

Was bleibt, ist festzustellen, wie hoch dann die Korrelation ist. Dazu berechnen wir aus dem Chi2-Wert den Kontingenzkoeffizienten C nach der Formel:

C=Chi2/(Chi2+N)

C ist ebenfalls ein Koeffizient, der ohne Vorzeichen interpretiert wird bzw. besser immer die positive Wurzel-Lösung ist.

Theoretisch kann C zwischen 0 und + 1.00 liegen; sein Maximum (Cmax) hängt jedoch von der Größe der Mehrfeldertafel ab, aus der er gewonnen wurde (Cmax strebt gegen 1, je größer die Zahl der Tabellenfelder ist).

Für quadratische Tabellenfelder läßt sich Cmax nach der Formel Cmax = (k-1)/k berechnen, wobei k = die Zahl der Spalten oder Zeilen ist. Für eine 3 x 3 Tafel ist Cmax folglich 2 : 3 = .66. In einer solchen Tafel kann auch bei totalem Zusammenhang C nie größer als .82 werden.

Für nicht quadratische Tafeln muß man Cmax schätzen (siehe hierzu CLAUSS/EBNER, 1977, S. 293).

Infolge der Abhängigkeit des maximalen Wertes von C von der Größe der Mehrfeldertafel sind C-Werte, die aus verschieden großen Mehrfeldertafeln stammen, nicht direkt untereinander vergleichbar. Will man einen Vergleich anstellen, so kann man einen korrigierten Koeffizienten nach der Formel

Ckorr = C/Cmax

errechnen.

Da unsere Tafel eine 4 x 5 Feldertafel ist, also nicht quadratisch, können wir Cmax nur schätzen, und zwar als arithmetisches Mittel der Cmax-Werte für 4 x 4 und 5 x 5-Feldertafeln.
Diese betragen

-für die 4 x 4 - Feldertafel Cmax = .87
-für die 5 x 5 - Feldertafel Cmax = .89

Unser Schätzwert für Cmax einer 4 x5 - Tafel beträgt mithin .88.
Wir berechnen

Ckorr = .47/.88 = .53.

Die Interpretation dieses Wertes muß an Hand des Vergleichs zwischen beobachteten und erwarteten Häufigkeiten vorgenommen werden. Die Abweichung der beobachteten von der erwarteten Häufigkeit ist bei

  • Psychologie- und Pädagogikstudenten mit Bafög,
  • Jura- und Pädagogikstudenten, die durch ihre Eltern unterstützt werden und bei
  • Pädagogikstudenten mit Nebenjobs besonders groß.

Auch das Vorzeichen der Differenz (fbeob - ferw) muß zur Interpretation herangezogen werden.

Kontingenzkoeffizienten wurden entwickelt, um den Grad des Zusammenhangs zwischen nominalskalierten Variablen zu bestimmen. Bei ihnen kann die Anordnung der Klassen beliebig vertauscht werden, d.h. wir hätten unsere Tabelle auch mit vertauschten Spalten und/oder Zeilen aufstellen können, ohne daß diese Manipulation C verändert hätte. Dies muß bei Nominalskalierung auch gefordert werden können. Berechnet man C jedoch für höher skalierte Daten (was man ja eigentlich nicht nötig hat), so kann es zu Trugschlüssen kommen.

Dafür ist ein Beispiel bei CLAUS/EBNER, 1977, S.294f nachzulesen.



 
  LernStats    Glossar    Texte    Impressum    
backIndexnext Sprache wechseln: english