 |
Texte
(Kapitel 9 - Seite 4 / 10)
Kontingenzkoeffizient
Wir haben bisher Korrelationen kennengelernt, deren Berechnung
Intervallskalenqualität, Ordinalskalenqualität und mit rphi auch einen Koeffizienten, der nur Nominalskalenqualität voraussetzte.
rphi läßt sich jedoch nur in dem Sonderfall berechnen, wo die zu korrelierenden
Variablen nur 2fach gestuft vorliegen. Nun gibt es aber Fälle,
in denen wir etwas über die Enge des Zusammenhangs zwischen Variablen
wissen wollen, die mehrfach gestuft auftreten, aber dennoch Nominalskalenqualität
aufweisen. Wir berechnen dann den Kontingenzkoeffizienten C, etwa
wenn wir wissen wollen, wie eng bei Studenten die Variablen ´überwiegende
Finanzierung des Studiums´ und ´Studienfach´ zusammenhängen.
Folgende Mehrfeldertafel (hier eine 4 x 5-Tafel) sei gegeben.
Die Tabelle zeigt empirisch ´beobachtete´ Häufigkeiten:
|
Psych. |
Jura |
Wirt. |
Päd. |
Math. |
 |
| Bafög |
5 |
7 |
11 |
24 |
3 |
50 |
| elterl.Geld |
12 |
10 |
6 |
2 |
1 |
31 |
| Jobs |
8 |
6 |
15 |
3 |
4 |
36 |
| Beruf |
14 |
2 |
10 |
9 |
2 |
37 |
 |
39 |
25 |
42 |
38 |
10 |
154 |
Die Zahlen in den Feldern bedeuten Häufigkeiten von Vpn, die jeweils
beiden Bedingungen genügen!
Wir überlegen uns nun, welche Häufigkeiten die 4x5-Felder aufweisen
müßten, wenn beide Variablen überhaupt nichts miteinander zu tun
hätten. Von den 154 Vpn sind lediglich 50 Bafög-Empfänger. Die
Wahrscheinlichkeit, daß eine zufällig herausgegriffene Vpn Bafög
erhält, beträgt demnach 50/154. Andererseits sind von den 154
Vpn 39 Psychologiestudenten. Die Wahrscheinlichkeit, daß eine
beliebig gewählte Vp Psychologiestudent ist, beträgt 39/154. Wenn
zutrifft, daß ´Studienfach´ und ´Finanzierung des Studiums´ unabhängig
voneinander sind, läßt sich die Wahrscheinlichkeit für die Kombinationen
der Ereignisklassen mit dem Multiplikationssatz der Wahrscheinlichkeit
berechnen:
(39/154) *(50/154)
Das ist die Wahrscheinlichkeit dafür, daß bei einer beliebigen
Vp beide Klassifikationen - nämlich Psychologie und Bafög - zutreffen.
Nun haben wir insgesamt 154 Fälle zu betrachten; wenn wir also
die Wahrscheinlichkeit mit 154 multiplizieren, erhalten wir die
sog.´erwartete Häufigkeit´ für die Zeile Psychologie/Bafög;
in unserem Beispiel:
(39/154) * (50/154 ) * 154 = 12,7
Eine allgemeine Rechenregel zur Bestimmung der erwarteten Häufigkeiten
ist:
Diese Regel - angewandt auf unser Beispiel - ergibt die folgende
Tabelle erwarteter Häufigkeiten:
|
Psych. |
Jura |
Wirt. |
Päd. |
Math. |
| Bafög |
12,7 |
8,1 |
13,6 |
12,3 |
3,3 |
| elterl.Geld |
7,9 |
5,0 |
8,5 |
7,7 |
2,0 |
| Jobs |
9,1 |
5,8 |
9,8 |
8,9 |
2,3 |
| Beruf |
9,4 |
6,0 |
10,1 |
9,1 |
2,4 |
Wir berechnen jetzt ein sog. Chi2 nach folgender Formel:
hierin bedeuten:
= beobachtete Häufigkeit im i-ten Tafelfeld
= erwartete Häufigkeit im i-ten Tafelfeld
- K = Zahl der Tabellenfelder
Da diese ´erwarteten Häufigkeiten´ unter der Annahme der Unabhängigkeit
beider Variablen (ihrer Unkorreliertheit) errechnet wurden, liegt
es nahe, über Differenzbildung pro Tafelfeld festzustellen, ob
sich beobachtete und erwartete Häufigkeit entsprechen; sind nämlich
die Differnzen gering (genauer: die Summe der Differenzen, aufsummiert
über alle Tafelfelder), dann stimmt offensichtlich die Hypothese
der Unkorreliertheit.
Wird die Differenz-Summe groß (genauer: überschreitet sie einen
sog. kritischen Wert (dazu später)), dann läßt sich die Hypothese
der Unabhängigkeit beider Variablen voneinander nicht aufrechterhalten.
Verfolgen wir den Rechengang zunächst weiter, wie er durch die
Chi2-Formel vorgegeben wird. Wir müssen also für jedes Feld der Tabelle
die Differenz zwischen beobachteten und erwarteten Häufigkeiten
berechnen, diesen Wert quadrieren, durch die erwarteten Häufigkeiten
dividieren und über alle n Felder aufsummieren; also
Chi2 = (5-12,7)2/12,7 + (7-8,1)2/ 8,1 + ?
Dieses errechnete Chi2 müssen wir nun daraufhin überprüfen, ob es als eher gering einzustufen
ist, oder den kritischen Wert übersteigt. Klar ist, daß ein Chi2-Wert umso größer wird, je mehr Felder die Tafel hat, aus der
er bestimmt wurde. Bei der Bewertung des errechneten Chi2-Wertes muß also n = Anzahl der Tabellenfelder berücksichtigt
werden. Aus einer sog. Chi2-Tabelle (s. CLAUSS/EBNER, S. 484) ist nun genau der kritische
Grenzwert bei gegebenen n [ für f Freiheitsgrade = (4-1)*(5-1)
= 12] abzulesen. Übersteigt der errechnete Wert den Tabellenwert,
so bedeutet das, daß die Hypothese, die beiden Variablen seien
unkorreliert, verworfen werden muß, also beide Variablen untereinander
korrelieren. Da die Anwendung der Chi2-Tabelle einige Kenntnis der Inferenzstatistik voraussetzt, die
hier nicht be-sprochen wird, begnügen wir uns mit folgender Aussage:
Der errechnete Chi2-Wert ist mit 43,37 größer als der kritische Tabellenwert, d.h.
die Hypothese der Unkorreliertheit muß verworfen werden, was eben
weiter bedeutet, daß beide Variablen zusammenhängen.
Was bleibt, ist festzustellen, wie hoch dann die Korrelation ist.
Dazu berechnen wir aus dem Chi2-Wert den Kontingenzkoeffizienten C nach der Formel:
C=Chi2/(Chi2+N)
C ist ebenfalls ein Koeffizient, der ohne Vorzeichen interpretiert
wird bzw. besser immer die positive Wurzel-Lösung ist.
Theoretisch kann C zwischen 0 und + 1.00 liegen; sein Maximum
(Cmax) hängt jedoch von der Größe der Mehrfeldertafel ab, aus der er
gewonnen wurde (Cmax strebt gegen 1, je größer die Zahl der Tabellenfelder ist).
Für quadratische Tabellenfelder läßt sich Cmax nach der Formel Cmax = (k-1)/k berechnen, wobei k = die Zahl der Spalten oder Zeilen
ist. Für eine 3 x 3 Tafel ist Cmax folglich 2 : 3 = .66. In einer solchen Tafel kann auch bei totalem
Zusammenhang C nie größer als .82 werden.
Für nicht quadratische Tafeln muß man Cmax schätzen (siehe hierzu CLAUSS/EBNER, 1977, S. 293).
Infolge der Abhängigkeit des maximalen Wertes von C von der Größe
der Mehrfeldertafel sind C-Werte, die aus verschieden großen Mehrfeldertafeln
stammen, nicht direkt untereinander vergleichbar. Will man einen
Vergleich anstellen, so kann man einen korrigierten Koeffizienten
nach der Formel
Ckorr = C/Cmax
errechnen.
Da unsere Tafel eine 4 x 5 Feldertafel ist, also nicht quadratisch,
können wir Cmax nur schätzen, und zwar als arithmetisches Mittel der Cmax-Werte für 4 x 4 und 5 x 5-Feldertafeln.
Diese betragen
-für die 4 x 4 - Feldertafel Cmax = .87
-für die 5 x 5 - Feldertafel Cmax = .89
Unser Schätzwert für Cmax einer 4 x5 - Tafel beträgt mithin .88.
Wir berechnen
Ckorr = .47/.88 = .53.
Die Interpretation dieses Wertes muß an Hand des Vergleichs zwischen
beobachteten und erwarteten Häufigkeiten vorgenommen werden. Die
Abweichung der beobachteten von der erwarteten Häufigkeit ist
bei
- Psychologie- und Pädagogikstudenten mit Bafög,
- Jura- und Pädagogikstudenten, die durch ihre Eltern unterstützt
werden und bei
- Pädagogikstudenten mit Nebenjobs besonders groß.
Auch das Vorzeichen der Differenz (fbeob - ferw) muß zur Interpretation herangezogen werden.
Kontingenzkoeffizienten wurden entwickelt, um den Grad des Zusammenhangs
zwischen nominalskalierten Variablen zu bestimmen. Bei ihnen kann
die Anordnung der Klassen beliebig vertauscht werden, d.h. wir
hätten unsere Tabelle auch mit vertauschten Spalten und/oder Zeilen
aufstellen können, ohne daß diese Manipulation C verändert hätte.
Dies muß bei Nominalskalierung auch gefordert werden können. Berechnet
man C jedoch für höher skalierte Daten (was man ja eigentlich
nicht nötig hat), so kann es zu Trugschlüssen kommen.
Dafür ist ein Beispiel bei CLAUS/EBNER, 1977, S.294f nachzulesen.
|