Texte
(Kapitel 9 - Seite 7 / 10)
Phi-Koeffizient
Wir werden uns zunächst mit dem PHI-Koeffizienten, bzw. dem sog.
Vierfelder-Korrelationskoeffizienten beschäftigen, da seine Berechnung
auf einem Prinzip beruht, nämlich der sog. Vierfeldertafel, die
bei der überschaubaren Anordnung von Daten, vor allem Häufigkeiten,
in den empirischen Sozialwissenschaften oft verwendet wird.
Die Fragestellung lautet folgendermaßen: Besteht ein Zusammenhang
(Korrelation) zwischen den Merkmalsklassen 'männlich / weiblich'
und 'erwerbstätig / nicht erwerbstätig'? Beide Variablen sind
echt dichotom; deshalb wird rphi berechnet.
Nehmen wir an, in einer Gruppe von N = 30 Personen befinden sich
- 15 männliche Erwerbstätige
- 3 weibliche Erwerbstätige
- 2 männliche Erwerbslose
- 10 weibliche Erwerbslose
Solche Daten lassen sich übersichtlich in einem sog. Vierfelderschema
anordnen:
|
männlich |
weiblich |
| erwerbstätig |
A = 15 |
B = 3 |
| erwerbslos |
C = 2 |
D = 10 |
Wir bezeichnen die 4 Felder mit den Buchstaben A,B,C,D. Es berechnet
sich der Zusammenhang nach
Mit den Zahlen unseres Beispieles ergibt sich: rphi = -.65.
Es besteht also ein mittlerer Zusammenhang zwischen den beiden
Variablen. Wie ist er aber zu interpretieren? Dazu müssen wir
offensichtlich in die Tabelle selbst hineinsehen. Der Zusammenhang
ist von der Art, daß vor allem die Merkmalskombination 'männlich/erwerbstätig'
häufig vorkommt, ebenso die Kombination 'weiblich/erwerbslos'.
Die Interpretationsrichtung muß also aus den Häufigkeiten in den
Tabellenfeldern abgelesen werden. Das Vorzeichen (im Beispiel:
positiv) bietet keine Hilfe, wie im folgenden demonstriert wird:
Da echt dichotone Variablen immer nur Nominalskalenqualität haben,
ist auch eine beliebige andere Anordnung der 4-Felder-Tafel möglich.
Nehmen wir an, ein andere Psychologe hätte in der gleichen Gruppe von
N = 30 Personen folgende 4-Felder-Tafel aufgestellt:
|
männlich |
weiblich |
Summe |
| erwerbstätig |
A = 2 |
B = 10 |
12 |
| erwerbslos |
C = 15 |
D = 3 |
18 |
| Summe |
17 |
13 |
30 |
Seine Berechnung sähe dann wie folgt aus:
Die Höhe der Korrelation ist zwar gleich geblieben, das Vorzeichen
jedoch hat sich geändert. Die Interpretationsrichtung (sind denn
nun Männer eher erwerbstätig oder Frauen?) hat sich natürlich
nicht verändert! Wir merken uns also, daß rphi grundsätzlich absolut (ohne Vorzeichen) betrachtet werden muß.
Es sei hier schon darauf hingewiesen, daß die Bedeutungslosigkeit
des Vorzeichens für alle Korrelationsformen, bei denen mindestens
eine Variable dichotom (echt oder unecht) skaliert ist, gilt.
Die Interpretation des Phi-Koeffizienten ist leider noch weiter
eingeschränkt. Werfen wir einen Blick auf unsere Vierfeldertafel,
so erkennen wir, daß sich ein maximaler Zusammenhang ergeben müßte,
wenn eine Diagonale mit 0 besetzt wäre. Nehmen wir also einmal
folgende Datenverteilung an:
|
männlich |
weiblich |
Summe |
| erwerbstätig |
A = 22 |
B = 0 |
22 |
| erwerbslos |
C = 0 |
D = 8 |
8 |
| Summe |
22 |
8 |
30 |
Es ergibt sich ein rphi von -1.0. Mit diesem Ergebnis sind wir noch zufrieden. Ist allerdings
nur eines der Diagonalfelder 0, so ist der errechnete Phi-Wert
der Extremwert, wie folgende Tabelle zeigen soll:
|
männlich |
weiblich |
Summe |
| erwerbstätig |
A = 26 |
B = 1 |
27 |
| erwerbslos |
C = 0 |
D = 3 |
3 |
| Summe |
26 |
4 |
30 |
rphi kann also bei dieser Randsummenverteilung nie größer als .85
werden.
Ebenso läßt sich neben dem Maximalwert ein Minimalwert bestimmen,
den rphi bei gegebenen Randsummen nicht unterschreiten kann. Mit Hilfe
einer Korrekturformel von COLE (1949) läßt sich ein Phikorr berechnen, das von den Randsummenverteilungen unabhängig ist
und "interspezifischer Assoziationskoeffizient" genannt wird.
Die Formel ist bei CLAUS/EBNER (1977) nachzulesen.
|