Texte
(Kapitel 9 - Seite 10 / 10)
biseriale Korrelation
Wir haben bereits bei der tetrachorischen Korrelation das Problem
kennengelernt, eine prinzipiell intervallskalierbare Variable
aus meist meßtechnischen Gründen nur als Zweiklassenvariable vorliegen
zu haben: Entweder konnte sie nur alternativ (z.B. hoch/niedrig)
gemessen werden oder lediglich ranggeordnet (ordinalskaliert)
und dann am Median in zwei Klassen (unter/über dem Median) aufgeteilt
werden. Bei der tetrachorischen Korrelation unterliegen beide
zu korrelierenden Variablen diesen Einschränkungen, bei der in
diesem Kapitel zu besprechenden biserialen Korrelation ist eine
Variable unecht dichotomisiert, die andere intervallskaliert gemessen.
Die Formel der biserialen Korrelation liefert eine Schätzung des
Zusammenhangs zweier prinzipiell intervallskalierbarer Variablen,
von denen eine jedoch nur mit dichotomisierten Daten vorliegt.
In dieser Formel haben die Abkürzungen die folgende Bedeutung:
Mittelwert in der intervallskalierten Variablen, berechnet nur
aus den Personen, die im dichotomisierten Merkmal die ´höhere´
bzw. ´bessere´ Alternative haben (z.B. die über dem Median, oder
ja-Beantworter etc.).
Mittelwert in der intervallskalierten Variablen berechnet aus
der Gruppe mit den ´unteren´ Alternativen (niedriger, schlechter,
unter dem Median, Nein-Sager, etc.).
Standardabweichung in der intervallskalierten Variablen, über
alle Personen berechnet (wie bekannt!).
Prozentualer Anteil der Personen mit der
´höheren´ Alternative (z.B. 0,40).
Prozentualer Anteil der Personen mit der ´unteren´ Alternative
(z.B. 0,60). (Wie man sofort sieht, muß gelten p+q = 1,00).
Ordinate des z-Wertes, an der die Standardnormalverteilung im
Verhältnis p:q aufgeteilt wird. Das klingt kompliziert und wird
deshalb für Interessenten im Anschluß noch näher erläutert. Für
die konkrete Berechnung können die Werte von jedermann leicht
einer Tabelle entnommen werden.
Beispielaufgabe:
50 Schüler werden zwei Tests unterzogen. Der erste Test ist ein
Intelligenztest, der zweite ein Kreativtest. Von beiden Merkmalen
wird angenommen, daß sie sich normal verteilen. Das Merkmal Kreativität
wird in zwei Klassen aufgeteilt:
- über dem Median: ´hoch kreativ´,
- unter dem Median: ´niedrig kreativ´.
Stichprobe: 50 Schüler der vierten Klasse einer Hauptschule.
- Merkmal 1 (kontinuierlich) : Intelligenz (x)
- Merkmal 2 (eigentlich kontinuierlich, aber in zwei Klassen aufgeteilt)
: Kreativität (y)
Die Ergebnisse werden in der folgenden Tabelle mitgeteilt, dabei
bedeuten:
Spalte (1) : Intelligenzquotient,
Spalte (2) : Anzahl der Vpn mit dem entsprechenden Intelligenzquotienten,
die als ´hoch kreativ´ eingestuft wurden,
Spalte (3) : Anzahl der als ´niedrig kreativ´ eingestuften Vpn,
Spalte (4) : Summe aus (1) und (2), d.h. Gesamtzahl der Vpn mit
einem entsprechenden Intelligenzquotienten.
Diese Tabellendarstellung kennen wir schon aus der Berechnung
der biserialen Korrelation:
|
IQ
(1) |
hoch kreativ
|
niedrig kreativ
|
Summe
|
|
100
106
111
114
115
118
119
120
122
125 |
0
1
2
3
5
6
7
2
2
2 |
1
1
4
6
3
2
1
1
1
0 |
1
2
6
9
8
8
8
3
3
2 |
|
np = 30 |
nq = 20 |
n = 50 |
Wir berechnen die folgenden Größen (bei p = hoch kreativ und q
= niedrig kreativ):
117,33
113,80
4,63
0,60
0,40
Jetzt muß noch der Wert aus der Tabelle abgelesen werden. Die Tabelle ist so angelegt,
daß man entweder mit p oder mit q in die erste Spalte einsteigen
muß und dann in der gleichen Zeile aus der Tabellenspalte C den
gewünschten Wert ablesen kann. Als Einstieg muß die größere der
beiden Größen p oder q gewählt werden.
In unserem Fall ist p = .60 (also größer als q) und führt zu dem
Wert: p*q/ = 0,6212
Insgesamt ergibt sich:
rbis = (117,33 -113,80) / 4,63 * 0,6212 = .474
In dem Beispiel zeigt sich also ein mittlerer bis geringer Zusammenhang
zwischen der Kreativität und der Intelligenz von Schülern.
Auch bei der biserialen Korrelation interpretieren wir den Koeffizienten
ohne das Vorzeichen wegen der Beliebigkeit, mit der die Alternativklassen
mit p bzw. q bezeichnet werden können.
Wie kommt man zu bei der Berechnung von rbis?
Als Voraussetzung für die Berechnung von rbis wird eine eigentliche Normalverteiltheit des dann nur dichotom
in die Berechnung eingehenden Alternativmerkmals gefordert. Diese
Normalverteiltheit geht nämlich in die Berechnung von , damit also in rbis ein.
Genau passiert bei der Bestimmung von folgendes: Wir wissen, daß unter der Kurve der Standardnormalverteilung
(SNV) insgesamt eine Fläche von 1,00 liegt (sie läßt sich so definieren).
Wir können nun durch die SNV eine Senkrechte genau so legen, daß
sie die Fläche der SNV genau im Verhältnis von p:q aufteilt.
Diese Senkrechte schneidet die z-Werte in einem bestimmten Punkt,
d.h. bis zu diesem bestimmten z-Wert liegen 60 % der Werte in
einer SNV und darüber genau 40 %. Nun sagt die Höhe der SNV über
bestimmten z-Werten etwas über die Häufigkeit des Auftretens dieser
z-Werte aus (in einer theoretischen Verteilung muß es eigentlich
heißen: ´über die Wahrscheinlichkeit des Auftretens´):
- Werte aus der Mitte (um z=0) treten am häufigsten auf (z.B. mittlere
Intelligenzwerte),
- Werte an den Rändern, sogenannte Extremwerte, treten dagegen selten
(z.B. Schwachsinn oder Genialität).
Der von uns gesuchte -Wert ist nun die genaue Höhenangabe (=Ordinate) der SNV-Kurve
über dem durch p und q bestimmten z-Wert: z = .25; die Ordinatenhöhe
in diesem Punkt beträgt = .3867
|