Texte
(Kapitel 11 - Seite 1 / 4)
Multivariate Verfahren
Nachdem wir die Beschreibung einer Variablen kennengelernt haben
und sehen konnten, wie der Zusammenhang zwischen zwei Variablen
(die gemeinsame Variation) beschrieben werden kann, soll jetzt
der Blick erweitert werden auf die Betrachtung von drei oder mehr
Variablen gleichzeitig. Wir sprechen dann von multivariater Statistik.
Wie bereits im bivariaten Fall geht es uns in erster Linie um
die Zusammenhänge der Variablen untereinander, also um ihre gemeinsame
Variation, und deshalb sind die Korrelationen der Variablen der
Ausgangspunkt unserer Überlegungen.
Dabei betrachten wir hier lediglich solche Verfahren, die auf
Produkt-Moment-Korrelationen beruhen, d.h. wir beschränken uns
auf Variablen, die intervallskaliert und hinreichend symmetrisch
um ihr Arithmetrisches Mittel verteilt sind.
Für solche Fälle, in denen diese Bedingungen nicht erfüllt sind,
sind die dafür geeigneten Verfahren wesentlich komplizierter und
in der empirischen Literatur noch sehr selten vertreten, so daß
eine Behandlung dieser Methoden den Rahmen einer Einführung sprengen
muß.
Wir beginnen am besten mit einem einfachen Beispiel:
In einer Untersuchung mit 101 Psychologiestudenten während eines
Statistikkurses ist unter anderem ein Fragebogen mit 7 Items zum
Umgang mit Zahlen vorgegeben worden:
- Ich mache im Umgang mit Zahlen oft Flüchtigkeitsfehler.
- Wenn ich mit Zahlen und Formeln arbeiten muß, fühle ich mich meistens
angespannt.
- Mathematik war noch nie meine starke Seite.
- An den Mathematikunterricht in der Schule habe ich keine guten
Erinnerungen.
- Ich arbeite gern mit Zahlen.
- In der Schule hatte ich oft Angst, daß ich im Mathematikunterricht
nach vorn an die Tafel gerufen würde.
- Ich muß mich immer scharf konzentrieren, um beim Rechnen keine
Fehler zu machen.
Diese Items sind auf einer 5-stufigen Skala (Zustimmung - Ablehnung)
beantwortet worden, die Daten erlauben die Berechnung von Produkt-Moment-Korrela-tionen.
Wir erhalten also zwischen je zwei Variablen eine Korrelation
und ordnen die Korrelationen in einem Schema wie folgt an:
| Var |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
| 1 |
1.00 |
0.50 |
0.45 |
0.38 |
-0.47 |
0.21 |
0.64 |
| 2 |
0.50 |
1.00 |
0.60 |
0.61 |
-0.58 |
0.50 |
0.64 |
| 3 |
0.45 |
0.60 |
1.00 |
0.81 |
-0.71 |
0.61 |
0.42 |
| 4 |
0.38 |
0.61 |
0.81 |
1.00 |
-0.72 |
0.66 |
0.45 |
| 5 |
-0.47 |
-0.58 |
-0.71 |
-0.72 |
1.00 |
-0.58 |
-0.39 |
| 6 |
0.21 |
0.50 |
0.61 |
0.66 |
-0.58 |
1.00 |
0.29 |
| 7 |
0.64 |
0.58 |
0.42 |
0.45 |
-0.39 |
0.29 |
1.00 |
Dieses Schema werden wir in Zukunft als Interkorrelationsmatrix
bezeichnen ('Matrix' heißt zunächst nichts anderes als 'rechteckige
Anordnung von Zahlen').
Weil ja jede Variable mit jeder anderen korreliert wird, ist die
Interkorrelationsmatrix quadratisch. Sie hat in unserem Fall sieben
Zeilen und Spalten, also 49 Korrelationen. Im Schnittpunkt einer
bestimmten Zeile und Spalte ist genau die Korrela-tion zwischen
den beiden entsprechenden Variablen abzulesen.
Von den 7 x 7 = 49 Korrelationen der Matrix sind 7 uninteressant,
es sind dies die Korrelationen jeder Variablen mit sich selbst,
und die sind natürlich immer gleich 1. Diese Korrelationen sind
in jeder Interkorrelationsmatrix in der Diagonale von links oben
nach rechts unten angeordnet, die wir als Hauptdiagonale bezeichnen.
Weiter stellen wir fest, daß die Korrelationen im oberen Teil
(oberhalb der Hauptdiagonalen) und im unteren Teil der Matrix
(unterhalb der Hauptdiago-nalen) sich entsprechen:
Die Korrelation im Schnittpunkt der 2. Zeile mit der 5. Spalte
ist gleich der im Schnittpunkt der 5. Zei-le mit der 2. Spalte
usw.
Wir sagen, die Interkorrelationsmatrix ist symme-trisch zur Hauptdiagonalen.
Daß dies so ist, kann nicht verblüffen, denn es ist ja in beiden
Fällen dieselbe Korrelation zwischen denselben Variablen, die
nur anders herum geschrieben wurde. Es verbleiben also (7 x 7
7) : 2 = 21 Interkorrelationen zwischen den 7 Variablen, die
von Interesse sind.
Wir können uns jetzt auch allgemein überlegen, wie-viele Korrelationen
bei einem Satz von M Variablen erzeugt werden können.
Wir gehen zunächst von einer quadratischen Matrix mit M x M Korrelationen
aus, ziehen davon M Korre-lationen (die der Hauptdiagonalen) ab,
teilen den Rest durch 2 (wegen der Symmetrie) und erhalten:
( M x M - M) / 2 Korrelationen.
Aus diesem Ausdruck kann M dann ausgeklammert werden:
(M x M - M) / 2 = M(M - 1) / 2
Anzahl der Korrelationen zwischen M Variablen:
M(M - 1) / 2
Aus Vereinfachungsgründen stellt man oft nur den Teil der Interkorrelationsmatrix
dar, der diese bedeutsamen Angaben enthält (man sagt dazu: die
obere Dreiecksmatrix):
| Var |
1 |
3 |
4 |
5 |
6 |
7 |
| 1 |
1.00 |
0.45 |
0.38 |
-0.47 |
0.21 |
0.64 |
| 2 |
|
0.60 |
0.61 |
-0.58 |
0.50 |
0.64 |
| 3 |
|
1.00 |
0.81 |
-0.71 |
0.61 |
0.42 |
| 4 |
|
|
1.00 |
-0.72 |
0.66 |
0.45 |
| 5 |
|
|
|
1.00 |
-0.58 |
-0.39 |
| 6 |
|
|
|
|
1.00 |
0.29 |
| 7 |
|
|
|
|
|
1.00 |
Das grundlegende Problem der Deskription multivari-ater Datensätze
besteht nun darin, eine Vielfalt von Variablen so zu ordnen, daß
sie überblickt werden können. Aufgrund der Zusammenhänge der Variablen,
die jeweils paarweise berechnet werden können, sol-len die Variablen
zu Gruppen zusammengefaßt werden.
Im Fall unseres Beispiels sehen wir noch ziemlich leicht und ohne
daß wir ein statistisches Verfahren anwenden, daß die Variablen
1 und 7 miteinander mehr korrelieren (.64) als mit den anderen
5 Variablen (.21 bis .58) und daß diese 5 untereinander höher
korrelieren (durchschnittlich .64) als mit den beiden anderen
Variablen 1 und 7 (durchschnittlich .41).
Es liegt daher nahe, die 7 Variablen in zwei Gruppen zu sortieren,
von denen die Variablen 1 und 7 die erste und die Variablen 2
bis 6 die zweite Gruppe bilden sollen. Die Variablen einer Gruppe
korrelieren miteinander besonders hoch, was bedeutet, daß sie
von einer Person in relativ ähnlicher Weise eingeschätzt wer-den
und folglich untereinander ähnliche Inhalte erfassen.
|
Gemeinsamkeit: |
|
|
| Variablengruppe 1: |
Zustimmung zu den beiden Items 1 und 7 |
vs |
Ablehnung der beiden Items 1 und 7 |
| |
1. Ich mache im Umgang mit Zahlen oft Flüchtigkeitsfehler. |
|
keine Unsicherheit beim Zahlenrechnen |
|
7. Ich muß mich immer scharf konzentrieren, um beim Rechnen keine
Fehler zu machen. |
|
|
|
|
|
|
| Variablengruppe 2: |
Zustimmung zu den Items 2, 3, 4 und 6 bei gleichzeitiger Ablehnung
des Items 5 |
vs |
Ablehnung der Items 2, 3, 4 und 6 bei gleichzeitiger Zustimmung
zu Item 5 |
|
2. Wenn ich mit Zahlen und Formeln arbeiten muß, fühle ich mich
meistens angespannt. |
|
|
|
3. Mathematik war noch nie meine starke Seite. |
|
|
|
4. An den Mathematikunterricht in der Schule habe ich keine guten
Erinnerungen |
|
|
|
|
|
5. Ich arbeite gern mit Zahlen (*). |
|
6. In der Schule hatte ich oft Angst, daß ich im Mathematikunterricht
nach vorn an die Tafel gerufen würde |
|
|
|
|
|
|
|
Ungute, belastende Gefühle und Erinnerungen im Zusammenhang mit
Mathematik |
|
keine solchen Gefühle, bzw. ein weniger starkes Ausmaß dieser
Gefühle |
Daß die Variable 5 (*) negativ korreliert ist, tut für die Zugehörigkeit
dieser Variablen zur Gruppe nichts. Der Zusammenhang der Variablen
ist nur absolut (also ohne Berücksichtigung des Vorzeichens) von
Bedeutung.
Wenn wir jetzt daran denken, daß 7 Variablen in der Psychologie
und den Sozialwissenschaften eine recht kleine Variablenauswahl
darstellen und daß 30 oder mehr Variablen durchaus als der Normalfall
angesehen werden können, wird sofort einsichtig, daß
- das Problem der Ordnung und Zusammenfassung der Variablen von
vorrangiger Bedeutung ist,
- diese Ordnung nicht mehr allein durch Betrachtung der Interkorrelationsmatrix
per Augenschein hergestellt werden kann.
Bereits bei nur 30 Variablen steigt die Zahl der zu berücksichtigenden
Korrelationen auf 30 x 29 : 2 = 110, auf mehr als das 4-fache
an.
Die multivariate deskriptive Statistik stellt deshalb Verfahren
bereit, mit denen Interkorrelationsmatrizen übersichtlicher werden
und mit denen Gemeinsamkeiten der Variablen untereinander statistisch
herausgefunden werden können.
|