Texte
(Kapitel 10 - Seite 1 / 6)
Partialregression
Für m Variablen lautet die Gleichung:
Die Partialregressionskoeffizienten in der vorstehenden Gleichung
werden auch Rohwertgewichte genannt. Mit ihrer Hilfe kann man
die Abweichungswerte , und gewichten und dann durch ihre Linearkombination (addieren!) den
bestmöglichen Schätzwert für jede Versuchsperson i berechnen (natürlich
auch als Abweichungswert .
Bestmöglich bedeutet hier natürlich wieder, daß die Summe der
Fehler über alle Versuchspersonen so gering wie möglich ist. Mit
Hilfe der Rohwertgewichte kann man, wenn man
- die Meßwerte der Prädiktoren einer Versuchsperson und
- den Mittelwert der Kriteriumsvariablen in einer für diese Versuchsperson
passenden Stichprobe
kennt, für die betreffende Person den Wert in der Kriteriumsvariablen
schätzen:
Diese Schätzung ist aufgrund der vorliegenden Daten die bestmögliche.
Die Rohwertgewichte erfüllen also eine Aufgabe der Multiplen Regression,
die wir einmal die individuell-diagnostische nennen werden. Eine
andere, praktisch v.a. in der Forschung wesentlichen Funktion
der Multiplen Regression kann damit allerdings nicht übernommen
werden. Diese zweite Funktion, die wir stichprobenbezogen-statistisch
nennen, soll - ganz ähnlich wie bei der Faktorenanalyse - die
Frage beantworten, welche Prädiktorvariable in welchem Umfang
zur Erklärung der Varianz des Kriteriums beitrugen. Hierbei geht
es jetzt nicht mehr um die Schätzung eines Wertes einer Versuchsperson,
sondern um die Zurückführung einer Variablen auf eine Linear-Kombination
von Prädiktorvariablen, also um Varianzanteile der Prädiktoren.
In diesem Sinne kann man leicht den Vergleich zwischen den Konzepten
'Faktorenanalyse' und 'Multiple Regressionsanalyse' ziehen:
Faktorenanalyse ist quasi eine Multiple Regressionsanalyse mit
theoretischen Variablen (Faktoren statt Prädiktorvariablen).
Allerdings lassen sich die Rohwertgewichte nicht unmittelbar für
ein stichprobenbezogen-statistisches Vorgehen verwenden, da sie
vom 'Maßstab', also auch der Standardabweichung von den Prädiktorvariablen
abhängen. Dies ist an einem einfachen Beispiel leicht zu verdeutlichen:
mißt man anstatt in Metern in Zentimetern, so verhundertfacht
sich automatisch die Standardabweichung der Variablen 'Länge'.
Hätte man nun die Länge in eine Regressionsanalyse mit einbezogen,
dann würde - behielte man das für Meter berechnete
b-Gewicht bei - sich der Einfluß der Variablen Länge unberechtigt
verfielfachen.
Das b-Gewicht hat also zwei Aufgaben:
- es dient, wie beschrieben, zur Gewichtung von Variablen und
- es hat die Aufgabe, die verschiedenen Variablen-Maßstäbe (= Standardabweichungen)
gegeneinander auszugleichen.
Deshalb werden beta-Gewichte bei Variablen mit hohen Standardabweichungen
relativ niedrig und bei geringem s relativ hoch ausfallen.
Rohwertgewichte werden bestimmt durch den tatsächlichen relativen Einfluß dieser
Prädiktorvariablen auf das Kriterium und den Maßstab (s) dieses
Prädiktors.
Um eine statistische Betrachtungsweise zu ermöglichen, liegt es
nahe, den Maßstabs-Einfluß auf b durch den Übergang von Rohwerten
auf standardisierte Daten zu beseitigen. Damit erfüllen die b-Werte
nicht mehr ihre Streuungsausgleichsfunktion, sie werden zu reinen
Prädiktor-Gewichten.
Wir nennen diese 'neuen' Gewichte jetzt analog ß-Gewichte oder
auch Standard-Partial-Regressionskoeffizienten.
Die Beta-Gewichte sind reine, ihrer Streuungsausgleichsfunktion
enthobene Prädiktorgewichte, die direkt miteinander vergleichbar
sind.
Weil jetzt alle Variablen standardisiert sind, kann '-x' bzw.
jetzt '-z' wegfallen, denn der Mittelwert bei standardisierten
Variablen ist gleich Null.
Neben dieser 'formelhaften' gibt es eine grafische, vielleicht
etwas anschaulichere Darstellung der multiplen Regressionsgleichung
für standardisierte Werte. Dabei stellen gerade Pfeile die Beta-Gewichte
zum Kriterium (Standard-Partial-Regressionskoeffizienten) und
die gebogenen Pfeile die Korrelationen zwischen den nicht-partialisierten
'unabhängigen' Variablen dar:
Zur Berechnung von (Standard-)Partial-Regressionskoeffizienten
Zu Beginn dieses Abschnittes müssen wir eine wesentliche Einschränkung
machen: normalerweise, d.h. in dem Fall, wo drei oder mehr Prädiktoren
zur Vorhersage eines Kriteriums Verwendung finden, wird man multiple
Regressionsanalysen nicht von Hand rechnen - der Formel- und Rechenaufwand
ist zu groß. In den Rechenzentren der Universitäten liegen Programme
vor, die zur Berechnung nahezu beliebiger Regressionsanalysen
dienen können. Am gebräuchlichsten sind hierzu die Programmpakete
von SPSS und LISREL.
Um dennoch die multiple Regressionsanalyse auch rechnerisch verdeutlichen
zu können, wollen wir hier die Rechenvorschriften für den drei-variaten
Fall (zwei Prädiktoren und ein Kriterium) vorstellen.
Die beiden Partialregressionskoeffizienten werden nach folgenden
Formeln berechnet:
und
cov12 ist hier die Co-Varianz zwischen Variable 1 und 2 (vgl. Kap.
Korrelation).
Will man die Standard-Partialregressionskoeffizienten bestimmen,
so kann man sich der nachfolgenden Anweisung bedienen:
und
Der aufmerksame Leser hat bei den letzten beiden Gleichungen möglicherweise
eine gewisse Ähnlichkeit zur Berechnung einer Partialkorrelation
festgestellt. Diese Ähnlichkeit ist nicht zufällig, sondern sinnvoll,
denn in die Berechnung des b- bzw. ß-Gewichtes sollen ja nur die
Anteile des Prädiktors mit eingehen, die von den anderen Prädiktoren
unabhängig (= unkorreliert) sind. Wäre diese Unabhängigkeit nicht
gewährleistet, dann dürfte man kein so einfaches Modell aufstellen.
Aus diesem Grund ist es auch nicht ausreichend, sich lediglich
die Einzelkorrelationen zwischen den Prädiktoren und dem Kriterium
anzuschauen, um zu entscheiden, welcher Prädiktor besondes gewichtig
ist. Diese Aussage wird allerdings erst dann relevant, wenn man
mehr als zwei Prädiktoren hat. In diese Einzelkorrelationen geht
noch der Einfluß der Prädiktorkorrelationen untereinander mit
ein, der in der multiplen Regression heraus partialisiert wird.
Wie bereits festgestellt wurde, unterscheiden sich die beiden
Gewichtsarten (b und ß) lediglich dadurch, daß die ß 'streuungsbereinigt'
sind, da sie die standardisierten Variablen verarbeiten. Sie sind
damit untereinander auch unmittelbar vergleichbar. Wenn man eine
der beiden Gewichtsarten nach den obigen Vorschriften berechnet
hat, kann man die anderen Gewichte deshalb auch mit Hilfe der
Standardabweichungen direkt daraus berechnen.
Auch bei der multiplen Regression ist die Kenntnis der (eigentlich
erst vorherzusagenden) Kriteriumsmeßwerte nötig. Die Regressionsanalyse
dient also vor allem der Modellbildung und der Überprüfung dieses
Modells: wie müßte man Prädiktorenmeßwerte zusammenfassen, um
bei der Schätzung der Kriteriumswerte den Fehler möglichst gering
zu halten. Die Regressionsgleichung liefert uns nach Modellüberprüfung
die Möglichkeit, für zukünftige Ereignisse Prognosen abzugeben.
|