Druckversion: | Nach dem Drucken: | und zurück zum Dokument |
Sollte das Drucken mit diesem Schaltknopf nicht funktionieren, nutzen Sie bitte die Druckfunktion in Ihrem Browser: Menü Datei -> Drucken
ViLeS 1 > XI Zusammenhangsmaße für metrischskalierte Daten (Regression und Korrelation) > XI-1 Das einfache lineare Regressionsmodell > Konzepte und Definitionen |
Die Kreuztabelle
Die Möglichkeiten der tabellarischen Darstellung klassierter, zweidimensionaler Daten auf metrischer Grundlage sollen am Beispiel einer etwas ausführlicheren Kreuztabelle zum Zusammenhang von Brutto- und Nettoeinkommen demonstriert werden.
Dabei sind die Beobachtungen der abhängigen Variablen Nettoverdienst in die Zeilen und die der unabhängigen Variablen Bruttoverdienst in die Spalten einzutragen. Diese Vorabfestlegung ist aus den theoretischen Begründungen der empirischen Analyse (vgl. dazu Kap. IX) abzuleiten.
Tabelle 11-1: Brutto- und Nettoeinkommen (klassiert)
Die Verortung der Häufigkeiten um die Zellen im Bereich der Hauptdiagonalen belegen - wie zu erwarten - einen deutlichen positiven Zusammenhang und demzufolge eine Vielzahl von leeren Zellen andernorts.
Zusammenhangsmaße unterschiedlicher Rechenansätze
Die Stärke des Zusammenhangs zwischen metrischen Variablen kann, wie in den Kap. IX und X gezeigt, auch durch Kontingenz- und Rangkorrelationsmaße bestimmt werden.
Tabelle 11-2: Kontingenzanalyse zum Brutto- und Nettoeinkommen (klassiert)
Der berechnete Chi-Quadrat-Wert wird auch von der Konzentration der Werte um die Hauptdiagonale beeinflusst, da 124 der 156 der Felder der Tabelle 11-2 zu geringe Besetzungszahlen aufweisen.
Tabelle 11-3: Vergleich der Zusammenhangsmaße
Die Ergebnisse der verschiedenen Modellansätze werden sowohl von der Tabellengröße wie dem Vorhandensein von Ties beeinträchtigt. Ausserdem schöpfen die Maße nicht alle in der Metrik der Variablen verfügbaren Informationen aus, so dass der Korrelationskoeffizient R für die gegebenen Daten die Stärke des Zusammenhangs adäquat erfasst und mit einem Wert von R = 0,931 nachdrücklich belegt.
Im Beispiel greifen wir auf die metrischen Ursprungswerte der Variablen Partizipationsprofil und Partizipationspotential aus der Partizipationsuntersuchung zurück, um den Zusammenhang zwischen beiden Variablen graphisch darzustellen und hinsichtlich seiner Richtung und Stärke zu analysieren.
Das Koordinatensystem
Die Darstellung der Beobachtungen einer zweidimensionalen Häufigkeitsverteilung in einer Punktwolke schöpft die im Datensatz vorhandenen Informationen vollständig aus, da sie jedes Wertepaar in Form eines Punktes im Koordinatensystem abbildet.
In einem ersten Schritt müssen die X- und die Y-Koordinaten festgelegt werden. Da nicht davon auszugehen ist, dass die tatsächliche Beteiligung von den Wünschen abhängt sondern umgekehrt diese weckt, werden das Partizipationsprofil auf der X-Achse und das Partizipationspotentiel auf der Y-Achse abgetragen.
Das Streuungsdiagramm
Abbildung 11-1: Streuungsdiagramm zur tatsächlichen und zur gewünschten Partizipation
Die Punktwolke signalisiert:
einen positiven, linearen Zusammenhang zwischen den Variablen, d.h. dass sich die beiden Variablen gleichsinnig und im Durchschnitt etwa proportional verändern und
dass dieser Zusammenhang deutlich von Zufallseinflüssen beeinträchtigt ist, ansonsten lägen alle Beobachtungen auf einer Geraden.
Wie in Abb. 11-2 ersichtlich, hat das Zentrum der Punktwolke die Koordinaten (X̄ , Ȳ).
Abbildung 11-2: Lage der Punktwolke
Bei der einfachen linearen Regression gehen wir davon aus, dass es nur eine abhängige und eine unabhängige Variable gibt. Zudem unterstellen wir einen linearen Zusammenhang zwischen den Variablen. Die unabhängige Variable wird mit, die abhängige Variable wird mitbezeichnet (I=1...N).
Damit lässt sich die abhängige Variable als lineare Funktion der unabhängigen Variablen in Form der folgenden Geradengleichung darstellen.
In ihr istein
konkreter, beobachteter Wert der unabhängigen Variablen.ist
der Wert, den die abhängige Variable annähme, wenn die
unabhängige Variable den Wertaufweist
und keine weiteren Einflüsse aufeinwirken würden.
b gibt
die Steigung der Geraden und a ihren
Achsenabschnitt an. Eine negative Steigung, d. h. ein negatives
Vorzeichen vor b bedeutet
einen negativen Zusammenhang, eine positive Steigung einen positiven
Zusammenhang.
Vorab wurde bereits geklärt, welche Variable die abhängige und welche die unabhängige ist.
Die Hypothese eines linearen Zusammenhangs muss nun in Übereinstimmung mit den in der Punktwolke manifestierten Daten gebracht werden, d.h. die Regressionsfunktion muss optimal, etwa wie in Abb. 11-3 dargestellt, in die Punktwolke eingepasst werden:
Abbildung 11-3: Lage der der Regressionsfunktion in der Punktwolke
Wie man in Abb. 11-3 sieht, folgen die Beobachtungen nicht unmittelbar einer mathematischen Funktion sondern nur tendenziell. Sie streuen so zu sagen um eine optimale Linie, die in unserem Fall durch eine Geradengleichung zu beschreiben ist.
Man könnte dieses Optimum dadurch erreichen, dass man die Gerade solange verschiebt, bis der optische Eindruck die beste Einpassung ergibt. Im nächsten Schritt wird allerdings mit der "Methode der kleinsten Quadrate eine mathematische Lösung des Problems vorgestellt.
Um für die beiden Parameter der Geradengleichung,
die Steigung b und den Achsenabschnitt a adäquate Formeln zu definieren, wird die gesuchte Funktion über
ein mathematisches Minimierungskalkül bestimmt. Die Logik des
Modell erschließt sich relativ einfach über die graphische
Darstellung in Abb. 11-4:
Abbildung
11-4: Punktwolke und lineare Regressionsfunktion
Die Abweichungen der Beobachtungen in der abhängigen Variablenvon der linearen Funktion werden als Fehlerbezeichnet.
Diese sind einmal dadurch bedingt, dass es - anders als in beobachtbaren naturwissenschaftlichen Zusammenhängen – in sozialen und ökonomischen Bezügen keinen Determinismus gibt.
Neben dem Zufall sind bei der Fehlerbetrachtung im einfachen linearen Regressionsmodell meist noch weitere unabhängige Variablen in Rechnung zu stellen, die in die Fehlergröße eingehen.
Damit ergeben sich die Beobachtungen inadditiv aus einem funktionalen Zusammenhangund einem nicht weiter aufgeschlüsselten „Fehlerterm“ :
Man versucht nun, die Gerade so durch die Punktwolke zu legen, dass die Fehler insgesamt minimiert werden. Weil die Summe der einfachen Abstände Null ergibt, soll die Summe der quadrierten Abstände der Beobachtungen von der Geraden ein Minimum aller denkbaren Geraden annehmen.
Die Methode der kleinsten Quadrate besteht nun in der Lösung folgender mathematischer Zielfunktion:
Dazu wird partiell nach a und b differenziert. Die partiellen Differentiale werden null gesetzt und nach den Parametern a und b aufgelöst. Die 2. Ableitungen sollten dabei negativ sein.
Abbildung 11-5: Ableitung der Regressionsparameter
Aus den Normalgleichungen wird zunächst die Steigung b bestimmt (zur genaueren Herleitung vgl. Litz, 2003 S. 162 ff).
Die Formel für den Regressionskoeffizienten b
lautet für Einzelwerte:
= bzw.:
lautet für gruppierte Daten: =.
Die zweite Schreibweise ergibt sich durch Umformung und führt zu Ausdrücken, die sich über eine Arbeitstabelle berechnen lassen (vgl. den nachfolgenden Teil "Beispiele und Aufgaben").
b lässt sich auch als Verhältnis der Kovarianz von X und Y zur Varianz von X darstellen:, wobei die Kovarianz der numerische Ausdruck der gemeinsamen Variation von X und Y ist (vgl. dazu Näheres in Kap.XI-2).
Die Formel für die Regressionskonstante a
Aus den kleinsten Quadraten lässt sich die sogenannte Mittelpunktsgleichung ableiten, die besagt, dass die Regressionsfunktion durch den Mittelpunkt der Punktwolke geht (vgl. Abb. 11-6):
a ergibt sich am einfachsten durch Einsetzen in diese Beziehung:
Die Regressionsfunktion
Damit ist die Regressionsgeradeermittelt.
Abbildung 11-6: Lage der der Regressionsfunktion in der Punktwolke
|
|
Zur Bewertung des Ergebnisses ist ein Vergleich der ermittelten Regressionsfunktion mit der 45°-Linie aufschlussreich. Diese beschreibt die Situation, in der tatsächliche Beteiligung und gewünschte Beteiligung identisch sind.
Abbildung 11-7: Regressionsfunktion und 45°- Linie
|
|
letzte Änderung am 28.2.2020 um 7:49 Uhr.
Adresse dieser Seite (evtl. in mehrere Zeilen zerteilt)
http://viles.uni-oldenburg.de/navtest/viles1/kapitel11_Regression~~lund~~lKorrelation/modul01_Das~~leinfache~~llineare~~lRegressionsmodell/ebene01_Konzepte~~lun
d~~lDefinitionen/11__01__01__01.php3