Konzepte und Definitionen im Modul XI-1 Das einfache lineare Regressionsmodell

Druckversion:

Nach dem Drucken:

und zurück zum Dokument

Sollte das Drucken mit diesem Schaltknopf nicht funktionieren, nutzen Sie bitte die Druckfunktion in Ihrem Browser: Menü Datei -> Drucken

ViLeS 1 > XI Zusammenhangsmaße für metrischskalierte Daten (Regression und Korrelation) > XI-1 Das einfache lineare Regressionsmodell > Konzepte und Definitionen

Konzepte und Definitionen im Modul XI-1 Das einfache lineare Regressionsmodell

1. Tabellarische und graphische Aufbereitung zweidimensionaler Daten

a) Tabellarische und rechnerische Vorarbeiten

Die Kreuztabelle
- Die Möglichkeiten der tabellarischen Darstellung klassierter, zweidimensionaler Daten auf metrischer Grundlage sollen am Beispiel einer etwas ausführlicheren Kreuztabelle zum Zusammenhang von Brutto- und Nettoeinkommen demonstriert werden.
- Dabei sind die Beobachtungen der abhängigen Variablen Nettoverdienst in die Zeilen und die der unabhängigen Variablen Bruttoverdienst in die Spalten einzutragen. Diese Vorabfestlegung ist aus den theoretischen Begründungen der empirischen Analyse (vgl. dazu Kap. IX) abzuleiten.
- Tabelle 11-1: Brutto- und Nettoeinkommen (klassiert)
- Die Verortung der Häufigkeiten um die Zellen im Bereich der Hauptdiagonalen belegen - wie zu erwarten - einen deutlichen positiven Zusammenhang und demzufolge eine Vielzahl von leeren Zellen andernorts.
Zusammenhangsmaße unterschiedlicher Rechenansätze
- Die Stärke des Zusammenhangs zwischen metrischen Variablen kann, wie in den Kap. IX und X gezeigt, auch durch Kontingenz- und Rangkorrelationsmaße bestimmt werden.
- Tabelle 11-2: Kontingenzanalyse zum Brutto- und Nettoeinkommen (klassiert)
- Der berechnete Chi-Quadrat-Wert wird auch von der Konzentration der Werte um die Hauptdiagonale beeinflusst, da 124 der 156 der Felder der Tabelle 11-2 zu geringe Besetzungszahlen aufweisen.
- Tabelle 11-3: Vergleich der Zusammenhangsmaße
- Die Ergebnisse der verschiedenen Modellansätze werden sowohl von der Tabellengröße wie dem Vorhandensein von Ties beeinträchtigt. Ausserdem schöpfen die Maße nicht alle in der Metrik der Variablen verfügbaren Informationen aus, so dass der Korrelationskoeffizient R für die gegebenen Daten die Stärke des Zusammenhangs adäquat erfasst und mit einem Wert von R = 0,931 nachdrücklich belegt.

b) Das Konzept des Streuungsdiagramms

Im Beispiel greifen wir auf die metrischen Ursprungswerte der Variablen Partizipationsprofil und Partizipationspotential aus der Partizipationsuntersuchung zurück, um den Zusammenhang zwischen beiden Variablen graphisch darzustellen und hinsichtlich seiner Richtung und Stärke zu analysieren.

Das Koordinatensystem
- Die Darstellung der Beobachtungen einer zweidimensionalen Häufigkeitsverteilung in einer Punktwolke schöpft die im Datensatz vorhandenen Informationen vollständig aus, da sie jedes Wertepaar in Form eines Punktes im Koordinatensystem abbildet.
- In einem ersten Schritt müssen die X- und die Y-Koordinaten festgelegt werden. Da nicht davon auszugehen ist, dass die tatsächliche Beteiligung von den Wünschen abhängt sondern umgekehrt diese weckt, werden das Partizipationsprofil auf der X-Achse und das Partizipationspotentiel auf der Y-Achse abgetragen.

Das Streuungsdiagramm
Abbildung 11-1: Streuungsdiagramm zur tatsächlichen und zur gewünschten Partizipation

Die Punktwolke signalisiert:
- einen positiven, linearen Zusammenhang zwischen den Variablen, d.h. dass sich die beiden Variablen gleichsinnig und im Durchschnitt etwa proportional verändern und
- dass dieser Zusammenhang deutlich von Zufallseinflüssen beeinträchtigt ist, ansonsten lägen alle Beobachtungen auf einer Geraden.
Wie in Abb. 11-2 ersichtlich, hat das Zentrum der Punktwolke die Koordinaten (X̄ , Ȳ).
Abbildung 11-2: Lage der Punktwolke

2. Die Ermittlung der linearen Regressionsfunktion

a) Das Konzept der linearen Regressionsfunktion

Bei der einfachen linearen Regression gehen wir davon aus, dass es nur eine abhängige und eine unabhängige Variable gibt. Zudem unterstellen wir einen linearen Zusammenhang zwischen den Variablen. Die unabhängige Variable wird mit, die abhängige Variable wird mitbezeichnet (I=1...N).
Damit lässt sich die abhängige Variable als lineare Funktion der unabhängigen Variablen in Form der folgenden Geradengleichung darstellen.

In ihr istein konkreter, beobachteter Wert der unabhängigen Variablen.ist der Wert, den die abhängige Variable annähme, wenn die unabhängige Variable den Wertaufweist und keine weiteren Einflüsse aufeinwirken würden.
b gibt die Steigung der Geraden und a ihren Achsenabschnitt an. Eine negative Steigung, d. h. ein negatives Vorzeichen vor b bedeutet einen negativen Zusammenhang, eine positive Steigung einen positiven Zusammenhang.
Vorab wurde bereits geklärt, welche Variable die abhängige und welche die unabhängige ist.

b) Die Positionierung der linearen Regressionsfunktion in der Punktwolke

Die Hypothese eines linearen Zusammenhangs muss nun in Übereinstimmung mit den in der Punktwolke manifestierten Daten gebracht werden, d.h. die Regressionsfunktion muss optimal, etwa wie in Abb. 11-3 dargestellt, in die Punktwolke eingepasst werden:
Abbildung 11-3: Lage der der Regressionsfunktion in der Punktwolke
Wie man in Abb. 11-3 sieht, folgen die Beobachtungen nicht unmittelbar einer mathematischen Funktion sondern nur tendenziell. Sie streuen so zu sagen um eine optimale Linie, die in unserem Fall durch eine Geradengleichung zu beschreiben ist.
Man könnte dieses Optimum dadurch erreichen, dass man die Gerade solange verschiebt, bis der optische Eindruck die beste Einpassung ergibt. Im nächsten Schritt wird allerdings mit der "Methode der kleinsten Quadrate eine mathematische Lösung des Problems vorgestellt.

c) Die Methode der kleinsten Quadrate

Um für die beiden Parameter der Geradengleichung, die Steigung b und den Achsenabschnitt a adäquate Formeln zu definieren, wird die gesuchte Funktion über ein mathematisches Minimierungskalkül bestimmt. Die Logik des Modell erschließt sich relativ einfach über die graphische Darstellung in Abb. 11-4:

Abbildung 11-4: Punktwolke und lineare Regressionsfunktion
Die Abweichungen der Beobachtungen in der abhängigen Variablenvon der linearen Funktion werden als Fehlerbezeichnet.
Diese sind einmal dadurch bedingt, dass es - anders als in beobachtbaren naturwissenschaftlichen Zusammenhängen – in sozialen und ökonomischen Bezügen keinen Determinismus gibt.
Neben dem Zufall sind bei der Fehlerbetrachtung im einfachen linearen Regressionsmodell meist noch weitere unabhängige Variablen in Rechnung zu stellen, die in die Fehlergröße eingehen.
Damit ergeben sich die Beobachtungen inadditiv aus einem funktionalen Zusammenhangund einem nicht weiter aufgeschlüsselten „Fehlerterm“ :
Man versucht nun, die Gerade so durch die Punktwolke zu legen, dass die Fehler insgesamt minimiert werden. Weil die Summe der einfachen Abstände Null ergibt, soll die Summe der quadrierten Abstände der Beobachtungen von der Geraden ein Minimum aller denkbaren Geraden annehmen.

d) Die Formeln für die Parameter der Regressionsfunktion

Die Methode der kleinsten Quadrate besteht nun in der Lösung folgender mathematischer Zielfunktion:
Dazu wird partiell nach a und b differenziert. Die partiellen Differentiale werden null gesetzt und nach den Parametern a und b aufgelöst. Die 2. Ableitungen sollten dabei negativ sein.
Abbildung 11-5: Ableitung der Regressionsparameter

Aus den Normalgleichungen wird zunächst die Steigung b bestimmt (zur genaueren Herleitung vgl. Litz, 2003 S. 162 ff).
Die Formel für den Regressionskoeffizienten b
- lautet für Einzelwerte:
  = bzw.:
- lautet für gruppierte Daten: =.
- Die zweite Schreibweise ergibt sich durch Umformung und führt zu Ausdrücken, die sich über eine Arbeitstabelle berechnen lassen (vgl. den nachfolgenden Teil "Beispiele und Aufgaben").
- b lässt sich auch als Verhältnis der Kovarianz von X und Y zur Varianz von X darstellen:, wobei die Kovarianz der numerische Ausdruck der gemeinsamen Variation von X und Y ist (vgl. dazu Näheres in Kap.XI-2).
Die Formel für die Regressionskonstante a
- Aus den kleinsten Quadraten lässt sich die sogenannte Mittelpunktsgleichung ableiten, die besagt, dass die Regressionsfunktion durch den Mittelpunkt der Punktwolke geht (vgl. Abb. 11-6):
- a ergibt sich am einfachsten durch Einsetzen in diese Beziehung:
Die Regressionsfunktion
Damit ist die Regressionsgeradeermittelt.

3. Präsentation und Interpretation der Ergebnisse

Abbildung 11-6: Lage der der Regressionsfunktion in der Punktwolke
Zur Bewertung des Ergebnisses ist ein Vergleich der ermittelten Regressionsfunktion mit der 45°-Linie aufschlussreich. Diese beschreibt die Situation, in der tatsächliche Beteiligung und gewünschte Beteiligung identisch sind.

Abbildung 11-7: Regressionsfunktion und 45°- Linie

letzte Änderung am 28.2.2020 um 7:49 Uhr.

Adresse dieser Seite (evtl. in mehrere Zeilen zerteilt)
http://viles.uni-oldenburg.de/navtest/viles1/kapitel11_Regression~~lund~~lKorrelation/modul01_Das~~leinfache~~llineare~~lRegressionsmodell/ebene01_Konzepte~~lun
d~~lDefinitionen/11__01__01__01.php3