Übung 5

Das lineare Regressionsmodell

Aufgabe 1)

Gegeben sei folgende Tabelle:

Plan

26

36

31

25

29

37

40

22

Tat

35.0

42.5

37.5

34.0

31.3

40.5

57.0

35.0

Jedes Beobachtungspaar repräsentiert eine Busverbindung in Hamburg. Plan ist die Fahrzeit nach Fahrplan. Tat ist die tatsächlich benötigte Fahrzeit eines sich nach dem Fahrplan richtenden Fahrgastes (jeweils in Minuten).

a) Stellen Sie eine sinnvolle Regressionsbeziehung zwischen den beiden Merkmalen Plan und Tat im Rahmen des linearen Regressionsmodells auf.

Regressionsbeziehung zwischen den beiden Merkmalen Plan und Tat.

Aus der Definition des Einfach Regressionsmodell (F.243):

\begin{equation} \label{243_eqn} y_{i} = a + b \cdot x_{i} + \varepsilon_{i} \end{equation}

Erfolgt:

\[\text{Tat}_{i} = a + b \cdot \text{Plan}_{i} + \varepsilon_{i}\]

b) Zeichnen Sie das dazugehörige Streudiagramm.

c) Bestimmen Sie die geschätzte Regressionsgerade nach der Methode der kleinsten Quadrate und zeichnen Sie diese in das Streudiagramm ein.

Bestimmung über das Arithmetische Mittel (F.62):

\[\bar{x} = \frac{1}{8} \sum\limits^{8}_{i=1} x_{i} = 30,75\]
\[\bar{y} = \frac{1}{8} \sum\limits^{8}_{i=1} y_{i} = 39,10\]

Bestimmung mittels des Verschiebesatzes / Varianz (F.94):

\[s_{x}^2 = (\frac{1}{8} \sum\limits^{8}_{i=1} x_{i}^2) - \bar{x}^2 = 981,5 - 945,5625 = 35,9375\]

Bestimmung der Standardabweichung aus der Wurzel der Varianz \(sqrt{s^2}\) (F.93/96):

\[s_{x,y} = (\frac{1}{8} \sum\limits^{8}_{i=1} x_{i} y_{i}) - \bar{x} \bar{y} = 1238,5875 - 1202,325 = 36,2625\]
\[\implies ~~~~~ \hat{b} = \frac{s_{x,y}}{s_{x}^2} = 1,0090\]

Dies Ergebnis stellt einen fast perfekten Zusammenhang zwischen Tat und Plan + Konstante a dar! Ebenfalls ist zu erkennen, dass dies fast unabhängig von der Fahrzeit des Busses ist.

\[\implies ~~~~~ \hat{a} = \bar{y} - \hat{b} \bar{x} = 39,1 - 1,0090 \cdot 30,75 = 8,0733\]

d) TODO Interpretieren Sie die geschätzten Regressionskoeffizienten im Kontext.

e) Geben Sie an, welche tatsächliche Fahrzeit Sie erwarten würden, wenn nach Plan 24 Minuten vorgesehen sind.

\[\widehat{\text{Tat}} = \hat{a} + \hat{b} \cdot 24\]
\[\widehat{\text{Tat}} = 8,0733 + 1,0090 \cdot 24 = 32,2893\]

Aufgabe 2)

In einem Schwellenland wurde eine Studie zum Zusammenhang zwischen dem Einkommen der Eltern X und dem Geburtsgewicht des Kindes Y durchgeführt. Dabei wurden das monatliche Einkommen \(x_{i}\) in 1.000 GE und das Geburtsgewicht \(y_{i}\) in Pfund betrachtet:

x_i

2.7

1.9

3.1

3.9

4.0

3.4

2.1

2.9

y_i

5

6

9

8

7

6

7

8

a) Stellen Sie eine sinnvolle Regressionsbeziehung zwischen den beiden Merkmalen X und Y im Rahmen des linearen Regressionsmodells auf.

Die Definition des linearen Einfachregressionsmodells, welches den linearen Zusammenhang der beiden Merkmalen X und Y aufzeigt, lautet: (F.241)

\begin{equation} \label{241_eqn} Y = f(x) = a + b \cdot X \end{equation}

Aus der Definition des Einfach Regressionsmodell (F.243) leiten wir wiederum ab:

\[\hat{y}_{i} = a + \hat{b} \cdot x_{i} + \varepsilon_{i}\]

b) Zeichnen Sie das dazugehörige Streudiagramm.

c) Bestimmen Sie die geschätzte Regressionsgerade nach der Methode der kleinsten Quadrate und zeichnen Sie diese in das Streudiagramm ein.

\[\bar{x} = \frac{1}{8} \sum\limits^{8}_{i=1} x_{i} = 3\]
\[\bar{y} = \frac{1}{8} \sum\limits^{8}_{i=1} y_{i} = 7\]
\[s_{x,y} = (\frac{1}{8} \sum\limits^{8}_{i=1} x_{i} y_{i}) - \bar{x} \bar{y} = 21,2875 - 21 = 0,2875\]
\[s_{x}^2 = (\frac{1}{8} \sum\limits^{8}_{i=1} x_{i}^2) - \bar{x}^2 = 9,5125 - 9 = 0,5125\]
\[\implies ~~~~~ \hat{b} = \frac{s_{x,y}}{s_{x}^2} = 0,5610\]
\[\implies ~~~~~ \hat{a} = \bar{y} - \hat{b} \cdot \bar{x} = 5,317\]

Als Regressionsgerade ergibt sich somit:

\[\hat{y} = 5,317 + 0,5610 \cdot x\]

d) Das Einkommen einer Familie betrage 3.000 GE. Geben Sie an, welches Geburtsgewicht des Kindes Sie erwarten würden.

\[x = 3 ~~~~ \implies ~~~ \hat{y} = \hat{a} + \hat{b} \cdot x = 7\]
\[\implies ~~~~~ \text{zu erwartenes Geburtsgewicht von 7 Pfund.}\]

e) Entscheiden Sie, ob die gewählte Regressionsbeziehung geeignet ist. Nutzen Sie das Bestimmtheitsmaß für Ihre Entscheidung.

\[s_{y}^2 = (\frac{1}{8} \sum\limits^{8}_{i=1} y_{i}^2) - \bar{y}^2 = 50,5 - 49 = 1,5\]

Bestimmung des Bestimmtheitsmaßes im Einfachregressionsmodell (F.270)

\begin{equation} \label{270_eqn} R^2 = \frac{\hat{b}^2 \cdot s_{x}^2}{s_{y}^2} = \frac{0,5610^2 \cdot 0,5125}{1,5} = 0,1075 \end{equation}

\(\implies\) Nur 10,75% kann durch das Modell erklärt werden. Die Reggression ist hier eher ungeeignet.

Aufgabe 3)

Gegeben sei folgende geschätzte Regressionsgerade:

\[\widehat{\text{schlaf}} = 3.586,4 - 0,151 \cdot \text{arbeit}\]

Dabei ist schlaf die Zeit in Minuten, die pro Woche zum Schlafen genutzt wird. arbeit gibt die Minutenanzahlan, die pro Woche gearbeitet wird.

a) Interpretieren Sie den Achsenabschnitt.

\[\frac{3586,4 \text{ Min}}{7 \text{ Tage (Woche)}} = 8,54 \text{ Stunden pro Tag.}\]

(Wenn man 0 Min. Arbeiten würde.)

b) Angenommen arbeit steige um 2 Stunden pro Woche. Geben Sie an, wie sich diese Erhöhung auf schlaf auswirkt und, ob es sich um einen großen Effekt handelt.

\[\frac{\delta y}{\delta x} = -0,151 \approx \frac{\Delta Y}{\Delta X} \Leftrightarrow \Delta Y = -0,151 \cdot \Delta X\]
\[\implies ~~~ -0,151 \cdot 120 = -18,12 \text{ Min} \approx -2,59 \frac{\text{Min}}{\text{Tag}}\]

(Wenn man 2 Stunden in der Woche arbeitet, hat man ca. 3 Minuten weniger schlaf als ohne Arbeit.)

\[\implies ~~~ \frac{18,12}{3586,4} = 0,005\]

Im gesamten ist somit also der Wert der “Effizienz” hier mit 0,5% sehr klein.