Algorithmus (Mehrfache Lineare Regression)

Inhalt

1 Das Modell der multiplen linearen Regression
- 1.1 Modell der multiplen linearen Regression
2 Fit-Steuerung
3 Fit-Ergebnisse
- 3.1 Fit-Parameter
- 3.2 Fit-Statistik
4 ANOVA-Tabelle
5 Tabelle des Tests auf fehlende Anpassung
6 Kovarianz- und Korrelationsmatrix
7 Residuenanalyse
8 Diagramme

Das Modell der multiplen linearen Regression

Modell der multiplen linearen Regression

Die mehrfache lineare Regression ist eine Erweiterung der einfachen linearen Regression, bei der mehrere unabhängige Variablen existieren. Sie wird zum Analysieren der Auswirkung von mehr als einer unabhängigen Variablen $x_1, x_2, \dots, x_k$ auf die abhängige Variable y verwendet. Für einen gegebenen Datensatz $(y, x_1, x_2, \dots, x_k)$ passt die mehrfache lineare Regression den Datensatz an das folgende Modell an:

$y_i=\beta _0+\beta _1x_{1_i}+\beta _2x_{2_i}+\ldots +\beta _kx_{k_i}+\varepsilon_i$	(1)

wobei $\beta _0\,\!$ der Y-Achsenabschnitt ist und die Parameter $\beta _1\,\!$ , $\beta _2\,\!$ ,…, $\beta _k\,\!$ die teilweisen Koeffizienten genannt werden. Dies kann in Matrixform geschrieben werden:

$Y=XB+E\,\!$	(2)

wobei

$Y=\begin{bmatrix} y_1\\ y_2\\ \vdots \\ y_n \end{bmatrix}$ , $X=\begin{bmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1k}\\ 1 & x_{21} & x_{22} & \cdots & x_{2k}\\ \vdots & \vdots & \vdots & \ddots & \vdots\\ 1 & x_{n1} & x_{n2} & \cdots & x_{nk} \end{bmatrix}$ $B=\begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_k \end{bmatrix}$ , $E=\begin{bmatrix} \varepsilon _1\\ \varepsilon _2\\ \vdots \\ \varepsilon _n \end{bmatrix}$

Angenommen, $\varepsilon_i$ sind unabhängige und identisch verteilt wie normalverteilte Zufallsvariablen mit $\bar{E}=0$ und $Var[E]=\sigma^2$ . Um $\left \|E\right \|$ hinsichtlich $B$ zu minimieren, lösen wir die Funktion:

$\frac{\partial E'E}{\partial B}=0$	(3)

Das Ergebnis $\hat B$ ist die Schätzung der kleinsten Quadrate des Vektors B. Es ist die Lösung der linearen Gleichungen, die folgendermaßen ausgedrückt werden können:

$\hat B=\begin{bmatrix} \hat \beta_0 \\ \hat \beta_1 \\ \vdots \\ \hat \beta_k \end{bmatrix}=(X'X)^{-1}X^{\prime }Y$	(4)

wobei X’ die Transponierte von X ist. Der prognostizierte Wert von Y für einen gegebenen Wert von X ist:

$\hat{Y}=X\hat{B}$	(5)

Indem $\hat{B}$ mit (4) ersetzt wird, wird die Matrix $P$ definiert.

$\hat{Y}=[X(X'X)^{-1}X']Y=PY$	(6)

Die Residuen werden definiert als:

$res_i=Y-\hat{Y}$	(7)

und die Residuensumme der Quadrate kann geschrieben werden als:

$RSS=\left \\|E \right \\|^2={Y}'Y-\hat{B}'X'X\hat{B}$	(8)

Fit-Steuerung

Fehler als Gewichtung

Wir können jeder $y_i$ im Anpassungsprozess eine Gewichtung geben. Die Fehlerspalte yEr± $\sigma_i$ wird als Gewichtung $w_i$ für jeden $y_i$ behandelt, wenn yEr± nicht vorhanden ist. $w_i$ sollte für alle $i$ 1 sein.

Die Lösung $\hat{B}$ für die Anpassung mit Gewichtung kann geschrieben werden als:

$\hat{B}=(X'WX)^{-1}X'WY$	(9)

wobei

$W=\begin{bmatrix} w_1& 0 & \dots &0 \\ 0 & w_2 & \dots &0 \\ \vdots& \vdots &\ \ddots &\vdots \\ 0& 0 &\dots & w_n \end{bmatrix}$

Keine Gewichtung

Der Fehlerbalken wird in der Berechnung nicht als Gewichtung behandelt.

Direkte Gewichtung

$w_i=\sigma_i$	(10)

Instrumentell

$w_i=\frac 1{\sigma_i^2}$	(11)

Fester Schnittpunkt mit der Y-Achse (bei)

Fester Schnittpunkt mit der Y-Achse legt den Y-Schnittpunkt $\beta_0$ auf einen festen Wert fest, während der Gesamtfreiheitsgrad n*=n-1 ist aufgrund des festgelegten Schnittpunkts mit der Y-Achse.

Skalierungsfehler mit Quadrat (Reduziertes Chi-Quadrat)

Die Option Skalierungsfehler mit Quadrat (Reduziertes Chi-Qdr.) ist verfügbar, wenn mit Gewichtung angepasst wird. Diese Option beeinflusst nur den Fehler auf die Parameter, die der Anpassungsprozess meldet, und nicht den Anpassungsprozess selbst oder die Daten in irgendeiner Weise. Die Option ist standardmäßig aktiviert, und $\sigma^2$ , die Varianz von $E$ , wird zum Berechnen der Fehler auf die Parameter berücksichtigt. Ansonsten wird die Varianz von $E$ nicht zur Fehlerberechnung berücksichtigt. Die Kovarianzmatrix soll als Beispiel dienen:

Skalierungsfehler mit Quadrat (Reduziertes Chi-Quadrat)

$\sigma^2=\frac{RSS}{n^{*}-k}$
$Cov(\beta _i,\beta _j)=\sigma^2 (X^{\prime }X)^{-1}$	(12)

Keinen Skalierungsfehler mit Quadrat (Reduziertes Chi-Qdr.) verwenden:

$Cov(\beta _i,\beta _j)=(X'X)^{-1}\,\!$	(13)

Für die gewichtete Anpassung wird $(X'WX)^{-1}\,\!$ anstatt $(X'X)^{-1}\,\!$ verwendet.

Fit-Ergebnisse

Fit-Parameter

Die angepassten Werte

Formel (4)

Die Parameterstandardfehler

Für jeden Parameter kann der Standardfehler, wie folgt, ermittelt werden:

$s_{\hat \beta _j}=s_\varepsilon \sqrt{C_{jj}}$	(14)

wobei $C_{jj}$ das j-te diagonale Element von $(X'X)^{-1}$ ist (beachten Sie, dass $(X'WX)^{-1}$ für die gewichtete Anpassung verwendet wird). Die Standardabweichung der Residuen $s_\varepsilon$ (auch “StdAbw”, “Standardfehler der Schätzung” oder “Wurzel-MSE”) wird berechnet mit:

$s_\varepsilon =\sqrt{\frac{RSS}{df_{Error}}}=\sqrt{\frac{RSS}{n^{*}-k}}$	(15)

$s_\varepsilon^2$ ist eine Schätzung von $\sigma ^2$ . Dies ist die Varianz von $E$ .

Hinweis: Bitte lesen Sie weitere Einzelheiten zu den Freiheitsgraden, dfError, unter ANOVA-Tabelle.

t-Wert und Konfidenzniveau

Bleiben die die Regressionsannahmen bestehen, können wir die t-Tests für die Regressionskoeffizienten mit der Nullhypothese und der Alternativhypothese ausführen:

$H_0:\beta _j=0\,\!$

$H_\alpha :\beta _j\neq 0$

Die t-Werte können wie folgt berechnet werden:

$t=\frac{\hat \beta _j-0}{s_{\hat \beta _j}}$	(16)

Mit dem berechneten t-Wert können wir entscheiden, ob die entsprechende Nullhypothese verworfen werden soll oder nicht. Gewöhnlich können wir für ein gegebenes Konfidenzniveau für Parameter: $\alpha\,\!$ $H_0\,\!$ verwerfen, wenn $|t|>t_{\frac \alpha 2}$ . Zusätzlich ist der p-Wert kleiner als $\alpha\,\!$ .

Wahrsch.>|t|

Die Wahrscheinlichkeit, dass $H_0$ in dem t-Test oben wahr ist.

$prob=2(1-tcdf(\|t\|,df_{Error}))\,\!$	(17)

wobei $tcdf(|t|,df_{Error})$ die kumulative Verteilungsfunktion der studentischen t-Verteilung bei den Werten |t| berechnen mit dem Freiheitsgrad des Fehlers $(df_{Error})$ .

UEG und OEG

Mit dem t-Wert können wir das $(1-\alpha )\times 100\%$ -Konfidenzintervall für jeden Parameter berechnen:

$\hat \beta _j-t_{(\frac \alpha 2,n^{}-k)}\varepsilon _{\hat \beta _j}\leq \hat \beta _j\leq \hat \beta _j+t_{(\frac \alpha 2,n^{}-k)}\varepsilon _{\hat \beta _j}$	(18)

wobei $OEG$ und $LCL$ für Oberes Konfidenzintervall bzw. Unteres Konfidenzintervall steht.

KI halbe Breite

Das Konfidenzintervall halbe Breite ist:

$CI=\frac{UCL-LCL}2$	(19)

VIF

Der Varianzinflationsfaktor ist:

$VIF_i=\frac{1}{1-R^2_i}$	(20)

Wobei: $R^2_i$ ist ein nicht korrigierter Determinationskoeffizient für die Regression der i-ten unabhängigen Variable auf die verbleibenden.

Anpassungsstatistik

Einige Fit-Statistikformeln werden hier zusammengefasst:

Freiheitsgrade

Der Freiheitsgrad für (Fehler) Streuung Weitere Einzelheiten finden Sie in der ANOVA-Tabelle.

Reduziertes Chi-Quadrat

$\sigma^2=\frac{RSS}{n^{*}-k}$	(21)

Summe der Fehlerquadrate

Die Residuensumme der Quadrate, siehe Formel (8).

R-Quadrat (COD)

Die Anpassungsgüte kann durch den Determinationskoeffizienten (COD) $R^2$ bewertet werden, der gegeben ist mit:

$R^2=\frac{Explained\, variation}{Total \, variation}=1-\frac{RSS}{TSS}$	(22)

Kor. R-Quadrat

Der korrigierte $R^2$ wird zum Anpassen des $R^2$ -Wertes für den Freiheitsgrad verwendet. Es kann wie folgt berechnet werden:

$\bar R^2=1-\frac{RSS/df_{Error}}{TSS/df_{Total}}$	(23)

R-Wert

Anschließend können wir den R-Wert berechnen, der einfach die Quadratwurzel von $R^2$ ist:

$R=\sqrt{R^2}$	(24)

Wurzel-MSE (StAbw)

Quadratwurzel des Mittelwerts des Fehlers oder die residuale Standardabweichung ist gleich:

$RootMSE=\sqrt{\frac{RSS}{n^*-k}}$	(25)

Betrag der Residuen

Ist gleich der Quadratwurzel von RSS:

$Norm \,of \,Residuals=\sqrt{RSS}$	(26)

ANOVA-Tabelle

Die ANOVA-Tabelle der linearen Anpassung ist:

	Freiheitsgrade	Summe der Quadrate	Mittelwert der Quadrate	F -Wert	Wahrsch. > F
Modell	k	$SS_{reg} = TSS-RSS$	$MS_{reg} = SS_{reg} / k$	$MS_{reg} / MSE$	p-Wert
Fehler	n - k*	$RSS$	$MSE = RSS / (n^ - k)$*
Gesamt	n*	$TSS$

Hinweis: Wenn der Schnittpunkt mit der Y-Achse im Modell enthalten ist, dann ist n*=n-1. Andernfalls ist n*=n und die Gesamtsumme der Quadrate ist unkorrigiert.

Dabei ist hier die Gesamtsumme der Quadrate, TSS:

$TSS=\sum_{i=1}^n w_iy_i^2$ (unkorrigiert)
$TSS =\sum_{i=1}^nw_i(y_i -\frac{\sum_{i=1}^n w_i y_i} {\sum_{i=1}^n w_i})^2$ (korrigiert)	(27)

Der F-Wert ist ein Test, ob das Anpassungsmodell sich signifikant von dem Modell Y = konstant unterscheidet.

Zusätzlich werden der p-Wert bzw. die Signifikanzebene mit einem F-Test ermittelt. Wir können die Nullhypothese verwerfen, wenn der p-Wert kleiner als $\alpha\,\!$ ist, das heißt, das Anpassungsmodell unterscheidet sich signifikant von dem Modell Y = konstant.

Wenn der Schnittpunkt mit der Y-Achse bei einem bestimmten Wert festgelegt wird, ist der p-Wert für den F-Test nicht bedeutungsvoll und unterscheidet sich von dem in der multiplen linearen Regression ohne die Nebenbedingung des Schnittpunkts mit der Y-Achse.

Tabelle des Tests auf fehlende Anpassung

Um den Test auf fehlende Anpassung auszuführen, müssen Sie sich wiederholende Beobachtungen zur Verfügung haben, d. h. "replizierte Daten" , so dass mindestens einer der X-Werte sich innerhalb des Datensatzes oder innerhalb mehrerer Datensätze wiederholt, wenn der Modus Zusammengefasster Fit ausgewählt ist.

$y_{ij}$ ist die j-te Messung, die beim i-ten X-Wert im Datensatz gemacht wurde.
$\bar{y}_{i}$ ist der Durchschnitt von allen Y-Werten beim i-ten X-Wert.
$\hat{y}_{ij}$ ist die prognostizierte Antwort für die j-te Messung, die beim i-ten X-Wert gemacht wurde.

Die Summe der Quadrate in der Tabelle unten wird ausgedrückt mit:

$RSS=\sum_{i}\sum_{j}(y_{ij}-\hat{y}_{ij})^2$
$LFSS=\sum_{i}\sum_{j}(\bar{y}_{i}-\hat{y}_{ij})^2$
$PESS=\sum_{i}\sum_{j}(y_{ij}-\bar{y}_{i})^2$

Die Tabelle des Tests auf fehlende Anpassung der linearen Anpassung ist:

	Freiheitsgrade	Summe der Quadrate	Mittelwert der Quadrate	F -Wert	Wahrsch. > F
Fehlende Anpassung	c-k-1	LFSS	MSLF = LFSS / (c - k - 1)	MSLF / MSPE	p-Wert
Reiner Fehler	n - c	PESS	MSPE = PESS / (n - c)
Fehler	n-k*	RSS

Hinweis:

Wenn der Schnittpunkt mit der Y-Achse im Modell enthalten ist, dann ist n*=n-1. Andernfalls ist n*=n und die Gesamtsumme der Quadrate ist unkorrigiert. Wenn die Steigung fest ist, ist $df_{Model}$ = 0.

c bezeichnet die Anzahl der eindeutigen X-Werte. Wenn der Schnittpunkt mit der Y-Achse festgelegt ist, ist der Freiheitsgrad für die fehlende Anpassung c-k.

Kovarianz- und Korrelationsmatrix

Die Kovarianzmatrix für die multiple lineare Regression kann, wie folgt, berechnet werden:

$Cov(\beta _i,\beta _j)=\sigma ^2(X^{\prime }X)^{-1}$	(28)

Die Korrelation zwischen zwei beliebigen Parametern ist:

$\rho (\beta _i,\beta _j)=\frac{Cov(\beta _i,\beta _j)}{\sqrt{Cov(\beta _i,\beta _i)}\sqrt{Cov(\beta _j,\beta _j)}}$	(29)

Residuenanalyse

$r_i$ steht für reguläres Residuum $res_i$ .

Standardisiert

$r_i^{\prime }=\frac{r_i}s_\varepsilon$	(30)

Studentisiert

Sind auch bekannt als intern studentisierte Residuen.

$r_i^{\prime }=\frac{r_i}{s_\varepsilon\sqrt{1-h_i}}$	(31)

Studentisiert gelöscht

Sind auch bekannt als extern studentisierte Residuen.

$r_i^{\prime }=\frac{r_i}{s_{\varepsilon-i}\sqrt{1-h_i}}$	(32)

In den Gleichungen der studentisierten und studentisiert gelöschten Residuen ist $h_i$ das i-te diagonale Element der Matrix $P$ :

$P=X(X'X)^{-1}X^{\prime }$	(33)

$s_{\varepsilon-i}$ bedeutet die Varianz wird berechnet, basierend auf alle Punkte, schließt aber den iten Punkt aus.

Diagramme

Partielle Hebelwirkungsdiagramme

Bei der mehrfachen Regression können partielle Hebelwirkungsdiagramme verwendet werden, um das Verhältnis zwischen den unabhängigen und einer gegebenen abhängigen Variablen zu untersuchen. In dem Diagramm wird das partielle Residuum von Y gegen das partielle Residuum von X oder den Schnittpunkt mit der Y-Achse gezeichnet. Das partielle Residuum einer bestimmten Variablen ist das Regressionsresiduum, wobei diese Variable in dem Modell ausgelassen ist.

Nimmt man das Modell $y=\beta _0+\beta _1x_1+\beta _2x_2\,\!$ als Beispiel: Das partielle Hebelwirkungsdiagramm für $x_1\,\!$ wird erstellt, indem das Regressionsresiduum von $y=\beta _0+\beta _2x_2\,\!$ gegen das Residuum von $x_1=\beta _0+\beta _2x_2\,\!$ gezeichnet wird.

Residuentyp

Wählen Sie einen Residuentyp unter Regulär, Standardisiert, Studentisiert, Studentisiert gelöscht für die Diagramme.

Residuen vs. Unabhängige

Punktdiagramm der Residuen $res$ vs. unabhängige Variable $x_1,x_2,\dots,x_k$ ; jede Zeichnung befindet sich in einem separaten Diagramm.

Residuen vs. prognostizierte Werte

Punktdiagramm der Residuen $res$ vs. Fit-Ergebnisse $\hat{Y}$ .

Residuen vs. die Ordnung der Daten

$res_i$ vs. Abfolgenummer $i$

Histogramm des Residuums

Histogramm des Residuums $res$

Verzögertes Residuendiagramm

Residuen $res_i$ vs. zeitverzögertes Residuum $res_{(i–1)}$ .

Wahrscheinlichkeitsnetz (Normal) für Residuen

Das Wahrscheinlichkeitsnetz der Residuen (Normal) kann verwendet werden, um zu prüfen, ob die Varianz ebenfalls normalverteilt ist. Wenn das sich ergebende Diagramm ungefähr linear ist, nehmen wir weiterhin an, dass die Fehlerterme normal verteilt sind. Das Diagramm basiert auf Perzentilen versus geordnete Residuen. Die Perzentile werden geschätzt mit

$\frac{(i-\frac{3}{8})}{(n+\frac{1}{4})}$

wobei n die Gesamtanzahl der Datensätze ist und i die i-ten Daten bezeichnet. Bitte lesen Sie auch Wahrscheinlichkeitsdiagramm und Q-Q-Diagramm.