アルゴリズム(線形回帰)

線形回帰モデル

単一線形回帰モデル

与えたられたデータセット\((x_i,y_i),i=1,2,\ldots n\) -- ここで、xは独立変数、yは従属変数、\(\beta_0\)\(\beta_1\)はパラメータ、\(\varepsilon_i\)は平均値\(E\left \{\varepsilon_i\right \}=0\)と変数\(Var\left \{\varepsilon_i\right \}=\sigma^2\)のときの誤差項です。--- 線形回帰は、以下の式のモデルに、データを合わせます。

\[y_i=\beta _0+\beta _1x_i+\varepsilon_i\]

(1)

最小二乗推定を使って、n偏差平方和を最小化します。

\[\sum_{i=1}^{n}(Y_i-\beta_0-\beta_1X_i)^2\]

(2)

線形モデルの推定パラメータは、次の式で計算できます。

\[\hat\beta _1=\frac{SXY}{SXX}\]

(3)

\[\hat\beta _0=\bar y-\hat\beta _1\bar x \]

(4)

ここで、

\(\bar x=\frac {1}{n}\sum_{i=1}^nx_i\),\(\bar y=\frac {1}{n}\sum_{i=1}^ny_i\)

(5)

および、

\(SXY=\sum_{i=1}^nx_iy_i\; \; \; \; \; \; \; SXX=\sum_{i=1}^nx_i^2\) (補正)

(6)

\(SXY=\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)\; \; \; \; \; \; \; SXX=\sum_{i=1}^n(x_i-\bar x)^2\)  (未補正)

(7)

Note: 切片がモデル内で除外されると、係数は未補正の式で計算されます。

したがって、回帰関数は次の通りに推定されます。

\[\hat{y}=\hat{\beta_0}+\hat{\beta_1}x\]

(8)

残差\(res_i\)は次のように定義されます。

\[res_i=y_i-\hat{y_i}\]

(9)

式(2)は残差平方和を最小化します

\[RSS=\sum_{i=1}^nres_i^2\]

(10)

最小二乗推定 \(\hat{\beta_0}\)\(\hat{\beta_1}\)は、 \(\beta_0\)\(\hat{\beta_1}\)の推定に使います。

フィット制御

誤差を重みとする

上記のセクションでは、誤差に定数分散があると仮定しています。しかし、実験値をフィッティングする場合、(計測器の確度と精度に影響を及ぼす)機器誤差を考慮する必要があります。したがって、誤差の定数分散推定は、棄却されます。そして、\(\varepsilon_i\)を非定数分散の正規分布であると推定する必要があります。また、誤差は、\(\sigma^2\)のようになり、フィッティングで重みとして使用することができます。重みは、次のように定義されます。

\[W=\begin{bmatrix} w_1& 0 & \dots &0 \\ 0 & w_2 & \dots &0 \\ \vdots& \vdots &\ \ddots &\vdots \\ 0& 0 &\dots & w_n \end{bmatrix}\]

フィッティングモデルは、次の式になります。

\[\sum_{i=1}^n w_i (y_i-\hat y_i)^2=\sum_{i=1}^n w_i [y_i-(\hat{\beta _0}+\hat{\beta _1}x_i)]^2\]

(11)

重み因子\(w_i\) は、3つの式によって与えられます。

重み付けなし

エラーバーは、計算では重みとして取り扱われません。

直接重み付け

\[w_i=\sigma_i \]

(12)

Instrumental

機械的重みとして、値は、機械的誤差に反比例します。大きな誤差がある場合よりも正確であるため、小さな誤差の試行には、大きな重みがあります。

\[w_i=\frac 1{\sigma_i^2}\]

(13)

重みとしての誤差は、ワークシートの「YError」として構築されています。

切片固定

固定切片は、y切片\(\beta_0\)を設定して、値を固定します。また、 固定切片のため、全ての自由度は、n*=n-1となります。

sqrt(補正カイ二乗値)のスケールエラー

sqrt(補正カイ二乗値)のスケールエラーは、重みを付けたフィットで、使用することができます。このオプションは、フィット処理で出力されるパラメータの誤差だけに影響し、フィット処理やデータには影響しません。 デフォルトで、チェックが付き、\(\sigma^2\)は、 パラメータ誤差の計算を考慮しているか、 あるいは、\(\sigma^2\)は、誤差計算を考慮していません。 共分散行列を例にすると、sqrt(補正カイ二乗値)のスケールエラーは、以下のようになります。

\[Cov(\beta _i,\beta _j)=\sigma^2 (X^{\prime }X)^{-1}\]
\[\sigma^2=\frac{RSS}{n^{*}-1}\]

(14)

sqrt(補正カイ二乗値)のスケールエラーでは無い場合は、次の通りです。

\[Cov(\beta _i,\beta _j)=(X'X)^{-1}\,\!\]

(15)

重み付けフィットには、\((X'X)^{-1}\,\!\)の代わりに、\((X'WX)^{-1}\,\!\)を使います。

フィット結果

線形フィットを実行すると、分析レポートシートに計算された値が出力されます。 パラメータ表には、モデルの傾きと切片(括弧内の数字は生成された値を示す)が表示されます。

フィットパラメータ

Fitted-paramater.png

フィット値

式(3)と(4)を参照してください。

パラメータの標準誤差

各パラメータにおいて、標準誤差は以下のように得られます。

\[\varepsilon _{\hat \beta _0}=s_\varepsilon \sqrt{\frac{\sum x_i^2}{nSXX}}\]

(16)

\[\varepsilon _{\hat \beta _1}=\frac{s_\varepsilon }{\sqrt{SXX}}\]

(17)

ここで、標本の分散 \(s_\varepsilon ^2\)(または、誤差平均二乗\(MSE\))は、 次のように推定できます。

\[s_\varepsilon ^2=\frac{RSS}{df_{Error}}=\frac{\sum_{i=1}^n (y_i-\hat y_i)^2}{n^{*}-1}\]

(18)

そして、RSSは残差平方和(または平方誤差和SSE)のことで、実際には、各データポイントからフィット曲線までの垂直方向での差の平方和となります。これは次式のように計算されます。

\[RSS=\sum_{i=1}^n e_i=\sum_{i=1}^n w_i (y_i-\hat y_i)^2=\sum_{i=1}^n w_i [y_i-(\beta _0+\beta _1x_i)]^2\]

(19)

Note :\(n*\)について、モデルに切片が含まれている場合、\(n*=n-1\)で、それ以外は \(n*=n\) です。

t値と信頼水準

回帰の前提から次式があります。

\(\frac{{\hat \beta _0}-\beta _0}{\varepsilon _{\hat \beta _0}}\sim t_{n^{*}-1}\) および \(\frac{{\hat \beta _1}-\beta _1}{\varepsilon _{\hat \beta _1}}\sim t_{n^{*}-1}\)

(20)

フィッティングパラメータが0ではないことを調べるためにt 検定を使うことができます。これは、 \(\beta _0= 0\,\!\) (真ならば、フィット直線が原点を通る) または \(\beta _1= 0\,\!\) であるかどうかを検定します。t 検定の仮説検定は次のようになります。

\(H_0 : \beta _0= 0\,\! \) \(H_0 : \beta _1= 0\,\!\)
\(H_\alpha  : \beta _0 \neq 0\,\!\) \(H_\alpha  : \beta _1 \neq 0\,\!\)

The t-values can be computed by:

\(t_{\hat \beta _0}=\frac{{\hat \beta _0}-0}{\varepsilon _{\hat \beta _0}}\) および \(t_{\hat \beta _1}=\frac{{\hat \beta _1}-0}{\varepsilon _{\hat \beta _1}}\)

(21)

計算されたt 値を使って、対応する帰無仮説を棄却するかどうかを決めることができます。通常、与えられた有意水準 \(\alpha\,\!\) に対して、\(|t|>t_{\frac \alpha 2}\) のときに \(H_0 \,\!\) を棄却できます。また、 p値または有意水準が t検定と一緒に出力されます。p値が \(\alpha\,\!\) より小さい場合、帰無仮説 \(H_0 \,\!\) を棄却することができます。

Prob>|t|

上記のt 検定の \(H_0 \,\!\) が真である確率

\[prob=2(1-tcdf(|t|,df_{Error}))\,\!\]

(22)

ここでtcdf(t, df) は、自由度 df を持つスチューデントt分布の下側の確率を計算します。

LCLとUCL

t値から各パラメータの \((1-\alpha )\times 100\%\) 信頼区間を次式で計算することができます。

\[\hat \beta _j-t_{(\frac \alpha 2,n^{*}-k)}\varepsilon _{\hat \beta _j}\leq \hat \beta _j\leq \hat \beta _j+t_{(\frac \alpha 2,n^{*}-k)}\varepsilon _{\hat \beta _j}\]

(23)

ここで\(UCL\)\(LCL\)は、それぞれ上側信頼区間下側信頼区間のことです。

CI 半幅

信頼区間の半値幅は以下の通りです。

\[CI=\frac{UCL-LCL}2\]

(24)

ここでUCLとLCLは、それぞれ上側信頼区間下側信頼区間です。

フィット統計

重要な線形フィットの統計値は統計表に表示されます(括弧内の数字は生成された値を示す)。

FitStats.png

自由度

誤差の自由度。詳細は ANOVA表を参照してください。

残差平方和

残差平方和。式(19)を参照。

自由度あたりカイ二乗

式(14)を参照。

R二乗(COD)

線形回帰の質は、決定係数(COD)または \[R^2\] で計測でき、次の式で計算できます。

\[R^2=\frac{SXY}{SXX*TSS}=1-\frac{RSS}{TSS}\]

(25)

\[TSS=\sum(y_i-\bar{y})^2\]

ここで、 TSS は合計平方和、RSSは残差平方和です。\(R^2\) の値は、0から1の間にあります。一般的に、1に近いほど、XとYの関係は非常に強いと見なされ、回帰モデルに高い信頼性を持たせることができます。

補正R二乗

補正 \(R^2\) 値も次の式で計算できます。

\[{\bar R}^2=1-\frac{RSS/df_{Error}}{TSS/df_{Total}}\]

(26)

R値

R 値は \[R^2\] の平方根に等しくなります。

\[R=\sqrt{R^2}\]

(27)

ピアソンのr

単純な線形回帰では、xとyの相関係数は、 r で表され、次の式に等しくなります。

\(r=R\,\!\) \(\beta _1\,\!\) が正の場合

(28)

\(r=-R\,\!\) \(\beta _1\,\!\) が負の場合

Root MSE(SD)

誤差の平均平方の平方根または、残差標準偏差は、次式に等しくなります。

\[RootMSE=\sqrt{\frac{RSS}{df_{Error}}}\]

(29)

残差のノルム

Equals to square root of RSS:

\[Norm \,of \,Residuals=\sqrt{RSS}\]

(30)

ANOVA表

線形フィットのANOVA表は

DF 平方和 平均平方 F値 Prob > F
モデル 1 \[SS_{reg} = TSS - RSS\] \[MS_{reg} = SS_{reg} / 1 \] \[MS_{reg} / MSE \] p-値
誤差 n* - 1 RSS MSE = RSS / (n* - 1)
合計 n* TSS
Note: 切片がモデルに含まれてる場合、 n*=n-1です。それ以外は、 n*=n で平方和の合計は未補正となります。勾配が固定の場合、 \[df_{Model}\]= 0です。

ここで、平方和の合計TSSは、

\(TSS =\sum_{i=1}^nw_i(y_i -\frac{\sum_{i=1}^n w_i y_i} {\sum_{i=1}^n w_i})^2\) (補正) (31)
\(TSS=\sum_{i=1}^n w_iy_i^2\)  (未補正)

F値で、フィットモデルがモデル「y=一定」と、有意に異なるかどうかを検定します。

p値、または、有意水準は、F検定と一緒に出力されます。p値が、\(\alpha\,\!\)よりも小さい場合、フィットモデルはモデル「y=一定」と有意に異なります。

ある値に切片を固定している場合、F検定のp値には意味が無く、切片一定としない線形回帰とは異なります。

適合度検定表

不適合度を実行するには、連結フィットモードが選択されている場合に、少なくともX値がデータセット内や複数データセット内で反復できるように、反復観測、つまり、「複製データ」が必要になります。

複製データでフィットに使われている表記:

\(y_{ij}\)は、データセット中のi番目のx値における、j番目の観測値です。
\(\bar{y}_{i}\)は、i番目のx値における全てのy値の平均です。
\(\hat{y}_{ij}\)は、i番目のx値における、j番目の観測値の予測反応です。

残差平方和は、次の通りです。

\[RSS=\sum_{i}\sum_{j}(y_{ij}-\hat{y}_{ij})^2\]
\[LFSS=\sum_{i}\sum_{j}(\bar{y}_{i}-\hat{y}_{ij})^2\]
\[PESS=\sum_{i}\sum_{j}(y_{ij}-\bar{y}_{i})^2\]

非線形フィッティングの適合度検定表:

DF 平方和 平均平方 F値 Prob > F
不適合度 c-2 LFSS MSLF = LFSS / (c - 2) MSLF / MSPE p-値
純誤差 n - c PESS MSPE = PESS / (n - c)
誤差 n*-1 RSS
Note:

切片がモデルに含まれてる場合、 n*=n-1 です。それ以外は、 n*=n で平方和の合計は未補正となります。勾配が固定の場合、 \[df_{Model}\]= 0です。

cは、明確なx値の数を示します。切片が固定である場合、適合度検定のDFは、c-1になります。

共分散行列と相関行列

線形回帰の共分散行列は次のように計算されます。

\[ \begin{pmatrix} Cov(\beta _0,\beta _0) & Cov(\beta _0,\beta _1)\\ Cov(\beta _1,\beta _0) & Cov(\beta _1,\beta _1) \end{pmatrix}=\sigma ^2\frac 1{SXX}\begin{pmatrix} \sum \frac{x_i^2}n & -\bar x \\-\bar x & 1 \end{pmatrix}\]

(32)

2つのパラメータ間の相関は、

\[ \rho (\beta _i,\beta _j)=\frac{Cov(\beta _i,\beta _j)}{\sqrt{Cov(\beta _i,\beta _i)}\sqrt{Cov(\beta _j,\beta _j)}} \]

(33)

外れ値

外れ値は、スチューデン残差グラフ内の絶対値が2より大きいポイントです。

\[abs(Studentized Residual)>2\]

スチューデント化残差は、残差変換による外れ値の除去で説明されています。

残差解析

\(r_i\)は、標準残差\(res_i\)から成っています。

正規化

\[r_i^{\prime }=\frac{r_i}s_\varepsilon\]

(34)

スチューデント化

内部スチューデント化残差とも呼ばれます。

\[r_i^{\prime }=\frac{r_i}{s_\varepsilon\sqrt{1-h_i}}\]

(35)

スチューデント化削除

外部スチューデント化残差とも呼ばれます。

\[r_i^{\prime }=\frac{r_i}{s_{\varepsilon-i}\sqrt{1-h_i}}\]

(36)

スチューデント化スチューデント化削除の残差の数式で、\(h_i\)は、行列\(P\)i 番目の対角要素です。

\[P=X(X'X)^{-1}X^{\prime }\]

(37)

\(s_{\varepsilon-i}\)は、分散がi番目を除いた全てのポイントに基づいて計算されていることを意味します。

信頼帯と推定帯

特定の値 \(x_p\,\!\) の場合、\(x=x_p\,\!\) における \(y\,\!\) の平均値の信頼区間 \(100(1-\alpha )\% \)

\[\hat y\pm t_{(\frac \alpha 2,n^{*}-1)}s_\varepsilon \sqrt{\frac 1n+\frac{(x_p-\bar x)^2}{SXX}}\]

(38)

\(x=x_p\,\!\) における \(y\,\!\) の平均値の推定区間 \(100(1-\alpha )\% \)

\[\hat y\pm t_{(\frac \alpha 2,n^{*}-1)}s_\varepsilon \sqrt{1+\frac 1n+\frac{(x_p-\bar x)^2}{SXX}}\]

(39)

信頼楕円

一対の変数 (X, Y) が2変量の正規分布に従うと仮定すると、信頼楕円を使って、2つの変数間の相関を調べることができます。信頼楕円は(\(\bar x\), \(\bar y\)) を中心に作られ、長軸 a と短軸 b は、以下のようになります。

\[ a=c\sqrt{\frac{\sigma _x^2+\sigma _y^2+\sqrt{(\sigma _x^2-\sigma _y^2)+4r^2\sigma _x^2\sigma _y^2}}2}\]
\[ b=c\sqrt{\frac{\sigma _x^2+\sigma _y^2-\sqrt{(\sigma _x^2-\sigma _y^2)+4r^2\sigma _x^2\sigma _y^2}}2}\]

(40)

指定した有意水準 \( (1-\alpha )\,\! \) に対して

\[ c=\sqrt{\frac{2(n-1)}{n(n-2)}(\alpha ^{\frac 2{2-n}}-1)} \]

(41)

\[ c=\sqrt{\frac{2(n+1)(n-1)}{n(n-2)}(\alpha ^{\frac 2{2-n}}-1)} \]

(42)

\[\beta =\frac 12\arctan \frac{2r\sqrt{\sigma _x^2\sigma _y^2}}{\sigma _x^2-\sigma _y^2}\]

(43)

X/YからY/Xを検索

残差プロット

残差タイプ

作図するには、標準正規化スチューデント化スチューデント化残差から1つの残差タイプを選択します。

残差と独立変数

残差散布図\(res\) vs.独立変数\(x_1,x_2,\dots,x_k\)では、それぞれのプロットは別のグラフに配置されます。

残差vs.予測値

残差散布図 \(res\) vs. フィット結果\(\hat{y_i}\)

残差vs.データ順序

\(res_i\) vs. 順番\(i\)

残差のヒストグラム

残差のヒストグラムプロット

残差のラグプロット

残差\(res_i\) vs. ラグ残差\(res_{(i–1)}\)

正規残差確率プロット

残差の正規確率プロットは、分散が正規分布しているかどうかを調べるのに使用します。結果のプロットはおおよそ線形で、誤差範囲は正規分布していると仮定することができます。プロットはパーセンタイル対順序化された残差をベースにしており、パーセンタイルは次のように仮定されます。

\[\frac{(i-\frac{3}{8})}{(n+\frac{1}{4})}\]

ここで、n はデータセットの合計数で、ii 番目のデータです。なお、正規確率プロットとQ-Qプロットについてをご覧ください。