今回は回帰分析の結果の意味について説明していきたいと思います。
Excelでは回帰分析が簡単にできます。でもその結果がどういう意味なのかが分からなければ意味がありません。
まず使うデータはしたのようなもので体重と身長の関係性について見ていきます。ここでは体重を説明変数x、身長を被説明変数yとします。
これをExcelでパパッと回帰分析します。すると下のような分析結果となります。
改めて回帰分析とは、「データについて線形関係を仮定し、合理的な回帰線:y=βX+αを最小2乗法により求める」分析です。
今回の計算によって導き出された回帰線のαとβは、「係数の欄の切片とX値1という箇所に数値」となり、Y=0.468X+140という回帰モデルで説明できるという事になります。つまり、今回の分析だと身長と体重の関係は、身長=0.468×体重+140だと説明できるわけです。
これで一応回帰式を算出することはできましたが、回帰分析のみならずデータ分析というのは出てきた結果の数値を見て、「よーし終わった~」ではなくこの分析結果が本当に正確なものであるかを見ていくのが本題です。
さて一応回帰モデルは計算できたわけですが、今度はそのモデルが本当にデータを説明できているかどうかをを確認しなければなりません。
データによって回帰線による予測値と、実際の値との当てはまり具合は異なり、説明力の低い回帰モデルによる予測は意味がありません。
そのため、算出した回帰式がどれくらいデータの動きを説明しているのかを評価する指標の1つとして「決定係数」というものがあります。
決定係数 (R²) とは、回帰モデルの当てはまり具合を示す指標であり、被説明変数 Y の全変動のうち、回帰式によって説明される部分の割合として定義されます。
決定係数(R²)= ESS/TSS
= 1−RSS/TSS
= Xによって説明される変動 (ESS)/Y の全変動 (TSS)
決定係数がとる範囲は 0 < R² < 1 であり、1 に近いほど当てはまりが良い、つまりデータに対して説明力が高いということになります。ちなみに現実では0.5以上であれば有意だと評価されます。
また決定係数と相関係数には、次のような関係があります。
決定係数 (R²) = 相関係数の 2 乗
決定係数 R² の絶対値がいくつ以上なら有意であるかは扱うデータによります。時系列データの場合は 0.8 以上、クロスセクションデータ(ある時点におけるデータ、時系列データの反対)の場合 0.4 ∼ 0.6、個人に関するデータの場合 0.1 ∼ 0.2 で有意と判断されることが多いです。
今回は一応「体重と身長にはなんらかの関連がある」と考えて、 Y = α+ βXi という回帰式を推計したわけですが、いま問題なのは、その程度がどれくらいかということです。
上でも少し触れましたが、被説明変数 (Y) の全変動(TSS)は、回帰モデルによって説明される変動(ESS)と、回帰モデルによって説明できない変動(RSS)に分けることができます。
全変動 (TSS)・・・x(体重)の差を考慮せず、人によってどれくらいy(身長)に差があるかを測定したものが、身長 (Y ) の全変動 (TSS, total sum of squares) であり、下のように定義されます。
説明されない変動 (RSS) ・・・「体重による身長の違い」のうち、少なくともある部分は所得が異なるという要因、すなわち回帰式 Yi= α + βXによって説明されるとされるが、それだけでは説明しきれない変動が残ります。このモデルで説明できない変動は、 残差を2乗したものの和によって求められ、RSS(residual sum of squares) と呼ばれます。
説明される変動 (ESS) ・・・身長の変動のうち、体重による単回帰モデルで説明された変動は、ESS(explained sum of squares) と呼ばれます。消費の全変動(TSS)は、 TSS = ESS + RSS のように分解される。従って、ESS は ESS=TSS-RSS により求められ、次のように表すこともできます。
回帰モデルの標準誤差(S)とは、回帰式によって得られたモデルの平均的な精度をみるのに用いるもので、次のように定義されます。
このSの値は何を意味するのかというと、今回推定した回帰式:Y=0.468X+140 では体重が60kgのとき身長は約168.08㎝と推定され、回帰分析の誤差が正規分布であればモデルの精度は高いという事になります。
つまり、推計された回帰式が1シグマ区間 (Y ±1S)、つまり今回なら168.08±7.81 の範囲内に含まれる確率が約 2/3、また2シグマ区間 (ˆY ±2S) の範囲内に含まれる確率が約 95 %だということを意味しています。
とりあえず分析結果を見るうえでの最小限の知識はこんな感じです。次はP値と信頼区間について説明していきます。
統計学についてしっかり勉強するなら↓の本が分かりやすく説明しているのでオススメです。
コメント