統計学

【統計学】t分布の分かりやすい説明

この記事は約3分で読めます。

 

t検定とは?

 

これまでは母集団のデータの性質である母平均と母分散が分かっているパターンにおける検定・推定を行ってきましたが、今回は母集団の平均が未知である場合の推定・検定(t検定)について説明していきます。

 

標本平均  X を標準化した変量の分布は、母集団が正規分布であるか、標本サイズが十分に大きい場合は、中心極限定理により正規近似され、f:id:oruka199665:20170325032412j:plainと表すことができます。

 

ここで、N(0,1) の標準正規分布に従う変数 z が(−1.96 ~+1.96) の間をとる確率は 95 %であることから下のように変形することができます。

 

f:id:oruka199665:20170325035213j:plain

 

つまり、これは未知の母平均 µ が区間 ( X −1.96σ/√n≦μ≦X+1.96σ/√n) にある確率が 95 %であるということを表しています。

 

ですが、母平均 µ の値が未知なのに 母分散σの値が既知であるということは、まずあり得ないので、この区間は計算できないことがほとんどです。

 

そういう時に使われるのがt検定というやつです。母標準偏差 σ の代わりにその推定値、標本標準偏差 S の平方根√Sの数値を代入してf:id:oruka199665:20170325040149j:plainを計算します。

 

しかし当たり前ですが母分散σの代わりに、少ない母数の標本から算出した数値である標本分散の値を使っているので、データ数が少なければ少ないほどZとt数値の誤差は大きくなってしまうので、自由度 n−1 の t 分布とします。

 

f:id:oruka199665:20170325040631j:plain

 

この t 分布は自由度によって形が大きく変化します。正規分布のグラフの形を作るパラメータが平均と分散であったように、t 分布におけるグラフのパラメータは自由度 k です。

 

t分布の特徴としては、原点に関して左右対称で、正規分布よりも裾が厚いことがあります。そして自由度 k が大きくなる程、裾は薄くなり、正規分布に近似していきます。自由度 k = ∞のとき、t 分布は標準正規分布 N[0,1] となります。

 

f:id:oruka199665:20170325041059g:plain(参照:テクノビジョン ダイジェスト)

f:id:oruka199665:20170325041358j:plain

 

 

t分布の確率計算

 

t 分布表は、基本的に X > 0 のとき (右裾) の数値しか載っていません。

 

例:X ∼ t7のとき P(X < x) = 0.99 となる x を求めよ。

 

解答:

P(X < x) = 0.99 ということは、P(X > x) = 1−0.99 = 0.01 であるような x を求めればよい。 t 分布表: 自由度 df = 7 の行、右裾確率 p = 0.010 の列に対応する値は x = 2.298となります。

 

 

終わり

 

統計学についてしっかり勉強するのであれば、↓の本が分かりやすく説明していてオススメです。

 

 

 

 

 

 

【わかりやすい統計学】 ⑬ベルヌーイ試行と二項分布について

PythonでデレステでSSRを引くまでの課金額を計算してみる

 

 


プログラミング・スクレイピングツール作成の相談を受け付けています!

クラウドワークス・ココナラ・MENTAなどでPython・SQL・GASなどのプログラミングに関する相談やツール作成などを承っております!

過去の案件事例:

  • Twitter・インスタグラムの自動化ツール作成
  • ウェブサイトのスクレイピングサポート
  • ダッシュボード・サイト作成
  • データエンジニア転職相談

これまでの案件例を見る

キャリア相談もお気軽に!文系学部卒からエンジニア・データサイエンティストへの転職経験をもとに、未経験者がどう進むべきかのアドバイスを提供します。


スポンサーリンク
/* プログラミング速報関連記事一覧表示 */
ミナピピンの研究室

コメント

タイトルとURLをコピーしました