統計学

【統計学】⑦ 標準化と標準正規分布について分かりやすく説明する

この記事は約5分で読めます。

 

 

【統計学】 正規分布の分かりやすい説明 の続きで、今回は標準正規分布を用いた確率の計算方法を解説していきます。

 

以前【統計学】 確率密度関数の簡単な説明で紹介したように、事象の確率は確率密度関数を積分することで計算できます

 

 

統計学における標準化の必要性

 

統計学における標準化 (standardization) とは、与えられたデータを平均が0で分散が1のデータに変換する処理のことを指します。標準化の最たる例が、任意の正規分布に従うデータXを標準正規分布 (平均0かつ分散1の正規分布) に従うデータに変換するものです。

 

これによって標準化されたデータXの各データは、それぞれが標準正規分布に従うようになり、検定表に当てはめた確率の計算が可能になるのです。

 

このようなデータ変換を行う理由のひとつは、正規分布のままで連続型確率変数の確率密度を計算するとすると、その平均と分散の組み合わせは無数に存在し計算がめんどくさくなります。

 

それよりは、元のデータの分布上より標準正規分布のようなすでに確率密度が計算され表としてまとめられている方がデータを計算する上で便利で簡単になるからです。

 

標準化は以下のように各データ xi から平均 μ を引き、その値を標準偏差 σ で割ることでできます。式で定義すると↓のようになります。

 

 

 

まず正規分布の確率密度関数は

 

f:id:oruka199665:20170104184139j:plain

 

で定義されています。ここのeとは※ネイピア数を表していて、e=2.7128…とされています。πはもちろん円周率で3.14です。そしてμ が正規分布の平均であり、σの2乗 が分散となります。※ネイピア数については↓を参照⇨【統計学】 常用対数とは?

 

もし確率変数X が、平均μ、分散σの2乗 の正規分布で表されるとき、X ~N(μ,σ²) と一般的に表記され、正規分布の分布関数はF(x)と下の式で表されます。

 

 

f:id:oruka199665:20170104200458j:plain

 

 

というわけで、「平均と分散が特定できれば、正規分布の形は定まり確率計算が可能」となります。そして確率変数 X が正規分布である場合、F(x) = P(X <x) の値を正規分布に従って求めます。そのための方法の1つが、正規分布を標準正規分布に変換して標準正規分布表を用いることです。

 

普通に考えて、正規分布の平均と分散の組み合わせは数え切れないほどあるので、全ての場合について計算した表はないですし、いちいち正規分布の確率密度関数の計算するのは、面倒です。

 

なので、通常は正規分布を標準正規分布になるように標準化し、標準正規分布表に当てはめる」というのが一般的です。

 

標準正規分布で表せる数値は計算され、既に数値表になっており、t検定などで使用されています。そして、「標準正規分布」とは、「平均0標準偏差1の正規分布です。これは正規分布をより計算しやすいように工夫したものです。

 

標準正規分布は、N(0,1)と表され、上の正規分布の確率密度変数の式に、μ=0、σの2乗=1を代入することで、下のように表されます。

 

f:id:oruka199665:20170104204711j:plain

 

 

そして、標準正規分布に従う確率変数Xは下のような式で標準化されます。この確率変数を標準化したものを標準化統計量といいます。

 

 

 

f:id:oruka199665:20170104204025j:plain

 

 

また標準正規分布は下のような分布となります。

 

 

f:id:oruka199665:20170104210721j:plain

参照(http://bio-info.biz/statistics/distribution_normal_distribution.html)

 

 

 

色のついた部分の面積の合計は1で、 μ=0,σ=1です。下の%は何を表しているのかというと、μ±1σ 以下の範囲に確率変数 X が含まれる確率は 、68.27%、μ±2σ 以下では 95.45%、μ±3σ 以下では 99.73% ということを表しています。

 

ちなみにσは「シグマ」といい、標準統計量の1つです。シグマ区間の考え方は株式投資においてもテクニカル分析で使われています。

 

よく高校の模試なんかで使われる偏差値は平均を50、標準偏差を10としたもので、もし偏差値が60の場合は上から約16%、70の場合は上から約2.3%、80の場合は約0.14%のところに位置しているということが言えます。

 

MARCHや早稲田もよくネットの某掲示板で、馬鹿にされていますが、普通に考えると上位3~15%に位置していて、学歴ヒエラルキー的にはにはかなり上の部分に属しているいるわけです。

 

次はこの標準化と標準正規分布の知識を前提として、確率変数Xの起こる確率を計算していきたいと思います。

 

 

⇨【統計学】⑧ 標準正規分布を使った確率計算のやり方

 

 

 

 


プログラミング・スクレイピングツール作成の相談を受け付けています!

クラウドワークス・ココナラ・MENTAなどでPython・SQL・GASなどのプログラミングに関する相談やツール作成などを承っております!

過去の案件事例:

  • Twitter・インスタグラムの自動化ツール作成
  • ウェブサイトのスクレイピングサポート
  • ダッシュボード・サイト作成
  • データエンジニア転職相談

これまでの案件例を見る

キャリア相談もお気軽に!文系学部卒からエンジニア・データサイエンティストへの転職経験をもとに、未経験者がどう進むべきかのアドバイスを提供します。


スポンサーリンク
/* プログラミング速報関連記事一覧表示 */
ミナピピンの研究室

コメント

タイトルとURLをコピーしました