【統計学】⑦ 標準化と標準正規分布について分かりやすく説明する

【統計学】 正規分布の分かりやすい説明 の続きで、今回は標準正規分布を用いた確率の計算方法を解説していきます。

以前【統計学】 確率密度関数の簡単な説明で紹介したように、事象の確率は確率密度関数を積分することで計算できます

統計学における標準化の必要性

統計学における標準化 (standardization) とは、与えられたデータを平均が0で分散が1のデータに変換する処理のことを指します。標準化の最たる例が、任意の正規分布に従うデータXを標準正規分布 (平均0かつ分散1の正規分布) に従うデータに変換するものです。

これによって標準化されたデータXの各データは、それぞれが標準正規分布に従うようになり、検定表に当てはめた確率の計算が可能になるのです。

このようなデータ変換を行う理由のひとつは、正規分布のままで連続型確率変数の確率密度を計算するとすると、その平均と分散の組み合わせは無数に存在し計算がめんどくさくなります。

それよりは、元のデータの分布上より標準正規分布のようなすでに確率密度が計算され表としてまとめられている方がデータを計算する上で便利で簡単になるからです。

標準化は以下のように各データ xi から平均 μ を引き、その値を標準偏差 σ で割ることでできます。式で定義すると↓のようになります。

まず正規分布の確率密度関数は

f:id:oruka199665:20170104184139j:plain

で定義されています。ここのeとは※ネイピア数を表していて、e=2.7128…とされています。πはもちろん円周率で3.14です。そしてμ が正規分布の平均であり、σの2乗 が分散となります。※ネイピア数については↓を参照⇨【統計学】 常用対数とは?

もし確率変数X が、平均μ、分散σの2乗 の正規分布で表されるとき、X ~N(μ,σ²) と一般的に表記され、正規分布の分布関数はF(x)と下の式で表されます。

f:id:oruka199665:20170104200458j:plain

というわけで、「平均と分散が特定できれば、正規分布の形は定まり確率計算が可能」となります。そして確率変数 X が正規分布である場合、F(x) = P(X <x) の値を正規分布に従って求めます。そのための方法の1つが、正規分布を標準正規分布に変換して標準正規分布表を用いることです。

普通に考えて、正規分布の平均と分散の組み合わせは数え切れないほどあるので、全ての場合について計算した表はないですし、いちいち正規分布の確率密度関数の計算するのは、面倒です。

なので、通常は正規分布を標準正規分布になるように標準化し、標準正規分布表に当てはめる」というのが一般的です。

標準正規分布で表せる数値は計算され、既に数値表になっており、t検定などで使用されています。そして、「標準正規分布」とは、「平均0標準偏差1の正規分布です。これは正規分布をより計算しやすいように工夫したものです。

標準正規分布は、N(0,1)と表され、上の正規分布の確率密度変数の式に、μ=0、σの2乗=1を代入することで、下のように表されます。

f:id:oruka199665:20170104204711j:plain

そして、標準正規分布に従う確率変数Xは下のような式で標準化されます。この確率変数を標準化したものを標準化統計量といいます。

f:id:oruka199665:20170104204025j:plain

また標準正規分布は下のような分布となります。

f:id:oruka199665:20170104210721j:plain

参照(http://bio-info.biz/statistics/distribution_normal_distribution.html)

色のついた部分の面積の合計は1で、 μ=0,σ=1です。下の%は何を表しているのかというと、μ±1σ 以下の範囲に確率変数 X が含まれる確率は 、68.27%、μ±2σ 以下では 95.45%、μ±3σ 以下では 99.73% ということを表しています。

ちなみにσは「シグマ」といい、標準統計量の1つです。シグマ区間の考え方は株式投資においてもテクニカル分析で使われています。

よく高校の模試なんかで使われる偏差値は平均を50、標準偏差を10としたもので、もし偏差値が60の場合は上から約16%、70の場合は上から約2.3%、80の場合は約0.14%のところに位置しているということが言えます。

MARCHや早稲田もよくネットの某掲示板で、馬鹿にされていますが、普通に考えると上位3~15%に位置していて、学歴ヒエラルキー的にはにはかなり上の部分に属しているいるわけです。

次はこの標準化と標準正規分布の知識を前提として、確率変数Xの起こる確率を計算していきたいと思います。

⇨【統計学】⑧ 標準正規分布を使った確率計算のやり方

プログラミングの独学はとても難しい


プログラミングは小学校の義務教育にも導入され始めており、これから社会人として生きていく上でプログラミングはもはや出来て当たり前、出来なれば論外というエクセルレベルの必須スキルになりつつあります。そしてそういう話を聞いて参考書なりを購入して独学でプログラミング勉強しようと思っている人も少なくないでしょう。しかしプログラミングを独学で勉強し始めようと思うものの



・「分からない箇所で詰まって挫折してしまった」

・「勉強する時間が足りない」

・「ネットの記事だと情報が断片的でよくわからない」

・「コードのエラーの原因が分からない」



という壁にぶち当たって、プログラミングの勉強を止めてしまう方が少なくありません。独学でプログラミングを勉強してる時間のほとんどはつまづいている時間です。実際僕も最初のころ独学でプログラミングを勉強していた頃はエラーの原因が分からず丸1日を不意にしてしまった・・・そんな苦い経験がありました。それで僕は一度はプログラミングの学習を諦めてしまいましたが、就活で現実を知る中で



「プログラミングを勉強して、いずれフリーランスとして自由な生き方がしたい」

「エンジニアとして若いうちから高収入を得たい」



という強い気持ちから一念発起して「侍エンジニアのwebサービスコース」に申し込み、プロのエンジニアの方に対面でマンツーマンでPythonによるWebサービス作り方とWeb技術の基本を教えてもらい、ようやくプログラミングが理解でき、今ではエンジニアとしてそこそこの暮らしができるようになりました。





侍エンジニアでは、とりあえずプログラミングやインターネットの基本を知っておきたい人から、HTML・cssなどでWebサイトやWebアプリを作ってみたい人やPythonを勉強してデータサイエンティストやAIエンジニアになりたい人まで幅広いニーズに応えた様々なコースが用意されています。



IT業界と言ってもエンジニアの仕事はプログラミング言語次第でサーバーから機械学習・ディープラーニングまで多種多様ですし、侍エンジニアの無料レッスン(カウンセリング)を受けてみて、自分のやりたいITの仕事は何なのか?を見つけるのがエンジニアへの第一歩になります。ちなみに今侍エンジニアの無料レッスンを受けると1000円分のAmazonギフト券がもらえるので、試しに受けてみるだけもお得です。


自分は半端に独学やオンラインスクールで勉強して金と時間を無駄にするくらいなら、リアルのプログラミングスクールに通ってしっかりプログラミングを勉強した方がいいと思います。ちなみに今、侍エンジニアに申し込むと、25歳以下の学生の方であれば、受講料が20%OFFになるので超お得です。


そして、プログラミングは大勢で授業を受けたり漫然とオンライン学習をするよりも自分が分からない箇所をピンポイントでプロの講師に直接質問して、ちゃんと納得するというスタイルの方がお金は確かに少し掛かりますが、独学で学ぶよりも絶対にモノになります。


シェアする

  • このエントリーをはてなブックマークに追加

フォローする

   侍エンジニア塾       
侍エンジニアの無料体験レッスンを予約する -->