今回は確率分布と確率密度について説明していきます。
統計学を勉強していく人をみると、平均・中央値・最頻値辺りは日常生活でもでてくるところで仕組みも簡単ですし分からない人はほぼいないのですが、そこから分散・標準偏差とくると、√が出てきたりしてちょっと理解があやしくなり、この確率変数やら確率密度の部分でノックアウトということが結構あります。もれなく私もその一人です。
ですが逆転の発想で、そんな私だからこそ分かりやすく説明できるのではないかなーという気もします。
確率分布と確率変数について
まず確率分布とは、その名のとおり、データが出てくる確率の分布です。
ざっくりいってしまえば確率の分布図というしかないのですが、これだけでは恐らく何のことかさっぱりわからないと思うので、サイコロでの具体例を使って説明していきます。
コインとサイコロは統計学においては欠かせないアイテムですね。この2つの具体例で説明されると私自身も分かりやすかったですし、私が他の人にこの手の話を説明するときもウケがいい気がします。
というわけで本題に入っていきます。
当たり前ですが、サイコロのそれそれの目が出る確率は下のようになっています。
1の目が出る確率・・・1/6
2 〃 ・・・1/6
3 〃 ・・・1/6
4 〃 ・・・1/6
5 〃 ・・・1/6
6 〃 ・・・1/6
確率分布は、『0以上の値を持つ確率が1つ以上あって、その要素の合計が1になるもの』と定義されます。
サイコロは0以上の値を持つ確率が1つ以上あり、1~6がそれぞれ1/6の確率で現れます。そして、出目の確率の合計が 1/6 ×6=1で、合計も1になっていますし、れっきとした確率分布であることがわかります。
そして、『確率変数』とはとりうる値の範囲は分かっているけど、事前にその範囲の中からどの数になるかは分からないものというのが、一番分かりやすい表現かと思います。
つまり、サイコロの場合では1から6が確率変数ということになります。サイコロのとりうる値は1から6ですが、振ったときにどの目は出るかはイカサマでもしていない限り、1つに絞り込むことは不可能です。
これまで述べたように、確率変数は1つの数字ではなく、ある事象が取りうる数字の範囲なので、一般的に『確率変数X』と表されます。
このXは値が取りうる範囲を、Xでひとくくりで表している感じです。サイコロの例なら、サイコロを振ることで取りうる値の範囲ということで、x=1~6ということになります。(ちなみに参考書などでの学術的表現なら(1≦x≦6)とされるのが一般的です。)
そして、確率変数が実際に取る値を実現値と言います。もし実際にサイコロを振って4が出たとすると、それが『実現値』です
ざっとまとめると、『確率変数』とはサイコロを振る前に出る可能性のある目(1から6)、『実現値』とは実際にサイコロを振ったときの出た目というイメージが一番分かりやすいと思います。
そして、サイコロを1回振ったときに出る目(確率変数)とそれぞれの目が出る確率を対応させたモノを『確率分布』といいます。
もちろんサイコロの確率分布は、どの目も出る確率が1/6=0.166666…で一様なので、サイコロの確率分布は下のようになります。
確率変数の種類
次は確率変数の種類ですが、「離散型」と「連続型」の2種類があります。
「離散型確率変数」とは、1、2、3、4、5、6というふうに、1.1や2.00001のように、間の値がない変数で、そういう意味で「連続ではない→離散している」ということになります。
そして、サイコロの場合は目は1~6の整数しかなく、それ以外の目が出ることはないので、『離散型』ということになります。
一方「連続型確率変数」とは重さのように1kg、2kgの間の値どどこでもとることができるものは連続型に当てはまります。
1kgではなく、1.889kgなども取る可能性がありますし、他のあらゆる途中の値を取る可能性があります。ほかにも距離なども連続型になります。
サイコロの目は離散型なので、ヒストグラムで表すのが一般的ですが、連続型の確率変数は正規分布などの曲線グラフで表します。
まとめ
確率変数や確率密度関数は、定義が漠然としていて理解が難しいところなのですが、ここがわかれば、統計学関連の文献などの文章の意味が8割がた分かるようになるので、ぜひがんばって理解してください。次は確率密度関数について説明していきます。
追記:統計学の初歩的学習にはコチラのマンガでわかる統計学入門という本が分かりやすかったので紹介しておきます。
関連記事
コメント