こんにちは、ミナピピン(@python_mllover)です。先日メンターをしていてP値について聞かれたので、分かりやすくさらさらアンサーできるように改めてP値についてまとめておこうと思います
Contents
P値とは何か?
統計学における仮説検定の基本的概念は、「帰無仮説が正しいにもかかわらず棄却してしまう誤り」である第1種の過誤が起きてしまう確率を一定に抑え、「帰無仮説が間違っているのも関わらず採用してしまう」第2種の過誤を可能な限り小さくしようとすることにあります。
この「第1種の過誤が起こりうる確率」を「有意水準」と言います。
統計フリーソフトRやExcelなどの分析ツールに備わっている統計的仮説検定では、帰無仮説の採用棄却を行わない代わりに、第1種の過誤が起こりうる確率を算出します。これがP値というやつです。(Rではp-valueと表示されます。)
なので、実際にツールを使った統計分析では、自分でP値を見て分析結果を採用するか棄却するかの判断しなけれなりません。まあ自分で「有意水準Cで仮説検定を行う」として分析結果のP値がそれより上か下かで分析結果が有用かどうか判断するだけです。
P値の意味と性質
p値の範囲は「0~1」で、その値が小さければ小さいほど、帰無仮説が正しくないと主張するのに強力な根拠となります。もしある分析でp値が0.001と算出されたとすると、この意味は「帰無仮説が正しければ、今回起きたような現象は0.1%の確率でしか起きない現象」という意味になります。
ただ、どれだけp値が小さくても「偶然0.01%の確率を引いたのかも」と言われてしまうと何も主張できなくなってしまいますよね。そこで、データを取る前には「p値がこの値より小さければ帰無仮説を棄却(否定)する基準」が設定されます。これが有意水準です。
一般的に、p値は有意水準αと比較することで、帰無仮説(H0)を棄却するかどうかを判断します。もし p値が有意水準 α 以下ならば、帰無仮説(H0) を棄却し、反対に p値が有意水準 α よりも大きいならば、 H0を棄却できないというような判断をします。このαには、0.01(1%)か0.05(5%)の値が使用されることが一般的です。
これだけだとピンとこないと思うので、帰無仮説を設定して考えてみましょう。
例題でP値と帰無仮説を考える
例えば、命題を「あるワクチンの接種した患者としなかった患者を比較してワクチンのコロナに対する効果を検証したい」として、有意水準(P値)を0.05とします
この場合、「ワクチンにはコロナを抑える効果がある」ということを統計的に証明したいです。なので帰無仮説は「ワクチンを接種した患者と摂取しなかった患者に差はない」とします。(帰無仮説はその名の通り無に帰す仮説です。なので、否定したい説を帰無仮説に設定することが多いです。)
対立仮説はその反対なので、「ワクチンを接種した患者と摂取しなかった患者に差はある」となります。
そしてこの帰無仮説と対立仮説を元に検定を行い、P値を算出します。その結果P値が0.01だったとしましょう。先ほども上述したようにP値はその値が小さければ小さいほど、帰無仮説が正しくないということを意味します。
つまり今回の例だと帰無仮説H₀は「ワクチンを接種した患者と摂取しなかった患者に差はない」なので、検定の結果p値が0.01だったということは帰無仮説「ワクチンを接種した患者と摂取しなかった患者に差はない」が正しいにも関わらずこの結果となる確率は1%だということを示しています。
1%という確率は最初に設定した有意水準0.05=5%より低いので、「第一種の過誤は起こる確率は限りなく低い」⇒「帰無仮説(ワクチンを接種した患者と摂取しなかった患者に差はない)を棄却することができる」となります。
そして帰無仮説が棄却されたので、対立仮説「ワクチンを接種した患者と摂取しなかった患者に差はある」を採用することができる、つまり「このワクチンはコロナに対して効果がある」ということが統計的に言えることになります。
終わり
以上がP値についての概念的なお話です。次は実際にPythonで検定してP値を算出し結果解釈を行いたいと思います。ちなみに、統計学についてしっかり勉強するのであれば、↓の本が分かりやすく説明していてオススメです。
コメント
[…] 参照記事:【統計学】「P値」とは何かを分かりやすく解説する […]