ホワイトノイズとは
ホワイトノイズはざっくり説明すると、自己相関のない確率変数のことを指します。これは時系列モデルを作成・検証する上において残差分析のところで必要になるものです。
ホワイトノイズの特徴
ホワイトノイズというのは、以下の3点を満たす時系列のことをいいます。
(1)平均がゼロ
(2)分散が一定
(3)自己共分散がゼロ
最後の自己共分散とは、自分のデータ(例えば1期前のデータと2期前のデータなど)の間に相関関係がないことを意味です。つまり統計学におけるホワイトノイズとは、確率変数なので事前にどのような値がでてくるかはわからないけれども、ある一定の数値の幅でランダムに変動し、データ全体の平均と分散はゼロとなるような変数であると言えます。
Rでのホワイトノイズの検証
ホワイトノイズのデータはどのような形をしているのかを見ていきます。上でグダグダと説明していましたが、要するに、ホワイトノイズとは標準正規乱数の数列である時系列データのことなのでRやExcelで簡単にプロットできます。
・Rのコマンド
sample<- rnorm(n=100) plot(sample, type="l") sample
[1] 0.07730312 -0.29686864 -1.18324224 0.01129269 0.99160104 1.59396745
[7] -1.37271127 -0.24961093 1.15942453 -1.11422235 -2.52850069 -0.93590256…
ちなみに rnormという関数は、正規分布に従う乱数(正規乱数)を発生させる関数です。デフォルトで、平均0で標準偏差1の標準正規分布(標準正規乱数)を作ってくれます。また、meanやsdといった引数を使えば、平均や標準偏差を指定することもできます。
一応自己相関がないのか引き続きRで確認してみます。
acf(sample)
グラフの青い線は「sampleのデータには自己相関がある」という帰無仮説が正しいとした場合の95%信頼区間です。要するにこれを超えているやつがなければ、このデータには自己相関はないという事を意味しています。(詳しくは自己相関係数の記事で書いてます。)
これによってホワイトノイズには自己相関がないことが分かりました。ちなみに、自己相関があるデータを分散不均一構造といいます。
まとめ
・ホワイトノイズの特徴
・平均が0
・分散が一定
・自己共分散が0
・ホワイトノイズ(自己相関ナシ) ⇔ 分散不均一構造(自己相関アリ)
時系列分析については、この本がとても分かりやすかったので、もし時系列分析でつまずいている人は是非一度読んでみてください。
現場ですぐ使える時系列データ分析 ~データサイエンティストのための基礎知識~
コメント
[…] ⇒ 【統計学】ホワイトノイズとは?分かりやすく説明する […]