時系列データとはなにか?
時系列データとは、時間の推移とともに変化していくデータであり、その順序におおきな意味を持つことが特徴です。時系列データは経済やファイナンスの分野で、観測されることが多く、『為替レート』、『株価データ』などが代表的な時系列データです。
時系列データ分析の目的
時系列分析の目的には以下のようなものがあげられます。ざっくりいうと『過去のデータを分析してそこから未来を予測する』というのが時系列データ分析の目的です。
・将来の平均値や変動幅などの予測しモデルを作る
・変数間の動学的関係を明らかにする
・経済理論やファイナンス理論の検証
例えば、株価の変動を説明するモデルを作りたいとすると、データ分析の基本である回帰分析では、分析の対象となっている変数の変動が、他の変数の変動によって説明されます。
これは『構造式アプローチ』といって、金利、物価など、為替レートなどの変動要因となる変数を探し、その依存関係や因果関係を理論に基づいて株価などをモデル化することで、説明しようとするものです。
対して、時系列モデルを作る上での考え方は、因果関係をブラックボックスとして、時系列データの変動パターンをデータ生成過程として捕らえ、そのデータの数値の変動が、どのような※確率構造となっているのかを、明らかにしようとするものです。(↓のようなイメージです。)
※確率構造:ある事象における確率の分布。コイントスの確率構造は、表と裏が1/2の確率ででるようになっている。サイコロの確率構造はどの目の出る確率は1/6といった感じ。→【統計学】④確率変数・確率分布の分かりやすい説明を参照。
データ分析においては、因果関係は複雑でよくわからないけど、予測はしたいという時に、このアプローチが多く用いられ、時系列分析もこれに当たります。
時系列分析では、入力部分は他の変数ではなく、分析の対象となっているデータの過去の数値です。すなわち、「現在のデータがどのように、過去の時点のデータと、どう関係しているかという依存関係の確率構造を探し出す」のが、『時系列分析』です。
時系列分析では、データはサイコロやおみくじのように一定の確率、またはランダムな確率過程によって生成されると考えます。
つまり、手元にあるデータは、真の確率過程から生み出されたひとつの※実現値にすぎないと考えます。我々が特定したいのは、母集団の真の確率密度関数であり、手元にあるデータは、ひとつの標本にすぎないということになります。
※実現値:確率変数Xの中から試行によって実際に出てくる値のこと。もしサイコロを一回振ったとして、4が出たならば4が実現値ということになります。→【統計学】④確率変数・確率分布の分かりやすい説明を参照。
定常性
最後に時系列分析において大切な要素として「定常性」というものがあります。「定常性」とは、 「データの変動が時間とともに一定方向に限りなく大きくなったり、拡散・発散したり、一定値に収束することなく、平均値の周辺で変動し続けるという性質」のことです。
時系列データには「定常性」がある場合が大半なのですが、株価データなどでは、トレンドがあったり、構造変化があることがたびたびあります。
ちなみに、このような定常性がない時系列を『非定常時系列』といいます。今回はまず基本の説明なので、定常性があると仮定した場合の時系列分析について取り上げていますが弱定常性データを定常性のあるものに定常化したり、非定常時系列の分析は経済時系列の解析において重要な研究分野です。
追記:時系列分析については、この本がとても分かりやすかったので、もし時系列分析でつまずいている人は是非一度読んでみてください。
現場ですぐ使える時系列データ分析 ~データサイエンティストのための基礎知識~
コメント