【Python】機械学習ライブラリ「Scikit-learn」でビットコインの価格を予測する

Contents

機械学習系シリーズ記事
ビットコインの価格データを取得する
決定木で可視化する
教師データありアルゴリズムで交差検証しつつ機械学習する

機械学習系シリーズ記事

→Pythonと機械学習で株価を予測する~Scikit-learnの決定木アルゴリズムを使う

→【Python】機械学習ライブラリ「Scikit-learn」を使ったビットコインの価格予測

→【Python】ビットコイン価格をディープラーニングで予測する

ビットコインの価格データを取得する

<作業環境>

Python3.6
Windows10
Jupyter Notebook

まずはビットコインの価格データをスクレイピングで取得します。

参照記事：【Python】CoinGeckoのAPIからビットコイン・アルトコインの価格データを取得する

# ライブラリの読み込み
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
import pandas as pd
import time
import requests
import json
from datetime import datetime 

def get_btcprice(ticker,max):
    url = 'https://api.coingecko.com/api/v3/coins/' + ticker + '/market_chart? 
    vs_currency=jpy&days=' + max
    r = requests.get(url)
    r2 = json.loads(r.text)
    return r2


# jsonから価格データだけをPandasに変換して抽出する
def get_price(r2):
    s = pd.DataFrame(r2['prices'])
    s.columns = ['date', 'price']
    date = []
    for i in s['date']:
        tsdate = int(i / 1000)
        loc = datetime.utcfromtimestamp(tsdate)
        date.append(loc)
    s.index = date
    del s['date']
    return s

# ビットコインの全期間の価格データを取得する 
r2 = get_btcprice('bitcoin', 'max')
btc = get_price(r2)

価格データが取得出来たら、次は変化率を計算します。今回は普通の変化率でも問題ないと思いますが、一応対数変化率を使います。

# 対数収益率の計算
change = btc['price'].apply(lambda x: np.log(x)).diff(periods=1)

対数変化率を計算したら次はtalibでテクニカル指標を算出します。

参照→【Python】テクニカル指標が簡単に計算できるTa-libの使い方

# talibでテクニカル指標を計算する
import talib
price = btc['price']
momentum = round(talib.MOM(price, 5), 0)
macd = talib.MACD(price)
rsi = round(talib.RSI(price, timeperiod=7), 0)

これで必要なものは揃ったので、一応データフレームにして概要を把握します。

# 各データをつなぎ合わせてデータフレームを作成
df = pd.DataFrame({"date": btc.index, "price": change * 100, "mom": momentum, "macd": round(macd[2], 0), "rsi": rsi})

# プロットする画像のサイズを拡大する
from pylab import rcParams

# テクニカル指標を可視化する
plt.subplot(3, 1, 1)
plt.plot(df['rsi'][-30:])
plt.ylabel('RSI')
plt.grid(which='both')
plt.subplot(3, 1, 2)
plt.plot(df['macd'][-30:],)
plt.ylabel("MACD")
plt.hlines([0], df.index[-30], df.index[-1], "red", linestyles='dashed')
plt.grid(which='both')
plt.subplot(3, 1, 3)
plt.plot(df['mom'][-30:])
plt.ylabel("Momentum")
plt.hlines([0], df.index[-30], df.index[-1], "red", linestyles='dashed')
plt.grid(which='both')

<実行結果>

いよいよ本題の機械学習に入っていきます。まずは分析におけるｘとｙを設定します。今回知りたいのは価格が上がるか下がるかなので、ｙ：被説明変数を価格の変化率にします。そして、ｘ：説明変数をテクニカル指標（RSI・MACD・モメンタム）の数値にします。

# 説明変数xと被説明変数ｙを決める
y = df['price'][35:]
x = df[['rsi', 'mom', 'macd']][34:-1]

# 要素数が同じくかを確認
print(len(x), len(y))

説明変数と被説明変数を定義したら、次は変化率-1と１に変換します。変換する理由としては、機械学習は回帰よりも分類の方が精度が高くなる傾向があるからです。この場合価格が上がっていたら１、下がっていたらー１という風にラベル付けしてあげます。ラベル付けした後に機械学習の関数に当てはまられるようにreshape()で次元を変換します。

# 変化率をシグナルに変換する
signal = []
for i in y:
    if i > 0:
        signal.append(1)
    elif i < 0:
        signal.append(-1)

# 機械学習用に次元を変換する
y2 = np.array(signal).reshape(-1,)

これでデータが整ったので、最後にデータを訓練用とテスト用に分割します。

# データを7:3に分割する
import sklearn
from sklearn.model_selection import train_test_split
(X_train, X_test,y_train, y_test) = train_test_split(x, y2, test_size=0.3, random_state=0, shuffle=False)

決定木で可視化する

というわけでいよいよ機械学習に入っていきます。まずは決定木で分析して精度と可視化して有効性の高そうな変数を確認しましょう。

# ライブラリの読み込み
from sklearn import tree

# 決定木モデルの呼び出し
clf = tree.DecisionTreeClassifier(max_depth=5)

# 学習開始
clf = clf.fit(X_train.values, y_train)
#作成した機械学習モデルをテストデータに当てはめる
predicted = clf.predict(X_test)

# モデルのテストデータに対する精度を確認
score=sum(predicted == y_test) / len(y_test)
print('モデルの精度は{}%です'.format(score * 100))


# 決定木を画像にして出力する
import pydotplus
from sklearn.externals.six import StringIO
dot_data = StringIO()
tree.export_graphviz(clf, out_file=dot_data, feature_names=df.columns[-3:],)
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
from IPython.display import Image
Image(graph.create_png())

うーん精度は50％前後とあまり宜しくない・・・というダメダメですね。とりあえず、可視化した決定木を見てみます。↓

ざっとと見て初めにRSIが69.5未満かどうかで大きく分かれているので、これがまず一番効いてそうな変数説明だと分かります。FALSEを選ぶと[136,242]で約64％で上がることが予測できています。ただサンプル数が378/1549なので、有効な場面が少なそうです。

本来は決定木の結果からアプローチをかけていくのですが、今回はあまりに精度が悪いので、とりあえず置いといて、他の機械学習アルゴリズムを試していきます。

教師データありアルゴリズムで交差検証しつつ機械学習する

from sklearn import svm
from sklearn.metrics import confusion_matrix
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import f1_score
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import make_scorer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
from sklearn import tree
from sklearn import neighbors


kfold = KFold(n_splits=5)
n_neighbors = 5


# 機械学習アルゴリズムのリスト
logic = [[tree.DecisionTreeClassifier(max_depth=5),'決定木'],
[LogisticRegression(),"ロジティクス回帰"],
[svm.SVC(),"サポートベクトルマシーン"],
[RandomForestClassifier(min_samples_leaf=3, random_state=0),"ランダムフォレスト"],
[neighbors.KNeighborsClassifier(n_neighbors, weights = 'distance'),"k-近傍法"]]


# for文でアルゴリズムごとに機械学習して結果を算出する
for i in logic:
    # 交差検証
    scores = cross_val_score(i[0], x, np.array(signal),cv=kfold)
    # 各分割におけるスコア
    print('Cross-Validation scores: {}'.format(scores))

# スコアの平均値
print('{}の平均スコア: {}%'.format(i[1],round(np.mean(scores)*100,2)))

<実行結果>

Cross-Validation scores: [0.52595937 0.50790068 0.55079007 0.47629797 0.48868778]

決定木の平均スコア: 50.99%

Cross-Validation scors: [0.53273138 0.51015801 0.57562077 0.5778781 0.54298643]

ロジティクス回帰の平均スコア: 54.79%

Cross-Validation scores: [0.53273138 0.51015801 0.57562077 0.5778781 0.54977376]

サポートベクトルマシーンの平均スコア: 54.92%

Cross-Validation scores: [0.49435666 0.48532731 0.51241535 0.48306998 0.50226244]

ランダムフォレストの平均スコア: 49.55%

Cross-Validation scores: [0.503386 0.50790068 0.51467269 0.50112867 0.51357466]

k-近傍法の平均スコア: 50.81%

うーんあまり良くないですね。ほとんど50％なので、ただ半丁博打しているのと大差ないです。しいていうなら線形で分類する系のアルゴリズムがちょっと有効性あるかな程度。。。