Python scikit-learn 機械学習

【Python】joblibで作成した機械学習モデルの出力と読み込みをする方法

この記事は約10分で読めます。

 

 

こんにちは、ミナピピン(@python_mllover)です。

 

今回はPythonのScikit-learnで学習したモデルを出力して別のファイルで読み込んで、そのモデルに数値を入力して予測を行う手順を紹介したいと思います。

 

決定木で機械学習モデルを作成してエクスポートする

 

# https://qiita.com/merry1221/items/ae66a166b86fd1bd8acaより
import requests
import time
import datetime
import traceback
import pandas as pd
import talib as ta
from datetime import datetime
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
import optuna
from sklearn.externals import joblib


# ------------価格取得関数(5分足)クリプトウォッチから取得------------
def get_price(after=0, before=0):
    while True:
        try:
            price_data = []
            response = requests.get(
                "https://api.cryptowat.ch/markets/bitflyer/btcfxjpy/ohlc?periods=300&apikey=FBUTE26E60TN7F2NFOGV").json()
            information = response["result"]["300"]
            if information is not None:
                for i in information:
                    price_data.append(
                        {"close_time": datetime.fromtimestamp(i[0]).strftime("%H:%M:%S"), "open_price": i[1],
                         "high_price": i[2], "low_price": i[3], "close_price": i[4]})
            return price_data

        except Exception as e:
            print("Cryptowatchの価格取得でエラー発生 : ", traceback.format_exc())
            print("60秒待機してやり直します")
            time.sleep(60)

# グループ分けの関数


def classify(x):
    # 前足比が-0.2%以下ならグループ0
    if x <= -0.2:
        return 0
# 前足比が0.2%<x<0.2%ならグループ1
    elif -0.2 < x < 0.2:
        return 1
# 前足比が0.2%以上ならグループ2
    elif 0.2 <= x:
        return 2


def objective(trial):
    criterion = trial.suggest_categorical("criterion", ["gini", "entropy"])
    min_samples_split = trial.suggest_int("min_samples_split", 2, 16)
    max_leaf_nodes = int(trial.suggest_discrete_uniform(
        "max_leaf_nodes", 4, 64, 4))
    n_estimators = int(trial.suggest_discrete_uniform(
        "n_estimators", 50, 500, 50))
    max_depth = trial.suggest_int("max_depth", 3, 10)
    clf = RandomForestClassifier(random_state=1, n_estimators=n_estimators, max_leaf_nodes=max_leaf_nodes,
                                 max_depth=max_depth, max_features=None, criterion=criterion, min_samples_split=min_samples_split)
    clf.fit(X_train, Y_train)
    return 1 - accuracy_score(Y_test, clf.predict(X_test))


# 価格取得&データフレーム整形
price_data = get_price()
df = pd.DataFrame(price_data)

# テクニカル指標を計算
df['ma5'] = ta.SMA(df["close_price"], timeperiod=5)
df["RSI"] = ta.RSI(df["close_price"], timeperiod=14)
df['macd'], df['macdsignal'], df['macdhist'] = ta.MACD(
    df["close_price"], fastperiod=12, slowperiod=26, signalperiod=9)
# 「変化後÷変化前」 - 前足比
df["前足比"] = df["close_price"].pct_change()*100  # %とするため100をかける
df["前足比_classified"] = df["前足比"].apply(lambda x: classify(x))

# ---教師にしたいデータを一つずつずらす
df_y = df["前足比_classified"].shift()
# ---NUN行を削除
df_xy = df.dropna(how="any")

# データをテスト用と学習用に分割
X_train, X_test, Y_train, Y_test = \
    train_test_split(df_xy[["ma5", "RSI", "macd", "macdsignal"]],
                     df_xy["前足比_classified"], train_size=0.8, random_state=0)

# パラメーター最適化
study = optuna.create_study()
study.optimize(objective, n_trials=100)

print(1-study.best_value)
print(study.best_params)

# 決定したパラメータ
min_samples_split = study.best_params["min_samples_split"]
max_leaf_nodes = int(study.best_params["max_leaf_nodes"])
criterion = study.best_params["criterion"]
n_estimators = int(study.best_params["n_estimators"])
max_depth = study.best_params["max_depth"]

# 上記のパラメータをランダムフォレストのパラメータに代入
clf = RandomForestClassifier(random_state=1,
                             n_estimators=n_estimators,
                             max_leaf_nodes=max_leaf_nodes,
                             max_depth=max_depth,
                             max_features=None,
                             criterion=criterion,
                             min_samples_split=min_samples_split)
# 学習実行
clf.fit(X_train, Y_train)
# 学習結果を保存
joblib.dump(clf, filename='output.clf')

# print(clf.predict(X_test))

参考:https://qiita.com/merry1221/items/ae66a166b86fd1bd8aca

 

 

ta-libがインストールエラーになる場合は以下の記事を参考にしてください。

関連記事:【Python】テクニカル指標が簡単に計算できるTa-libの使い方

 

 

コードの中身はビットコインの5分おきの価格データを取得し、説明変数がテクニカル指標で目的変数が五分後の値動きとなっています。

 

学習モデルの保存はjoblib.dump()で行えます。引数のfilename=’output.clf’でモデルのファイル名を指定できます。末尾は別になんでも大丈夫です。

 

スポンサーリンク
スポンサーリンク

生成した機械学習モデルの読み込み

 

次は生成して出力した機械学習モデルを読み込みましょう。出力した機械学習モデルの読み込みはjoblib.load()で行います。モデルへの当てはめは予測と同じようにclf.predict()で行えます。

 

from sklearn.externals import joblib
import pandas as pd
import talib as ta
# モデルの読み込み
clf = joblib.load('output.clf')

#移動平均線
df['ma5'] = ta.SMA(df["close_price"],timeperiod=5)
#RSI
df["RSI"] = ta.RSI(df["close_price"], timeperiod=14)
#MACD
df['macd'], df['macdsignal'], df['macdhist'] =ta.MACD(df["close_price"], fastperiod=12, slowperiod=26, signalperiod=9)
#機械学習モデルを使って5分後の変化率を計算
result = clf.predict(df[['ma5','RSI','macd',"macdsignal"]].iloc[-1:])

 

これでresultに012のどれかが返されます。

 

参考記事:https://algorithm.joho.info/machine-learning/python-scikit-learn-decision-tree-import/

 

 

 

 

 

コメント

タイトルとURLをコピーしました