データ分析

pandas

データフレームのデータ型確認と型変換のサンプルコード集

Mentaの相談でよく「自作のデータをデータフレームを機械学習モデルの関数に入れるとエラーが出て動きません」というのがあるので、それのテンプレ回答になります。 ちなみに体感このエラーの原因の9割は関数が想定して...
エンジニア日記

【データ分析】データマーケティングにおけるレコメンド手法の一覧まとめ

レコメンドとは レコメンドとはそのまま文字通りの意味で「推薦」。ECサイトなどで自分の購買履歴や属性情報に基づいてオススメの商品を紹介してくれる仕組みです。 この記事を見た人はこの記事も見ています。 こ...
pandas

【Python】データフレームの複数列を、2次元配列リストに変換する方法

業務のデータ処理でデータフレームの複数の列を、二次元配列のリストを変換する際に少し手間取ったので、次からスムーズにできるように自分用にメモしておきます。 データフレームの複数の列を、二次元配列を変換する方法...
Python

【Python】Pytorchで自作データセットとDataset/DataLoaderを使った画像分類

今回はPytorchを用いた画像分類をPOCで行ったので、その際のメモになります。TesorflowやKerasは以前使ったことがあったので余裕でしょwwwって思っていたら、Pytorch独特の書き方に結構苦戦しました。 ...
pandas

pandasでcsv読み込み時に「UnicodeDecodeError」が出る際の解決方法

pandasでのcsv読み込み時「UnicodeDecodeError」 Pythonでcsvの中身をpd.read_csv()で読み込んでデータフレームとしてデータを処理しようとするとたまに「UnicodeDecodeErr...
pandas

Pandasでサイトのテーブルタグをデータフレームとしてスクレイピング

webサイトのテーブルタグの中身のデータをまとめて簡単に取得する方法がないかを探していたところpandasのpd.read_html()という関数が非常に便利だったのでメモがてら紹介したいと思います。 pd.read_ht...
Matplotlib

【Python】Matplotlib製グラフの軸ラベルの文字が重なる問題を解決する方法

matplotlibでグラフを出力するとたまにこういう軸ラベルが重なっている気持ち悪いグラフが生成されてしまう問題が起きます。 今回は未来の自分用にこういう場合の対処法をまとめておきます。 #...
pandas

【Python】エルボー法による最適クラスタ数の決め方

今回は前回スクレイピングして前処理したデータをもとにしてk-mean法によるクラスタリングを行います。pythonではpandasのモジュールで実装することが可能です。 前回の記事:【Python】pandas-dat...
Python

【Python】K-MEANSでのクラスタリング結果を主成分分析で次元削減してグラフで可視化する

業務でクラスタリングした結果をプロットしてほしい、みたいな依頼を受けたのですが2次以上の多次元の配列データをk-meansでクラスタリングした結果ってどうやって可視化するんだっけ…?と少し悩んだのでメモしておきます。 デー...
numpy

【Python】Numpy配列から要素をランダムに抽出して訓練用・検証用に2分割する際のアプローチ

自前で調達した画像データをOPENCVでRGB値の三次元NUMPY行列にして配列化したデータを訓練用データと検証用データに分割する際の知見になります import numpy as np split_index =...
タイトルとURLをコピーしました