データ分析

Python

【Python】Pytorchで自作データセットとDataset/DataLoaderを使った画像分類

今回はPytorchを用いた画像分類をPOCで行ったので、その際のメモになります。TesorflowやKerasは以前使ったことがあったので余裕でしょwwwって思っていたら、Pytorch独特の書き方に結構苦戦しました。 ...
pandas

【Python】pandasでウェブサイトのtableタグ内のデータをまとめてスクレイピングする

webサイトのテーブルタグの中身のデータをまとめて簡単に取得する方法がないかを探していたところpandasのpd.read_html()という関数が非常に便利だったのでメモがてら紹介したいと思います。 pd.read_ht...
Matplotlib

【Python】Matplotlib製グラフの軸ラベルの文字が重なる問題を解決する方法

matplotlibでグラフを出力するとたまにこういう軸ラベルが重なっている気持ち悪いグラフが生成されてしまう問題が起きます。 今回は未来の自分用にこういう場合の対処法をまとめておきます。 #...
pandas

【Python】エルボー法による最適クラスタ数の決め方

今回は前回スクレイピングして前処理したデータをもとにしてk-mean法によるクラスタリングを行います。pythonではpandasのモジュールで実装することが可能です。 前回の記事:【Python】pandas-dat...
Python

【Python】K-MEANSでのクラスタリング結果を主成分分析で次元削減してグラフで可視化する

業務でクラスタリングした結果をプロットしてほしい、みたいな依頼を受けたのですが2次以上の多次元の配列データをk-meansでクラスタリングした結果ってどうやって可視化するんだっけ…?と少し悩んだのでメモしておきます。 デー...
numpy

【Python】Numpy配列から要素をランダムに抽出して訓練用・検証用に2分割する際のアプローチ

自前で調達した画像データをOPENCVでRGB値の三次元NUMPY行列にして配列化したデータを訓練用データと検証用データに分割する際の知見になります import numpy as np split_index =...
Python

【Python】openpyxlで「Excelの数式」の読み込み・書き込み

最近業務でエクセル処理をPythonで自動化しようとしていたのですが、エクセルの関数がうまく反映されず少しハマったので調べたことをメモしておきます。 # インストール $ pip install openpyxl ...
Python

【Python】Googleスプレッドシートの読み込み・書き出し・追記処理をgspreadで自動化する

こんにちは、ミナピピン(@python_mllover)です。今回はPythonを使ってgoogleスプレッドシートを操作する方法について紹介したいと思います。 前準備 Pythonの設定 まずはgspre...
Beautiful Soup

【Python】ウェブサイトのTableタグ内の情報をpandasで効率良くスクレイピングする

こんにちは、ミナピピン(@python_mllover)です! 今回はスクレイピングしたwebサイトのテーブルタグの中の情報をデータフレームにして効率良く処理する方法について紹介したいと思います。 panda...
Python

【Python】TwitterAPIで取得したツイートから@メンション・リツイート・URLを正規表現で除去する

こんにちは、ミナピピン(@python_mllover)です。 今回はTwitterAPIで取得したツイートデータからメンションやURLを除去して自然言語処理を行う前処理のコードに書いたのでメモとして残しておきます。 ...
タイトルとURLをコピーしました