データ分析入門シリーズ

データ分析入門シリーズ

データ分析業務でのクラスタリング手法の選定ポイント(私見)

実務でデータを分析する際にはデータをグループ分けをする「クラスタリング」を行うことが多いです。その中でクラスタリングのアルゴリズムで代表的なものには「k-means」や「階層的クラスタリング」、種類として「ハードクラスタリング」「ソ...
Python

【Python】レコメンドでよく使われる機械学習アルゴリズムの一覧とコード実装

前回の記事:【データ分析】データマーケティングにおけるレコメンド手法の一覧まとめ から引き続いてレコメンドについて調べた結果を自分用にメモしておきます。 協調フィルタリングの種類 上述したように協調フィルタリング...
pandas

【Python】エルボー法による最適クラスタ数の決め方

今回は前回スクレイピングして前処理したデータをもとにしてk-mean法によるクラスタリングを行います。pythonではpandasのモジュールで実装することが可能です。 前回の記事:【Python】pandas-dat...
numpy

【Python】Numpy配列から要素をランダムに抽出して訓練用・検証用に2分割する際のアプローチ

自前で調達した画像データをOPENCVでRGB値の三次元NUMPY行列にして配列化したデータを訓練用データと検証用データに分割する際の知見になります import numpy as np split_index =...
Python

【Python】pandasで行の追加を高速化したい時はappendはNGという話

一般的にpandasのデータフレームに新規に行を追加する際は.append()を使用します。と大体Googleで検索するとヒットします。 しかし数十万~数千万行の行を追加するとなるとappendで一行ずつ追加す...
Beautiful Soup

【Python】ウェブサイトのTableタグ内の情報をpandasで効率良くスクレイピングする

こんにちは、ミナピピン(@python_mllover)です! 今回はスクレイピングしたwebサイトのテーブルタグの中の情報をデータフレームにして効率良く処理する方法について紹介したいと思います。 panda...
Python

【Python】主成分分析(PCA)でクラスタリング結果をプロットする

こんにちは、ミナピピン(@python_mllover)です。今回はデータ分析の業務でよく行う「クラスタリング」の手法の1つである「主成分分析(PCA)」について解説していきます。 主成分分析(PCA)とは ...
データ分析入門シリーズ

統計検定2級合格のための押さえておきたい『統計的仮説検定』の問題パターンと解き方

統計検定の教科書が改訂されたみたいなので読んでみました。多少はマシになったものの相変わらずの意味不明さはあったので、特に4章の統計的仮説検定の部分のパターンを整理しておきます。 統計的仮設検定の種類...
データ分析入門シリーズ

【統計検定2級】Rの回帰分析出力結果の見方について

2015年ごろから見かけるようになったRでの出力結果の意味を答えさせる問題、今回はその解き方というかRの回帰分析の結果の意味を説明していきます。 まずはRで回帰分析 まずはRで回帰分析を行ってみま...
numpy

【Python】pandasで年齢データを各年齢層ごとにGroupByで集計する

今回はPandasでSQLと同じようなGROUPBYを行う方法について紹介したいと思います。 pandasで年齢データを10歳区切りの年齢データに再集計する 年齢データをpandasで年齢層ごとに集計しようとした...
タイトルとURLをコピーしました