データ分析入門シリーズ

pandas

【Python】エルボー法による最適クラスタ数の決め方

今回は前回スクレイピングして前処理したデータをもとにしてk-mean法によるクラスタリングを行います。pythonではpandasのモジュールで実装することが可能です。 前回の記事:【Python】pandas-dat...
numpy

【Python】Numpy配列から要素をランダムに抽出して訓練用・検証用に2分割する際のアプローチ

自前で調達した画像データをOPENCVでRGB値の三次元NUMPY行列にして配列化したデータを訓練用データと検証用データに分割する際の知見になります import numpy as np split_index =...
Python

【Python】pandasで行の追加を高速化したい時はappendはNGという話

一般的にpandasのデータフレームに新規に行を追加する際は.append()を使用します。と大体Googleで検索するとヒットします。 しかし数十万~数千万行の行を追加するとなるとappendで一行ずつ追加す...
Beautiful Soup

【Python】ウェブサイトのTableタグ内の情報をpandasで効率良くスクレイピングする

こんにちは、ミナピピン(@python_mllover)です! 今回はスクレイピングしたwebサイトのテーブルタグの中の情報をデータフレームにして効率良く処理する方法について紹介したいと思います。 panda...
Python

【Python】主成分分析(PCA)でのクラスタリングを実装する

こんにちは、ミナピピン(@python_mllover)です。今回はデータ分析の業務でよく行う「クラスタリング」の手法の1つである「主成分分析(PCA)」について解説していきます。 主成分分析(PCA)とは ...
データ分析入門シリーズ

統計検定2級合格のための押さえておきたい『統計的仮説検定』の問題パターンと解き方

統計検定の教科書が改訂されたみたいなので読んでみました。多少はマシになったものの相変わらずの意味不明さはあったので、特に4章の統計的仮説検定の部分のパターンを整理しておきます。 統計的仮設検定の種類...
データ分析入門シリーズ

【統計検定2級】Rの回帰分析出力結果の見方について

2015年ごろから見かけるようになったRでの出力結果の意味を答えさせる問題、今回はその解き方というかRの回帰分析の結果の意味を説明していきます。 まずはRで回帰分析 まずはRで回帰分析を行ってみま...
numpy

【Python】pandasで年齢データを各年齢層ごとにGroupByで集計する

今回はPandasでSQLと同じようなGROUPBYを行う方法について紹介したいと思います。 pandasで年齢データを10歳区切りの年齢データに再集計する 年齢データをpandasで年齢層ごとに集計しようとした...
numpy

【Python】Numpy配列の次元変換でよく使う関数のまとめ

Numpy配列の作成と要素の確認 import numpy as np#Numpy配列の作成sample = np.arange(0, 100, 0.1)sample <実行結果> array([ 0....
データ分析入門シリーズ

【初心者向け】プログラミングとは何か?を分かりやすく説明する

プログラミングって何なの? 最近小学校の義務教育にも組み込まれたり、なにかと注目をあびている「プログラミング」ですが「プログラミングってそもそも何なんだろ……?」 と思っている人はとても多...
タイトルとURLをコピーしました