【Python】データ分析に超便利な「pandas」の使い方を解説!!(その①)

スポンサーリンク

これまではANACONDA(アナコンダ)のインストールとJupyter Notebookに基本的な使い方を見てきました。

今回はJupyter Notebookでデータ分析をするうえで欠かせない「pandas」というライブラリの使い方を紹介していきます。

Pandasでできること

Pandasは何ができるの?? って話なのですが、簡単に言うとExcelで縦横(行列)の表を操作するみたいな事がPythonの環境でもできるようにしてくれるライブラリです。

Pythonを使う人の大半の目的がデータ分析に必要なHTMLやJSONなどのデータをウェブから収集するウェブスクレイピングのしやすさにあると思うので、これによって集めたデータを分かりやすく整えてくれる panda は必須ライブラリでしょう。

ちなみに、Excelみたいな縦横2次元のデータ構造をPandasではDataFrameと言い、
横一列or縦一列みたな状態のデータをSeriesと呼びます。

pandasのインストール

多分anacondaだとデフォルトでインストールされているのでJupyter Notebookを起動してImport pandasで有効化できると思いますが、Python3.6単体でインストールしている人はコマンドプロンプト(cmd.exe)を開いてpipコマンドでインストールしてください。

pandasは便利なのですが、初心者が詰まりやすいポイントとしてはライブラリーを有効化する際、>>>import pandasではなく、>>>import as pandasと入力しなければいけない点です。

Seriesの操作

まずはSeriesの基本的な操作をしていきます。Seriesの作成はpd.Series()という関数で行えます。

()内にはSeriesの右側に入る数値を入力しましょう。今回は1.2.3という3つの数字を入れます。

>>>example=pd.Series([1,2,3])

>>>example

0 1
1 2
2 3
dtype: int64

引数indexを省略すると左側のラベル部分は0.1.2という数字が順番に割り当てられます。ラベルを付けたい場合は引数indexの続きにラベルを入力します

>>example=pd.Series([1,2,3],index=[‘a’,’b’,’c’])
>>>example

a 1
b 2
c 3
dtype: int64

次はこのラベルからデータを抽出します。ラベルの抽出は「.loc」でできます。

example=pd.Series([1,2,3],index=[‘a’,’b’,’c’])
example.loc[‘b’]

これは「:」を付けて範囲抽出も可能です。

>>>example.loc[‘b’:’c’]

b 2
c 3
dtype: int64

また「.iloc」位置からデータを抽出することも可能です。位置は0から始めるのに中尉してください。

>>>example.iloc[2]

3

そして、比較演算子を使って抽出することもできます。

>>>example!=1

a False
b True
c True
dtype: bool

スポンサーリンク

シェアする

  • このエントリーをはてなブックマークに追加

フォローする