【Python】データ分析に超便利な「pandas」の使い方を解説!!(その②)

スポンサーリンク

前Seriesの基本的な操作を行っていきました。次はDataframe(データフレーム)の操作を行っていきます。

Dataframeの作成

dataframeはpd.dataframe()という館数で作成できます。indexが縦、Columnsが横のラベルを指定する引数です。

>>>import panda as pd

df=pd.dataframe(

[[1,2,3],[4,5,6],[7,8,9],

index=[‘a1′,’a2′,’a3’],

columns=[‘b1′,’b2′,’b3’]

>>>df

改行しなくてもコードは有効ですが、改行した方が見やすいですし、エラーが出た時もどこがおかしいのか見直ししやすいので、書いているコードが長くなったときは改行しましょう

ちなみにJupyter Notebook上でpandasでデータフレームを作成すると、Idle上よりも少しオシャレになります。

ラベルからデータを抽出するには「.loc」を使います。

>>>df.loc[‘a1′,’b1’]

1

またすべての列を抽出する際は

こういう感じでラベルとデータ数を一行ずつで抽出した場合、この抽出したデータはSeries型になっています。

またpandasのデータフレームでは比較演算子を使って真偽値を返すこともできます。

加えて、2つ以上の条件を組み合わせて、それに合致したデータを抽出することも可能です。

スポンサーリンク

データの読み込み

pandasを使うとPythonにCSVを始め、HTMLやJSONといったデータ分析で使われる代表的なファイル形式を読み込ませ、表示させることができます。

csvの読み込む際はpandas.read_csvという関数で実行することができます。

スポンサーリンク

シェアする

  • このエントリーをはてなブックマークに追加

フォローする