Contents
Pythonでのファイルの読み込みと書き出し
pythonは便利なプログラミング言語ですが、初心者の方が詰まるポイントの1つとしてファイルの読込と書き出しがあります。
実務とかであればデータベースなどが使うこともありますが、始めたばかりの人がまず行うのは、恐らくcsvからPythonにファイルを読み込んだり書き出したりする方法だと思うので、今日はその辺りについて解説していきたいと思います。
pythonでcsvを扱う方法は基本的に2つ
pythonでcsv形式のファイルを読み込んだり出力したりする方法として、「①csvモジュールとwith文を使う」と「②pandasというライブラリの関数を使う」という2つの方法なのが一般的です。
jsonやdbファイルなどを扱いたい場合はwith文を使用することが多いですが、csvモジュールは正直使いにくいです。
なので、.txtや.csvを読み込む際はpandasというモジュールに入っているcsvを読込む関数を使ったほうがいいと個人的には思っています。
ちなみにこのpandasというライブラリはpythonでデータ分析をするのに欠かせない超便利なモジュールです。
そして、numpyというモジュールもpython上で数値計算をするうえでは欠かせないモジュールです。行列と数値計算は機械学習において絶対に行う作業なので、この『Pandas』と『Numpy』という2つのモジュールは使いこなせるようにしておきましょう。
pandasでcsvの読込と出力を行う
pandasがない人はpip install pandas
でインストールしてください。Anacondaをインストールしている人はデフォルトでインストールされています。
Pandasでの.csvの読み込みと書き出しは↓の関数で行えます。
#モジュールの読込 import pandas as pd #csvを読み込む 変数名= pd.read_csv('〇〇〇.csv',sep=',',encoding='utf-8') #データをcsvに出力する 変数名.to_csv("〇〇〇.csv",sep=', ',index=True)
csvの読み込みで気を付けたいこと(区切り文字・文字コード)
csvをpythonで読み込む際によく起こる問題点としては、正しくcsvが読み込まれない(区切りが反映されない)というケースです。
これはPythonにcsvを読み込む際に区切り文字を指定していないことが原因です。よくあるcsvの形式はカンマ区切りであることが多いので、読み込み時にカンマ区切りであることを引数にsep=','
と指定することでPCに教えておげる必要があります。(ちなみにタブ区切りである場合はsep='\t'
と指定するとうまくいきます。)
他にも文字コードの違いによるエラーもよくあります。というのもWindowsとMACは基本の文字コードが違うので、Macで作ったファイルをWindowsのPC上で読み込むと文字化けすることがあります。
なので、文字化けしている場合は引数をencoding='utf-8'
として文字コードを指定すると文字化けが治ることがあります。
またPython(Pandas)でcsv出力する際に気を付けたいのは、行名を出力するかどうか。Falseを指定した場合、行名は出力されません。デフォルトではTrueとなっているので、最初の列のデータが列名になります。
つまり、csvの最初先頭列のデータをPandasで読み込んだ際にラベル扱いされたくない場合はindex_col=False
にしておくといいという事になります。
終わり
他にもpandasは金融データの取得など便利な機能がいっぱいあるので、pythonでデータ分析をする人は是非使い方をマスターしておきましょう。
『pandas』と『numpy』の使い方については、自分が今まで購入した参考書の中でPythonユーザのためのJupyter[実践]入門というのが一番分かりやすかったので、超オススメです。
【Python】pandasを使って日経平均株価のデータをスクレイピングで取得する
【Python】CoinGeckoからビットコイン・アルトコインの価格データを取得する方法
コメント