Python データ分析入門シリーズ

【Python】pandasで行の追加を高速化したい時はappendはNGという話

この記事は約2分で読めます。

 

 

一般的にpandasのデータフレームに新規に行を追加する際は.append()を使用します。と大体Googleで検索するとヒットします。

 

しかし数十万~数千万行の行を追加するとなるとappendで一行ずつ追加すると気が遠くなるような時間が掛かり、それは良くないということで高速化する方法について調査したので備忘録として残しておきます。

 

スポンサーリンク
スポンサーリンク

結論: データを辞書型にしてdf.from_dict()を使う

 

import pandas as pd
df = pd.DataFrame()
df_add = pd.DataFrame([
    [1,1,1,1,1,1,1],
    [2,2,2,2,2,2,2]
]
)
dict_tmp = {}
counter = 0
for i in range(10000):
    for _, row in df_add.iteritems():
        dict_tmp[counter] = row
        counter += 1
df_base = df.from_dict(dict_tmp, orient='index')

for r in range(20):
    print(r)
    df_base = pd.concat([df_base, df.from_dict(dict_tmp, orient='index')])
df_base

 

終わり

 

pandasは大規模データになるとやはり処理が重くなるので、少しテクニックが必要になりますね。他にもいい方法があると紹介していただけると助かります。

 

では~

 

関連記事:【Python】Pandasのデータフレームをテーブルに高速INSERTする

 

 


プログラミング・スクレイピングツール作成の相談を受け付けています!

クラウドワークス・ココナラ・MENTAなどでPython・SQL・GASなどのプログラミングに関する相談やツール作成などを承っております!

過去の案件事例:

  • Twitter・インスタグラムの自動化ツール作成
  • ウェブサイトのスクレイピングサポート
  • ダッシュボード・サイト作成
  • データエンジニア転職相談

これまでの案件例を見る

キャリア相談もお気軽に!文系学部卒からエンジニア・データサイエンティストへの転職経験をもとに、未経験者がどう進むべきかのアドバイスを提供します。


スポンサーリンク
/* プログラミング速報関連記事一覧表示 */
ミナピピンの研究室

コメント

タイトルとURLをコピーしました