一般的にpandasのデータフレームに新規に行を追加する際は.append()を使用します。と大体Googleで検索するとヒットします。
しかし数十万~数千万行の行を追加するとなるとappendで一行ずつ追加すると気が遠くなるような時間が掛かり、それは良くないということで高速化する方法について調査したので備忘録として残しておきます。
結論: データを辞書型にしてdf.from_dict()を使う
import pandas as pd
df = pd.DataFrame()
df_add = pd.DataFrame([
[1,1,1,1,1,1,1],
[2,2,2,2,2,2,2]
]
)
dict_tmp = {}
counter = 0
for i in range(10000):
for _, row in df_add.iteritems():
dict_tmp[counter] = row
counter += 1
df_base = df.from_dict(dict_tmp, orient='index')
for r in range(20):
print(r)
df_base = pd.concat([df_base, df.from_dict(dict_tmp, orient='index')])
df_base
終わり
pandasは大規模データになるとやはり処理が重くなるので、少しテクニックが必要になりますね。他にもいい方法があると紹介していただけると助かります。
では~
関連記事:【Python】Pandasのデータフレームをテーブルに高速INSERTする

コメント