テーブルにデータをINSERTするときはSqlalchemyだとCOREでBULKINSERTするのが一般的だが ポスグレだとわざわざORMを使わずともPSYCOPGにCOPYFROMがあるのでそれで一括でINSERTする方が圧倒的に早い。
だがORMを使わずにドライバー経由でテーブルにデータをぶち込むとなると同じデータなのにORMではINSERTできたものがエラーで INSERTできないということがある。
データをCOPYFROMでINSERTする時によく起こるエラーの原因と対処法
ポスグレはNULLと空文字を区別しているので、COPY FROMでNoneやNULLが入ったデータをINSERTしようとするとエラーになるときがある
そういうときは引数でnull=''
として空None(NULL)を空文字として認識するように設定する必要がある
Numericエラーへの対処
これが一番多い、原因はpandasで見えてる数字とポスグレにCOPYFROMするときの内部数値が違うのが原因例えば 、pandasでみると4という数字だがポスグレにcopyfromしているときには、表面上4とすて見えているものは内部では4.0として扱われており 、これが NUMRICエラーの原因になっていると思われる。
なので、対処法としてはINTEGER指定のカラムにインサートする列データはlamdaでINT型に変換してさらに文字型に変換するというのがあげられる 。そしてそれをPF.TO_CSVで区切り文字出力してstringIOで文字を一つのデータとしてCOPYFROMで一気に処理するというがよさげ。
ここでみそなのはdf.to_csv(None)
でdf.to_csvはデータフレームをcsv出力する関数というのが一般的ば認識だと思うが引数を出力csv名ではなく 、Noneにするとデータフレームを区切り文字にした文字列を出力してくれる
これがCOPYFROMと非常に相性がいい、これを使うとデータフレームを文字列してそれをStringIOでオブジェクトしてまとめてテーブルに一括でぶち込める
コメント