Web技術 エンジニア日記

【ポスグレ】copy_fromでデータがINSERTできないときの対処法

この記事は約3分で読めます。

 

テーブルにデータをINSERTするときはSqlalchemyだとCOREでBULKINSERTするのが一般的だが ポスグレだとわざわざORMを使わずともPSYCOPGにCOPYFROMがあるのでそれで一括でINSERTする方が圧倒的に早い。

 

だがORMを使わずにドライバー経由でテーブルにデータをぶち込むとなると同じデータなのにORMではINSERTできたものがエラーで INSERTできないということがある。

 

 

データをCOPYFROMでINSERTする時によく起こるエラーの原因と対処法

 

ポスグレはNULLと空文字を区別しているので、COPY FROMでNoneやNULLが入ったデータをINSERTしようとするとエラーになるときがある

そういうときは引数でnull=''として空None(NULL)を空文字として認識するように設定する必要がある

 

 

Numericエラーへの対処

 

これが一番多い、原因はpandasで見えてる数字とポスグレにCOPYFROMするときの内部数値が違うのが原因例えば 、pandasでみると4という数字だがポスグレにcopyfromしているときには、表面上4とすて見えているものは内部では4.0として扱われており 、これが NUMRICエラーの原因になっていると思われる。

 

なので、対処法としてはINTEGER指定のカラムにインサートする列データはlamdaでINT型に変換してさらに文字型に変換するというのがあげられる 。そしてそれをPF.TO_CSVで区切り文字出力してstringIOで文字を一つのデータとしてCOPYFROMで一気に処理するというがよさげ。

 

ここでみそなのはdf.to_csv(None)でdf.to_csvはデータフレームをcsv出力する関数というのが一般的ば認識だと思うが引数を出力csv名ではなく 、Noneにするとデータフレームを区切り文字にした文字列を出力してくれる

 

これがCOPYFROMと非常に相性がいい、これを使うとデータフレームを文字列してそれをStringIOでオブジェクトしてまとめてテーブルに一括でぶち込める

 

PostgreSQLのCOPY文での数値項目への空文字インポートについて
PostgreSQLデータベースで、 CSVファイルからcopy from文を使ってデータをインポートしようとしております。 ・CSVファイル 囲み文字:"(全文字囲われています) 区

 

 

 

 

 


プログラミング・スクレイピングツール作成の相談を受け付けています!

クラウドワークス・ココナラ・MENTAなどでPython・SQL・GASなどのプログラミングに関する相談やツール作成などを承っております!

過去の案件事例:

  • Twitter・インスタグラムの自動化ツール作成
  • ウェブサイトのスクレイピングサポート
  • ダッシュボード・サイト作成
  • データエンジニア転職相談

これまでの案件例を見る

キャリア相談もお気軽に!文系学部卒からエンジニア・データサイエンティストへの転職経験をもとに、未経験者がどう進むべきかのアドバイスを提供します。


スポンサーリンク
/* プログラミング速報関連記事一覧表示 */
ミナピピンの研究室

コメント

タイトルとURLをコピーしました