Python プログラミング

pandasからsparkデータフレームへの変換時に 「Can not merge type error」のエラーが出た時の対策

この記事は約1分で読めます。

 

業務でPysparkを扱っていた際にcsvをデータフレームで読み込んで、前処理を掛けたあとにsparkのデータフレームに変換しようとしたところ以下のエラーに遭遇したので解決法をメモしておきます。

 

プログラム

df = pd.read_csv('xxx.csv')

<前処理>

spark_df = spark.createDataFrame(df)

 

エラーメッセージ

Can not merge type error

 

 

解決法 データフレーム列のデータ型を変換する

 

自分の肌感ですがこのエラーはobject型の列が含まれている場合に起こる印象なのでエラーになってそうな列のデータ型は文字型に変換しておくのが無難かと思われます。

 

# 特定の列のデータ型を文字型に変換する
df['col_name'] = df['col_name'].astype(str)

 

# データフレームの全ての列を文字型に変換する
for i in df.columns:
    df[i] = df[i].astype(str)

 

 


プログラミング・スクレイピングツール作成の相談を受け付けています!

クラウドワークス・ココナラ・MENTAなどでPython・SQL・GASなどのプログラミングに関する相談やツール作成などを承っております!

過去の案件事例:

  • Twitter・インスタグラムの自動化ツール作成
  • ウェブサイトのスクレイピングサポート
  • ダッシュボード・サイト作成
  • データエンジニア転職相談

これまでの案件例を見る

キャリア相談もお気軽に!文系学部卒からエンジニア・データサイエンティストへの転職経験をもとに、未経験者がどう進むべきかのアドバイスを提供します。


スポンサーリンク
/* プログラミング速報関連記事一覧表示 */
ミナピピンの研究室

コメント

  1. […] 関連記事:pandasからsparkデータフレームへの変換時に 「Can not merge type error」のエラーが出た時の対策 […]

タイトルとURLをコピーしました