PySparkでDataFrameのカラム名を一括で変更する方法についてメモしておきます。一応特定の列だけに限定する場合はwithColumnRenamedで変更前、変更後のカラム名を指定してrenameすることが可能です。
<特定の列だけを変更する場合>
spark_df.withColumnRenamed('変更前の列名', '変更後の列名')
toDF()でDataFrameのカラム名を一括で変更する
PysparkではtoDF()
で列名をまとめて変更できます
使い方は以下のような感じです
<サンプルコード>
column_names = ['col_a', 'col_b', 'col_c'] spark_df.toDF(*column_names)
関連記事:Pyspark3.0用の集計・前処理サンプルコードまとめ
コメント