SQL

Databricksで中央値と四分位数を集計する

この記事は約2分で読めます。

 

Databricksでspark.sqlを使ってデータを集計する際に中央値や四分位数などの基本統計量の集計に手間取ったのでメモしておきます。Databricksではpercentile()で中央値と四分位数を集計することができます

 

中央値を集計する

 

SELECT
   percentile(col_name, 0.5) --0.5で中央値になる
FROM
  table_name

 

四分位数を集計する

 

SELECT
  a[0] -- スライスで結果を取り出す
  ,a[1]
  ,a[2]
FROM
  (
    SELECT
      percentile_approx(col_name, Array(0.25,0.5,0.75)) AS a --四分位数を行列にする
    FROM
      table_name
  )

 

参照:https://stackoverflow.com/questions/34519549/how-to-calculate-median-in-spark-sqlcontext-for-column-of-data-type-double

 

参考:データブリックス クイックスタートガイド

 

 


プログラミング・スクレイピングツール作成の相談を受け付けています!

クラウドワークス・ココナラ・MENTAなどでPython・SQL・GASなどのプログラミングに関する相談やツール作成などを承っております!

過去の案件事例:

  • Twitter・インスタグラムの自動化ツール作成
  • ウェブサイトのスクレイピングサポート
  • ダッシュボード・サイト作成
  • データエンジニア転職相談

これまでの案件例を見る

キャリア相談もお気軽に!文系学部卒からエンジニア・データサイエンティストへの転職経験をもとに、未経験者がどう進むべきかのアドバイスを提供します。


スポンサーリンク
/* プログラミング速報関連記事一覧表示 */
ミナピピンの研究室

コメント

  1. […] 関連記事:Databricksで中央値と四分位数を集計する […]

タイトルとURLをコピーしました