SQL

SQL

DatabricksでUDF(ユーザー定義関数)を使う方法

DatabricksのsparksqlでUDFを使いたいな~と思ったのですが、少し手間取ったので保存用にまとめておきます。 UDF(ユーザー定義関数)を定義する 例えばdatabricksで中間テーブルとかでよく...
SQL

Databricksで中央値と四分位数を集計する

Databricksでspark.sqlを使ってデータを集計する際に中央値や四分位数などの基本統計量の集計に手間取ったのでメモしておきます。Databricksではpercentile()で中央値と四分位数を集計することができます ...
Python

【Python】SqlalchemyでのテーブルからのSELECT処理速度を高速化する

今回は前回に引き続きSQLAlchemyを使ってPythonでデータベースの情報をSELECTで抽出する処理を高速化すう知見についてまとめていきます。 前回の記事:【Python】SqlalchemyでのINSERT処...
Python

【Python】pymongoでbson形式のファイルを読み込み&書き出す

事前準備 $ pip install pymongo 注意点としては、古いネットの記事を読んで、bsonをインストールしたりしていると名前空間がぐちゃぐちゃになってインポートエラーになるので、一回どっちもアンインストール...
BigQuery

【BigQuery】既存テーブルの特定の列データを削除・型変換して上書きする方法

最近業務でBigquery上にあるテーブルから余分な列データとかを削除したいな~と思ったのですが、ブラウザの管理画面からのGUI操作では削除できそうで削除できないようみたいで、どうやらSQLのCREATE文でテーブルを作り直...
heroku

【Heroku】sqlalchemyのcreate_engineがエラーになった話

~~~~ from sqlalchemy import create_engine ~~~~ engine = create_engine('postgres://~~~', echo = False) <...
BigQuery

【SQL/BigQuery】分析関数で移動平均を集計する

SELECT 日付, 値, AVG(値) OVER (ORDER BY 日付 ROWS BETWEEN 3 PRECEDING AND 3 FOLLOWING) AS 移動平均 FROM (日付ごとに値...
BigQuery

【SQL/BigQuery】ユーザー単位のN日後継続率を集計する

こんにちは、ミナピピン(@python_mllover)です。たまに仕事でN日後継続率を集計することがあるので、次からコピペですぐできるようにメモしておきます。 データを用意 <table1>...
heroku

Herokuのデータベースにスクレイピングした情報を保存する

こんにちは、ミナピピン(@python_mllover)です! 今回はherokuのデータベースにPythonで収集した情報を保存する手順を紹介したいと思います。 herokuの基本的なことについては以下...
BigQuery

【SQL/BigQuery】ROW_NUMBERでグループごとに順番・順位を付ける

こんにちは、ミナピピン(@python_mllover)です。今回は分析関数を使用したSQLによる高度な集計方法について解説していきたいと思います。これができればわざわざPythonとかRでデータフレームを処理しなくていいのが大きな...
タイトルとURLをコピーしました