SQL

BigQuery

【SQL】カンマや空行区切りの文字データの分割して1列に並べる方法

今回はSQLでカンマや空行区切りの文字データの分割して1列に並べる方法について紹介します。 データの用意 まずは適当な文字列のデータを用意します WITH test_data AS ( select ...
GCP

【GAS】BigQueryに対してクエリを実行してデータを読み書きする

Google Apps Script( GAS ) から BigQuery を操作するにはどうすればいいのか知りたい GAS で BigQuery のテーブル定義書をスプレッドシートに出力したい GAS をスケジュー...
SQL

【初心者向け】MacでMYSQLをインストールしてテーブルにデータを追加する方法をわかりやすく解説

今回は初心者でも分かりやすい、MACでMYSQLのインストールとサーバー起動、テーブルにデータを追加する方法について解説します。ぜひ最後まで読み進めてください。 MACでMYSQLをインストールする方法 まずは、...
SQL

MySQLで文字列⇔日付型に変換するサンプルコード

MYSQLで文字列で格納されている日付データをdatetimeに変換しようと思ったのですが少し手間取ったのでメモしておきます MySQLで文字列⇔日付型に変換するサンプルコード サンプルコードは以下になります。 ...
Python

【Python】SqlalchemyでのINSERT処理を高速化する方法まとめ

SqlalchemyでDBにデータINSERTしたりSELECTする際の処理速度を早くするための知見をサンプルコードにしました。 Qiitaにも似たような記事はあるのですが、変数名などがおかしくてそのままコピペ...
SQL

DatabricksでSUBSTRINGとCONCATで文字列データを操作する

Databricksのspark.sqlで20220801みたいな年月日がそのままくっついている日付の文字型データを2022-08-01のように変換して新しい列にする方法について紹介したいと思います。 文字列の抽出はSUB...
SQL

DatabricksでUDF(ユーザー定義関数)を使う方法

DatabricksのsparksqlでUDFを使いたいな~と思ったのですが、少し手間取ったので保存用にまとめておきます。 UDF(ユーザー定義関数)を定義する 例えばdatabricksで中間テーブルとかでよく...
SQL

Databricksで中央値と四分位数を集計する

Databricksでspark.sqlを使ってデータを集計する際に中央値や四分位数などの基本統計量の集計に手間取ったのでメモしておきます。Databricksではpercentile()で中央値と四分位数を集計することができます ...
Python

【Python】SqlalchemyでのテーブルからのSELECT処理速度を高速化する

今回は前回に引き続きSQLAlchemyを使ってPythonでデータベースの情報をSELECTで抽出する処理を高速化すう知見についてまとめていきます。 前回の記事:【Python】SqlalchemyでのINSERT処...
Python

【Python】pymongoでbson形式のファイルを読み込み&書き出す

事前準備 $ pip install pymongo 注意点としては、古いネットの記事を読んで、bsonをインストールしたりしていると名前空間がぐちゃぐちゃになってインポートエラーになるので、一回どっちもアンインストール...
タイトルとURLをコピーしました