BigQuery

BigQueryのサンプルデータセットのまとめ

この記事は約3分で読めます。

 

業務でBigqueryのサンプルデータを使う必要があり、その辺りについて少し調査したので結果をメモしておきます。同じような人の助けになれば幸いです。

 

Bigqueryのサンプルデータの種類

 

Bigqueryのサンプルデータは以下の2種類に分類されます

 

・Googleが公開しているサンプルデータ

・私企業が一般に公開しているデータセット

 

Googleが公開しているサンプルデータ

 

一番簡単に使用できるのはGoogleが公開しているBigqueryのパブリックデータ「bigquery-public-data」に配置されているサンプルデータです。

 

使えるデータセットは、以下のような感じです。

 

名前 説明
gsod NOAA が収集した 1929 年後期から 2010 年初期の気象情報(降水量や風速など)が含まれています。
github_nested ネストされたスキーマを使用した GitHub リポジトリ上のアクション(pull リクエストやコメントなど)のタイムラインが含まれています。2012 年 9 月に作成されました。
github_timeline フラット スキーマを使用した GitHub リポジトリ上のアクション(pull リクエストやコメントなど)のタイムラインが含まれています。2012 年 5 月に作成されました。
natality 米国の出生データは、1969~2008 年に全米 50 州、コロンビア特別区、ニューヨーク市で登録された、米国のすべての出生数を表しています。
shakespeare シェイクスピア作品の単語の索引が含まれていて、それぞれのコーパスで各単語が出現する回数を示しています。
trigrams 1520~2008 年に発行された作品から抽出した英語のトリグラムが含まれています。
wikipedia 2010 年 4 月までの Wikipedia の全記事に関する完全な改訂履歴が含まれています。

 

<使用例>

SELECT
  *
FROM 
  `bigquery-public-data.samples.gsod` 
LIMIT 1000

 

 

私企業が一般に公開しているデータセット

 

こちらは以下のURLから確認することができます。

Google Cloud console
Google Cloud Marketplace を使用すると、費用をスマートに管理し、調達を迅速化して、Google Cloud 利用による支出を省略できます。Google Cloud での実行用に最適化された 2,000 を超える SaaS、VM、開発スタック、Kubernete アプリのカタログをご覧ください。

 

<使用例>

SELECT
  * 
FROM
  `bigquery-public-data.ghcn_d.ghcnd_stations` 
LIMIT 100

 

 

ただちゃんとデータセットが無かったり、説明文もリンクが切れていたりやクエリ例もかなり適当なのであんまりあてにはならないかなという印象。

 

結論

 

個人的に調べてみた感じだと多分kaggleのコンペサイトからそれっぽいデータダウンロードしてほうが手っ取り早い気がします

 

Kaggleデータセットまとめ

https://qiita.com/hiro6000/items/27e0847e729a703915c4

 

 

では~

 

コメント

タイトルとURLをコピーしました