業務でBigqueryのサンプルデータを使う必要があり、その辺りについて少し調査したので結果をメモしておきます。同じような人の助けになれば幸いです。
Bigqueryのサンプルデータの種類
Bigqueryのサンプルデータは以下の2種類に分類されます
・Googleが公開しているサンプルデータ
・私企業が一般に公開しているデータセット
Googleが公開しているサンプルデータ
一番簡単に使用できるのはGoogleが公開しているBigqueryのパブリックデータ「bigquery-public-data」に配置されているサンプルデータです。
使えるデータセットは、以下のような感じです。
名前 | 説明 |
---|---|
gsod |
NOAA が収集した 1929 年後期から 2010 年初期の気象情報(降水量や風速など)が含まれています。 |
github_nested |
ネストされたスキーマを使用した GitHub リポジトリ上のアクション(pull リクエストやコメントなど)のタイムラインが含まれています。2012 年 9 月に作成されました。 |
github_timeline |
フラット スキーマを使用した GitHub リポジトリ上のアクション(pull リクエストやコメントなど)のタイムラインが含まれています。2012 年 5 月に作成されました。 |
natality |
米国の出生データは、1969~2008 年に全米 50 州、コロンビア特別区、ニューヨーク市で登録された、米国のすべての出生数を表しています。 |
shakespeare |
シェイクスピア作品の単語の索引が含まれていて、それぞれのコーパスで各単語が出現する回数を示しています。 |
trigrams |
1520~2008 年に発行された作品から抽出した英語のトリグラムが含まれています。 |
wikipedia |
2010 年 4 月までの Wikipedia の全記事に関する完全な改訂履歴が含まれています。 |
<使用例>
SELECT * FROM `bigquery-public-data.samples.gsod` LIMIT 1000
私企業が一般に公開しているデータセット
こちらは以下のURLから確認することができます。
Google Cloud console
Google Cloud Marketplace を使用すると、費用をスマートに管理し、調達を迅速化して、Google Cloud 利用による支出を省略できます。Google Cloud での実行用に最適化された 2,000 を超える SaaS、VM、開発スタック、Kubernete アプリのカタログをご覧ください。
<使用例>
SELECT * FROM `bigquery-public-data.ghcn_d.ghcnd_stations` LIMIT 100
ただちゃんとデータセットが無かったり、説明文もリンクが切れていたりやクエリ例もかなり適当なのであんまりあてにはならないかなという印象。
結論
個人的に調べてみた感じだと多分kaggleのコンペサイトからそれっぽいデータダウンロードしてほうが手っ取り早い気がします
Kaggleデータセットまとめ
https://qiita.com/hiro6000/items/27e0847e729a703915c4
では~
コメント