この記事では、GoogleBigQueryクラウドストレージにデータをアップロードするためのオプションについて説明します。これには、CSV / JSONファイルからデータをロードする簡単な方法と、APIまたは拡張機能を介してロードする方法が含まれます。
Google BigQuery(GBQ)を使用すると、さまざまなソースからデータを収集し、SQLクエリを使用して分析できます。 GBQの利点の中には、大量のデータに対しても高い計算速度と低コストがあります。
なぜ単一のリポジトリにデータをアップロードする必要があるのですか?エンドツーエンドの分析を使用し、生データからレポートを生成し、マーケティングの効果を測定する場合は、GoogleBigQueryが必要です。
テラバイトのデータを数秒で分析する必要がある場合は、GoogleBigQueryが最も簡単で手頃な価格の選択肢です。このサービスの詳細については、Google DevelopersYouTubeチャンネルの短いビデオをご覧ください。
データセットとテーブルの作成
データをアップロードする前に、まずGoogleBigQueryでデータセットとテーブルを作成する必要があります。これを行うには、BigQueryホームページで、データセットを作成するリソースを選択します。
この記事で使用されている画像は
作成者によって提供されています。 [データセットの作成]ウィンドウでデータセットIDを指定し、データ処理場所を選択して、テーブルのデフォルトの保存期間を設定します。
注:テーブルの有効期限として「なし」を選択した場合、物理ストレージは定義されません。一時テーブルの場合、それらを保持する日数を指定できます。
次に、データセットにテーブルを作成します。
完了!これで、データのダウンロードを開始できます。
Google Sheets(OWOX BI BigQuery Reports拡張機能)を使用してデータをロードします。
GoogleSheetsからGoogleBigQueryにデータをアップロードする必要がある場合、これを行う最も簡単な方法は、無料のOWOX BI BigQueryReports拡張機能をインストールすることです。
この拡張機能は、GoogleSheetsまたはChromeWebストアから直接インストールできます。
インストール後、プロンプトと権限を求めるダイアログボックスが表示されます。
それでは、GoogleSheetsに戻りましょう。 BigQueryにデータをアップロードするには、[アドオン]メニュー-> [OWOX BIBigQueryレポート]から[BigQueryにデータをアップロード]を選択するだけです。
データをロードするプロジェクト、データセット、およびテーブル名を指定します。そしてそれだけです:)
OWOX BI BigQuery Reports拡張機能の明白な利点は、その使いやすさです。拡張機能を使用して、スケジュールされたレポートをカスタマイズすることもできます。
すべてのソースからの正確な生データに基づいてレポートを生成し、それらをGoogle BigQueryリポジトリに自動的にアップロードするには、OWOX BIPipelineサービスを使用することをお勧めします。
Pipelineを使用すると、広告サービス、通話追跡システム、CRMからの自動データ収集を設定できます。これにより、選択したソースから完全なデータセットをすばやく簡単に取得できます。
データソースを選択してアクセスを許可するだけです。残りはOWOXBIにお任せください。
OWOX BIを使用すると、ROI、ROPO効果、コホート分析からLTVおよびRFM分析まで、あらゆる好みと色のレポートを作成できます。
CSVファイルからのデータのロード
CSVファイルからデータをアップロードするには、[テーブルの作成]ウィンドウでデータソースを選択し、[アップロード]オプションを使用します。
次に、ファイルとその形式を選択します。
次に、プロジェクト名とデータセットを指定して、データの宛先を定義する必要があります。
注:Google BigQueryでは、ネイティブと外部の2種類のテーブルを選択できます。
Google BigQueryはテーブルの構造を自動的に検出しますが、フィールドを手動で追加する場合は、テキスト編集機能または[+フィールドの追加]ボタンのいずれかを使用できます。
注:Google BigQueryのCSVファイルからのデータの解析を妨害したい場合は、詳細オプションを使用できます。
CSV形式の詳細については、インターネットソサエティの詳細なドキュメントを参照してください。
JSONファイルからのデータのロード
JSONファイルからデータをロードするには、上記のすべての手順を繰り返します。使用するデータセットとテーブルを作成または選択します。ファイル形式としてJSONのみを選択します。
コンピュータ、Google Cloud Storage、またはGoogleドライブからJSONファイルをアップロードできます。
注:JSON形式の詳細については、GoogleCloudのドキュメントを参照してください。
Google CloudStorageからデータをダウンロードしています。
Google Cloud Storageを使用すると、データをオンラインで安全に保存および転送できます。
このサービスの使用に関する役立つ情報:
Google CloudStorage入門CloudStorage
ドキュメント
クイックスタートガイド
GoogleCloudPlatformでのストレージとデータベースの選択
GoogleCloudStorageからGoogleBigQueryに次の形式でファイルをアップロードできます。
- CSV
- JSON(ニューライン区切り)
- アブロ
- 寄木細工
- ORC
- クラウドデータストア
ビッグデータでのCloudStorageの使用について詳しくは、公式ドキュメントをご覧ください。
また、GoogleCloudヘルプセンターでCloudStorageのアップロード制限と権限について学ぶこともできます。
GoogleAdsやGoogleAdManagerなどの他のGoogleサービスからデータを読み込んでいます。
さまざまなGoogleサービスからデータをダウンロードするには、最初にBigQueryデータ転送サービスを設定する必要があります。使用する前に、データプロジェクトを選択または作成し、ほとんどの場合、課金を有効にする必要があります。たとえば、次のサービスには請求が必要です。
- キャンペーンマネージャー
- Googleアドマネージャー
- Google広告
- Google Play(ベータ版)
- YouTube-チャンネルレポート
- YouTube-コンテンツ所有者レポート
注:請求の設定と変更の詳細については、GoogleCloudヘルプセンターを参照してください。
BigQueryデータ転送サービスを起動するには、 BigQueryホームページで、左側のメニューから[転送]を選択します。
注:転送を作成するには、管理者権限が必要です。
次のウィンドウで、必要なデータソースを選択するだけです。
注:BigQuery Data Transfer Serviceには、プラットフォームコンソールからだけでなく、次の場所からもアクセスできます。
- lassicbq_ui
- bqコマンドラインツール
- BigQueryデータ転送サービスAPI
セットアップが完了すると、サービスは自動的かつ定期的にBigQueryにデータをアップロードします。ただし、BigQueryからデータをダウンロードするために使用することはできません。
APIを使用してデータをロードする
Cloud Client Librariesを使用すると、お気に入りのプログラミング言語を使用してGoogle BigQueryAPIを操作できます。
注:APIを使用したデータの読み込みの詳細については、GoogleCloudのドキュメントをご覧ください。
まず、作業するプロジェクトを作成または選択する必要があります。次に、メインページでAPIセクションに移動します。
API概要ウィンドウで、APIとサービスを接続できます。ライブラリから必要なAPIを選択する必要があります。
ライブラリでは、フィールド検索を使用するか、カテゴリでAPIをフィルタリングできます。
OWOX BIの一連のPythonスクリプトを使用して、GoogleBigQueryへのデータのインポートを自動化できます。
次のソースからGoogleBigQueryへのデータのインポートを自動化するためのスクリプトがあります。
- amoCRM
- FTP
- FTPS
- HTTP(S)
- インターコム
- ExpertSender
- MySQL
- SFTP
これらのPythonスクリプトは、GitHubからダウンロードできます。
注:YouTubeのGoogle Developersによるこのビデオチュートリアルで、GoogleAPIでPythonを使用する方法を学びます。
結論
この記事では、GoogleBigQueryにデータをロードする最も一般的な方法について説明しました。データファイルの単純なアップロードからAPIを介したデータのアップロードまで、すべてのユーザーが適切なオプションを見つけることができます。