Google BigQuery へのJSON データの反復同期を設定

データパイプリアンツールのCData Sync をつかって、JSON データのBigQuery への同期をノーコードで設定。

CData Sync はリアルタイムJSON services データを簡単にGoogle BigQuery インスタンスに同期し、データを単一のデータベース・データウェアハウス(DWH)に保管し、バックアップや分析・帳票・機械学習・AI での利用を実現します。

Google BigQuery をデータレプリケーションの同期先に設定

CData Sync を使って、JSON services をGoogle BigQuery にレプリケーションします。[接続]タブからデータの同期先を設定します。

  1. [同期先]タブをクリックします。
  2. Google BigQuery を同期先として選択します。
  3. 必要な接続プロパティを入力します。Google BigQuery への接続には、OAuth 認証を使用します:

    User Account での認証

    このOAuth フローでは、ユーザーアカウントクレデンシャルを入力する必要がありません。

    1. [接続のテスト]をクリックするとCData Sync がGoogle BigQuery へのOAuth エンドポイントを開きます。
    2. ログインしてCData Sync にアクセスを許可します。
    3. CData Sync は、OAuth プロセスを完了します。

    Service Account として認証する

    Service accounts では、ブラウザでのユーザーによる承認なしで認証が可能です。Service Accounts にEnterprise-wide の権限をCData Sync に許可することも可能です。/p>

    この場合には、OAuth アプリケーションを作成する必要があります。カスタムOAuth アプリの作成 を参照してください。はじめにのセクションにOAuth アプリケーションを作成・認証する方法が説明されています。

    これらの接続プロパティを入力して接続します:

    • OAuthClientId: アプリケーションで設定したClient。
    • OAuthClientSecret: アプリケーションのClient Secret。
    • OAuthJWTCertType: "PEMKEY_FILE" 設定。
    • OAuthJWTCert: 生成した.pem ファイル。
    • OAuthJWTCertPassword:.pem ファイルのパスワード。
    • OAuthJWTCertSubject: 証明書ストアの最初の証明書を選択するには"*" を選択します。
    • OAuthJWTSubject: 権限アクセスを委譲するemail アドレス。アクセス以上は管理者による承認が必要です。
    • DatasetId: 接続するデータセットのID。
    • ProjectId: 接続するプロジェクトのID。
    接続するとCData Sync がService Account へのOAuth フローを完了します。

  4. [テスト接続]をクリックして接続を確認します。
  5. [変更を保存]をクリックします。

JSON をデータソースに設定。

[接続]タブからJSON をデータソースとして設定します。

  1. JSON アイコンをデータソースから選択します。
  2. 接続プロパティを設定します。

    データソースへの認証については、ヘルプドキュメントの「はじめに」を参照してください。本製品は、JSON API を双方向データベーステーブルとして、JSON ファイルを読み取り専用ビュー(ローカル ファイル、一般的なクラウドサービスに保存されているファイル、FTP サーバー)としてモデル化します。HTTP Basic、Digest、NTLM、OAuth、FTP などの主要な認証スキームがサポートされています。詳細はヘルプドキュメントの「はじめに」を参照してください。

    URI を設定して認証値を入力したら、DataModel を設定してデータ表現とデータ構造をより厳密に一致させます。

    DataModel プロパティは、データをどのようにテーブルに表現するかを制御するプロパティで、次の基本設定を切り替えます。

    • Document(デフォルト):JSON データのトップレベルのドキュメントビューをモデル化します。本製品 は、ネストされたオブジェクト配列を集約されたJSON オブジェクトとして返します。
    • FlattenedDocuments:ネストされた配列オブジェクトと親オブジェクトを、単一テーブルに暗黙的に結合します。
    • Relational:階層データから個々の関連テーブルを返します。テーブルには、親ドキュメントにリンクする主キーと外部キーが含まれています。

    リレーショナル表現の設定についての詳細は、ヘルプドキュメントの「JSON データのモデリング」を参照してください。また、以下の例で使用されているサンプルデータも確認できます。データには人や所有する車、それらの車に行われたさまざまなメンテナンスサービスのエントリが含まれています。

  3. [テスト接続]をクリックして、接続を確認します。
  4. [変更を保存]をクリックして、接続を確立します。

レプリケーションジョブを設定

CData Sync でPoint-and-Click インタフェース(とカスタム設定に必要な場合はSQL クエリ)でレプリケーションジョブが設定できます。 [ジョブ]タブから進んで、[ジョブ追加]ボタンをクリックします。新規ジョブ作成画面でソースと同期先DB をそれぞれドロップダウンから選択します。

テーブルをそのまま同期

テーブル全体をそのまま同期する場合、テーブルセクションから[テーブルを追加]ボタンをクリックして、同期するテーブルにチェックを入れて選択します。[選択したテーブルを追加]をクリックすると選択したテーブルがジョブに追加されます。

同期するデータをカスタマイズ

レプリケーションを行う際にカスタマイズを行うこともできます。カスタム変換機能では、同期するカラムの指定、同期先でのカラムの名前の変更、カラムマッピング、SQL 関数を使ったデータの加工が可能です。[カスタムクエリを追加]ボタン、もしくはすでに作成したテーブルをクリックするとレプリケーションの詳細設定が可能です。

レプリケーションのスケジュール起動

ジョブの[スケジュール]セクションでは、ジョブをスケジュールで自動起動する設定が可能です。ジョブの実行間隔を15分間隔から月次のまでの間から設定可能です。

これらのジョブ設定をおこない、[変更を保存]を押して内容を保存します。マニュアルでジョブを起動する場合は、テーブルにチェックを入れて主導で[▶実行]ボタンを押して同期を実行します。これで簡単にJSON services からBigQuery へのデータ同期ができました。

 
 
ダウンロード