Google BigQuery へのAzure Data Lake Storage データの反復同期を設定

詳細情報をご希望ですか?

製品について詳細情報や無償トライアルをご案内します:

CData Sync



データパイプリアンツールのCData Sync をつかって、Azure Data Lake Storage データのBigQuery への同期をノーコードで設定。

CData Sync はリアルタイムAzure Data Lake Storage data データを簡単にGoogle BigQuery インスタンスに同期し、データを単一のデータベース・データウェアハウス(DWH)に保管し、バックアップや分析・帳票・機械学習・AI での利用を実現します。

Google BigQuery をデータレプリケーションの同期先に設定

CData Sync を使って、Azure Data Lake Storage data をGoogle BigQuery にレプリケーションします。[接続]タブからデータの同期先を設定します。

  1. [同期先]タブをクリックします。
  2. Google BigQuery を同期先として選択します。
  3. 必要な接続プロパティを入力します。Google BigQuery への接続には、OAuth 認証を使用します:

    User Account での認証

    このOAuth フローでは、ユーザーアカウントクレデンシャルを入力する必要がありません。

    1. [接続のテスト]をクリックするとCData Sync がGoogle BigQuery へのOAuth エンドポイントを開きます。
    2. ログインしてCData Sync にアクセスを許可します。
    3. CData Sync は、OAuth プロセスを完了します。

    Service Account として認証する

    Service accounts では、ブラウザでのユーザーによる承認なしで認証が可能です。Service Accounts にEnterprise-wide の権限をCData Sync に許可することも可能です。/p>

    この場合には、OAuth アプリケーションを作成する必要があります。カスタムOAuth アプリの作成 を参照してください。はじめにのセクションにOAuth アプリケーションを作成・認証する方法が説明されています。

    これらの接続プロパティを入力して接続します:

    • OAuthClientId: アプリケーションで設定したClient。
    • OAuthClientSecret: アプリケーションのClient Secret。
    • OAuthJWTCertType: "PEMKEY_FILE" 設定。
    • OAuthJWTCert: 生成した.pem ファイル。
    • OAuthJWTCertPassword:.pem ファイルのパスワード。
    • OAuthJWTCertSubject: 証明書ストアの最初の証明書を選択するには"*" を選択します。
    • OAuthJWTSubject: 権限アクセスを委譲するemail アドレス。アクセス以上は管理者による承認が必要です。
    • DatasetId: 接続するデータセットのID。
    • ProjectId: 接続するプロジェクトのID。
    接続するとCData Sync がService Account へのOAuth フローを完了します。

  4. [テスト接続]をクリックして接続を確認します。
  5. [変更を保存]をクリックします。

Azure Data Lake Storage をデータソースに設定。

[接続]タブからAzure Data Lake Storage をデータソースとして設定します。

  1. Azure Data Lake Storage アイコンをデータソースから選択します。
  2. 接続プロパティを設定します。

    Authenticating to a Gen 1 DataLakeStore Account

    Gen 1 uses OAuth 2.0 in Azure AD for authentication.

    For this, an Active Directory web application is required. You can create one as follows:

    1. Sign in to your Azure Account through the .
    2. Select "Azure Active Directory".
    3. Select "App registrations".
    4. Select "New application registration".
    5. Provide a name and URL for the application. Select Web app for the type of application you want to create.
    6. Select "Required permissions" and change the required permissions for this app. At a minimum, "Azure Data Lake" and "Windows Azure Service Management API" are required.
    7. Select "Key" and generate a new key. Add a description, a duration, and take note of the generated key. You won't be able to see it again.

    To authenticate against a Gen 1 DataLakeStore account, the following properties are required:

    • Schema: Set this to ADLSGen1.
    • Account: Set this to the name of the account.
    • OAuthClientId: Set this to the application Id of the app you created.
    • OAuthClientSecret: Set this to the key generated for the app you created.
    • TenantId: Set this to the tenant Id. See the property for more information on how to acquire this.
    • Directory: Set this to the path which will be used to store the replicated file. If not specified, the root directory will be used.

    Authenticating to a Gen 2 DataLakeStore Account

    To authenticate against a Gen 2 DataLakeStore account, the following properties are required:

    • Schema: Set this to ADLSGen2.
    • Account: Set this to the name of the account.
    • FileSystem: Set this to the file system which will be used for this account.
    • AccessKey: Set this to the access key which will be used to authenticate the calls to the API. See the property for more information on how to acquire this.
    • Directory: Set this to the path which will be used to store the replicated file. If not specified, the root directory will be used.
  3. [テスト接続]をクリックして、接続を確認します。
  4. [変更を保存]をクリックして、接続を確立します。

レプリケーションジョブを設定

CData Sync でPoint-and-Click インタフェース(とカスタム設定に必要な場合はSQL クエリ)でレプリケーションジョブが設定できます。 [ジョブ]タブから進んで、[ジョブ追加]ボタンをクリックします。新規ジョブ作成画面でソースと同期先DB をそれぞれドロップダウンから選択します。

テーブルをそのまま同期

テーブル全体をそのまま同期する場合、テーブルセクションから[テーブルを追加]ボタンをクリックして、同期するテーブルにチェックを入れて選択します。[選択したテーブルを追加]をクリックすると選択したテーブルがジョブに追加されます。

同期するデータをカスタマイズ

レプリケーションを行う際にカスタマイズを行うこともできます。カスタム変換機能では、同期するカラムの指定、同期先でのカラムの名前の変更、カラムマッピング、SQL 関数を使ったデータの加工が可能です。[カスタムクエリを追加]ボタン、もしくはすでに作成したテーブルをクリックするとレプリケーションの詳細設定が可能です。

レプリケーションのスケジュール起動

ジョブの[スケジュール]セクションでは、ジョブをスケジュールで自動起動する設定が可能です。ジョブの実行間隔を15分間隔から月次のまでの間から設定可能です。

これらのジョブ設定をおこない、[変更を保存]を押して内容を保存します。マニュアルでジョブを起動する場合は、テーブルにチェックを入れて主導で[▶実行]ボタンを押して同期を実行します。これで簡単にAzure Data Lake Storage data からBigQuery へのデータ同期ができました。