CData Sync はリアルタイムAzure Data Lake Storage データを簡単にGoogle BigQuery インスタンスに同期し、データを単一のデータベース・データウェアハウス(DWH)に保管し、バックアップや分析・帳票・機械学習・AI での利用を実現します。
Google BigQuery をデータレプリケーションの同期先に設定
CData Sync を使って、Azure Data Lake Storage データをGoogle BigQuery にレプリケーションします。[接続]タブからデータの同期先を設定します。
- [同期先]タブをクリックします。
- Google BigQuery を同期先として選択します。
必要な接続プロパティを入力します。Google BigQuery への接続には、OAuth 認証を使用します:
User Account での認証
このOAuth フローでは、ユーザーアカウントクレデンシャルを入力する必要がありません。
- [接続のテスト]をクリックするとCData Sync がGoogle BigQuery へのOAuth エンドポイントを開きます。
- ログインしてCData Sync にアクセスを許可します。
- CData Sync は、OAuth プロセスを完了します。
Service Account として認証する
Service accounts では、ブラウザでのユーザーによる承認なしで認証が可能です。Service Accounts にEnterprise-wide の権限をCData Sync に許可することも可能です。
この場合には、OAuth アプリケーションを作成する必要があります。カスタムOAuth アプリの作成 を参照してください。はじめにのセクションにOAuth アプリケーションを作成・認証する方法が説明されています。
これらの接続プロパティを入力して接続します:
- OAuthClientId: アプリケーションで設定したClient。
- OAuthClientSecret: アプリケーションのClient Secret。
- OAuthJWTCertType: "PEMKEY_FILE" 設定。
- OAuthJWTCert: 生成した.pem ファイル。
- OAuthJWTCertPassword:.pem ファイルのパスワード。
- OAuthJWTCertSubject: 証明書ストアの最初の証明書を選択するには"*" を選択します。
- OAuthJWTSubject: 権限アクセスを委譲するE メールアドレス。アクセス以上は管理者による承認が必要です。
- DatasetId: 接続するデータセットのID。
- ProjectId: 接続するプロジェクトのID。
接続するとCData Sync がService Account へのOAuth フローを完了します。
- [テスト接続]をクリックして接続を確認します。
- [変更を保存]をクリックします。
Azure Data Lake Storage をデータソースに設定
[接続]タブからAzure Data Lake Storage をデータソースとして設定します。
- Azure Data Lake Storage アイコンをデータソースから選択します。
- 接続プロパティを設定します。
Authenticating to a Gen 1 DataLakeStore Account
Gen 1 uses OAuth 2.0 in Azure AD for authentication.
For this, an Active Directory web application is required. You can create one as follows:
- Sign in to your Azure Account through the
[.
]- Select "Azure Active Directory".
- Select "App registrations".
- Select "New application registration".
- Provide a name and URL for the application. Select Web app for the type of application you want to create.
- Select "Required permissions" and change the required permissions for this app. At a minimum, "Azure Data Lake" and "Windows Azure Service Management API" are required.
- Select "Key" and generate a new key. Add a description, a duration, and take note of the generated key. You won't be able to see it again.
To authenticate against a Gen 1 DataLakeStore account, the following properties are required:
- Schema: Set this to ADLSGen1.
- Account: Set this to the name of the account.
- OAuthClientId: Set this to the application Id of the app you created.
- OAuthClientSecret: Set this to the key generated for the app you created.
- TenantId: Set this to the tenant Id. See the property for more information on how to acquire this.
- Directory: Set this to the path which will be used to store the replicated file. If not specified, the root directory will be used.
Authenticating to a Gen 2 DataLakeStore Account
To authenticate against a Gen 2 DataLakeStore account, the following properties are required:
- Schema: Set this to ADLSGen2.
- Account: Set this to the name of the account.
- FileSystem: Set this to the file system which will be used for this account.
- AccessKey: Set this to the access key which will be used to authenticate the calls to the API. See the property for more information on how to acquire this.
- Directory: Set this to the path which will be used to store the replicated file. If not specified, the root directory will be used.
- [テスト接続]をクリックして、接続を確認します。
- [変更を保存]をクリックして、接続を確立します。
レプリケーションジョブを設定
CData Sync でPoint-and-Click インターフェース(とカスタム設定に必要な場合はSQL クエリ)でレプリケーションジョブが設定できます。
[ジョブ]タブから進んで、[ジョブ追加]ボタンをクリックします。新規ジョブ作成画面でソースと同期先DB をそれぞれドロップダウンから選択します。
テーブルをそのまま同期
テーブル全体をそのまま同期する場合、テーブルセクションから[テーブルを追加]ボタンをクリックして、同期するテーブルにチェックを入れて選択します。[選択したテーブルを追加]をクリックすると選択したテーブルがジョブに追加されます。
同期するデータをカスタマイズ
レプリケーションを行う際にカスタマイズを行うこともできます。カスタム変換機能では、同期するカラムの指定、同期先でのカラムの名前の変更、カラムマッピング、SQL 関数を使ったデータの加工が可能です。[カスタムクエリを追加]ボタン、もしくはすでに作成したテーブルをクリックするとレプリケーションの詳細設定が可能です。
レプリケーションのスケジュール起動
ジョブの[スケジュール]セクションでは、ジョブをスケジュールで自動起動する設定が可能です。ジョブの実行間隔を15分間隔から月次のまでの間から設定可能です。
これらのジョブ設定を行い、[変更を保存]を押して内容を保存します。手動でジョブを起動する場合は、テーブルにチェックを入れて[▶実行]ボタンを押して同期を実行します。これで簡単にAzure Data Lake Storage データからBigQuery へのデータ同期ができました。