Google BigQuery へのIBM Cloud Object Storage データの反復同期を設定

データパイプリアンツールのCData Sync をつかって、IBM Cloud Object Storage データのBigQuery への同期をノーコードで設定。

CData Sync はリアルタイムIBM Cloud Object Storage data データを簡単にGoogle BigQuery インスタンスに同期し、データを単一のデータベース・データウェアハウス(DWH)に保管し、バックアップや分析・帳票・機械学習・AI での利用を実現します。

Google BigQuery をデータレプリケーションの同期先に設定

CData Sync を使って、IBM Cloud Object Storage data をGoogle BigQuery にレプリケーションします。[接続]タブからデータの同期先を設定します。

  1. [同期先]タブをクリックします。
  2. Google BigQuery を同期先として選択します。
  3. 必要な接続プロパティを入力します。Google BigQuery への接続には、OAuth 認証を使用します:

    User Account での認証

    このOAuth フローでは、ユーザーアカウントクレデンシャルを入力する必要がありません。

    1. [接続のテスト]をクリックするとCData Sync がGoogle BigQuery へのOAuth エンドポイントを開きます。
    2. ログインしてCData Sync にアクセスを許可します。
    3. CData Sync は、OAuth プロセスを完了します。

    Service Account として認証する

    Service accounts では、ブラウザでのユーザーによる承認なしで認証が可能です。Service Accounts にEnterprise-wide の権限をCData Sync に許可することも可能です。/p>

    この場合には、OAuth アプリケーションを作成する必要があります。カスタムOAuth アプリの作成 を参照してください。はじめにのセクションにOAuth アプリケーションを作成・認証する方法が説明されています。

    これらの接続プロパティを入力して接続します:

    • OAuthClientId: アプリケーションで設定したClient。
    • OAuthClientSecret: アプリケーションのClient Secret。
    • OAuthJWTCertType: "PEMKEY_FILE" 設定。
    • OAuthJWTCert: 生成した.pem ファイル。
    • OAuthJWTCertPassword:.pem ファイルのパスワード。
    • OAuthJWTCertSubject: 証明書ストアの最初の証明書を選択するには"*" を選択します。
    • OAuthJWTSubject: 権限アクセスを委譲するemail アドレス。アクセス以上は管理者による承認が必要です。
    • DatasetId: 接続するデータセットのID。
    • ProjectId: 接続するプロジェクトのID。
    接続するとCData Sync がService Account へのOAuth フローを完了します。

  4. [テスト接続]をクリックして接続を確認します。
  5. [変更を保存]をクリックします。

IBM Cloud Object Storage をデータソースに設定。

[接続]タブからIBM Cloud Object Storage をデータソースとして設定します。

  1. IBM Cloud Object Storage アイコンをデータソースから選択します。
  2. 接続プロパティを設定します。

    Register a New Instance of Cloud Object Storage

    If you do not already have Cloud Object Storage in your IBM Cloud account, follow the procedure below to install an instance of SQL Query in your account:

    1. Log in to your IBM Cloud account.
    2. Navigate to the page, choose a name for your instance and click Create. You will be redirected to the instance of Cloud Object Storage you just created.

    Connecting using OAuth Authentication

    There are certain connection properties you need to set before you can connect. You can obtain these as follows:

    API Key

    To connect with IBM Cloud Object Storage, you need an API Key. You can obtain this as follows:

    1. Log in to your IBM Cloud account.
    2. Navigate to the Platform API Keys page.
    3. On the middle-right corner click "Create an IBM Cloud API Key" to create a new API Key.
    4. In the pop-up window, specify the API Key name and click "Create". Note the API Key as you can never access it again from the dashboard.

    Cloud Object Storage CRN

    If you have multiple accounts, you will need to specify the CloudObjectStorageCRN explicitly. To find the appropriate value, you can:

    • Query the Services view. This will list your IBM Cloud Object Storage instances along with the CRN for each.
    • Locate the CRN directly in IBM Cloud. To do so, navigate to your IBM Cloud Dashboard. In the Resource List, Under Storage, select your Cloud Object Storage resource to get its CRN.

    Connecting to Data

    You can now set the following to connect to data:

    • InitiateOAuth: Set this to GETANDREFRESH. You can use InitiateOAuth to avoid repeating the OAuth exchange and manually setting the OAuthAccessToken.
    • ApiKey: Set this to your API key which was noted during setup.
    • CloudObjectStorageCRN (Optional): Set this to the cloud object storage CRN you want to work with. While the connector attempts to retrieve this automatically, specifying this explicitly is recommended if you have more than Cloud Object Storage account.

    When you connect, the connector completes the OAuth process.

    1. Extracts the access token and authenticates requests.
    2. Saves OAuth values in OAuthSettingsLocation to be persisted across connections.
  3. [テスト接続]をクリックして、接続を確認します。
  4. [変更を保存]をクリックして、接続を確立します。

レプリケーションジョブを設定

CData Sync でPoint-and-Click インタフェース(とカスタム設定に必要な場合はSQL クエリ)でレプリケーションジョブが設定できます。 [ジョブ]タブから進んで、[ジョブ追加]ボタンをクリックします。新規ジョブ作成画面でソースと同期先DB をそれぞれドロップダウンから選択します。

テーブルをそのまま同期

テーブル全体をそのまま同期する場合、テーブルセクションから[テーブルを追加]ボタンをクリックして、同期するテーブルにチェックを入れて選択します。[選択したテーブルを追加]をクリックすると選択したテーブルがジョブに追加されます。

同期するデータをカスタマイズ

レプリケーションを行う際にカスタマイズを行うこともできます。カスタム変換機能では、同期するカラムの指定、同期先でのカラムの名前の変更、カラムマッピング、SQL 関数を使ったデータの加工が可能です。[カスタムクエリを追加]ボタン、もしくはすでに作成したテーブルをクリックするとレプリケーションの詳細設定が可能です。

レプリケーションのスケジュール起動

ジョブの[スケジュール]セクションでは、ジョブをスケジュールで自動起動する設定が可能です。ジョブの実行間隔を15分間隔から月次のまでの間から設定可能です。

これらのジョブ設定をおこない、[変更を保存]を押して内容を保存します。マニュアルでジョブを起動する場合は、テーブルにチェックを入れて主導で[▶実行]ボタンを押して同期を実行します。これで簡単にIBM Cloud Object Storage data からBigQuery へのデータ同期ができました。

 
 
ダウンロード