Amazon Redshift へのDatabricks データの自動反復レプリケーション

詳細情報をご希望ですか?

製品について詳細情報や無償トライアルをご案内します:

CData Sync



Amazon Redshift にCData Sync を使って、Databricks データを自動、反復、フレキシブルにレプリケーション。

常時起動のアプリケーションは、自動フェイルオーバー機能およびリアルタイムなデータアクセスを必要とします。 CData Sync は、Amazon Redshift インスタンスに直近のDatabricks を反復同期します。CData Sync で、アーカイブ、レポーティング、アナリティクス、機械学習、AI などで使えるよう、企業内の多様なデータを一か所に統合して管理することが可能になります。

Amazon Redshift をレプリケーションの同期先に設定

CData Sync を使って、Amazon Redshift にDatabricks をレプリケーションします。レプリケーションの同期先を追加するには、[接続]タブを開きます。

  1. [同期先]タブをクリックします。
  2. Amazon Redshift を同期先として選択します。
  3. 必要な接続プロパティを入力します。Amazon Redshift との接続には、以下のプロパティが必要です:
    • Server: 接続するDatabase をホストしているクラスタのホスト名もしくはIP アドレス。
    • Port: クラスタのポート。
    • Database: データベース名。認証ユーザーのデフォルトのデータベースを使う場合には、空欄でOK。
    • User: Server に認証するユーザー。.
    • Password: Server に認証するユーザーのpassword。

    AWS Management Console でこれらの接続プロパティの値を取得できます:

    1. Amazon Redshift console を開きます。
    2. Clusters ページでクラスタ名をクリックします。
    3. Configuration タブで、Cluster Database Properties セクションでプロパティを取得します。接続プロパティはODBC URL でセットするプロパティと同様です。

  4. [接続のテスト]をクリックして、正しく接続できているかをテストします。
  5. [変更を保存]をクリックします。

Databricks 接続の設定

データソース側にDatabricks を設定します。[接続]タブをクリックします。

  1. [接続の追加]セクションで[データソース]タブを選択します。
  2. Databricks アイコンをデータソースとして選択します。プリインストールされたソースにDatabricks がない場合には、追加データソースとしてダウンロードします。
  3. 接続プロパティに入力をします。

    To connect to a Databricks cluster, set the properties as described below.

    Note: The needed values can be found in your Databricks instance by navigating to Clusters, and selecting the desired cluster, and selecting the JDBC/ODBC tab under Advanced Options.

    • Server: Set to the Server Hostname of your Databricks cluster.
    • HTTPPath: Set to the HTTP Path of your Databricks cluster.
    • Token: Set to your personal access token (this value can be obtained by navigating to the User Settings page of your Databricks instance and selecting the Access Tokens tab).
  4. [接続のテスト]をクリックして、正しく接続できているかをテストします。
  5. [変更を保存]をクリックします。

レプリケーションを実行するクエリの設定

Data Sync はレプリケーションをコントロールするSQL クエリを簡単なGUI 操作で設定できます。 レプリケーションジョブ設定には、[ジョブ]タブに進み、[ジョブを追加]ボタンをクリックします。 次にデータソースおよび同期先をそれぞれドロップダウンから選択します。

テーブル全体をレプリケーションする

テーブル全体をレプリケーションするには、[テーブル]セクションで[テーブルを追加]をクリックします。表示されたテーブルリストからレプリケーションするテーブルをチェックします。

テーブルをカスタマイズしてレプリケーションする

レプリケーションはテーブル全体ではなく、カスタマイズが可能です。[変更]機能を使えば、レプリケーションするカラムの指定、同期先でのカラム名を変更しての保存、ソースデータの各種加工が可能です。レプリケーションのカスタマイズには、ジョブの[変更]ボタンをクリックしてカスタマイズウィンドウを開いて操作を行います。

レプリケーションのスケジュール起動設定

[スケジュール]セクションでは、レプリケーションジョブの自動起動スケジュール設定が可能です。反復同期間隔は、15分おきから毎月1回までの間で設定が可能です。

レプリケーションジョブを設定したら、[変更を保存]ボタンを押して保存します。Databricks のAmazon Redshift へのレプリケーションジョブは一つではなく複数を作成することが可能です。