Apache Cassandra へのHive データの自動反復レプリケーション

Apache Cassandra にCData Sync を使って、Hive データを自動、反復、フレキシブルにレプリケーション。

常時起動のアプリケーションは、自動フェイルオーバー機能およびリアルタイムなデータアクセスを必要とします。CData Sync は、Apache Cassandra インスタンスに直近のHive を反復同期します。CData Sync で、アーカイブ、レポーティング、アナリティクス、機械学習、AI などで使えるよう、企業内の多様なデータを一か所に統合して管理することが可能になります

Cassandra をレプリケーションの同期先に設定

CData Sync を使って、Apache Cassandra にHive をレプリケーションします。レプリケーションの同期先を追加するには、[接続]タブを開きます。

  1. [同期先]タブをクリックします。
  2. Apache Cassandra を同期先として選択します。
  3. 必要な接続プロパティを入力します。CData Sync は、ログインクレデンシャルを使ったベーシック認証および、DataStax Enterprise(DSE)Cassandra の認証をサポートしています。以下が、認証メソッドで要求される接続プロパティです。

    AuthScheme を対応するシステムの認証に設定します。cassandra.yaml ファイルの認証方法にauthenticator プロパティを設定します。ファイルは通常/etc/dse/cassandra か、DSN Cassandra では、DSE Unified Authonticator にあります。

    Basic Authentication

    ベーシック認証は、Cassandra のビルトインのデフォルトPasswordAuthenticator でサポートされています。

    • AuthScheme プロパティを 'BASIC' に設定し、Userおよび Password プロパティを設定します。
    • cassandra.yaml ファイルでauthenticator プロパティを 'PasswordAuthenticator' に設定します。

    Kerberos 認証

    Kerberos 認証は、DataStax Enterprise Unified Authentication でサポートされています。

    • AuthScheme プロパティを 'KERBEROS' に設定し、Userおよび Password プロパティを設定します。
    • SKerberosKDCKerberosRealmKerberosSPN プロパティを設定します。
    • cassandra.yaml ファイルでauthenticator プロパティを "com.datastax.bdp.cassandra.auth.DseAuthenticator" に設定します。
    • dse.yaml ファイルのauthentication_options セクションを変更し、keytab、service_principle、http_principle、qop プロパティを'kerberos' に設定します。
    • dse.yaml ファイルの セクションを変更し、keytab、service_principle、http_principle、qop プロパティを設定します。

    LDAP 認証

    LDAP 認証は、DataStax Enterprise Unified Authentication でサポートされています。

    • AuthScheme プロパティを 'LDAP' に設定し、Userおよび Password プロパティを設定します。
    • cassandra.yaml ファイルでauthenticator プロパティを "com.datastax.bdp.cassandra.auth.DseAuthenticator" に設定します。
    • dse.yaml ファイルのauthentication_options セクションを変更し、keytab、service_principle、http_principle、qop プロパティを'ldap' に設定します。
    • dse.yaml ファイルのldap_options セクションを変更し、server_host、server_port、search_dn、search_password、user_search_base、user_search_filter プロパティを設定します。

    PKI の使用

    CData Sync でクライアント証明書をSSLClientCertSSLClientCertTypeSSLClientCertSubjectSSLClientCertPassword で指定できます。

  4. [接続のテスト]をクリックして、正しく接続できているかをテストします。
  5. [変更を保存]をクリックします。

Hive 接続の設定

データソース側にHive を設定します。[接続]タブをクリックします。

  1. [同期先]タブをクリックします。
  2. Hive アイコンをデータソースとして選択します。プリインストールされたソースにHive がない場合には、追加データソースとしてダウンロードします。
  3. 接続プロパティに入力をします。

    Apache Hive への接続を確立するには以下を指定します。

    • Server:HiveServer2 をホストするサーバーのホスト名またはIP アドレスに設定。
    • Port:HiveServer2 インスタンスへの接続用のポートに設定。
    • TransportMode:Hive サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
    • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
    • 本製品においてTLS/SSL を有効化するには、UseSSL をTrue に設定します
  4. [接続のテスト]をクリックして、正しく接続できているかをテストします。
  5. [変更を保存]をクリックします。

レプリケーションを実行するクエリの設定

CData Sync はレプリケーションをコントロールするSQL クエリを簡単なGUI 操作で設定できます。レプリケーションジョブ設定には、[ジョブ]タブに進み、[ジョブを追加]ボタンをクリックします。 次にデータソースおよび同期先をそれぞれドロップダウンから選択します。

テーブル全体をレプリケーションする

テーブル全体をレプリケーションするには、[テーブル]セクションで[テーブルを追加]をクリックします。表示されたテーブルリストからレプリケーションするテーブルをチェックします。

テーブルをカスタマイズしてレプリケーションする

レプリケーションはテーブル全体ではなく、カスタマイズが可能です。[変更]機能を使えば、レプリケーションするカラムの指定、同期先でのカラム名を変更しての保存、ソースデータの各種加工が可能です。レプリケーションのカスタマイズには、ジョブの[変更]ボタンをクリックしてカスタマイズウィンドウを開いて操作を行います。

レプリケーションのスケジュール起動設定

[スケジュール]セクションでは、レプリケーションジョブの自動起動スケジュール設定が可能です。反復同期間隔は、15分おきから毎月1回までの間で設定が可能です。

レプリケーションジョブを設定したら、[変更を保存]ボタンを押して保存しますHive のApache Cassandra へのレプリケーションジョブは一つではなく複数を作成することが可能です。

 
 
ダウンロード