- ODBC Drivers
- Java JDBC Drivers
- ADO.NET Providers
- SQL SSIS Components
- BizTalk Adapters
- Excel Add-Ins
- Power BI Connectors
- Tableau Connectors
- PowerShell Cmdlets
- Delphi & C++Builder
- Data Sync
- API Server
MySQL へのSpark データの自動反復レプリケーション
MySQL にCData Sync を使って、Spark データを自動、反復、フレキシブルにレプリケーション。
常時起動のアプリケーションは、自動フェイルオーバー機能およびリアルタイムなデータアクセスを必要とします。
CData Sync は、MySQL にSpark data を反復同期します。CData Sync で、アーカイブ、レポーティング、アナリティクス、機械学習、AI などで使えるよう、企業内の多様なデータを一か所に統合して管理することが可能になります。
※製品について詳しい情報をご希望の方は以下からお進みください。
- Spark にほかのBI、ETL、開発ツールから接続したい:Spark データ連携ガイドおよびチュートリアルのリストへ
- CData Sync について詳細を知りたい:CData Sync ページへ
- ほかのデータソースに連携したい:CData Drivers 一覧へ
- CData Sync の30日の無償トライアル版を使いたい:トライアル版ダウンロードページへ
- 製品の利用やライセンスについて相談したい:sales@cdata.co.jp までメールにてご相談ください。
MySQL をレプリケーションの同期先に設定
CData Sync を使って、MySQL にSpark data をレプリケーションします。レプリケーションの同期先を追加するには、[接続]タブを開きます。
- [同期先]タブをクリックします。
- MySQL を同期先として選択します。
- 必要な接続プロパティを入力します。MySQL との接続には、以下のプロパティが必要です:
- Server: 接続先のIP アドレスもしくはドメイン名。
- Port: サーバーのポート。
- User: データベースのread/write アクセスが可能なusername。
- Password: データベースのread/write アクセスが可能なユーザーのpassword。
- Database: データベース名。
- [接続のテスト]をクリックして、正しく接続できているかをテストします
- [変更を保存]をクリックします。
Spark 接続の設定
データソース側にSpark を設定します。[接続]タブをクリックします。
- [接続の追加]セクションで[データソース]タブを選択します。
- Spark アイコンをデータソースとして選択します。プリインストールされたソースにSpark がない場合には、追加データソースとしてダウンロードします。
- 接続プロパティに入力をします。
SparkSQL への接続
SparkSQL への接続を確立するには以下を指定します。
- Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
- Port:SparkSQL インスタンスへの接続用のポートに設定。
- TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
- AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
Databricks への接続
Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、[クラスター]に移動して目的のクラスターを選択し、 [Advanced Options]の下にある[JDBC/ODBC]タブを選択することで、Databricks インスタンスで見つけることができます。
- Server:Databricks クラスターのサーバーのホスト名に設定。
- Port:443
- TransportMode:HTTP
- HTTPPath:Databricks クラスターのHTTP パスに設定。
- UseSSL:True
- AuthScheme:PLAIN
- User:'token' に設定。
- Password:個人用アクセストークンに設定(値は、Databricks インスタンスの[ユーザー設定]ページに移動して[アクセストークン]タブを選択することで取得できます)。
- [接続のテスト]をクリックして、正しく接続できているかをテストします。
- [変更を保存]をクリックします。
レプリケーションを実行するクエリの設定
Data Sync はレプリケーションをコントロールするSQL クエリを簡単なGUI 操作で設定できます。 レプリケーションジョブ設定には、[ジョブ]タブに進み、[ジョブを追加]ボタンをクリックします。 次にデータソースおよび同期先をそれぞれドロップダウンから選択します。

テーブル全体をレプリケーションする
テーブル全体をレプリケーションするには、[テーブル]セクションで[テーブルを追加]をクリックします。表示されたテーブルリストからレプリケーションするテーブルをチェックします。

テーブルをカスタマイズしてレプリケーションする
レプリケーションはテーブル全体ではなく、カスタマイズが可能です。[変更]機能を使えば、レプリケーションするカラムの指定、同期先でのカラム名を変更しての保存、ソースデータの各種加工が可能です。レプリケーションのカスタマイズには、ジョブの[変更]ボタンをクリックしてカスタマイズウィンドウを開いて操作を行います。

レプリケーションのスケジュール起動設定
[スケジュール]セクションでは、レプリケーションジョブの自動起動スケジュール設定が可能です。反復同期間隔は、15分おきから毎月1回までの間で設定が可能です。

レプリケーションジョブを設定したら、[変更を保存]ボタンを押して保存します。Spark data のMySQL へのレプリケーションジョブは一つではなく複数を作成することが可能です。