Clover ETL からSpark データに連携

詳細情報をご希望ですか?

無償トライアル:

ダウンロードへ

製品の詳細情報へ:

Apache Spark JDBC Driver

Apache Spark 連携のパワフルなJava アプリケーションを素早く作成して配布。



データ連携ツールのCloverETL のビジュアルワークフローでSpark データ連携を作成。

CData JDBC Driver for Spark は、CloverETL からSpark へのqueries 処理を実現します。本記事では、CloverETL でJDBC Driver を使い、Spark をシンプルなCSV ファイルに変換します。

JDBC Data Source でSpark に接続

  1. Spark データへの連携を作成します。CloverETL の新しいgraph で、Outline ペインのConnections ノードを右クリックして、Create Connection をクリックします。Database Connection ウィザードが表示されます。
  2. +アイコンをクリックして、.jar ファイルをロードします。インストールディレクトリのlib フォルダの cdata.jdbc.sparksql.jar ファイルを選択します。
  3. JDBC URL を入力します。一般的な接続文字列は: jdbc:sparksql:Server=127.0.0.1;

    SparkSQL への接続

    SparkSQL への接続を確立するには以下を指定します。

    • Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
    • Port:SparkSQL インスタンスへの接続用のポートに設定。
    • TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
    • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

    Databricks への接続

    Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

    • Server:Databricks クラスターのサーバーのホスト名に設定。
    • Port:443
    • TransportMode:HTTP
    • HTTPPath:Databricks クラスターのHTTP パスに設定。
    • UseSSL:True
    • AuthScheme:PLAIN
    • User:'token' に設定。
    • Password:個人用アクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。

DBInputTable コンポーネントで、Spark データをクエリ

  1. DBInputTable をReaders セクションからドラッグし、ジョブフローに置きます。ダブルクリックして、設定エディタを開きます。
  2. DB コネクションプロパティで、Spark JDBC をドロップダウンから選択します。
  3. SQL クエリを入力します。例: SELECT * FROM Customers

UniversalDataWriter でQuery のOutput を記述

  1. Writer セクションからUniversalDataWriter をドラッグして、ジョブフローに置きます。
  2. UniversalDataWriter をダブルクリックして、設定エディタを開き、ファイルURL を足します。
  3. DBInputTable をダブルクリックして、Extract Metadata をクリックします。
  4. DBInputTable のOutput ポートをUniversalDataWriter に接続します。
  5. UniversalDataWriter のSelect Metadata メニューでCustomers テーブルを選択します。(UniversalDataWriter のInput ポートを右クリックしてメニューを開くことも可能です。)
  6. Run をクリックして、ファイルの書き込みを実行します。