今すぐお試しください!

製品の詳細CData JDBC Driver for Apache Spark を確認して、無償評価版をダウンロード:

今すぐダウンロード

Spark データに連携しTalend からデータに接続

Spark をTalend Open Studio の標準コンポーネントおよびデータソース設定ウィザードに統合。



この記事では、Talend で簡単にCData JDBC driver for Spark をワークフローに統合してSpark データ連携する方法を説明します。ここではCData JDBC Driver for Spark を使ってTalend でSpark をジョブフローに転送します。

JDBC データソースとしてTalend でSpark に接続

下記の手順に従って、Spark にJDBC 接続を確立します:

  1. Spark を新しいデータベース接続を追加:新しく接続を追加するには、[Metadata]ノードを展開し[Db Connections]ノードを右クリックして[Create Connection]をクリックします。
  2. ウィザードが表示されたら、接続に名前を入力します。
  3. 次のページで、[DB Type]メニューから[Generic JDBC]を選択してJDBC URL を入力します。

    SparkSQL への接続

    SparkSQL への接続を確立するには以下を指定します。

    • Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
    • Port:SparkSQL インスタンスへの接続用のポートに設定。
    • TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
    • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

    Databricks への接続

    Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:The needed values can be found in your Databricks instance by navigating to 'Clusters', selecting the desired cluster, and selecting the JDBC/ODBC tab under 'Advanced Options'.

    • Server:Set to the Server Hostname of your Databricks cluster.
    • Port:443
    • TransportMode:HTTP
    • HTTPPath:Set to the HTTP Path of your Databricks cluster.
    • UseSSL:True
    • AuthScheme:PLAIN
    • User:'token' に設定。
    • Password:Set to your personal access token (value can be obtained by navigating to the User Settings page of your Databricks instance and selecting the Access Tokens tab).

    以下は一般的なJDBC URL です:

    jdbc:sparksql:Server=127.0.0.1;
  4. インストールディレクトリの[lib]サブフォルダ内にあるcdata.jdbc.sparksql.jar ファイルへのパスを入力します。
  5. 接続を右クリックして[Retrieve Schema]をクリックします。
  6. デフォルトオプションで[Next]をクリックしインポートしたいテーブルを選択します。
  7. デフォルトオプションでウィザードを終了します。

Customers テーブルをフラットファイルに出力

下記の手順に従って、Customers テーブルをフラットファイル出力コンポーネントに転送します:

  1. [Table Schemas]ノードで、テーブルをワークスペース内にドラッグします。
  2. ダイアログが表示されたら[tJDBCInput]コンポーネントを選択します。
  3. 次に、[tFileOutputDelimited]コンポーネントをPalette の[Business Intelligence]タブからワークスペース内にドラッグします。
  4. Customers tJDBCInput コンポーネントを右クリックしてベクタを出力ファイルにドラッグします。

プロジェクトを実行してデータを転送します。

 
 
ダウンロード