製品をチェック

Apache Spark Driver の30日間無償トライアルをダウンロード

 30日間の無償トライアルへ

製品の詳細

Apache Spark アイコン Apache Spark JDBC Driver 相談したい

Apache Spark 連携のパワフルなJava アプリケーションを素早く作成して配布。

Spark データに連携しTalend からデータに接続

Spark をTalend Open Studio の標準コンポーネントおよびデータソース設定ウィザードに統合。

古川えりか
コンテンツスペシャリスト

最終更新日:2022-09-15
spark ロゴ

CData

jdbc ロゴ画像
Talend ロゴ

こんにちは!ドライバー周りのヘルプドキュメントを担当している古川です。



この記事では、Talend で簡単にCData JDBC Driver for SparkSQL をワークフローに統合してSpark データ連携する方法を説明します。ここではCData JDBC Driver for SparkSQL を使ってTalend でSpark をジョブフローに転送します。

JDBC データソースとしてTalend でSpark に接続

下記の手順に従って、Spark にJDBC 接続を確立します:

  1. Spark を新しいデータベース接続を追加:新しく接続を追加するには、[Metadata]ノードを展開し[Db Connections]ノードを右クリックして[Create Connection]をクリックします。
  2. ウィザードが表示されたら、接続に名前を入力します。
  3. 次のページで、[DB Type]メニューから[Generic JDBC]を選択してJDBC URL を入力します。

    SparkSQL への接続

    SparkSQL への接続を確立するには以下を指定します。

    • Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
    • Port:SparkSQL インスタンスへの接続用のポートに設定。
    • TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
    • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

    Databricks への接続

    Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

    • Server:Databricks クラスターのサーバーのホスト名に設定。
    • Port:443
    • TransportMode:HTTP
    • HTTPPath:Databricks クラスターのHTTP パスに設定。
    • UseSSL:True
    • AuthScheme:PLAIN
    • User:'token' に設定。
    • Password:パーソナルアクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。

    以下は一般的なJDBC URL です:

    jdbc:sparksql:Server=127.0.0.1;
  4. インストールディレクトリの[lib]サブフォルダ内にあるcdata.jdbc.sparksql.jar ファイルへのパスを入力します。
  5. The connection to the JDBC data source. (QuickBooks is shown.)
  6. 接続を右クリックして[Retrieve Schema]をクリックします。
  7. デフォルトオプションで[Next]をクリックしインポートしたいテーブルを選択します。
  8. デフォルトオプションでウィザードを終了します。

Customers テーブルをフラットファイルに出力

下記の手順に従って、Customers テーブルをフラットファイル出力コンポーネントに転送します:

  1. [Table Schemas]ノードで、テーブルをワークスペース内にドラッグします。
  2. ダイアログが表示されたら[tJDBCInput]コンポーネントを選択します。
  3. 次に、[tFileOutputDelimited]コンポーネントをPalette の[Business Intelligence]タブからワークスペース内にドラッグします。
  4. Customers tJDBCInput コンポーネントを右クリックしてベクタを出力ファイルにドラッグします。 A simple transfer to a flat file. (QuickBooks is shown.)

プロジェクトを実行してデータを転送します。

関連コンテンツ

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。