Exploratory でSpark データを連携する方法

詳細情報をご希望ですか?

無償トライアル:

ダウンロードへ

製品の詳細情報へ:

Apache Spark ODBC Driver

Apache Spark ODBC Driver は、ODBC 接続をサポートするさまざまなアプリケーションからApache Spark データへの接続を実現するパワフルなツールです。

標準SQL とSpark SQL をマッピングして、SQL-92 で直接Apache Spark にアクセス。



ODBC 接続でExploratory からSpark データにSQL でクエリ

CData ODBC Driver for Spark は、ODBC 経由でリアルタイムSpark Data に標準SQL での利用を可能にします。 ここでは、汎用ODBC データプロバイダーとしてSpark に接続し、データアナリティクスツールのExploratory (https://exploratory.io/) からSpark データを連携利用する手順を説明します。
Exploratory は、多くのRDB やRedshift、BigQuery などのクラウドデータストアに対応していますが、SaaS データを分析したい場合にはCData ODBC Drivers を使うことで、API コーディング不要でデータを活用できます。今回はSpark を例に説明します。


※製品について詳しい情報をご希望の方は以下からお進みください。

Spark Data に接続するODBC DSN を設定

ODBC Driver for Spark をダウンロードします。次にマシンにSpark data に接続するODBC DSN を設定します。Exploratory からはそのODBC DSN を参照する形になります。ODBC DSN 設定の詳細については、ドキュメントを参照してください。

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

  • Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
  • Port:SparkSQL インスタンスへの接続用のポートに設定。
  • TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
  • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

  • Server:Databricks クラスターのサーバーのホスト名に設定。
  • Port:443
  • TransportMode:HTTP
  • HTTPPath:Databricks クラスターのHTTP パスに設定。
  • UseSSL:True
  • AuthScheme:PLAIN
  • User:'token' に設定。
  • Password:個人用アクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。

Exploratory 上でSpark のデータをセット

  • Exploratory で[コネクション]をクリックして新しいコネクションを作成します。
  • [追加]→[ODBC]の順にクリック。
  • コネクション追加画面で先ほど設定したSpark ODBC のDSN を設定します。
    名前:任意
    タイプ:ODBC
    DSN:上の設定したDSN 名(CData Spark Sys)
  • コネクションテストを下の地、[追加]を押して接続を確定させます。

Exploratory でSpark データをクエリし、データフレームとして保存

さあ、Exploratory からSpark データを扱ってみましょう。

  • Exploratory でプロジェクトを[新規作成]します。
  • [データフレーム]の[+]印をクリックし、[データベースデータ]を選択します。
  • データベースは[ODBC]をクリック。
  • [コネクション]で先ほど設定したSpark のコネクションを選択します。
  • RDB ソースの感覚でSELECT クエリでSpark データをクエリします。標準SQL でフィルタリング、ソート、JOIN も可能です。
  • データセットをデータフレームとして保存します。

Exploratory でのSpark データの分析

データフレームになったデータは通常のRDB データソースと同じようにExploratory で利用可能です。

このように、Exploratory から簡単にSpark データを接続して利用することができました。ODBC Driver には30日間の無償版がありますので、是非お試しください。