各製品の資料を入手。
詳細はこちら →DbVisualizer でSpark のデータに連携しクエリを作成
DbVisualizer のビジュアルデータ分析ツールやデータ接続ウィザードにSpark のデータを連携する方法を紹介します。
最終更新日:2024-03-08
この記事で実現できるSpark 連携のシナリオ
こんにちは!ウェブ担当の加藤です。マーケ関連のデータ分析や整備もやっています。
CData JDBC Driver for SparkSQL は、JDBC 標準に準拠し、BI ツールからIDE まで幅広いアプリケーションでSpark のデータへの接続を提供します。この記事では、DbVisualizer からSpark のデータに接続する方法、およびtable エディタを使ってSpark を編集、および保存する方法を説明します。
CData JDBC ドライバとは?
CData JDBC ドライバは、以下の特徴を持ったリアルタイムデータ接続ツールです。
- Spark をはじめとする、CRM、MA、グループウェア、広告、会計ツールなど多様な270種類以上のSaaS / DB に対応
- DBeaver を含む多様なアプリケーション、ツールにSpark のデータを連携
- ノーコードでの手軽な接続設定
- 標準 SQL での柔軟なデータ読み込み・書き込み
CData JDBC ドライバでは、1.データソースとしてSpark の接続を設定、2.DBeaver 側でJDBC Driver との接続を設定、という2つのステップだけでデータソースに接続できます。以下に具体的な設定手順を説明します。
Spark のデータの新しいドライバー定義を作成
下記の手順に従い、Driver Manager を使ってDbVisualizer ツールからSpark のデータに接続します。
- DbVisualizer で「Tools」->「Driver Manager」をクリックします。
- 「」ボタンをクリックして新しくドライバーを作成します。
- テンプレートは「Custom」を選択します。
- Driver Settings タブで:
- Name をわかりやすい名前に設定します(例:CData Spark Driver)。
- URL Format をjdbc:sparksql: に設定します。
- Driver artifacts and jar files (jars are loaded in order from top) セクションで:
- 「」ボタンをクリックして、「Add Files」に進みます。
- インストールディレクトリ(C:\Program Files\CData\CData JDBC Driver for Spark XXXX\)の「lib」フォルダに移動します。
- JAR ファイル(cdata.jdbc.SparkSQL.jar)を選択して「Open」をクリックします。
- Driver Class は自動的に入力されます。もし入力されない場合は、クラス(cdata.jdbc.sparksql.SparkSQLDriver)を選択してください。

JDBC データソースへの接続を定義
「Driver Manager」を終了し、下記の手順に従ってJDBC URL に接続プロパティを入力します。
- 「Databases」タブで「」ボタンをクリックし、先ほど作成したドライバーを選択します。
「Connection」セクションで以下のオプションを設定します。
- Database Type:ウィザードオプションを選択した場合は、データベースの種類は自動検出されます。「No Wizard」オプションを選択した場合は、「Database Type」メニューから「Generic」または「Auto Detect」オプションを選択します。
- Driver Type:先ほど作成したドライバーを選択します。
Database URL:完全なJDBC URL を入力します。JDBC URL 構文は、jdbc:sparksql: に続けてセミコロン区切りでname-value ペアの接続プロパティを入力します。
SparkSQL への接続
SparkSQL への接続を確立するには以下を指定します。
- Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
- Port:SparkSQL インスタンスへの接続用のポートに設定。
- TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
- AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
Databricks への接続
Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。
- Server:Databricks クラスターのサーバーのホスト名に設定。
- Port:443
- TransportMode:HTTP
- HTTPPath:Databricks クラスターのHTTP パスに設定。
- UseSSL:True
- AuthScheme:PLAIN
- User:'token' に設定。
- Password:パーソナルアクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。
組み込みの接続文字列デザイナー
JDBC URL の作成の補助として、Spark JDBC Driver に組み込まれている接続文字列デザイナーが使用できます。JAR ファイルをダブルクリックするか、コマンドラインからjar ファイルを実行します。
java -jar cdata.jdbc.sparksql.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
JDBC URL を構成する際に、Max Rows 接続プロパティを設定することもできます。この設定は返される行数を制限するため、レポートやビジュアライゼーションを作成する際のパフォーマンスが向上します。
一般的な接続文字列は次のとおりです。
jdbc:sparksql:Server=127.0.0.1;
- NOTE:Spark は認証にUser やPassword を必要としないため、Database Userid とDatabase Password には任意の値を使用できます。
- 「Connection」タブで「Connect」をクリックします。
Spark JDBC Driver が表示するテーブルをブラウズするには、テーブルを右クリックして「Open In New Tab」をクリックします。
SQL クエリの実行には、SQL Commander ツールを使用します。「SQL Commander」->「New SQL Commander」をクリックします。利用可能なメニューから「Database Connection」、「Database」、「Schema」を選択します。
サポートされるSQL についての詳細は、ヘルプドキュメントの「サポートされるSQL」をご覧ください。テーブルに関する情報は「データモデル」をご覧ください。
