Spark データをTableau Desktop でビジュアライズ

詳細情報をご希望ですか?

無償トライアル:

ダウンロードへ

製品の詳細情報へ:

Apache Spark Tableau Connector

The fastest and easiest way to connect Tableau to Apache Spark data. Includes comprehensive high-performance data access, real-time integration, extensive metadata discovery, and robust SQL-92 support.



CData Tableau Connector for Spark を使ってSpark データをTableau Desktop でビジュアライズ。

Tableau は、企業のデータ活用による問題解決の方法を変革させるビジュアルアナリティクスプラットフォームです。Tableau にCData Tableau Connector for Spark を組み合わせて使うことで、Tableau からシームレスにSpark データを連携利用することができるようになります。この記事では、Tableau Desktop でSpark データに接続してシンプルなチャートを作る方法を説明します。

CData Tableau Connectors は、Tableau でリアルタイムSpark データへのハイスピードなデータアクセスを可能にします。 Connector をインストールして、Spark への認証を行うだけで、すぐにレスポンシブで動的なビジュアライズやダッシュボードを作成しはじめられます。 Tabelau では、Spark データがネイティブデータタイプでアクセス可能になり、複雑なフィルタリング、集計、他の処理を自動的に行います。

NOTE: CData Tableau Connectors の日本語版は、Tableau 2020.4 以降のバージョンで使用可能です。それより前のTableau バージョンではCData ODBC Driver for Spark もしくは、CData JDBC Driver for Spark を使ってSpark に接続することができます。2020.4 より前のTableau Online からSpark に接続するには、CData Connect を使って連携できます。

Tableau Desktop でSpark データを連携利用する

Tableau を開き「接続」 -> 「サーバーへ」-> 「その他」とクリックし、「CData によるSpark」をクリックします。
接続画面が開くので、接続プロパティを設定して「サインイン」をクリックして接続を確立します。

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

  • Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
  • Port:SparkSQL インスタンスへの接続用のポートに設定。
  • TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
  • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

  • Server:Databricks クラスターのサーバーのホスト名に設定。
  • Port:443
  • TransportMode:HTTP
  • HTTPPath:Databricks クラスターのHTTP パスに設定。
  • UseSSL:True
  • AuthScheme:PLAIN
  • User:'token' に設定。
  • Password:個人用アクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。

Connection String での設定の場合には、スタートメニューのConnection Builder をクリック、もしくはインストールディレクトリのlib フォルダの.jar ファイルをダブルクリックしてConnection Builder を開き、プロパティを設定をすることでConnection String を取得することができます。「接続テスト」をクリックして、接続を確認します。Builder の「接続文字列」に表示された文字列をコピーしてTableau の接続画面のConnection String に貼り付けて「サインイン」をクリックして接続します。

スキーマの検出から使用データのDiscover Schemas and Query Data

  1. 「Database」のプルダウンメニューが表示された場合にはCData もしくは表示されたデータベース名で使用するものを選択します。
  2. 「Schema」のプルダウンメニューが表示された場合にはSparkSQL もしくは表示されたスキーマ名を選択します。
  3. 左ペインの「Table」にSpark で使用可能なテーブルが表示されます。ビジュアライズで使うテーブルをデータセット作成エリアにドラッグ&ドロップします。複数のテーブルを選択してドロップすることが可能です。複数のテーブルを選択して、リレーションを設定することが可能です。
  4. 右上の接続モード選択で、「ライブ」もしくは「抽出」を選択します。
  5. 「今すぐ更新」もしくは「自動更新」 をクリックします。「今すぐ更新」では、はじめの10,000行を取得します。取得する行数は個別に行ボックスで設定可能です。「自動更新」ではプレビューエリアのデータが自動的に更新されます。
  6. 「ワークシート」タブをクリックします。選択したデータのカラムがデータ型によりディメンションかメジャーとしてリスト表示されています。CData Tableau Connector は、自動的にデータ型を検出してくれるので、このようにすぐにデータをビジュアライズで使うことができます。
  7. 「ディメンション」 もしくは 「メジャー」「列」 もしくは 「行」 にドラッグ&ドロップします。
  8. 「表示形式」 タブから、お好みのグラフタイプを選択します。Tableau がデータを選択したグラフタイプで表示します。

このように、CData Tableau Connector for Spark を使うことで、Tableau で簡単にSpark データを扱うことができます。是非、30日の無償トライアル を使って、パワフルかつシンプルなデータ連携を体感してください。