Spark のデータをTableau Desktop でビジュアライズ

CData Tableau Connector を使ってSpark のデータをTableau Desktop でビジュアライズ。

加藤龍彦
デジタルマーケティング

最終更新日:2022-09-21

この記事で実現できるSpark 連携のシナリオ

こんにちは!ウェブ担当の加藤です。マーケ関連のデータ分析や整備もやっています。

Tableau といえば、直感的に使えるUI と高度なデータ分析・ダッシュボード構築機能を備えた人気のBI ツールですね。Tableau とCData Tableau Connector for SparkSQL を組み合わせて使うことで、Tableau からシームレスにSpark のデータを連携利用することができるようになります。この記事では、Tableau Desktop でSpark のデータに接続してシンプルなチャートを作る方法を説明します。

CData Tableau Connectors とは?

CData Tableau Connectors は、以下のような特徴を持った製品です。

  1. Spark をはじめとする、CRM、MA、会計ツールなど多様なカテゴリの270種類以上のSaaS / オンプレデータソースに対応
  2. Tableau でリアルタイムSpark のデータへのハイスピードなデータアクセス
  3. ノーコードでの手軽な接続設定

CData Tableau Connectors では、1.データソースとしてSpark の接続を設定、2.Tableau 側でコネクタとの接続を設定、という2つのステップだけでデータソースに接続できます。以下に具体的な設定手順を説明します。

CData Tableau Connectors の日本語版は、Tableau 2020.4 以降のバージョンで使用可能です。それより前のTableau バージョンでは、CData JDBC Driver for SparkSQL を使ってSpark に接続することができます。2020.4 より前のTableau Cloud からSpark に接続するには、CData Connect Cloud を使って連携できます。

Tableau Desktop でSpark のデータを連携利用する

まずは、本記事右側のサイドバーからSparkSQL Tableau Connector の無償トライアルをダウンロード・インストールしてください。30日間無償で、製品版の全機能が使用できます。

インストールが完了したらTableau を開き、「接続」 -> 「サーバーへ」-> 「その他」とクリックし、「CData によるSpark」をクリックします。接続画面が開くので、接続プロパティを設定して「サインイン」をクリックして接続を確立します。

Tableau で接続プロパティ設定を表示

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

  • Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
  • Port:SparkSQL インスタンスへの接続用のポートに設定。
  • TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
  • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

  • Server:Databricks クラスターのサーバーのホスト名に設定。
  • Port:443
  • TransportMode:HTTP
  • HTTPPath:Databricks クラスターのHTTP パスに設定。
  • UseSSL:True
  • AuthScheme:PLAIN
  • User:'token' に設定。
  • Password:パーソナルアクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。

Connection String を使用して設定する場合は、スタートメニューのConnection Builder をクリック、もしくはインストールディレクトリのlib フォルダの.jar ファイルをダブルクリックしてConnection Builder を開き、プロパティを設定をすることでConnection String を取得することができます。「接続テスト」をクリックして、接続を確認します。Builder の「接続文字列」に表示された文字列をコピーしてTableau の接続画面のConnection String に貼り付けて「サインイン」をクリックして接続します。

コネクタの接続を設定

Spark のデータを取得して可視化を作成

それでは、実際にSpark のデータを取得して可視化を作成してみましょう。接続に成功すると「データ ソース」の画面が表示されるので、そこから取得するデータの設定をしていきます。

  1. 「Database」のプルダウンメニューが表示された場合は、CData もしくは表示されたデータベース名で使用するものを選択します。
  2. その後「Schema」のプルダウンメニューが表示された場合は、SparkSQL もしくは表示されたスキーマ名を選択します。
  3. 左ペインの「Table」にSpark で使用可能なテーブルが表示されます。可視化で使うテーブルをデータセット作成エリアにドラッグ&ドロップします。複数のテーブルを選択してドロップすることが可能です。必要に応じて、テーブル間にリレーションを定義します。 Selecting table(s)
  4. 右上の接続モード選択で、「ライブ」もしくは「抽出」を選択します。
  5. 右下のプレビュー画面で、「今すぐ更新」もしくは「自動更新」 をクリックします。「今すぐ更新」では、はじめの10,000行を取得します。取得する行数は個別に行ボックスで設定可能です。「自動更新」ではプレビューエリアのデータが自動的に更新されます。
  6. 「シート」タブをクリックします。選択したデータのカラムがデータ型によりディメンションかメジャーとしてリスト表示されています。CData Tableau Connector は、自動的にデータ型を検出してくれるので、このようにすぐにデータをビジュアライズで使うことができます。
  7. 「ディメンション」 もしくは 「メジャー」「列」 もしくは 「行」 にドラッグ&ドロップします。
  8. 「表示形式」 タブから、お好みのグラフタイプを選択します。Tableau がデータを選択したグラフタイプで表示します。
  9. Visualizing live Spark

Spark からPower Automate へのデータ連携には、ぜひCData Tableau Connector をご利用ください

このようにCData Tableau Connector for SparkSQL と併用することで、270を超えるSaaS、NoSQL データをTableau からコーディングなしで扱うことができます。30日の無償評価版が利用できますので、ぜひ自社で使っているクラウドサービスやNoSQL と合わせて活用してみてください。

CData Tableau Connector は日本のユーザー向けに、UI の日本語化、ドキュメントの日本語化、日本語でのテクニカルサポートを提供しています。

関連コンテンツ

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。