Spark データをBoard に連携してビジュアライズを作成

詳細情報をご希望ですか?

無償トライアル:

ダウンロードへ

製品の詳細情報へ:

Apache Spark ODBC Driver

Apache Spark ODBC Driver は、ODBC 接続をサポートするさまざまなアプリケーションからApache Spark データへの接続を実現するパワフルなツールです。

標準SQL とSpark SQL をマッピングして、SQL-92 で直接Apache Spark にアクセス。



Spark をBI ツールのBoard にデータ接続して、データソースとする方法。

CData ODBC Driver for Spark は、ODBC 標準に準拠しており、BI ツールからIDE まで幅広いアプリケーションでSpark への接続を提供します。 この記事では、CPM/BIツールのBoardからSpark に接続、レポートを作成する方法を説明します。

※製品について詳しい情報をご希望の方は以下からお進みください。

事前準備

事前にCData ODBC Driver for Spark をインストールします。

  1. インストール後、ODBCデータソースアドミニストレーターにて[システムDSN]タブをクリックし、CData Spark Source Sys(64bit or 32bit)の接続情報を構成します。(※BoardはシステムDSNのみに対応しています。ユーザーDSNの場合接続できませんので、ご注意ください。)
  2. SparkSQL への接続

    SparkSQL への接続を確立するには以下を指定します。

    • Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
    • Port:SparkSQL インスタンスへの接続用のポートに設定。
    • TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
    • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

    Databricks への接続

    Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

    • Server:Databricks クラスターのサーバーのホスト名に設定。
    • Port:443
    • TransportMode:HTTP
    • HTTPPath:Databricks クラスターのHTTP パスに設定。
    • UseSSL:True
    • AuthScheme:PLAIN
    • User:'token' に設定。
    • Password:個人用アクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。

Board DB の作成

最初にBoardの接続情報やキューブ等を格納するDBを作成します。

  1. Boardを立ち上げて、任意の接続先へ接続します。
  2. [Database]タブから[New DB]をクリックします。
  3. 開いたDB作成用ウィンドウにて、任意の[Database name][Language][From Year][To Year]を入力し[OK]をクリックします。

SQL FastTrackを用いたODBCデータソースからのデータロード

次にSQL FastTrackの機能を用いてODBCデータソースから Spark のデータをBoard上にロードします。

  1. [Database]タブの[SQL FastTrack]をクリックし、Data souceの[New]ボタンをクリックします。
  2. 接続先を設定するためのウィンドウが表示されますので、[OLE-DB Wizard]をクリックします。
  3. 開いたデータリンクプロパティの[プロバイダー]タブから[Microsoft OLE DB Provider for ODBC Drivers]を選択し、[次へ]をクリックします。
  4. [接続タブ]の[1.データソースを指定します]から事前に設定したODBC DSNを選択し、[3.使用する初期カタログを入力します]に[CData]を入力の上、[OK]をクリックします。
  5. 任意の[Name]を入力し[Save & Connect]をクリックします。
  6. SQL FastTrackの画面に戻った後、[Connect]をクリックします。
  7. Connectをクリック後、Data souce画面左側に Spark のテーブル一覧が表示されます。分析対象とするテーブルをダブルクリックすると、自動的にSQL クエリが記述されます。記述内容を確認の上、[Execute Query]をクリックします。
  8. Execute Queryをクリックすると、テーブルに格納された項目一覧が以下の図のように表示されます。分析で使用したい任意の項目を[Code][Desc][Cube]のいずれかにチェックを入れ、Cube/Entityを入力し、Track実行ボタンをクリックします。
  9. 確認ダイアログが表示されますので、[Yes]をクリックします。
  10. SQL FastTrackの機能により、ODBC データソースからデータがロードされ、自動的にEntityとCubeが生成されます。
  11. 以下のダイアログが表示されれば、Boardへのデータロードは完了です。

グラフの作成

ロードしたデータを元に簡単なグラフの作成方法を紹介します。

  1. 最初に各種Screenを格納するためのCapsuleを作成します。[Home]タブを選択し[Capsule]から[New Capsule]をクリックします。
  2. 任意の[Capsule Name]を入力し[OK]をクリックします。
  3. 続いてScreenを作成するための画面が表示されるため任意の[Screen Name]を入力し[OK]をクリックします。
  4. Screenが作成されると、ChartやDataViewを配置することが可能になります。[Charts]から[Chart]を選択し、Screenにドラッグ・アンド・ドロップでChartを配置します。
  5. 以下のようにChartを配置後、右クリックメニューで[Layout]をクリックします。
  6. LayoutでChart上のValueとして扱う値を指定します。[Data]タブから[Double-click here to create a block]の箇所をダブルクリックします。
  7. [Data Selection]から先程のSQL FastTrackにてCubeの指定をした任意の値を選択し[OK]をクリックします。
  8. 続いて[Axes]タブをクリックし、先程指定した値の分析軸とするBy Rowに任意の項目を選択し[OK]をクリックします。
  9. 設定完了後、以下のようにグラフが表示されます。

このようにSparkSQL 内のデータをAPI を書くことなくBoard上で利用することができるようになります。