リアルタイム Sparkにデータ連携するレポートをPower BI で作成

Power BI connector を使ってSpark データをビジュアライズ

CData Power BI Connectors は、セルフサービスBI であるMicrosoft Power BI へのデータソースを拡充します。 CData Power BI Connector は、Power BI レポートにリアルタイムSpark をデータ連携します。 ダッシュボードでSpark データをモニタリングし、スケジューラーやリアルタイムででデータを更新することで、リアルタイムSpark データが反映されるようにできます。 ここでは、Power BI Connector を使用してMicrosoft Power BI Desktop でSpark のビジュアライゼーションを作成する方法について詳しく説明します。

PowerBI.com へのSpark レポートの発行の詳細については、弊社のナレッジベースをご参照ください。


※製品について詳しい情報をご希望の方は以下からお進みください。

コラボラティブ処理とメタデータ検出

CData Power BI Connectors は、Power BI からSpark へのハイパフォーマンスにデータ操作を実現します。コネクタには、データ処理を効率化するコラボラティブクエリ処理機能やメタデータ検出機能が組み込まれています。Power BI からSpark に複雑なSQL クエリを発行する場合、コネクタはデータソースでサポートされているSQL オペレーション(フィルタリングや集計など)をSpark に直接流し、サポートされていないSQL オペレーション(JOIN など)をクライアントであるコネクタ側で処理します。また、動的メタデータ検出機能により、Spark のテーブルやビューを検出するだけでなく、データ型を含めインポートするため、Power BI での分析が驚くほど簡単になります。

Power BI データソースとしてSpark を設定

CData Power BI Connector をインストールすると完了後にDSN 設定画面が開きます。ここでSpark への接続を設定します。

接続作業はWindows のODBC データソースアドミニストレータでも設定可能です。CData PowerBI REST DSN を選択します。 Power BI のbit 数(32 bit or 64 bit)に合わせたアドミニストレータを使うように気を付けてください。DSN 設定画面で必要な項目を入力してSpark データに接続します。入力後に接続のテストを行い、OK を押して接続を確立します。

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

  • Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
  • Port:SparkSQL インスタンスへの接続用のポートに設定。
  • TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
  • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:The needed values can be found in your Databricks instance by navigating to 'Clusters', selecting the desired cluster, and selecting the JDBC/ODBC tab under 'Advanced Options'.

  • Server:Set to the Server Hostname of your Databricks cluster.
  • Port:443
  • TransportMode:HTTP
  • HTTPPath:Set to the HTTP Path of your Databricks cluster.
  • UseSSL:True
  • AuthScheme:PLAIN
  • User:'token' に設定。
  • Password:Set to your personal access token (value can be obtained by navigating to the User Settings page of your Databricks instance and selecting the Access Tokens tab).

Spark テーブルをPower BI からクエリ

次の手順でSpark からデータをPower BI からクエリできるようにします:

  1. Power BI Desktop を開き、[データ]->[データを取得]->[その他]-> CData SparkSQL を選択して接続を押します。次にサードパーティドライバーのプロンプトが出る場合には、そのまま続行します。
  2. CData PowerBI Spark を[Data Source Name]欄に入力します。データ接続モードを選択します:
    インポート データをプロジェクトにインポートする。オンデマンドで更新が可能。
    DirectQuery リモートデータに直接アクセスする場合。
  3. ナビゲーターダイアログで使用するテーブルを選択します。
  4. [データの変換]では、データをカスタマイズすることができます。クエリエディタを開いて、フィルタ、ソート、集計を設定できます。

    • カラムのデータ型の変更
    • カラムの削除
    • カラムのグルーピング

    Power BI は、コネクタが取得・検出したSpark のカラム毎のデータ型をそのまま使えます。

    Power BI は、データ変換を取得して、指定した条件でクエリを発行し、Spark からデータを取得します。

    [読み込み]をクリックすると、そのままのデータがコネクタ経由でPower BI にロードされます。

データビジュアライゼーションを作成

データをPower BI から取得したら、レポートビューで取得したSpark フィールドをドラッグ&ドロップしてビジュアライゼーションを作成します。チャートの種類を可視化ペインから選択し、フィールドのカラムをドラッグして設定します。

チャートの右上をクリックしてソートオプションを変更することもできます。

チャートの部分のハイライトも可能です。

取得したデータのビジュアライズ上でのフィルタリングをフィルタリングペインで行うことができます。

[更新]をクリックするとその時点でのリアルタイムデータをSpark から取得してレポートに反映させることができます。

このように簡単にPower BI でSpark データをソースとするレポートが作成できました。CData Power BI Connector の30日の無償試用版を是非お試しください。

 
 
ダウンロード