リアルタイム Sparkにデータ連携するレポートをPower BI で作成

詳細情報をご希望ですか?

無償トライアル:

ダウンロードへ

製品の詳細情報へ:

Apache Spark Power BI Connector

Power BI からApache Spark データにリアルタイムアクセスする認定コネクタ。 ハイパフォーマンス、リアルタイム連携、高度なスキーマ自動検出、SQL -92 をサポート。



Power BI connector を使ってSpark データをビジュアライズ

CData Power BI Connectors は、セルフサービスBI であるMicrosoft Power BI へのデータソースを拡充します。 CData Power BI Connector は、Power BI レポートにリアルタイムSpark をデータ連携します。 ダッシュボードでSpark データをモニタリングし、スケジューラーやリアルタイムででデータを更新することで、リアルタイムSpark データが反映されるようにできます。 ここでは、Power BI Connector を使用してMicrosoft Power BI Desktop でSpark のビジュアライゼーションを作成する方法について詳しく説明します。

クラウドのPowerBI.com へのSpark レポートの発行(パブリッシュ)の詳細については、弊社のリアルタイムSpark データをPowerBI.com にパブリッシュ(発行)をご参照ください。


※製品について詳しい情報をご希望の方は以下からお進みください。

コラボラティブ処理とメタデータ検出

CData Power BI Connectors は、Power BI からSpark へのハイパフォーマンスにデータ操作を実現します。コネクタには、データ処理を効率化するコラボラティブクエリ処理機能やメタデータ検出機能が組み込まれています。Power BI からSpark に複雑なSQL クエリを発行する場合、コネクタはデータソースでサポートされているSQL オペレーション(フィルタリングや集計など)をSpark に直接流し、サポートされていないSQL オペレーション(JOIN など)をクライアントであるコネクタ側で処理します。また、動的メタデータ検出機能により、Spark のテーブルやビューを検出するだけでなく、データ型を含めインポートするため、Power BI での分析が驚くほど簡単になります。

Power BI データソースとしてSpark を設定

CData Power BI Connector をインストールすると完了後にDSN 設定画面が開きます。ここでSpark への接続を設定します。

接続作業はWindows のODBC データソースアドミニストレータでも設定可能です。CData PowerBI REST DSN を選択します。 Power BI のbit 数(32 bit or 64 bit)に合わせたアドミニストレータを使うように気を付けてください。DSN 設定画面で必要な項目を入力してSpark データに接続します。入力後に接続のテストを行い、OK を押して接続を確立します。

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

  • Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
  • Port:SparkSQL インスタンスへの接続用のポートに設定。
  • TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
  • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

  • Server:Databricks クラスターのサーバーのホスト名に設定。
  • Port:443
  • TransportMode:HTTP
  • HTTPPath:Databricks クラスターのHTTP パスに設定。
  • UseSSL:True
  • AuthScheme:PLAIN
  • User:'token' に設定。
  • Password:個人用アクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。

Spark テーブルをPower BI からクエリ

次の手順でSpark からデータをPower BI からクエリできるようにします:

  1. Power BI Desktop を開き、[データ]->[データを取得]->[その他]-> CData SparkSQL を選択して接続を押します。次にサードパーティドライバーのプロンプトが出る場合には、そのまま続行します。
  2. CData PowerBI Spark を[Data Source Name]欄に入力します。データ接続モードを選択します:
    インポート データをプロジェクトにインポートする。オンデマンドで更新が可能。
    DirectQuery リモートデータに直接アクセスする場合。
  3. ナビゲーターダイアログで使用するテーブルを選択します。
  4. [データの変換]では、データをカスタマイズすることができます。クエリエディタを開いて、フィルタ、ソート、集計を設定できます。

    • カラムのデータ型の変更
    • カラムの削除
    • カラムのグルーピング

    Power BI は、コネクタが取得・検出したSpark のカラム毎のデータ型をそのまま使えます。

    Power BI は、データ変換を取得して、指定した条件でクエリを発行し、Spark からデータを取得します。

    [読み込み]をクリックすると、そのままのデータがコネクタ経由でPower BI にロードされます。

データビジュアライゼーションを作成

データをPower BI から取得したら、レポートビューで取得したSpark フィールドをドラッグ&ドロップしてビジュアライゼーションを作成します。チャートの種類を可視化ペインから選択し、フィールドのカラムをドラッグして設定します。

チャートの右上をクリックしてソートオプションを変更することもできます。

チャートの部分のハイライトも可能です。

取得したデータのビジュアライズ上でのフィルタリングをフィルタリングペインで行うことができます。

[更新]をクリックするとその時点でのリアルタイムデータをSpark から取得してレポートに反映させることができます。

このように簡単にPower BI でSpark データをソースとするレポートが作成できました。CData Power BI Connector の30日の無償試用版を是非お試しください。