各製品の資料を入手。
詳細はこちら →Power BI をSpark のデータに接続して分析・可視化する方法。レポートやダッシュボードでの活用も
ノーコードで使えるCData Power BI Connector で、Spark のデータを可視化。データ分析やレポーティング、ダッシュボード作成に活用できます。
最終更新日:2023-09-05
この記事で実現できるSpark 連携のシナリオ
こんにちは!ウェブ担当の加藤です。マーケ関連のデータ分析や整備もやっています。
CData Power BI Connectors は、セルフサービスBI であるMicrosoft Power BI のデータソースをSpark を含む270種類以上のSaaS / DB に拡充、分析や可視化を実現します。もちろん、ダッシュボードでSpark のデータをモニタリングしたり、定期更新やリアルタイムでのデータ更新も自在に可能。この記事では、Power BI Connector を使用してPower BI Desktop からSpark の可視化を作成する方法について詳しく説明します。
クラウド提供のPowerBI.com へのSpark レポートの発行(パブリッシュ)方法については、こちらの記事をご参照ください。
CData Power BI Connectors とは?
CData Power BI Connectors は、以下の特徴を持つPower BI とのリアルタイムデータ連携ソリューションです。
- Spark をはじめとする、CRM、MA、グループウェア、広告、会計ツールなど多様な270種類以上のSaaS / DB に対応
- DirectQuery に対応のため、大容量データの動的な取得・更新も可能
- ノーコードでの手軽な接続設定
- 標準SQL での柔軟なデータ読み込み
CData Power BI Connectors では、1.データソースとしてSpark の接続を設定、2.Power BI 側でコネクタとの接続を設定、という2ステップだけでデータソースに接続できます。以下に具体的な設定手順を説明します。
CData Power BI Connector のインストールとSpark への接続設定
まずは、本記事右側のサイドバーからSparkSQL Power BI Connector の無償トライアルをダウンロード・インストールしてください。30日間無料で製品版の全機能が使用できます。
Power BI のデータソースとしてSpark を設定
CData Power BI Connector をインストールすると完了後にDSN 設定画面が開きます。ここでSpark への接続を設定します。もしDSN 設定画面が開かない場合は、手動で「ODBC データソース アドミニストレータ(DSN)」プログラムを開いてください。
DSN 内の「CData PBI SparkSQL」を選択します。DSN 設定画面で必要な資格情報を入力してSpark のデータに接続します。入力後に接続のテストを行い、OK をクリックすれば接続は完了です。埋め込みOAuth に対応したデータソースであれば、「接続テスト」をクリックするとログイン画面が立ち上がり、ログインを完了するだけで接続設定が完了します。簡単ですね!

SparkSQL への接続
SparkSQL への接続を確立するには以下を指定します。
- Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
- Port:SparkSQL インスタンスへの接続用のポートに設定。
- TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
- AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
Databricks への接続
Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。
- Server:Databricks クラスターのサーバーのホスト名に設定。
- Port:443
- TransportMode:HTTP
- HTTPPath:Databricks クラスターのHTTP パスに設定。
- UseSSL:True
- AuthScheme:PLAIN
- User:'token' に設定。
- Password:パーソナルアクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。
これで、Spark のデータをPower BI に連携するための準備は完了です!いよいよPower BI からSpark のデータを取得していきます。
Spark テーブルをPower BI からクエリ
それでは、実際にPower BI からSpark のデータを取得してみましょう。
- Power BI Desktop を開き、「データ」->「データを取得」->「その他」->「CData SparkSQL」を選択して接続を押します。次にサードパーティドライバーのプロンプトが出る場合には、そのまま続行します。
- CData PBI SparkSQL を「Data Source Name」欄に入力します。データ接続モードを選択します:
インポート:データをプロジェクトにインポートする場合。オンデマンドで更新が可能。
DirectQuery:Spark のデータとリアルタイムで連携する場合。 - ナビゲーターダイアログで使用するテーブルを選択します。選択したら、「読み込み」ボタンをクリックしてデータを取得します。
- (オプション)データをそのまま読み込まず、「データの変換」を使ってデータをカスタマイズすることもできます。例えば、以下の操作が可能です。必要に応じて試してみてください。
- カラムのデータ型の変更
- カラムの削除
- カラムのグルーピング
Power BI は、コネクタが取得・検出したSpark のカラム毎のデータ型をそのまま使えます。データ変換を取得して、指定した条件でクエリを発行し、Spark からデータを取得します。
Spark のデータを分析・可視化
データをPower BI で取得したら、いよいよ可視化に活用できます!レポートビューで取得したSpark フィールドをドラッグ&ドロップして可視化を作成していきましょう。グラフの種類を可視化ペインから選択し、フィールドのカラムをドラッグして設定します。

「更新」をクリックすると、その時点でのリアルタイムデータをSpark から取得してレポートに反映させることができます。
これで、Spark のデータのPower BI での可視化ができました!あとは可視化を追加したり、フィルタリングや集計、データ変換などPower BI のパワフルな機能を活用して分析、レポーティング、ダッシュボード構築などさまざまな用途で利用できます。
Spark からPower BI へのデータ連携には、CData Power BI Connector をご利用ください
本記事で紹介したようにCData Power BI Connectors と併用することで、270を超えるSaaS、NoSQL、DB のデータをコーディングなしで扱うことができます。30日の無償評価版が利用できますので、ぜひ自社で使っているクラウドサービスやNoSQL と合わせて活用してみてください。
CData Power BI Connector は日本のユーザー向けに、UI の日本語化、ドキュメントの日本語化、日本語でのテクニカルサポートを提供しています。製品の使用方法、購入方法などについてご質問がありました、お気軽にお問い合わせください。