各製品の資料を入手。
詳細はこちら →Power BI Service でリアルタイムHDFS のデータをビジュアライズ
CData Connect Server を使用してHDFS のデータの仮想SQL Server データベースを作成し、Power BI Service でカスタムレポートを作成します。
最終更新日:2022-01-03
こんにちは!ウェブ担当の加藤です。マーケ関連のデータ分析や整備もやっています。
Power BI を使えば会社のデータを美しいビジュアルに変換して収集および整理することができるため、重要なことだけに集中できます。CData Connect Server と組み合わせると、ビジュアライゼーションやダッシュボードなどのためにHDFS のデータを使用できます。この記事では、Power BI のHDFS のデータからデータセットをデータ構築して公開し、Power BI サービスのHDFS のデータに関するレポートを作成する方法について説明します。
CData Connect Server は、HDFS に純粋なSQL インターフェースを提供し、データベースにデータを複製することなくPower BI のリアルタイムHDFS のデータから簡単にレポートを作成できるようにします。ビジュアライゼーションを作成する際には、Power BI がデータを収集するためのSQL クエリを生成します。CData Connect Server は、最適化されたデータ処理を使用してサポートされているすべてのSQL 操作(フィルタ、JOIN など)をHDFS に直接プッシュし、サーバーサイドの処理を利用して、HDFS のデータを素早く返します。
注意:(オンプレミスゲートウェイを使用する代わりに)Connect Server を介してHDFS のデータをPower BI にインポートすることもできます。詳細については、関連するKnowledge Base の記事を参照してください。
HDFS のデータの仮想SQL データベースを作成
CData Connect Server は、簡単なポイントアンドクリックインターフェースを使用してAPI を生成します。
- Connect Server にログインし、「Databases」をクリックします。
- 「Available Data Sources」から「HDFS」を選択します。
-
必要な認証プロパティを入力し、HDFS に接続します。
HDFS 接続プロパティの取得・設定方法
HDFS への認証には、次の接続プロパティを設定します。
- Host:HDFS インスタンスのホストに設定してください。
- Port: HDFS インスタンスのポートに設定してください。デフォルトのポートは"50070" です。
- 「 Test Database」をクリックします。
- 「Permission」->「 Add」とクリックし、適切な権限を持つ新しいユーザー(または既存のユーザー)を追加します。
Power BI からConnect Server に接続
Power BI サービスでリアルタイムHDFS のデータに接続してビジュアライズするには、オンプレミスデータゲートウェイをインストールしてPower BI サービスからゲートウェイにデータソースを追加し、Power BI Desktop からサービスにデータセットを公開します。
オンプレミスデータゲートウェイをインストール
Microsoft オンプレミスデータゲートウェイは、接続されたデータソースとさまざまなMicrosoft ツールおよびプラットフォーム間の安全なデータ転送を提供します。ゲートウェイの詳細については、Microsoft のドキュメントを参照してください。
Power BI サービスからゲートウェイをダウンロードし、インストールできます。
- PowerBI.com にログインします。
- 「Download」メニューをクリックし、「Data Gateway」をクリックします。
- インストールの手順に従ってゲートウェイの名前をメモします。
HDFS をデータソースとしてPower BI サービスに追加
データゲートウェイをインストールしたら、Connect Server をデータソースとしてPower BI サービスに追加します。
- PowerBI.com にログインします。
- 「Settings」メニューをクリックして「Manage gateways」をクリックします。
- 「ADD DATA SOURCE」をクリックしてConnect Server への接続を構成します。
- Data Source Name をConnect_HDFS に設定します。
- Data Source Type としてSQL Server を選択します。
- Server をConnect Server インスタンスのアドレスに設定します。(例:CONNECT_SERVER_URL)
- Database を仮想HDFS のデータベースの名前に設定します。(例:hdfsdb)
- Authentication Method をBasic に設定します。
- Username とPassword をConnect Server 資格情報に設定します。
Power BI デスクトップから、データセットを公開
ゲートウェイをインストールし、Connect Server をデータソースとしてPower BI サービスに追加すると、Power BI Desktop からサービスにデータセットを公開できます。
- Power BIを開いて「Get Data」->「More」とクリックし、SQL Server データベースを選択して「Connect」をクリックします。
- 接続プロパティを設定設定し、「OK」をクリックします。
- Server をConnect Server インスタンスのアドレスに設定します。(例:CONNECT_SERVER_URL)
- Database を仮想HDFS のデータベースの名前に設定します。(例:hdfsdb)
- Data Connectivity mode をDirectQuery* に設定します。
* DirectQuery は、HDFS のデータのライブクエリ処理とリアルタイムのビジュアライゼーションを可能にします。
- 「authentication」ウィザードで「Database」を選択してUser name とPassword のプロパティを設定し、「Connect」をクリックします。
- 「Navigator」ダイアログでテーブルを選択し、ビジュアライズします。
「Query Editor」では、HDFS カラムをフィルタリング、並べ替え、要約することでデータセットをカスタマイズできます。「Edit」をクリックしてクエリエディタを開きます。行をフィルターするには、行を右クリックします。カラムヘッダーを右クリックして、次のようなアクションを実行します。
- カラムのデータタイプを変更
- カラムの削除
- カラムをグループ化
Power BI は、Connect Server によって報告されたHDFS メタデータから、各カラムのデータタイプを検出します。
Power BI は、クエリへの変更を「Applied Steps」セクションに記録し、リモートHDFS のデータに対して実行される、基礎となるデータ取得クエリを調整します。「Close and Apply」をクリックすると、Power BI はデータ取得クエリを実行します。
もしくは、「Load」をクリックしてデータをPower BI にプルします。
- 「Relationships」タブで選択したエンティティ間の関係性を定義します。
- 「Home」メニューから「Publish」をクリックして「Workspace」を選択します。


Power BI Service のHDFS のデータでレポートとダッシュボードを作成
Power BI サービスにデータセットを公開したので、公開されたデータに基づいて新しいレポートとダッシュボードを作成できます。
- PowerBI.com にログインします。
- 「Workspaces」をクリックし、ワークスペースを選択します。
- 「Create」をクリックし、「Report」を選択します。
- レポートに使用する公開済みデータセットを選択します。
- フィールドとビジュアライゼーションを選択してレポートを追加します。
アプリケーションからHDFS のデータへSQL アクセス
Power BI サービスからリアルタイムHDFS のデータへの直接接続ができるようになりました。これで、HDFS を複製せずにより多くのデータソースや新しいビジュアライゼーション、レポートを作成することができます。
アプリケーションから直接250+ SaaS 、Big Data 、NoSQL ソースへのSQL データアクセスを取得するには、CData Connect Server を参照してください。