こんにちは!ドライバー周りのヘルプドキュメントを担当している古川です。
Power BI データフロー は、Power BIが持つデータ準備(Data Preparation)の機能です。この機能を使用することで、様々なデータソースに接続してデータをクレンジング・変換してPower BIストレージに読み込むことが出来ます。Power BI データフローでCData Power BI Connector for ADLS を使うことで、Azure Data Lake Storage データをノーコードで連携して、データ加工・データ準備で使用することができます。本手順では、CData Power BI Connectors 製品で、PowerBIゲートウェイ経由でAzure Data Lake Storage に連携する方法を紹介します。
Power BI Connector でAzure Data Lake Storage への接続を設定
CData Power BI Connector をインストールすると完了後にDSN 設定画面が開きます。ここでAzure Data Lake Storage への接続を設定します。
接続作業はWindows のODBC データソースアドミニストレータでも設定可能です。CData PowerBI REST DSN を選択します。
Power BI のbit 数(32 bit or 64 bit)に合わせたアドミニストレータを使うように気を付けてください。DSN 設定画面で必要な項目を入力してAzure Data Lake Storage データに接続します。入力後に接続のテストを行い、OK を押して接続を確立します。
Azure DataLakeStorage 接続プロパティの取得・設定方法
Azure DataLakeStorage Gen 1 への接続
Gen 1 DataLakeStorage アカウントに接続するには、はじめに以下のプロパティを設定します。
- Schema:ADLSGen1 を指定。
- Account:アカウント名に設定。
- AzureTenant:テナントId に設定。Azure Portal 内のAzure Data Lake プロパティから取得できます。
- Directory:(オプション)複製したファイルを格納するためのパスを設定。指定しない場合は、ルートディレクトリが使用されます。
Azure DataLakeStorage Gen 1 への認証
Gen 1 は、認証方法としてAzure Active Directory OAuth(AzureAD)およびマネージドサービスID(AzureMSI)をサポートしています。認証方法は、ヘルプドキュメントの「Azure DataLakeStorage Gen 1
への認証」セクションを参照してください。
Azure DataLakeStorage Gen 2 への接続
Gen 2 DataLakeStorage アカウントに接続するには、はじめに以下のプロパティを設定します。
- Schema:ADLSGen2 に設定。
- Account:ストレージアカウント名に設定。
- FileSystem:このアカウントで使用するファイルシステム名に設定。例えば、Azure Blob コンテナ名など。
- Directory:(オプション)複製したファイルを格納するためのパスを設定。指定しない場合は、ルートディレクトリが使用されます。
Azure DataLakeStorage Gen 2 への認証
Gen 2は、認証方法としてアクセスキー、共有アクセス署名(SAS)、Azure Active Directory
OAuth(AzureAD)、マネージドサービスID(AzureMSI)など多様な方法をサポートしています。AzureAD、AzureMSI での認証方法は、ヘルプドキュメントの「Azure DataLakeStorage Gen 2
への認証」セクションを参照してください。
アクセスキーを使用した認証
アクセスキーを使用して接続するには、AccessKey プロパティを取得したアクセスキーの値に、AuthScheme を「AccessKey」に設定します。
Azure ポータルからADLS Gen2 ストレージアカウントのアクセスキーを取得できます。
- Azure ポータルのADLS Gen2 ストレージアカウントにアクセスします。
- 設定で「アクセスキー」を選択します。
- 利用可能なアクセスキーの1つの値を「AccessKey」接続プロパティにコピーします。
共有アクセス署名(SAS)
共有アクセス署名を使用して接続するには、SharedAccessSignature プロパティを接続先リソースの有効な署名に設定して、AuthScheme を「SAS」に設定します。
共有アクセス署名は、Azure Storage Explorer などのツールで生成できます。
接続テストを押して接続を確認します。成功したらOK を押してAzure Data Lake Storage への接続を確立します。
オンプレミスデータゲートウェイでのPowerBI.com へのデータリフレッシュの設定
次の手順でPower BI オンプレミスゲートウェイ を使って、ローカルに設定したDSN のAzure Data Lake Storage データをPower BI のクラウド上から定期的にリフレッシュすることが可能です。
ゲートウェイモードの選択
まずはゲートウェイのモードを選択します。
- Gateway (個人用モード): Power BI にのみパブリッシュしてリフレッシュする場合はこちらを選択。ゲートウェイはWindows ユーザーアカウントで起動します。
- Gateway (formerly Enterprise): ほかのAzure サービスでゲートウェイが必要な場合には、こちらを選択します。また、複数のユーザーがゲートウェイにアクセスする場合にもデフォルトゲートウェイが必要です。
デフォルトゲートウェイでアクセスする場合にはシステムDSN で接続する必要があります。ユーザーDSN だと特定のアカウントのみがアクセスでき、システムDSN のようにシステム全体からアクセスすることができないためです。CData Power BI ADLS system DSN は、コネクタのインストールの最後のステップで設定します。
個人用モードゲートウェイの設定
Personal モードでのゲートウェイでのパブリッシュは、カスタムコネクタにアクセスできるゲートウェイをインストールする必要があります。
- CData Power BI Connector インストーラーを実行します。ダウンロードはこちらから 可能です。
- on-premises data gateway (personal mode) オプションを選択します。
- ゲートウェイにサインインします。
- ゲートウェイ名を設定し、Recovery Key を指定します。
- コネクタセクションで、カスタムデータコネクタオプションを有効化します。.pqx ファイルが置かれたパスをオルタナティブパスとして設定することもできます。
Note: CData Power BI Connectors は、デフォルトフォルダ(Your User Home\Documents\Power BI Desktop\Custom Connectors)に.pqx ファイルをインストールします。
ゲートウェイの設定
ゲートウェイ経由のパブリッシュには、コネクタへのアクセスが可能なゲートウェイのインストールとPowerBI.com からのAzure Data Lake Storage DSN への接続が必要です。
1. ゲートウェイのセットアップ
次の手順でマシン上にゲートウェイを設定します:
- CData Power BI Connector インストーラーを起動します。Power BI Gateway のダウンロード も必要です。
- on-premises data gateway (recommended) オプションを選択します。
- ゲートウェイにサインインします。
- ゲートウェイ名を設定し、Recovery Key を指定します。
ゲートウェイがCData Power BI Connector を見に行くフォルダを指定します。この記事では C:\Users\PBIEgwService\Documents\Power BI Desktop\Custom Connectors\ を使います。CData Connector の.pqx ファイル(C:\Users\USERNAME\Documents\Power BI Desktop\Custom Connectors\) を指定したフォルダに移します。
NOTE: 指定されたサービスアカウント(NT SERVICE\PBIEgwService) は、ゲートウェイのアクセスフォルダに指定される必要があります。必要な場合には、ゲートウェイインストーラーのサービス設定で変更ができます。
- コネクタセクションで、CData.PowerBI.ADLS が表示されていることを確認します。
Power BI データフロー からAzure Data Lake Storage データの利用
- Power BI サービスのゲートウェイの管理を開き、ゲートウェイクラスタにOnーPremises data gateway で作成したゲートウェイが追加されていることを確認します。「すべての接続をテスト」をクリックして「オンライン:準備が整いました。」が表示されていることを確認します。
- ワークスペースを開き、「+作成 > データフロー 」を開きます。
- 「データフロー の作成を開始する」にて「新しいエンティティの定義」を選択します。
- データソース 一覧内の「ODBC」を選択します。
- ODBC の接続設定にて以下の通りセットして「次に」進みます。
- ODBC接続文字列: DSN = CData Power BI {データソース名} ※Power BI コネクタでカスタムコネクタとして登録しているデータソース のDSN 名をセットください
- オンプレミスデータゲートウェイ:既に作成したゲートウェイを選択します
- 認証の種類:匿名(データソース毎の認証設定は、ODBC のDSN 設定にて行います)
- 「PowerQuery - データの選択」画面に切り替わります。左側のエクスプローラで「ODBC > CData > {データソース名}」フォルダを開くとCData Power BI Connectors で接続しているデータソース のテーブルリストが表示されます。データを変換する対象テーブルを選択すると右側にプレビューが表示されます。「データの変換」ボタンをクリックして次に進みます。
- 「PowerQuery - クエリを編集」画面に切り替わるので必要に応じてデータ加工を行い「保存して閉じる」をクリックします。
- データフロー に任意の名称を付与して「保存」します。
- 作成したデータフロー は、ワークスペースの「データフロー」タブから確認できます。
- 作成したデータフロー に自動でデータを最新化するスケジュールを設定してみます。アクション列内の「更新のスケジュール設定」ボタンをクリックします。「設定」の「データフロー」タブが開きます。「スケジュールされている更新」を開き、「データを最新に保つ」をONにします。更新の頻度(本画面の例では、毎日朝6時)を設定して「適用」します。本設定で、毎朝6時に本データフロー内のデータが最新化される処理が自動で行われるようになります。
まとめ
Power BI データフローでデータ加工済みのデータを保存しておくことで、チームで本データフローのデータを利用したレポートを作成して共有するようなことが可能となります。CData Power BI Connectors 製品は製品ページ からダウンロードしてご利用いただけます。