Google Data Studio(Data Portal) からSpark データに連携してレポートを作成

詳細情報をご希望ですか?

製品について詳細情報や無償トライアルをご案内します:

CData Connect



CData Connect Cloud を使ってSpark の仮想MySQL データベースを作成して、Google Data Studio(Data Portal)でSpark データを使ったカスタムレポートを作成します。

Google Data Studio は、大変使いやすいビジュアライゼーションとレポーティングが可能なサービスです。Google Data Studio とCData Connect Cloud を一緒に使うことで、簡単にSpark データに連携するレポートを作成することができます。この記事では、Google Data Studio とConnect Cloud でSpark に連携するシンプルなレポートを作成する方法を説明します。

CData Connect Cloud は、Spark データのクラウドto クラウドのインターフェースを提供し、Google Data Studio からリアルタイムSpark データに連携することができます。ビジュアライズを作成すると、Google Data Studio がクエリを自動的に発行してリアルタイムデータを取得します。CData Connect Cloud がクエリ(フィルタリングやJOIN も可能)をパースしてSpark に送り、Google Data Studio にSpark からのデータを返します。インテリジェントなサーバーサイドプロセスで、多様なクエリをパフォーマンス良く利用できます。

この設定には、CData Connect Cloud インスタンスおよびCData Connect Cloud Connector for Google Data Studioが必要です。是非、https://www.cdata.com/jp/connect からCData Connect Cloud のトライアルと詳細情報をご覧ください。


CData Connect Cloud からSpark に接続

CData Connect Cloud は、直観的なPoint-and-click インターフェースでデータソースへの接続およびAPI エンドポイント作成を行います。

  1. Connect Cloud にログインして、Databases をクリックします。
  2. 利用できるデータソースアイコンから"Spark" を選択します。
  3. Spark に接続するために必要なプロパティを入力します。

    SparkSQL への接続

    SparkSQL への接続を確立するには以下を指定します。

    • Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
    • Port:SparkSQL インスタンスへの接続用のポートに設定。
    • TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
    • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

    Databricks への接続

    Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

    • Server:Databricks クラスターのサーバーのホスト名に設定。
    • Port:443
    • TransportMode:HTTP
    • HTTPPath:Databricks クラスターのHTTP パスに設定。
    • UseSSL:True
    • AuthScheme:PLAIN
    • User:'token' に設定。
    • Password:個人用アクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。

  4. Test Database をクリックします。
  5. Privileges -> Add をクリックして、新しいユーザーを追加し、適切な権限を指定します。

これで、Spark の仮想データベースが作成でき、Google Data Studio からの連携が可能になりました。

Google Data Studio からリアルタイムSpark データにアクセスしてビジュアライズを作成

以下の手順で、Google Data Studio でCData Connect Cloud を使って、Spark データのビジュアライゼーションを作成します。

  1. Google Data Studio にログインして、データソース、新しいデータソースとクリックし、CData Connect Cloud Connector を選択します。
  2. Connector に権限を許可します。
  3. (myinstancemyinstance.cdatacloud.net)、username、password を入力してCData Connect にアクセスします。
    • Username: myinstance/username
    • Password: your Connect Cloud password
  4. Database (e.g. SparkSQL1) を選択して、Next をクリックします。
  5. Table (e.g. Customers) を選択します。
  6. Connect をクリックします。
  7. 必要があれば、カラムを変更できます。Create Report をクリックして、データを取得します。
  8. あとは通常のRDB などのデータと同じようにスタイルを選択してビジュアライズを作成します。
  9. Dimensions およびMeasures を選択していきます。

Optional:MySQL Connector への接続

もしカスタムSQL クエリを使いたい場合には、MySQL Connector を使うことで実現が可能です。Server アドレス、ポート、ユーザー名、パスワードのサーバー情報を使ってCData Connect Cloud に接続します。

クラウドアプリケーションからSpark データにSQL アクセスを実現

このようにGoogle Data Studio からSpark データにクラウドto クラウドでの連携ができました。CData Connect では、他にも多くのデータソースに対応しています。

クラウドアプリケーションから240+ SaaS、BigData、NoSQL にSQL でデータ連携するには、CData Connect Cloud を是非お試しください。