今すぐお試しください!

製品の詳細CData JDBC Driver for Apache Spark を確認して、無償評価版をダウンロード:

今すぐダウンロード

Pentaho Report Designer にSpark データに連携して分析

Pentaho BI ツールでSpark のレポートを作成。



CData JDBC Driver for Spark はダッシュボードや帳票ツールからリアルタイムSpark データへの連携を可能にします。この記事では、Spark をJDBC データソースとして接続する方法と、Pentaho でSpark を元に帳票を作成する方法を説明します。

接続と帳票の作成

  1. インストールディレクトリの[lib]サブフォルダ内のJAR ファイルをコピーし、Pentaho のディレクトリ内の\Report-Designer\lib\jdbc\ フォルダに配置します。
  2. \Report-Designer\ フォルダのreport-designer.bat ファイルを起動し、Report-Designer UI を開きます。
  3. 以下の手順でドライバーを新しいデータソースに設定します。[Data]>[Add Data Source]>[Advanced]>[JDBC (Custom)]とクリックし、新しいSpark 接続を作成します。ダイアログが表示されたら、次のように接続プロパティを設定します。

    • Custom Connection URL property:JDBC URL を入力。初めに以下を入力し jdbc:sparksql: 次にセミコロン区切りで接続プロパティを入力します。

      SparkSQL への接続

      SparkSQL への接続を確立するには以下を指定します。

      • Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
      • Port:SparkSQL インスタンスへの接続用のポートに設定。
      • TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
      • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

      Databricks への接続

      Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:The needed values can be found in your Databricks instance by navigating to 'Clusters', selecting the desired cluster, and selecting the JDBC/ODBC tab under 'Advanced Options'.

      • Server:Set to the Server Hostname of your Databricks cluster.
      • Port:443
      • TransportMode:HTTP
      • HTTPPath:Set to the HTTP Path of your Databricks cluster.
      • UseSSL:True
      • AuthScheme:PLAIN
      • User:'token' に設定。
      • Password:Set to your personal access token (value can be obtained by navigating to the User Settings page of your Databricks instance and selecting the Access Tokens tab).

      以下は一般的なJDBC URL です:

      jdbc:sparksql:Server=127.0.0.1;
    • Custom Driver Class Name:cdata.jdbc.sparksql.SparkSQLDriver と入力。
    • User Name:認証するユーザーネーム。
    • Password:認証するパスワード。

レポートに Spark データを追加

これで、Spark の帳票を作成する準備が整いました。

  1. 帳票にSpark データソースを追加します:[Data]>[Add Data Source]>[JDBC]をクリックし、データソースを選択します。

  2. クエリを設定します。この記事では次を使います:

    SELECT City, Balance FROM Customers
  3. 帳票にチャートをドラッグし、ダブルクリックしてチャートを編集します。帳票を実行して、チャートを表示します。このクエリ結果を使って、Customers テーブルのシンプルなチャートを作成することができます。
  4. 帳票を実行して、チャートを見てみましょう。
 
 
ダウンロード