SAS for Real-Time Reporting and Analytics でCData ODBC Driver for Spark を使用

詳細情報をご希望ですか?

無償トライアル:

ダウンロードへ

製品の詳細情報へ:

Apache Spark ODBC Driver

Apache Spark ODBC Driver は、ODBC 接続をサポートするさまざまなアプリケーションからApache Spark データへの接続を実現するパワフルなツールです。

標準SQL とSpark SQL をマッピングして、SQL-92 で直接Apache Spark にアクセス。



CData ODBC Driver for Spark を使用してSAS からリアルタイムSpark に接続します。

SAS は、高度なアナリティクス、多変量解析、BI、データ管理、予測分析のためのソフトウェアです。SAS とCData ODBC Driver for Spark を合わせて使うことで、SAS からライブSpark データへデータベースライクにアクセスできるようになり、レポーティング、分析能力を向上できます。本記事では、SAS でSpark のライブラリを作成し、リアルタイムSpark に基づいたシンプルなレポートを作成します。

CData ODBC ドライバーは、ドライバーに組み込まれた最適化されたデータ処理により、SAS でライブSpark データを送受信する場合に圧倒的なパフォーマンスを提供します。SAS からSpark に複雑なSQL クエリを発行すると、ドライバーはフィルタや集計などのサポートされているSQL 操作をSpark に直接プッシュし、組み込みSQL エンジンを利用して、サポートされていない操作(一般的にはSQL 関数とJOIN 操作)をクライアント側で処理します。組み込みの動的メタデータクエリを使用すると、SAS でSpark を簡単にビジュアライズおよび分析できます。

ODBC Data Source としてSpark に接続

以下は、Spark に接続するための情報と、Windows およびLinux 環境でDSN を構成するための様々なステップです。ODBC Driver for Spark は、SAS System をホストしているマシンにインストールする必要があります。

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

  • Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
  • Port:SparkSQL インスタンスへの接続用のポートに設定。
  • TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
  • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

  • Server:Databricks クラスターのサーバーのホスト名に設定。
  • Port:443
  • TransportMode:HTTP
  • HTTPPath:Databricks クラスターのHTTP パスに設定。
  • UseSSL:True
  • AuthScheme:PLAIN
  • User:'token' に設定。
  • Password:個人用アクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。

DSN を構成する際に、Max Rows プロパティを定めることも可能です。これによって返される行数を制限するため、ビジュアライゼーション・レポートのデザイン時のパフォーマンスを向上させるのに役立ちます。

Windows

未指定の場合は、初めにODBC DSN(data source name)で接続プロパティを指定します。ドライバーのインストールの最後にアドミニストレーターが開きます。Microsoft ODBC Data Source Administrator を使用して、ODBC DSN を作成および構成できます。

Linux

Linux 環境にCData ODBC Driver for Spark をインストールする場合、ドライバーのインストールによりシステムDSN が事前定義されます。システムデータソースファイル(/etc/odbc.ini) を編集し、必要な接続プロパティを定義することで、DSN を変更できます。

/etc/odbc.ini

[CData SparkSQL Sys] Driver = CData ODBC Driver for Spark Description = My Description Server = 127.0.0.1

これらの構成ファイルの使用に関する具体的な情報については、ヘルプドキュメントを参照してください。

SAS でSpark ライブラリを作成

CData ODBC Driver for Spark に基づくライブラリを追加することで、SAS でSpark に接続します。

  1. SAS を開き、[Explorer]ペインで[Libraries]を展開します。
  2. [Active Libraries]ウィンドウで右クリックし、[New]を選択します。
  3. ライブラリに名前を付け(odbclib)、Engine としてODBC を選択し、ライブラリをセッション間で保持する場合は[Enable at startup]をクリックします。
  4. Data Source を以前構成したDSN に設定し、[OK]をクリックします。

Spark クエリからビューを作成

SAS は、ローコードのポイントアンドクリッククエリツールを使用するか、PROC SQL とカスタムSQL クエリのプログラムを使うことで、データのクエリをネイティブにサポートします。SAS でビューを作成すると、ビューがクエリされるたびに定義クエリが実行されます。これは、レポート、チャート、分析について常にライブSpark データにクエリを実行することを意味します。

クエリツールの使用

  1. SAS で[Tools]->[Query]と進みます。
  2. データをプルするテーブルソースとテーブルを選択し、[OK]をクリックします。
  3. カラムを選択し、右クリックしてフィルタリング、順序付け、グループ化などを追加します。
  4. [SQL Query Tool]ウィンドウを右クリックして[Show Query]を選択し、[Create View]をクリックして、クエリの結果を含むローカルビューを作成します。ビューに名前を付け、[OK] をクリックします。

PROC SQL の使用

  1. SAS で、[Editor]ウィンドウに移動します。
  2. PROC SQL を使用してデータをクエリし、ローカルビューを作成します。
    Note:このステップにより、[Work]ライブラリにビューが作成されます。オプションとして、create view ステートメントでライブラリを指定できます。
    proc sql;
      create view customers_view as
      select 
        city, 
        balance 
      from 
        odbclib.customers 
      where 
        Country = 'US';
    quit;
    
  3. [Run]->[Submit]とクリックしてクエリを実行し、ローカルビューを作成します。

SAS のSpark データに関するレポートまたはビジュアライズ

ローカルビューを作成すると、パワフルなSAS 機能を使用してSpark データをレポート、ビジュアライズ、またはその他の方法で分析できます。PROC PRINT を使用して簡単なレポートを印刷し、PROC GCHART を使用してデータに基づいた基本的なグラフを作成しましょう。

HTML を印刷

  1. SAS で、[Editor]ウィンドウに移動します。
  2. PROC PRINT を使用してSpark Customers データのHTML レポートを印刷します。
    proc print data=customers;
      title "Spark Customers Data";
    run;
    

チャートを印刷

  1. SAS で、[Editor]ウィンドウに移動します。
  2. PROC GCHART を使用してCustomers データのチャートを作成します。
    proc gchart data=customers;
      pie city / sumvar=balance
          value=arrow
          percent=arrow
          noheading
          percent=inside plabel=(height=12pt)
          slice=inside value=none
          name='CustomersChart';
    run;