SAS でCData ODBC Driver for HDFS を使用

CData ODBC Driver を使用してSAS からリアルタイムHDFS に接続します。

古川えりか
コンテンツスペシャリスト

最終更新日:2022-03-10

この記事で実現できるHDFS 連携のシナリオ

こんにちは!ドライバー周りのヘルプドキュメントを担当している古川です。

SAS は、高度なアナリティクス、多変量解析、BI、データ管理、予測分析のためのソフトウェアです。SAS とCData ODBC Driver for HDFS を合わせて使うことで、SAS からリアルタイムHDFS のデータへデータベースライクにアクセスできるようになり、レポーティング、分析能力を向上できます。本記事では、SAS でHDFS のライブラリを作成し、リアルタイムHDFS に基づいたシンプルなレポートを作成します。

CData ODBC ドライバーは、ドライバーに組み込まれた最適化されたデータ処理により、SAS でリアルタイムHDFS のデータを送受信する場合に圧倒的なパフォーマンスを提供します。SAS からHDFS に複雑なSQL クエリを発行すると、ドライバーはフィルタや集計などのサポートされているSQL 操作をHDFS に直接プッシュし、組み込みSQL エンジンを利用して、サポートされていない操作(一般的にはSQL 関数とJOIN 操作)をクライアント側で処理します。組み込みの動的メタデータクエリを使用すると、SAS でHDFS を簡単にビジュアライズおよび分析できます。

CData ODBC ドライバとは?

CData ODBC ドライバは、以下のような特徴を持ったリアルタイムデータ連携ソリューションです。

  1. HDFS をはじめとする、CRM、MA、会計ツールなど多様なカテゴリの270種類以上のSaaS / オンプレミスデータソースに対応
  2. 多様なアプリケーション、ツールにHDFS のデータを連携
  3. ノーコードでの手軽な接続設定
  4. 標準 SQL での柔軟なデータ読み込み・書き込み

CData ODBC ドライバでは、1.データソースとしてHDFS の接続を設定、2.SAS 側でODBC Driver との接続を設定、という2つのステップだけでデータソースに接続できます。以下に具体的な設定手順を説明します。

CData ODBC ドライバのインストールとHDFS への接続設定

まずは、本記事右側のサイドバーからHDFS ODBC Driver の無償トライアルをダウンロード・インストールしてください。30日間無償で、製品版の全機能が使用できます。

以下は、HDFS に接続するための情報と、Windows およびLinux 環境でDSN を構成するためのステップです。

HDFS 接続プロパティの取得・設定方法

HDFS への認証には、次の接続プロパティを設定します。

  • Host:HDFS インスタンスのホストに設定してください。
  • Port: HDFS インスタンスのポートに設定してください。デフォルトのポートは"50070" です。

DSN を構成する際に、Max Rows プロパティを定めることも可能です。これによって返される行数を制限するため、ビジュアライゼーション・レポートのデザイン時のパフォーマンスを向上させるのに役立ちます。

Windows

未指定の場合は、初めにODBC DSN(data source name)で接続プロパティを指定します。ドライバーのインストールの最後にアドミニストレーターが開きます。Microsoft ODBC Data Source Administrator を使用して、ODBC DSN を作成および構成できます。

Linux

Linux 環境にCData ODBC Driver for HDFS をインストールする場合、ドライバーのインストールによりシステムDSN が事前定義されます。システムデータソースファイル(/etc/odbc.ini) を編集し、必要な接続プロパティを定義することで、DSN を変更できます。

/etc/odbc.ini

[CData HDFS Sys] Driver = CData ODBC Driver for HDFS Description = My Description Host = sandbox-hdp.hortonworks.com Port = 50070 Path = /user/root User = root

これらの構成ファイルの使用に関する具体的な情報については、ヘルプドキュメントを参照してください。

SAS でHDFS ライブラリを作成

CData ODBC Driver for HDFS に基づくライブラリを追加することで、SAS でHDFS に接続します。

  1. SAS を開き、[Explorer]ペインで[Libraries]を展開します。
  2. [Active Libraries]ウィンドウで右クリックし、[New]を選択します。
  3. ライブラリに名前を付け(odbclib)、Engine としてODBC を選択し、ライブラリをセッション間で保持する場合は[Enable at startup]をクリックします。
  4. Data Source を以前構成したDSN に設定し、[OK]をクリックします。 Creating a library for HDFS in SAS.

HDFS クエリからビューを作成

SAS は、ローコードのポイントアンドクリッククエリツールを使用するか、PROC SQL とカスタムSQL クエリのプログラムを使うことで、データのクエリをネイティブにサポートします。SAS でビューを作成すると、ビューがクエリされるたびに定義クエリが実行されます。これは、レポート、チャート、分析について常にリアルタイムHDFS のデータにクエリを実行することを意味します。

クエリツールの使用

  1. SAS で[Tools]->[Query]と進みます。
  2. データをプルするテーブルソースとテーブルを選択し、[OK]をクリックします。 Selecting table(s) to visualize.
  3. カラムを選択し、右クリックしてフィルタリング、順序付け、グループ化などを追加します。 Selecting columns(s) to visualize and configuring the query.
  4. [SQL Query Tool]ウィンドウを右クリックして[Show Query]を選択し、[Create View]をクリックして、クエリの結果を含むローカルビューを作成します。ビューに名前を付け、[OK] をクリックします。 Create a local view to work with HDFS データ.

PROC SQL の使用

  1. SAS で、[Editor]ウィンドウに移動します。
  2. PROC SQL を使用してデータをクエリし、ローカルビューを作成します。
    Note:このステップにより、[Work]ライブラリにビューが作成されます。オプションとして、create view ステートメントでライブラリを指定できます。
    proc sql;
      create view files_view as
      select
        fileid,
        childrennum
      from
        odbclib.files
      where
        FileId = '119116';
    quit;
    
  3. [Run]->[Submit]とクリックしてクエリを実行し、ローカルビューを作成します。

SAS のHDFS のデータに関するレポートまたはビジュアライズ

ローカルビューを作成すると、パワフルなSAS 機能を使用してHDFS のデータをレポート、ビジュアライズ、またはその他の方法で分析できます。PROC PRINT を使用して簡単なレポートを印刷し、PROC GCHART を使用してデータに基づいた基本的なグラフを作成しましょう。

HTML を印刷

  1. SAS で、[Editor]ウィンドウに移動します。
  2. PROC PRINT を使用してHDFS Files データのHTML レポートを印刷します。
    proc print data=files;
      title "HDFS Files Data";
    run;
    
    A simple HDFS データ report.

チャートを印刷

  1. SAS で、[Editor]ウィンドウに移動します。
  2. PROC GCHART を使用してFiles データのチャートを作成します。
    proc gchart data=files;
      pie fileid / sumvar=childrennum
          value=arrow
          percent=arrow
          noheading
          percent=inside plabel=(height=12pt)
          slice=inside value=none
          name='FilesChart';
    run;
    
    A simple HDFS データ chart.

HDFS からSAS へのデータ連携には、ぜひCData ODBC ドライバをご利用ください

このようにCData ODBC ドライバと併用することで、270を超えるSaaS、NoSQL データをコーディングなしで扱うことができます。30日の無償評価版が利用できますので、ぜひ自社で使っているクラウドサービスやNoSQL と合わせて活用してみてください。

CData ODBC ドライバは日本のユーザー向けに、UI の日本語化、ドキュメントの日本語化、日本語でのテクニカルサポートを提供しています。

関連コンテンツ

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。