ODBC 接続でExploratory からHDFS データにSQL でクエリ
CData ODBC Driver for HDFS は、ODBC 経由でリアルタイムHDFS Data に標準SQL での利用を可能にします。
ここでは、汎用ODBC データプロバイダーとしてHDFS に接続し、データアナリティクスツールのExploratory (https://exploratory.io/) からHDFS データを連携利用する手順を説明します。
Exploratory は、多くのRDB やRedshift、BigQuery などのクラウドデータストアに対応していますが、SaaS データを分析したい場合にはCData ODBC Drivers を使うことで、API コーディング不要でデータを活用できます。今回はHDFS を例に説明します。

※製品について詳しい情報をご希望の方は以下からお進みください。
- HDFS にほかのBI、ETL、開発ツールから接続したい:HDFS データ連携ガイドおよびチュートリアルのリストへ
- HDFS Drivers について詳細を知りたい:ドライバー詳細情報ページへ
- ほかのデータソースに連携したい:CData Drivers 一覧へ
- ドライバーの30日の無償トライアル版を使いたい:トライアル版ダウンロードページへ
- 製品の利用やライセンスについて相談したい:sales@cdata.co.jp までメールにてご相談ください。
HDFS Data に接続するODBC DSN を設定
ODBC Driver for HDFS をダウンロードします。次にマシンにHDFS data に接続するODBC DSN を設定します。Exploratory からはそのODBC DSN を参照する形になります。ODBC DSN 設定の詳細については、ドキュメントを参照してください。
In order to authenticate, set the following connection properties:
- Host: Set this value to the host of your HDFS installation.
- Port: Set this value to the port of your HDFS installation. Default port: 50070
Exploratory 上でHDFS のデータをセット
- Exploratory で[コネクション]をクリックして新しいコネクションを作成します。
- [追加]→[ODBC]の順にクリック。
- コネクション追加画面で先ほど設定したHDFS ODBC のDSN を設定します。
名前:任意
タイプ:ODBC
DSN:上の設定したDSN 名(CData HDFS Sys) - コネクションテストを下の地、[追加]を押して接続を確定させます。

Exploratory でHDFS データをクエリし、データフレームとして保存
さあ、Exploratory からHDFS データを扱ってみましょう。
- Exploratory でプロジェクトを[新規作成]します。
- [データフレーム]の[+]印をクリックし、[データベースデータ]を選択します。
- データベースは[ODBC]をクリック。
- [コネクション]で先ほど設定したHDFS のコネクションを選択します。
- RDB ソースの感覚でSELECT クエリでHDFS データをクエリします。標準SQL でフィルタリング、ソート、JOIN も可能です。
- データセットをデータフレームとして保存します。



Exploratory でのHDFS データの分析
データフレームになったデータは通常のRDB データソースと同じようにExploratory で利用可能です。

このように、Exploratory から簡単にHDFS データを接続して利用することができました。ODBC Driver には30日間の無償版がありますので、是非お試しください。