CSA Data Uploader にてHDFS データを、クラウドストレージにアップロード

詳細情報をご希望ですか?

無償トライアル:

ダウンロードへ

製品の詳細情報へ:

HDFS ODBC Driver

HDFS ODBC Driver を使って、ODBC 接続をサポートするあらゆるアプリケーション・ツールからHDFS にデータ連携。

HDFS データにデータベースと同感覚でアクセスして、HDFS データに使い慣れたODBC インターフェースで双方向連携。



HDFS へのライブ接続を行うデータアップロードジョブを構築

HDFS 用のCData ODBC ドライバは、ODBC 標準インターフェースを利用したHDFS へのライブデータアクセスを可能にし、使い慣れたSQL クエリで多種多様なBI、レポート、ETL ツールでHDFS を扱うことができます 。

この記事では、Amazon S3 やGoogle Cloud Storage などのクラウドストレージへのデータプレパレーション、ファイルアップロードを得意とするCSA Data Uploader でODBC 接続を使用してHDFS データの利用方法を示します。

HDFS データへの接続

  1. まずODBN DSN に必要な接続プロパティの値を入力します。組み込みのMicrosoft ODBC データソースアドミニストレーターを使用してDSN を構成できます。これは、ドライバーのインストール時の最後のステップでも可能です。Microsoft ODBC データソースアドミニストレータを使用してDSN を作成および設定する方法については、ヘルプドキュメントの「はじめに」の章を参照してください。

    In order to authenticate, set the following connection properties:

    • Host: Set this value to the host of your HDFS installation.
    • Port: Set this value to the port of your HDFS installation. Default port: 50070
  2. CSA Data Uploader を開いて「設定 -> ODBC」に移動します。
  3. 「追加」をクリックします。
  4. 種別を「汎用ODBC」、「データソース名」で先ほど作成したODBC DSN を選択します。

入力後、接続テストが成功すれば設定は完了です。併せて任意のデータアップロード先の接続(Amazon S3・Google Cloud Storage など)も作成しておきましょう。

HDFS ジョブの構成

続いてCSA DataUploader の対象データ参照し、クラウドストレージへデータをアップロードするジョブを構成します。

  1. 「ジョブ」のページに移動して「ジョブを作成」をクリックします。
  2. 任意の名称でジョブを作成します。ジョブ種別は「データアップロード」を選んでください。
  3. ジョブは最初に入力対象となるデータを設定します。
  4. 入力種別では、ODBC 接続を選択し、データソース名で先ほど設定したODBC DSN を選択します。併せて、HDFS からデータを取得するためのSQL ベースのクエリを記述します。
  5. なお、SQL でクエリ可能なテーブルはODBC DSN の「テーブル」タブで確認できます。
  6. 入力設定を保存したら、「データ表示」ボタンをクリックすることで実際にHDFS から取得したデータを確認できます。
  7. 以下のようにプレビューが表示されれば設定はOK です。
  8. 併せて出力設定先となるクラウドストレージの情報を追加してください。
  9. 事前に構成したコネクション情報で出力先を設定します。
  10. これでジョブの作成は完了です。実行することで HDFS データをクラウドストレージにアップロードすることができます。