HDFS ODBC データソースとの間にInformatica マッピングを作成

詳細情報をご希望ですか?

無償トライアル:

ダウンロードへ

製品の詳細情報へ:

HDFS ODBC Driver

HDFS ODBC Driver を使って、ODBC 接続をサポートするあらゆるアプリケーション・ツールからHDFS にデータ連携。

HDFS データにデータベースと同感覚でアクセスして、HDFS データに使い慣れたODBC インターフェースで双方向連携。



Informatica にHDFS へのODBC 接続を作成し、HDFS データを参照および転送。

Informatica はデータを転送、変換するための強力で洗練された手段です。CData ODBC Driver for HDFS は、Informatica の強力なデータ転送・変換機能とシームレスに連携可能な、業界で実証済みの標準ドライバです。このチュートリアルでは、Informatica PowerCenter でHDFS データを転送および参照する方法を説明します。

HDFS にODBC データソースとして接続する

HDFS への接続に関する情報と、Windows およびLinux 環境でのDSN の設定手順を以下で説明します。

In order to authenticate, set the following connection properties:

  • Host: Set this value to the host of your HDFS installation.
  • Port: Set this value to the port of your HDFS installation. Default port: 50070

Windows

接続プロパティが未設定の場合は、まずODBC DSN(データソース名)で設定します。ドライバーのインストールの最後にアドミニストレーターが開きます。Microsoft ODBC データソースアドミニストレーターを使ってODBC DSN を作成および設定できます。

Linux

CData ODBC Driver for HDFS をLinux 環境にインストールする場合、ドライバーのインストールによってDSN が事前に定義されます。DSN を変更するには、システムデータソースファイル(/etc/odbc.ini)を編集し、必要な接続プロパティを定義します。

/etc/odbc.ini

[CData HDFS Source] Driver = CData ODBC Driver for HDFS Description = My Description Host = sandbox-hdp.hortonworks.com Port = 50070 Path = /user/root User = root

これらの構成ファイルの使用方法については、オンラインのヘルプドキュメントを参照してください。

Files データへのリンクテーブルを作成する

「オブジェクトエクスプローラー」からリンクテーブルを作成してライブFiles データにアクセスする方法は、次のとおりです。

ODBC 接続を作成する

下記の手順に従って、Informatica PowerCenter のHDFS に接続します。

  1. Informatica Developer ツールで、リポジトリに接続してプロジェクトを作成しておきます。
  2. 「Connection Explorer」ペインで右クリックし、「Create a Connection」をクリックします。
  3. 「New Database Connection」ウィザードが表示されたら、接続に名前とID を入力し、「Type」メニューで「ODBC」を選択します。
  4. 「Connection String」プロパティにjdbc:hdfs:Host=sandbox-hdp.hortonworks.com;Port=50070;Path=/user/root;User=root; を入力します。

注意:Linux オペレーティングシステムで作業している場合は、「Driver Manager for Linux」プロパティをunixODBC 2.3.x に設定します。

HDFS データオブジェクトを作成する

HDFS へのODBC 接続を作成したら、Informatica でHDFS エンティティにアクセスできるようになります。下記の手順に従って、Files エンティティをプロジェクトに追加します。

  1. 「Object Explorer」でプロジェクトを右クリックし、「New」->「Data Object」をクリックします。
  2. ウィザードが表示されたら「Relational Data Object」オプションを選択します。
  3. 「Connection」ボックス横にある「Browse」ボタンをクリックし、先に作成したODBC 接続を選択します。
  4. 既存のリソースからデータオブジェクトを作成するオプションを選択し、「Resource」ボックス横にある「Browse」ボタンをクリックします。
  5. ダイアログが表示されたら、「Show Default Schema Only」オプションの選択を解除してODBC 接続のノードを展開します。必要なエンティティを選択します。

これで、Data Viewer でテーブルをブラウズできます。テーブル用ノードを右クリックし「Open」をクリックします。「Data Viewer」ビューで「Run」をクリックします。

マッピングを作成する

下記の手順に従って、HDFS ソースをマッピングに追加します。

  1. 「Object Explorer」でプロジェクトを右クリックし、「New」->「Mapping」をクリックします。
  2. HDFS 接続のノードを展開してから、テーブル用のデータオブジェクトをエディタ上にドラッグします。
  3. ダイアログが表示されたら「Read」オプションを選択します。

以下のステップに従って、HDFS カラムをフラットファイルにマッピングします。

  1. 「Object Explorer」でプロジェクトを右クリックし、「New」->「Data Object」をクリックします。
  2. 「Flat File Data Object」->「Create as Empty」->「Fixed Width」と選択します。
  3. HDFS オブジェクトのプロパティで目的の行を選択して右クリックし、コピーします。コピーした行をフラットファイルプロパティにペーストします。
  4. フラットファイルのデータオブジェクトをマッピングにドラッグします。ダイアログが表示されたら「Write」オプションを選択します。
  5. クリックおよびドラッグしてカラムを接続します。

HDFS データを転送するには、ワークスペース内で右クリックして「Run Mapping」をクリックします。