ノーコードでクラウド上のデータとの連携を実現。
詳細はこちら →HDFS Driver の30日間無償トライアルをダウンロード
30日間の無償トライアルへCData
こんにちは!ウェブ担当の加藤です。マーケ関連のデータ分析や整備もやっています。
Oracle Data Integrator(ODI)はOracle エコシステムのハイパフォーマンスなデータ統合プラットフォームです。CData JDBC Driver for HDFS を使えば、OCI をはじめとするETL ツールからHDFS データにJDBC 経由で簡単に接続を実現できます。リアルタイムHDFS データをデータウェアハウス、BI・帳票ツール、CRM、基幹システムなどに統合すれば、データ活用もぐっと楽に。
CData のコネクタを使えば、HDFS API にリアルタイムで直接接続して、ODI 上で通常のデータベースと同じようにHDFS データを操作できます。HDFS エンティティのデータモデルを構築、マッピングを作成し、データの読み込み方法を選択するだけの簡単なステップでHDFS データのETL が実現できます。
ドライバーをインストールするには、インストールフォルダにあるドライバーのJAR ファイルと.lic ファイルをODI の適切なディレクトリにコピーします。
ODI を再起動してインストールを完了します。
ODI の機能を使ってモデルをリバースエンジニアリングすることで、ドライバー側で取得したHDFS データのリレーショナルビューに関するメタデータが取得できます。リバースエンジニアリング後、リアルタイムHDFS データにクエリを実行してHDFS テーブルのマッピングを作成できます。
HDFS への認証には、次の接続プロパティを設定します。
JDBC URL の作成の補助として、HDFS JDBC Driver に組み込まれている接続文字列デザイナーが使用できます。JAR ファイルをダブルクリックするか、コマンドラインからjar ファイルを実行します。
java -jar cdata.jdbc.hdfs.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
一般的な接続文字列は次のとおりです。
jdbc:hdfs:Host=sandbox-hdp.hortonworks.com;Port=50070;Path=/user/root;User=root;
リバースエンジニアリング後、ODI でHDFS データを操作できるようになります。 HDFS データを表示するには、Designer ナビゲーターでモデルアコーディオンを展開し、テーブルを右クリックして「View data」をクリックします。
次の手順に従って、HDFS からETL を作成します。Files エンティティをODI Getting Started VM に含まれているサンプルデータウェアハウスにロードします。
SQL Developer を開き、Oracle データベースに接続します。Connections ぺインでデータベースのノードを右クリックし、「New SQL Worksheet」をクリックします。
もしくは、SQLPlus を使用することもできます。コマンドプロンプトから、以下のように入力します。
sqlplus / as sysdba
CREATE TABLE ODI_DEMO.TRG_FILES (CHILDRENNUM NUMBER(20,0),FileId VARCHAR2(255));
これで、マッピングを実行してHDFS データをOracle にロードできます。