HDFS データに連携しTalend からデータに接続
HDFS をTalend Open Studio の標準コンポーネントおよびデータソース設定ウィザードに統合。
古川えりか
コンテンツスペシャリスト
最終更新日:2022-09-15
CData
こんにちは!ドライバー周りのヘルプドキュメントを担当している古川です。
この記事では、Talend で簡単にCData JDBC Driver for HDFS をワークフローに統合してHDFS データ連携する方法を説明します。ここではCData JDBC Driver for HDFS を使ってTalend でHDFS をジョブフローに転送します。
JDBC データソースとしてTalend でHDFS に接続
下記の手順に従って、HDFS にJDBC 接続を確立します:
- HDFS を新しいデータベース接続を追加:新しく接続を追加するには、[Metadata]ノードを展開し[Db Connections]ノードを右クリックして[Create Connection]をクリックします。
- ウィザードが表示されたら、接続に名前を入力します。
次のページで、[DB Type]メニューから[Generic JDBC]を選択してJDBC URL を入力します。
HDFS 接続プロパティの取得・設定方法
HDFS への認証には、次の接続プロパティを設定します。
- Host:HDFS インスタンスのホストに設定してください。
- Port: HDFS インスタンスのポートに設定してください。デフォルトのポートは"50070" です。
以下は一般的なJDBC URL です:
jdbc:hdfs:Host=sandbox-hdp.hortonworks.com;Port=50070;Path=/user/root;User=root;
- インストールディレクトリの[lib]サブフォルダ内にあるcdata.jdbc.hdfs.jar ファイルへのパスを入力します。
- 接続を右クリックして[Retrieve Schema]をクリックします。
- デフォルトオプションで[Next]をクリックしインポートしたいテーブルを選択します。
- デフォルトオプションでウィザードを終了します。
Files テーブルをフラットファイルに出力
下記の手順に従って、Files テーブルをフラットファイル出力コンポーネントに転送します:
- [Table Schemas]ノードで、テーブルをワークスペース内にドラッグします。
- ダイアログが表示されたら[tJDBCInput]コンポーネントを選択します。
- 次に、[tFileOutputDelimited]コンポーネントをPalette の[Business Intelligence]タブからワークスペース内にドラッグします。
- Files tJDBCInput コンポーネントを右クリックしてベクタを出力ファイルにドラッグします。
プロジェクトを実行してデータを転送します。
関連コンテンツ