標準PowerShell cmdlets を使ってHDFS テーブルにアクセスして、CSV にエクスポート。
CData Cmdlets Module for HDFS は、直感的なHDFS データ連携を提供する標準cmdlet です。 本記事では、HDFS Cmdlets を使ったサンプルを提供します。
HDFS への接続を設定
In order to authenticate, set the following connection properties:
- Host: Set this value to the host of your HDFS installation.
- Port: Set this value to the port of your HDFS installation. Default port: 50070
$conn = Connect-HDFS -Host "$Host" -Port "$Port" -Path "$Path" -User "$User"
HDFS データを取得してCSV にパイプライン
次の手順で、Files テーブルデータを取得して、結果をCSV ファイルにエクスポートします:
Select-HDFS -Connection $conn -Table Files | Select -Property * -ExcludeProperty Connection,Table,Columns | Export-Csv -Path c:\myFilesData.csv -NoTypeInformation
このように、Select-HDFS から取得した結果を、Select-Object cmdlet に流し、Export-Csv cmdlet に渡す前にいくつかのプロパティを除外しています。これは、CData Cmdlets が接続情報、テーブル、およびカラム情報が結果セットのそれぞれの"行"に挿入されるためです。それらの情報を表示したくない場合に、Export-Csv cmdlet に渡す前に除外を先に行い、それからCSV ファイルにエクスポートします。。
CData Cmdlets から、次のCmdlets にデータをパイプラインするところでは、接続、テーブル、カラムの情報が必要です。このように、CData Cmdlets でデータ連携をシンプルに構成できます。Cmdlets では、モジュールのインストール、接続プロパティの設定だけで、データ連携の構築を始めることができます。是非、CData PowerShell Cmdlets の無償試用版をダウンロードして、シンプルかつパワフルなデータ連携を体感してください。