標準PowerShell cmdlets を使ってHBase テーブルにアクセスして、CSV にエクスポート。
CData Cmdlets Module for HBase は、直感的なHBase データ連携を提供する標準cmdlet です。 本記事では、ApacheHBase Cmdlets を使ったサンプルを提供します。
HBase への接続を設定
Apache HBase への接続には、Port およびServer を設定します。
$conn = Connect-ApacheHBase -Server "$Server" -Port "$Port"
HBase データを取得してCSV にパイプライン
次の手順で、Customers テーブルデータを取得して、結果をCSV ファイルにエクスポートします:
Select-ApacheHBase -Connection $conn -Table Customers | Select -Property * -ExcludeProperty Connection,Table,Columns | Export-Csv -Path c:\myCustomersData.csv -NoTypeInformation
このように、Select-ApacheHBase から取得した結果を、Select-Object cmdlet に流し、Export-Csv cmdlet に渡す前にいくつかのプロパティを除外しています。これは、CData Cmdlets が接続情報、テーブル、およびカラム情報が結果セットのそれぞれの"行"に挿入されるためです。それらの情報を表示したくない場合に、Export-Csv cmdlet に渡す前に除外を先に行い、それからCSV ファイルにエクスポートします。。
CData Cmdlets から、次のCmdlets にデータをパイプラインするところでは、接続、テーブル、カラムの情報が必要です。データの削除
以下のように、指定に合致するレコードを削除することができます:
Select-ApacheHBase -Connection $conn -Table Customers -Where "ShipCity = New York" | Remove-ApacheHBase
データの挿入と更新
CData Cmdlets は、データの加工やクレンジングを行うことができます。以下の手順では、CSV ファイルのデータを、挿入対象のオブジェクトに同じレコードが存在するかを確認した上で、存在する場合にはデータの更新、存在しない場合にはデータの挿入を行います。
Import-Csv -Path C:\MyCustomersUpdates.csv | %{ $record = Select-ApacheHBase -Connection $ApacheHBase -Table Customers -Where ("Id = `'"+$_.Id+"`'") if($record){ Update-ApacheHBase -Connection $apachehbase -Table Customers -Columns ("CustomerName","Price") -Values ($_.CustomerName, $_.Price) -Where ("Id = `'"+$_.Id+"`'") }else{ Add-ApacheHBase -Connection $apachehbase -Table Customers -Columns ("CustomerName","Price") -Values ($_.CustomerName, $_.Price) } }
このように、CData Cmdlets でデータ連携をシンプルに構成できます。Cmdlets では、モジュールのインストール、接続プロパティの設定だけで、データ連携の構築を始めることができます。是非、CData PowerShell Cmdlets の無償試用版をダウンロードして、シンプルかつパワフルなデータ連携を体感してください。