PowerShell Cmdlets でHBase データをCSV にエクスポート

詳細情報をご希望ですか?

無償トライアル:

ダウンロードへ

製品の詳細情報へ:

HBase Cmdlets

PowerShell Cmdlets は、Apache Hbase へのリアルタイム連携機能を提供します。 Cmdlets を使って、データに直接連携し、読み書き更新をDB と同感覚で行うことができます。



標準PowerShell cmdlets を使ってHBase テーブルにアクセスして、CSV にエクスポート。

CData Cmdlets Module for HBase は、直感的なHBase データ連携を提供する標準cmdlet です。 本記事では、ApacheHBase Cmdlets を使ったサンプルを提供します。

HBase への接続を設定

Apache HBase への接続には、Port およびServer を設定します。

$conn = Connect-ApacheHBase  -Server "$Server" -Port "$Port"

HBase データを取得してCSV にパイプライン

次の手順で、Customers テーブルデータを取得して、結果をCSV ファイルにエクスポートします:

Select-ApacheHBase -Connection $conn -Table Customers | Select -Property * -ExcludeProperty Connection,Table,Columns | Export-Csv -Path c:\myCustomersData.csv -NoTypeInformation

このように、Select-ApacheHBase から取得した結果を、Select-Object cmdlet に流し、Export-Csv cmdlet に渡す前にいくつかのプロパティを除外しています。これは、CData Cmdlets が接続情報、テーブル、およびカラム情報が結果セットのそれぞれの"行"に挿入されるためです。それらの情報を表示したくない場合に、Export-Csv cmdlet に渡す前に除外を先に行い、それからCSV ファイルにエクスポートします。。

CData Cmdlets から、次のCmdlets にデータをパイプラインするところでは、接続、テーブル、カラムの情報が必要です。

データの削除

以下のように、指定に合致するレコードを削除することができます:

Select-ApacheHBase -Connection $conn -Table Customers -Where "ShipCity = New York" | Remove-ApacheHBase

データの挿入と更新

CData Cmdlets は、データの加工やクレンジングを行うことができます。以下の手順では、CSV ファイルのデータを、挿入対象のオブジェクトに同じレコードが存在するかを確認した上で、存在する場合にはデータの更新、存在しない場合にはデータの挿入を行います。

Import-Csv -Path C:\MyCustomersUpdates.csv | %{
  $record = Select-ApacheHBase -Connection $ApacheHBase -Table Customers -Where ("Id = `'"+$_.Id+"`'")
  if($record){
    Update-ApacheHBase -Connection $apachehbase -Table Customers -Columns ("CustomerName","Price") -Values ($_.CustomerName, $_.Price) -Where ("Id = `'"+$_.Id+"`'")
  }else{
    Add-ApacheHBase -Connection $apachehbase -Table Customers -Columns ("CustomerName","Price") -Values ($_.CustomerName, $_.Price)
  }
}

このように、CData Cmdlets でデータ連携をシンプルに構成できます。Cmdlets では、モジュールのインストール、接続プロパティの設定だけで、データ連携の構築を始めることができます。是非、CData PowerShell Cmdlets の無償試用版をダウンロードして、シンプルかつパワフルなデータ連携を体感してください。