PowerShell Cmdlets でDatabricks データをCSV にエクスポート

詳細情報をご希望ですか?

無償トライアル:

ダウンロードへ

製品の詳細情報へ:

Databricks Data Cmdlets

Databricks にリアルタイムアクセスできる簡単に使えるPowerShell Cmdlets セット。Cmdlets を使って、SQL サーバーと同じようにデータを簡単に読み出し、書き込みができます。



標準PowerShell cmdlets を使ってDatabricks テーブルにアクセスして、CSV にエクスポート。

CData Cmdlets Module for Databricks は、直感的なDatabricks データ連携を提供する標準cmdlet です。 本記事では、Databricks Cmdlets を使ったサンプルを提供します。

Databricks への接続を設定

To connect to a Databricks cluster, set the properties as described below.

Note: The needed values can be found in your Databricks instance by navigating to Clusters, and selecting the desired cluster, and selecting the JDBC/ODBC tab under Advanced Options.

  • Server: Set to the Server Hostname of your Databricks cluster.
  • HTTPPath: Set to the HTTP Path of your Databricks cluster.
  • Token: Set to your personal access token (this value can be obtained by navigating to the User Settings page of your Databricks instance and selecting the Access Tokens tab).

$conn = Connect-Databricks  -Server "$Server" -Port "$Port" -TransportMode "$TransportMode" -HTTPPath "$HTTPPath" -UseSSL "$UseSSL" -User "$User" -Password "$Password"

Databricks データを取得してCSV にパイプライン

次の手順で、Customers テーブルデータを取得して、結果をCSV ファイルにエクスポートします:

Select-Databricks -Connection $conn -Table Customers | Select -Property * -ExcludeProperty Connection,Table,Columns | Export-Csv -Path c:\myCustomersData.csv -NoTypeInformation

このように、Select-Databricks から取得した結果を、Select-Object cmdlet に流し、Export-Csv cmdlet に渡す前にいくつかのプロパティを除外しています。これは、CData Cmdlets が接続情報、テーブル、およびカラム情報が結果セットのそれぞれの"行"に挿入されるためです。それらの情報を表示したくない場合に、Export-Csv cmdlet に渡す前に除外を先に行い、それからCSV ファイルにエクスポートします。。

CData Cmdlets から、次のCmdlets にデータをパイプラインするところでは、接続、テーブル、カラムの情報が必要です。

データの削除

以下のように、指定に合致するレコードを削除することができます:

Select-Databricks -Connection $conn -Table Customers -Where "Country = US" | Remove-Databricks

データの挿入と更新

CData Cmdlets は、データの加工やクレンジングを行うことができます。以下の手順では、CSV ファイルのデータを、挿入対象のオブジェクトに同じレコードが存在するかを確認した上で、存在する場合にはデータの更新、存在しない場合にはデータの挿入を行います。

Import-Csv -Path C:\MyCustomersUpdates.csv | %{
  $record = Select-Databricks -Connection $Databricks -Table Customers -Where ("Id = `'"+$_.Id+"`'")
  if($record){
    Update-Databricks -Connection $databricks -Table Customers -Columns ("City","CompanyName") -Values ($_.City, $_.CompanyName) -Where ("Id = `'"+$_.Id+"`'")
  }else{
    Add-Databricks -Connection $databricks -Table Customers -Columns ("City","CompanyName") -Values ($_.City, $_.CompanyName)
  }
}

このように、CData Cmdlets でデータ連携をシンプルに構成できます。Cmdlets では、モジュールのインストール、接続プロパティの設定だけで、データ連携の構築を始めることができます。是非、CData PowerShell Cmdlets の無償試用版をダウンロードして、シンプルかつパワフルなデータ連携を体感してください。