ノーコードでクラウド上のデータとの連携を実現。
詳細はこちら →Apache Spark Cmdlets の30日間無償トライアルをダウンロード
30日間の無償トライアルへ製品の詳細
Apache Spark Cmdlets 相談したいPowerShell Cmdlets は、Apache Spark へのリアルタイム連携機能を提供します。Cmdlets を使って、データに直接連携し、読み書き更新をSQL Server と同感覚で行うことができます。
CData
こんにちは!ウェブ担当の加藤です。マーケ関連のデータ分析や整備もやっています。
CData Cmdlets for SparkSQL を使えば、PowerShell からSpark に手軽に連携して、データのCRUD やエクスポートを実行できます。
本記事では、Spark への接続方法からCSV エクスポート、データの操作までサンプルコード付きで解説していきます。
それでは、まずはSpark への接続設定からはじめていきましょう。接続設定にはCData Spark Cmdlets が必要となります。右側のサイドバーから製品の全機能が使える30日間の無償トライアルがダウンロードできるので、ぜひご利用ください。
インストールが完了したら、プロファイルに以下の行を追加してください。次のPowerShell セッションでモジュールがロードされます。
Import-Module SparkSQLCmdlets;
Connect-SparkSQL コマンドを使ってSpark との接続を設定します。各接続プロパティの取得方法は次に説明します。
$conn = Connect-SparkSQL -Server "$Server"
SparkSQL への接続を確立するには以下を指定します。
Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。
これで接続設定は完了です。
接続が完了したので、Customers テーブルデータを取得して結果をCSV ファイルにエクスポートします。
Select-SparkSQL -Connection $conn -Table Customers | Select -Property * -ExcludeProperty Connection,Table,Columns | Export-Csv -Path c:\myCustomersData.csv -NoTypeInformation
このコードでは、Select-SparkSQL から取得した結果をSelect-Object に流して、Export-Csv に渡す前にいくつかのプロパティを除外しています。これは、CData Cmdlets が接続情報、テーブル、およびカラム情報を結果セットのそれぞれの行に挿入するためです。それらの情報を表示したくない場合に、Export-Csv コマンドに渡す前に除外を先に行い、そのあとでCSV ファイルにエクスポートします。
それでは、続いてデータの削除や挿入・更新を実行してみます。
以下のように、フィルタリングで合致するレコードを削除することができます。
Select-SparkSQL -Connection $conn -Table Customers -Where "Country = US" | Remove-SparkSQL
データの挿入や更新を使って、加工やクレンジングも行えます。以下の手順では、CSV ファイルのデータを読み込んで挿入対象のオブジェクトに同じレコードが存在するかを確認した上で、存在する場合にはデータを更新、存在しない場合にはデータの挿入を行います。
Import-Csv -Path C:\MyCustomersUpdates.csv | %{ $record = Select-SparkSQL -Connection $SparkSQL -Table Customers -Where ("Id = `'"+$_.Id+"`'") if($record){ Update-SparkSQL -Connection $sparksql -Table Customers -Columns ("City","Balance") -Values ($_.City, $_.Balance) -Where ("Id = `'"+$_.Id+"`'") }else{ Add-SparkSQL -Connection $sparksql -Table Customers -Columns ("City","Balance") -Values ($_.City, $_.Balance) } }
このように、CData Cmdlets を使えばPowerShell でのSpark データへの連携をシンプルに実現できます。ぜひCData PowerShell Cmdlets の30日間無償トライアルをダウンロードして、シンプルかつパワフルなデータ連携をお試しください。