ノーコードでクラウド上のデータとの連携を実現。
詳細はこちら →Amazon Athena Cmdlets の30日間無償トライアルをダウンロード
30日間の無償トライアルへ製品の詳細
Amazon Athena Cmdlets 相談したいPowerShell Cmdlets は、Amazon Athena へのリアルタイム連携機能を提供します。Cmdlets を使ってデータに直接連携し、DB と同感覚でデータを扱うことができます。
CData
こんにちは!ウェブ担当の加藤です。マーケ関連のデータ分析や整備もやっています。
CData Cmdlets for AmazonAthena を使えば、PowerShell からAmazon Athena に手軽に連携して、データのCRUD やエクスポートを実行できます。
本記事では、Amazon Athena への接続方法からCSV エクスポート、データの操作までサンプルコード付きで解説していきます。
それでは、まずはAmazon Athena への接続設定からはじめていきましょう。接続設定にはCData Amazon Athena Cmdlets が必要となります。右側のサイドバーから製品の全機能が使える30日間の無償トライアルがダウンロードできるので、ぜひご利用ください。
インストールが完了したら、プロファイルに以下の行を追加してください。次のPowerShell セッションでモジュールがロードされます。
Import-Module AmazonAthenaCmdlets;
Connect-AmazonAthena コマンドを使ってAmazon Athena との接続を設定します。各接続プロパティの取得方法は次に説明します。
$conn = Connect-AmazonAthena -AccessKey "$AccessKey" -SecretKey "$SecretKey" -Region "$Region" -Database "$Database" -S3StagingDirectory "$S3StagingDirectory"
Amazon Athena リクエストの認証には、アカウントの管理のクレデンシャルか、IAM ユーザーのカスタムPermission を設定します。 AccessKey にAccess Key Id、SecretKey にはSecret Access Key を設定します。
AWS アカウントアドミニストレータとしてアクセスできる場合でも、AWS サービスへの接続にはIAM ユーザークレデンシャルを使用することが推奨されます。
IAM ユーザーのクレデンシャル取得は以下のとおり:
AWS ルートアカウントのクレデンシャル取得は以下のとおり:
EC2 インスタンスからCData 製品を使用していて、そのインスタンスにIAM ロールが割り当てられている場合は、認証にIAM ロールを使用できます。 これを行うには、UseEC2Roles をtrue に設定しAccessKey とSecretKey を空のままにします。 CData 製品は自動的にIAM ロールの認証情報を取得し、それらを使って認証します。
多くの場合、認証にはAWS ルートユーザーのダイレクトなセキュリティ認証情報ではなく、IAM ロールを使用することをお勧めします。 代わりにRoleARN を指定してAWS ロールを使用できます。これにより、CData 製品は指定されたロールの資格情報を取得しようと試みます。 (すでにEC2 インスタンスなどで接続されているのではなく)AWS に接続している場合は、役割を担うIAM ユーザーのAccessKeyと SecretKey を追加で指定する必要があります。AWS ルートユーザーのAccessKey およびSecretKey を指定する場合、 ロールは使用できません。
多要素認証を必要とするユーザーおよびロールには、MFASerialNumber およびMFAToken 接続プロパティを指定してください。 これにより、CData 製品は一時的な認証資格情報を取得するために、リクエストでMFA 認証情報を送信します。一時的な認証情報の有効期間 (デフォルトは3600秒)は、TemporaryTokenDuration プロパティを介して制御できます。
AccessKey とSecretKey プロパティに加え、Database、S3StagingDirectory、Region を設定します。Region をAmazon Athena データがホストされているリージョンに設定します。S3StagingDirectory をクエリの結果を格納したいS3内のフォルダに設定します。
接続にDatabase が設定されていない場合は、CData 製品はAmazon Athena に設定されているデフォルトデータベースに接続します。
これで接続設定は完了です。
接続が完了したので、Customers テーブルデータを取得して結果をCSV ファイルにエクスポートします。
Select-AmazonAthena -Connection $conn -Table Customers | Select -Property * -ExcludeProperty Connection,Table,Columns | Export-Csv -Path c:\myCustomersData.csv -NoTypeInformation
このコードでは、Select-AmazonAthena から取得した結果をSelect-Object に流して、Export-Csv に渡す前にいくつかのプロパティを除外しています。これは、CData Cmdlets が接続情報、テーブル、およびカラム情報を結果セットのそれぞれの行に挿入するためです。それらの情報を表示したくない場合に、Export-Csv コマンドに渡す前に除外を先に行い、そのあとでCSV ファイルにエクスポートします。
それでは、続いてデータの削除や挿入・更新を実行してみます。
以下のように、フィルタリングで合致するレコードを削除することができます。
Select-AmazonAthena -Connection $conn -Table Customers -Where "CustomerId = 12345" | Remove-AmazonAthena
データの挿入や更新を使って、加工やクレンジングも行えます。以下の手順では、CSV ファイルのデータを読み込んで挿入対象のオブジェクトに同じレコードが存在するかを確認した上で、存在する場合にはデータを更新、存在しない場合にはデータの挿入を行います。
Import-Csv -Path C:\MyCustomersUpdates.csv | %{ $record = Select-AmazonAthena -Connection $AmazonAthena -Table Customers -Where ("Id = `'"+$_.Id+"`'") if($record){ Update-AmazonAthena -Connection $amazonathena -Table Customers -Columns ("Name","TotalDue") -Values ($_.Name, $_.TotalDue) -Where ("Id = `'"+$_.Id+"`'") }else{ Add-AmazonAthena -Connection $amazonathena -Table Customers -Columns ("Name","TotalDue") -Values ($_.Name, $_.TotalDue) } }
このように、CData Cmdlets を使えばPowerShell でのAmazon Athena データへの連携をシンプルに実現できます。ぜひCData PowerShell Cmdlets の30日間無償トライアルをダウンロードして、シンプルかつパワフルなデータ連携をお試しください。