本記事では CData サポート担当からこんなことを聞かれたらどこを確認すべきか?という観点で、よく頂くお問合せ内容をご紹介します。
記事はこちら →CData Cmdlets for ApacheHive をつかって、PowerShell からリアルタイムHive data に連携できます。データ同期などのタスクの連携にぴったりの製品です。 本記事では、PowerShell からCData Cmdlets for ApacheHive およびCData Cmdlets for MySQL を使って、同期スクリプトを作成して実行します。
まずは、PowerShell でHive への接続を行います。レプリケーションは4つのステップがあります。
Apache Hive への接続を確立するには以下を指定します。
モジュールのインストール:
Install-Module ApacheHiveCmdlets
Hive への接続:
$apachehive = Connect-ApacheHive -Server $Server -Port $Port -TransportMode $TransportMode
取得ターゲットのリソースの取得:
$data = Select-ApacheHive -Connection $apachehive -Table "Customers"
Invoke-ApacheHive cmdlet を使って、SQL-92 クエリを使用することもできます:
$data = Invoke-ApacheHive -Connection $apachehive -Query 'SELECT * FROM Customers WHERE Country = @Country' -Params @{'@Country'='US'}
戻り値からカラム名のリストを保存します。
$columns = ($data | Get-Member -MemberType NoteProperty | Select-Object -Property Name).Name
カラム名を指定できるようにして、データをMySQL データベースにレプリケーションします。
モジュールのインストール:
Install-Module MySQLCmdlets
MySQL DB に、MySQL Server 名、ユーザー、パスワード、レプリケーション先のデータベース名を指定して、接続します:
$mysql = Connect-MySQL -User $User -Password $Password -Database $Database -Server $Server -Port $Port
Hive、保存された値、そしてAdd-MySQL Cmdlet を使って、MySQL にデータを1レコードずつ挿入します。この例では、MySQL 側のテーブルは、Hive のリソース(Customers)と同じテーブル名を持っている必要があります。
$data | % {
$row = $_
$values = @()
$columns | % {
$col = $_
$values += $row.$($col)
}
Add-MySQL -Connection $mysql -Table "Customers" -Columns $columns -Values $values
}
これで、Hive データをMySQL に複製できました。これで、分析、BI などでHive データをMySQL から使うことができるようになります。
一度PowerShell でHive とMySQL に接続したら、次からは1行のコマンドでレプリケーションを実施できます:
Select-ApacheHive -Connection $apachehive -Table "Customers" | % {
$row = $_
$values = @()
$columns | % {
$col = $_
$values += $row.$($col)
}
Add-MySQL -Connection $mysql -Table "Customers" -Columns $columns -Values $values
}
別のPowerShell モジュールで、Hive を別のデータベースに複製する場合、Select-ApacheHive cmdlet のデータから、カラム、接続およびテーブルを除外する方がいいでしょう。これらのデータは、CData cmdlet からデータを移動する際にのみ必要なものだからです。:
$columns = ($data | Get-Member -MemberType NoteProperty | Select-Object -Property Name).Name | ? {$_ -NotIn @('Columns','Connection','Table')}