各製品の資料を入手。
詳細はこちら →Hive のデータをPowerShell でMySQL にレプリケーションする方法
PowerShell のシンプルなスクリプトで、Hive のデータ をMySQL データベースにレプリケーション(複製)する方法を紹介します。
最終更新日:2023-09-26
この記事で実現できるHive 連携のシナリオ
こんにちは!ドライバー周りのヘルプドキュメントを担当している古川です。
CData Cmdlets for ApacheHive を使えば、PowerShell からHive のデータ データにリアルタイムで連携できます。データ同期などのタスクの連携にぴったりの製品です。 本記事では、PowerShell からCData Cmdlets for ApacheHive およびCData Cmdlets for MySQL を使って、同期スクリプトを作成して実行します。
まずは、PowerShell でHive への接続を行います。レプリケーションは4つのステップがあります。
Apache Hive への接続を確立するには以下を指定します。
- Server:HiveServer2 をホストするサーバーのホスト名またはIP アドレスに設定。
- Port:HiveServer2 インスタンスへの接続用のポートに設定。
- TransportMode:Hive サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
- AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
- CData 製品においてTLS/SSL を有効化するには、UseSSL をTrue に設定します
Hive のデータの取得
-
モジュールのインストール:
Install-Module ApacheHiveCmdlets
-
Hive への接続:
$apachehive = Connect-ApacheHive -Server $Server -Port $Port -TransportMode $TransportMode
-
取得ターゲットのリソースの取得:
$data = Select-ApacheHive -Connection $apachehive -Table "Customers"
Invoke-ApacheHive cmdlet を使って、SQL-92 クエリを使用することもできます:
$data = Invoke-ApacheHive -Connection $apachehive -Query 'SELECT * FROM Customers WHERE Country = @Country' -Params @{'@Country'='US'}
-
戻り値からカラム名のリストを保存します。
$columns = ($data | Get-Member -MemberType NoteProperty | Select-Object -Property Name).Name
Hive のデータをMySQL データベースにレプリケーション
カラム名を指定できるようにして、データをMySQL データベースにレプリケーションします。
-
モジュールのインストール:
Install-Module MySQLCmdlets
-
MySQL DB に、MySQL Server 名、ユーザー、パスワード、レプリケーション先のデータベース名を指定して、接続します:
$mysql = Connect-MySQL -User $User -Password $Password -Database $Database -Server $Server -Port $Port
-
Hive、保存された値、そしてAdd-MySQL Cmdlet を使って、MySQL にデータを1レコードずつ挿入します。この例では、MySQL 側のテーブルは、Hive のリソース(Customers)と同じテーブル名を持っている必要があります。
$data | % { $row = $_ $values = @() $columns | % { $col = $_ $values += $row.$($col) } Add-MySQL -Connection $mysql -Table "Customers" -Columns $columns -Values $values }
次回以降のレプリケーションをシンプルに実現
-
一度PowerShell でHive とMySQL に接続したら、次からは1行のコマンドでレプリケーションを実施できます:
Select-ApacheHive -Connection $apachehive -Table "Customers" | % { $row = $_ $values = @() $columns | % { $col = $_ $values += $row.$($col) } Add-MySQL -Connection $mysql -Table "Customers" -Columns $columns -Values $values }
-
別のPowerShell モジュールで、Hive を別のデータベースに複製する場合、Select-ApacheHive cmdlet のデータから、カラム、接続およびテーブルを除外しておきましょう。これらのデータはデータ移動のときだけ必要となるためです。
$columns = ($data | Get-Member -MemberType NoteProperty | Select-Object -Property Name).Name | ? {$_ -NotIn @('Columns','Connection','Table')}
おわりに
これで、Hive のデータをMySQL に複製できました。分析、BI などでHive のデータをMySQL から使うことができるようになります。