Hive のデータをPowerShell でMySQL にレプリケーションする方法

PowerShell のシンプルなスクリプトで、Hive のデータ をMySQL データベースにレプリケーション(複製)する方法を紹介します。

古川えりか
コンテンツスペシャリスト

最終更新日:2023-09-26

この記事で実現できるHive 連携のシナリオ

こんにちは!ドライバー周りのヘルプドキュメントを担当している古川です。

CData Cmdlets for ApacheHive を使えば、PowerShell からHive のデータ データにリアルタイムで連携できます。データ同期などのタスクの連携にぴったりの製品です。 本記事では、PowerShell からCData Cmdlets for ApacheHive およびCData Cmdlets for MySQL を使って、同期スクリプトを作成して実行します。

まずは、PowerShell でHive への接続を行います。レプリケーションは4つのステップがあります。

Apache Hive への接続を確立するには以下を指定します。

  • Server:HiveServer2 をホストするサーバーのホスト名またはIP アドレスに設定。
  • Port:HiveServer2 インスタンスへの接続用のポートに設定。
  • TransportMode:Hive サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
  • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
  • CData 製品においてTLS/SSL を有効化するには、UseSSL をTrue に設定します

Hive のデータの取得

  1. モジュールのインストール:

    Install-Module ApacheHiveCmdlets
  2. Hive への接続:

    $apachehive = Connect-ApacheHive -Server $Server -Port $Port -TransportMode $TransportMode
  3. 取得ターゲットのリソースの取得:

    $data = Select-ApacheHive -Connection $apachehive -Table "Customers"

    Invoke-ApacheHive cmdlet を使って、SQL-92 クエリを使用することもできます:

    $data = Invoke-ApacheHive -Connection $apachehive -Query 'SELECT * FROM Customers WHERE Country = @Country' -Params @{'@Country'='US'}
  4. 戻り値からカラム名のリストを保存します。

    $columns = ($data | Get-Member -MemberType NoteProperty | Select-Object -Property Name).Name

Hive のデータをMySQL データベースにレプリケーション

カラム名を指定できるようにして、データをMySQL データベースにレプリケーションします。

  1. モジュールのインストール:

    Install-Module MySQLCmdlets
  2. MySQL DB に、MySQL Server 名、ユーザー、パスワード、レプリケーション先のデータベース名を指定して、接続します:

    $mysql = Connect-MySQL -User $User -Password $Password -Database $Database -Server $Server -Port $Port
  3. Hive、保存された値、そしてAdd-MySQL Cmdlet を使って、MySQL にデータを1レコードずつ挿入します。この例では、MySQL 側のテーブルは、Hive のリソース(Customers)と同じテーブル名を持っている必要があります。

    $data | % { $row = $_ $values = @() $columns | % { $col = $_ $values += $row.$($col) } Add-MySQL -Connection $mysql -Table "Customers" -Columns $columns -Values $values }

次回以降のレプリケーションをシンプルに実現

  • 一度PowerShell でHive とMySQL に接続したら、次からは1行のコマンドでレプリケーションを実施できます:

    Select-ApacheHive -Connection $apachehive -Table "Customers" | % { $row = $_ $values = @() $columns | % { $col = $_ $values += $row.$($col) } Add-MySQL -Connection $mysql -Table "Customers" -Columns $columns -Values $values }
  • 別のPowerShell モジュールで、Hive を別のデータベースに複製する場合、Select-ApacheHive cmdlet のデータから、カラム、接続およびテーブルを除外しておきましょう。これらのデータはデータ移動のときだけ必要となるためです。

    $columns = ($data | Get-Member -MemberType NoteProperty | Select-Object -Property Name).Name | ? {$_ -NotIn @('Columns','Connection','Table')}

おわりに

これで、Hive のデータをMySQL に複製できました。分析、BI などでHive のデータをMySQL から使うことができるようになります。

関連コンテンツ

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。