各製品の資料を入手。
詳細はこちら →HDFS のデータをPowerShell でMySQL にレプリケーションする方法
PowerShell のシンプルなスクリプトで、HDFS のデータ をMySQL データベースにレプリケーション(複製)する方法を紹介します。
最終更新日:2023-09-26
この記事で実現できるHDFS 連携のシナリオ
こんにちは!ドライバー周りのヘルプドキュメントを担当している古川です。
CData Cmdlets for HDFS を使えば、PowerShell からHDFS のデータ データにリアルタイムで連携できます。データ同期などのタスクの連携にぴったりの製品です。 本記事では、PowerShell からCData Cmdlets for HDFS およびCData Cmdlets for MySQL を使って、同期スクリプトを作成して実行します。
まずは、PowerShell でHDFS への接続を行います。レプリケーションは4つのステップがあります。
HDFS 接続プロパティの取得・設定方法
HDFS への認証には、次の接続プロパティを設定します。
- Host:HDFS インスタンスのホストに設定してください。
- Port: HDFS インスタンスのポートに設定してください。デフォルトのポートは"50070" です。
HDFS のデータの取得
-
モジュールのインストール:
Install-Module HDFSCmdlets
-
HDFS への接続:
$hdfs = Connect-HDFS -Host $Host -Port $Port -Path $Path -User $User
-
取得ターゲットのリソースの取得:
$data = Select-HDFS -Connection $hdfs -Table "Files"
Invoke-HDFS cmdlet を使って、SQL-92 クエリを使用することもできます:
$data = Invoke-HDFS -Connection $hdfs -Query 'SELECT * FROM Files WHERE FileId = @FileId' -Params @{'@FileId'='119116'}
-
戻り値からカラム名のリストを保存します。
$columns = ($data | Get-Member -MemberType NoteProperty | Select-Object -Property Name).Name
HDFS のデータをMySQL データベースにレプリケーション
カラム名を指定できるようにして、データをMySQL データベースにレプリケーションします。
-
モジュールのインストール:
Install-Module MySQLCmdlets
-
MySQL DB に、MySQL Server 名、ユーザー、パスワード、レプリケーション先のデータベース名を指定して、接続します:
$mysql = Connect-MySQL -User $User -Password $Password -Database $Database -Server $Server -Port $Port
-
HDFS、保存された値、そしてAdd-MySQL Cmdlet を使って、MySQL にデータを1レコードずつ挿入します。この例では、MySQL 側のテーブルは、HDFS のリソース(Files)と同じテーブル名を持っている必要があります。
$data | % { $row = $_ $values = @() $columns | % { $col = $_ $values += $row.$($col) } Add-MySQL -Connection $mysql -Table "Files" -Columns $columns -Values $values }
次回以降のレプリケーションをシンプルに実現
-
一度PowerShell でHDFS とMySQL に接続したら、次からは1行のコマンドでレプリケーションを実施できます:
Select-HDFS -Connection $hdfs -Table "Files" | % { $row = $_ $values = @() $columns | % { $col = $_ $values += $row.$($col) } Add-MySQL -Connection $mysql -Table "Files" -Columns $columns -Values $values }
-
別のPowerShell モジュールで、HDFS を別のデータベースに複製する場合、Select-HDFS cmdlet のデータから、カラム、接続およびテーブルを除外しておきましょう。これらのデータはデータ移動のときだけ必要となるためです。
$columns = ($data | Get-Member -MemberType NoteProperty | Select-Object -Property Name).Name | ? {$_ -NotIn @('Columns','Connection','Table')}
おわりに
これで、HDFS のデータをMySQL に複製できました。分析、BI などでHDFS のデータをMySQL から使うことができるようになります。