HDFS のデータをPowerShell でMySQL にレプリケーションする方法

PowerShell のシンプルなスクリプトで、HDFS のデータ をMySQL データベースにレプリケーション(複製)する方法を紹介します。

古川えりか
コンテンツスペシャリスト

最終更新日:2023-09-26

この記事で実現できるHDFS 連携のシナリオ

こんにちは!ドライバー周りのヘルプドキュメントを担当している古川です。

CData Cmdlets for HDFS を使えば、PowerShell からHDFS のデータ データにリアルタイムで連携できます。データ同期などのタスクの連携にぴったりの製品です。 本記事では、PowerShell からCData Cmdlets for HDFS およびCData Cmdlets for MySQL を使って、同期スクリプトを作成して実行します。

まずは、PowerShell でHDFS への接続を行います。レプリケーションは4つのステップがあります。

HDFS 接続プロパティの取得・設定方法

HDFS への認証には、次の接続プロパティを設定します。

  • Host:HDFS インスタンスのホストに設定してください。
  • Port: HDFS インスタンスのポートに設定してください。デフォルトのポートは"50070" です。

HDFS のデータの取得

  1. モジュールのインストール:

    Install-Module HDFSCmdlets
  2. HDFS への接続:

    $hdfs = Connect-HDFS -Host $Host -Port $Port -Path $Path -User $User
  3. 取得ターゲットのリソースの取得:

    $data = Select-HDFS -Connection $hdfs -Table "Files"

    Invoke-HDFS cmdlet を使って、SQL-92 クエリを使用することもできます:

    $data = Invoke-HDFS -Connection $hdfs -Query 'SELECT * FROM Files WHERE FileId = @FileId' -Params @{'@FileId'='119116'}
  4. 戻り値からカラム名のリストを保存します。

    $columns = ($data | Get-Member -MemberType NoteProperty | Select-Object -Property Name).Name

HDFS のデータをMySQL データベースにレプリケーション

カラム名を指定できるようにして、データをMySQL データベースにレプリケーションします。

  1. モジュールのインストール:

    Install-Module MySQLCmdlets
  2. MySQL DB に、MySQL Server 名、ユーザー、パスワード、レプリケーション先のデータベース名を指定して、接続します:

    $mysql = Connect-MySQL -User $User -Password $Password -Database $Database -Server $Server -Port $Port
  3. HDFS、保存された値、そしてAdd-MySQL Cmdlet を使って、MySQL にデータを1レコードずつ挿入します。この例では、MySQL 側のテーブルは、HDFS のリソース(Files)と同じテーブル名を持っている必要があります。

    $data | % { $row = $_ $values = @() $columns | % { $col = $_ $values += $row.$($col) } Add-MySQL -Connection $mysql -Table "Files" -Columns $columns -Values $values }

次回以降のレプリケーションをシンプルに実現

  • 一度PowerShell でHDFS とMySQL に接続したら、次からは1行のコマンドでレプリケーションを実施できます:

    Select-HDFS -Connection $hdfs -Table "Files" | % { $row = $_ $values = @() $columns | % { $col = $_ $values += $row.$($col) } Add-MySQL -Connection $mysql -Table "Files" -Columns $columns -Values $values }
  • 別のPowerShell モジュールで、HDFS を別のデータベースに複製する場合、Select-HDFS cmdlet のデータから、カラム、接続およびテーブルを除外しておきましょう。これらのデータはデータ移動のときだけ必要となるためです。

    $columns = ($data | Get-Member -MemberType NoteProperty | Select-Object -Property Name).Name | ? {$_ -NotIn @('Columns','Connection','Table')}

おわりに

これで、HDFS のデータをMySQL に複製できました。分析、BI などでHDFS のデータをMySQL から使うことができるようになります。

関連コンテンツ

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。