製品をチェック

製品の詳細・30日間の無償トライアルはこちら

CData Sync

MySQL HeatWave にParquet のデータを統合する方法

Parquet のデータをMySQL HeatWave にCDC を使って統合する方法を解説。CData Sync を使えば、データ分析基盤への各種業務システムのデータ収集を簡単に実現できます。

加藤龍彦
デジタルマーケティング

最終更新日:2024-06-07
parquet ロゴ

CData

sync ロゴ画像
MySQL ロゴ

こんにちは!ウェブ担当の加藤です。マーケ関連のデータ分析や整備もやっています。

CData Sync は、数百のSaaS / DB のデータをMySQL HeatWave をはじめとする各種DB / データウェアハウスにノーコードで統合・レプリケーション(複製)が可能なETL / ELT ツールです。本記事では、Parquet のデータをCData Sync を使ってOracle Cloud Infrastructure(OCI)上のMySQL HeatWave に統合するデータパイプラインを作っていきます。

CData Sync とは?

CData Sync は、レポーティング、アナリティクス、機械学習、AI などで使えるよう、社内のデータを一か所に統合して管理できるデータ基盤をノーコードで構築できるETL ツールで、以下の特徴を持っています。

  1. Parquet をはじめとする400種類以上のSaaS / DB データに対応
  2. MySQL HeatWave など多くのレイクハウス、RDB、データレイク、データウェアハウスに同期可能
  3. 業務データのデータ分析基盤へのETL / ELT 機能に特化し、極限まで設定操作をシンプルに
  4. 主要なSaaS データの差分更新やCDC(Change Data Capture、変更データキャプチャ)のサポート
  5. フレキシブルなSQL / dbt 連携での取得データの変換

CData Sync では、1. データソースとしてParquet の接続を設定、2. 同期先としてMySQL HeatWave の接続を設定、3. Parquet からMySQL HeatWave へのレプリケーションジョブの作成、という3つのステップだけでレプリケーション処理を作成可能です。以下に具体的な設定手順を説明します。

CData Sync をHeatWave に連携する二つの方法

CData Sync を使ってParquet をHeatWave に連携するには、以下の二つの方法があります。

  1. OCI 上のLinux インスタンスにCData Sync をインストールして、その環境からSync を操作する
  2. OCI 上のLinux インスタンスをSSH 踏み台サーバーとして活用して、OCI 以外の環境にインストールしたCData Sync を操作する

今回はより簡単にセットアップ可能な①の方法をご紹介しますが、自社の環境に応じて①と②、どちらの方法を採用するかご検討ください。②の方法でHeatWave と連携する場合は、こちらの記事を参考にしていただけます。

CData Sync は無償トライアルを提供していますので、以下からダウンロードしてお試しください。

無償トライアルへ

事前準備

本手順では、Oracle Cloud Infrastructure(以下、OCI)上にMySQL HeatWave、およびCData Sync を用いたデータパイプラインを構築します。構成は以下のとおりです。

今回構築するパイプライン

MySQL HeatWave のインスタンスについては、事前に作成しているものとして進めていきます。未作成の場合は、OCI の記事を参考に作成してみてください。

それでは、OCI に接続に使用するLinux インスタンスを作ってみましょう。

作成したOCI インスタンスの画面

外部からのアクセスポートはssh 接続のみ許容していて、予めssh キーのキー・ペアを生成しておき、秘密キーをダウンロードしています。

ssh キーペアの作成画面

また、Linux 上のCData Sync へのアクセスにはOCI 上の仮想ファイアウォール、およびOS 上のファイアウォールの設定が必要になります。設定には、スマートスタイル社のこちらの記事を参考にしていただけます。

次に、MySQL HeatWave に今回使用するテーブルを作成して、Linux インスタンスにCData Sync をインストールしていきます。

HeatWave インスタンスに今回使用するデータベースを作る

MySQL 上にParquet のデータを同期するテーブルを作る

まずは、MySQL 上に今回Parquet のデータを同期するテーブルを作っていきます。

最初に作成したLinux インスタンスに接続しましょう。各環境でのインスタンスへの接続方法はOCI の記事が参考になります。

yum install mysql などのコマンドでMySQL をインストールしたら、MySQL にHeatWave のプライベートIP アドレスを指定して接続します。

mysql -u root -p -h <プライベートIPアドレス>

接続出来たら、以下のコマンドでテーブルを作成しましょう(例としてsync を使用)。

mysql> CREATE DATABASE sync;

以下のコマンドを実行して、作成したテーブルが含まれていればOKです。

mysql> SHOW DATABASES;

Linux インスタンスにCData Sync をインストール

Linux インスタンスにCData Sync をインストール

次に、クロスプラットフォーム版CData Sync をダウンロードして、Linux インスタンスにscp コマンドなどでコピーしておきましょう。

Sync はこちらのページから30日間無償トライアルがダウンロードできますので、お気軽にお試しください。

インスタンスにssh 接続してCData Sync をインストールしていきます。

コピーしておいたCDataSync.tar.gz ファイルをtar コマンドで任意のディレクトリに展開します。

tar -xvzf CDataSync.tar.gz -C CDataSync

それでは、CData Sync を起動してみましょう!

CData Sync をインストールしたディレクトリに移動したら以下のコマンドを実行して、Sync を起動します。

java -jar sync.jar

以下のメッセージが表示されていれば、起動は成功です。

INFO: Sync is now running. Please visit http://localhost:8181 to login.

それでは、以下のアドレスにクライアントからアクセスして、Sync にアクセスしてみましょう。

http://<インスタンスのパブリックIP アドレス>:8181

以下のようなユーザー作成画面が表示されたら準備完了です!ユーザーを作成して、Sync にログインしてみましょう。

Syncのユーザー作成画面

CData Sync のデータソースとしてParquet の接続を設定

クライアント側からSync にアクセスして設定

ユーザーを作成してCData Sync にログインしたら、データソースとしてParquet を設定していきましょう。左の[接続]タブをクリックします。

  1. [+接続の追加]ボタンをクリックします。 コネクションの追加。
  2. [データソース]タブを選択して、リスト表示されるデータソースを選ぶか、検索バーにデータソース名を入力して、Parquet を見つけます。
  3. Parquet の右側の[→]をクリックして、Parquet アカウントへの接続画面を開きます。もし、Parquet のコネクタがデフォルトでCData Sync にインストールされていない場合には、ダウンロードアイコン(コネクタのアップロードアイコン)をクリックし、[ダウンロード]をクリックすると、CData Sync にコネクタがインストールされます。 データソースの追加。
  4. 接続プロパティにParquet に接続するアカウント情報を入力をします。

    Parquet 接続プロパティの取得・設定方法

    ローカルのParquet ファイルに接続するには、URI 接続プロパティをParquet ファイルへのパスに設定してください。

    データソースの追加。
  5. [作成およびテスト]をクリックして、正しくParquet に接続できているかをテストして保存します。これでレプリケーションのデータソースとしてParquet への接続が設定されました。

同期先としてMySQL HeatWave の接続を設定

次に、Parquet のデータを書き込む先(=同期先)として、MySQL HeatWave を設定します。同じく[接続]タブを開きましょう。

  1. [+接続の追加]ボタンをクリックします。
  2. [同期先]タブを選択して、リスト表示されるデータソースを選ぶか、検索バーにデータソース名を入力して、「MySQL」を見つけます。今回接続するのはMySQL HeatWave ですが、Sync での接続ではMySQL を使用してOKです。
  3. MySQL の右側の[→]をクリックして、MySQL HeatWave データベースへの接続画面を開きます。 MySQL HeatWave を同期先に設定。
  4. 必要な接続プロパティを入力します。MySQL HeatWave との接続には、以下のプロパティが必要です:
    • Server: HeatWave のプライベートIP アドレス。
    • Port: サーバーのポート。デフォルトは3306
    • User: HeatWave 構成時に設定したユーザー名。
    • Password: HeatWave 構成時に設定したパスワード。
    • Database: 同期先のデータベース名(本記事ではsync を使用)。

    プライベートIPアドレスとポートについてはMySQL Heatwaveの接続タブから確認できます。

    HeatWave のプライベートIP アドレスとポート。
  5. [作成およびテスト]をクリックして、正しく接続できているかをテストします。
  6. これで同期先としてMySQL HeatWave を設定できました。CData Sync では、MySQL HeatWave のデータベース名を指定するだけで、同期するParquet に併せたテーブルスキーマを自動的にCREATE TABLE してくれます。同期データに合わせたテーブルを事前に作成するなどの面倒な手順は必要ありません。もちろん、既存テーブルにマッピングを行いデータ同期を行うことも可能です。

Parquet からMySQL HeatWave へのレプリケーションジョブの作成

CData Sync では、レプリケーションをジョブ単位で設定します。ジョブは、Parquet からMySQL という単位で設定し、複数のテーブルを含むことができます。レプリケーションジョブ設定には、[ジョブ]タブに進み、[+ジョブを追加]ボタンをクリックします。 ジョブの追加Salesforce の例)。

[ジョブを追加]画面が開き、以下を入力します。

  1. 名前:ジョブの名前
  2. データソース:ドロップダウンリストから先に設定したParquet を選択
  3. 同期先:先に設定したMySQL を選択
データソースの設定Salesforce の例)。

すべてのオブジェクトをレプリケーションする場合

Parquet のすべてのオブジェクト / テーブルをレプリケーションするには、[種類]セクションで[すべて同期]を選択して、[タスクを追加]ボタンで確定します。

作成したジョブ画面で、右上の[▷実行]ボタンをクリックするだけで、全Parquet テーブルのMySQL HeatWave への同期を行うことができます。

オブジェクトを選択してレプリケーションする場合

Parquet から特定のオブジェクト / テーブルを選択してレプリケーションを行うことが可能です。[種類]セクションでは、[標準(個別設定)]を選んでください。

次に[ジョブ]画面で、[タスク]タブをクリックし、[タスクを追加]ボタンをクリックします。 ジョブへのタスク追加Salesforce の例)。

するとCData Sync で利用可能なオブジェクト / テーブルのリストが表示されるので、レプリケーションを行うオブジェクトにチェックを付けます(複数選択可)。[タスクを追加]ボタンで確定します。

タスク選択(Salesforce の例)。

作成したジョブ画面で、[▷実行]ボタンをクリックして(もしくは各タスク毎の実行ボタンを押して)、レプリケーションジョブを実行します。 作成したジョブの実行(Salesforce の例)。

それでは、実際にHeatWave にParquet のデータが同期されているかどうか、OCI インスタンス上のMySQL Shell で確認してみましょう。

mysql> USE sync; Reading table information for completion of table and column names You can turn off this feature to get a quicker startup with -A Database changed mysql> show tables; +----------------+ | Tables_in_sync | +----------------+ | SampleTable_1 | +----------------+ 1 rows in set (0.00 sec)

SampleTable_1 が同期されていますね!このように、とても簡単にParquet からMySQL HeatWave への同期を行うことができました。

CData Sync の主要な機能を試してみる:スケジューリング・差分更新・ETL

ジョブのスケジュール起動設定

CData Sync では、同期ジョブを1日に1回や15分に1回などのスケジュール起動をすることができます。ジョブ画面の[概要]タブから[スケジュール]パネルを選び、[⚙設定]ボタンをクリックします。[間隔]と同期時間の[毎時何分]を設定し、[保存]を押して設定を完了します。これでCData Sync が同期ジョブをスケジュール実行してくれます。ユーザーはダッシュボードで同期ジョブの状態をチェックするだけです。 スケジュール実行設定。

差分更新

CData Sync では、主要なデータソースでは、差分更新が可能です。差分更新では、最後のジョブ実行時からデータソース側でデータの追加・変更があったデータだけを同期するので、レプリケーションのクエリ・通信のコストを圧倒的に抑えることが可能です。

差分更新を有効化するには、ジョブの[概要]タブから「差分更新」パネルを選び、[⚙設定]ボタンをクリックします。[開始日]と[レプリケーション間隔]を設定して、[保存]します。

SQL での取得データのカスタマイズ

CData Sync は、デフォルトではParquet のオブジェクト / テーブルをそのままMySQL HeatWave に複製しますが、ここにSQL、またはdbt 連携でのETL 処理を組み込むことができます。テーブルカラムが多すぎる場合や、データ管理の観点から一部のカラムだけをレプリケーションしたり、さらにデータの絞り込み(フィルタリング)をしたデータだけをレプリケーションすることが可能です。

ジョブの[概要]タブ、[タスク]タブへと進みます。選択されたタスク(テーブル)の[▶]の左側のメニューをクリックし、[編集]を選びます。タスクの編集画面が開きます。

UI からカラムを選択する場合には、[カラム]タブから[マッピング編集]をクリックします。レプリケーションで使用しないカラムからチェックを外します。

SQL を記述して、フィルタリングなどのカスタマイズを行うには、[クエリ]タブをクリックし、REPLICATE [テーブル名]の後に標準SQL でフィルタリングを行います。 レプリケーションのカスタマイズ設定。

Parquet からMySQL HeatWave へのデータ同期には、ぜひCData Sync をご利用ください

このようにノーコードで簡単にParquet のデータをMySQL HeatWave にレプリケーションできます。データ分析、AI やノーコードツールからのデータ利用などさまざまな用途でCData Sync をご利用いただけます。30日の無償トライアルで、シンプルでパワフルなデータパイプラインを体感してください。

日本のユーザー向けにCData Sync は、UI の日本語化、ドキュメントの日本語化、日本語でのテクニカルサポートを提供しています。

CData Sync の 導入事例を併せてご覧ください。

関連コンテンツ

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。