製品をチェック

製品の詳細・30日間の無償トライアルはこちら

CData Sync

MySQL HeatWave にAmazon Athena のデータを統合する方法

Amazon Athena データをMySQL HeatWave にCDC を使って統合する方法を解説。CData Sync を使えば、データ分析基盤への各種業務システムのデータ収集を簡単に実現できます。

加藤龍彦
デジタルマーケティング

最終更新日:2024-06-07
athena ロゴ

CData

sync ロゴ画像
MySQL ロゴ

こんにちは!ウェブ担当の加藤です。マーケ関連のデータ分析や整備もやっています。

CData Sync は、数百のSaaS / DB のデータをMySQL HeatWave をはじめとする各種DB / データウェアハウスにノーコードで統合・レプリケーション(複製)が可能なETL / ELT ツールです。本記事では、Amazon Athena データをCData Sync を使ってOracle Cloud Infrastructure(OCI)上のMySQL HeatWave に統合するデータパイプラインを作っていきます。

CData Sync とは?

CData Sync は、レポーティング、アナリティクス、機械学習、AI などで使えるよう、社内のデータを一か所に統合して管理できるデータ基盤をノーコードで構築できるETL ツールで、以下の特徴を持っています。

  1. Amazon Athena をはじめとする400種類以上のSaaS / DB データに対応
  2. MySQL HeatWave など多くのレイクハウス、RDB、データレイク、データウェアハウスに同期可能
  3. 業務データのデータ分析基盤へのETL / ELT 機能に特化し、極限まで設定操作をシンプルに
  4. 主要なSaaS データの差分更新やCDC(Change Data Capture、変更データキャプチャ)のサポート
  5. フレキシブルなSQL / dbt 連携での取得データの変換

CData Sync では、1. データソースとしてAmazon Athena の接続を設定、2. 同期先としてMySQL HeatWave の接続を設定、3. Amazon Athena からMySQL HeatWave へのレプリケーションジョブの作成、という3つのステップだけでレプリケーション処理を作成可能です。以下に具体的な設定手順を説明します。

CData Sync をHeatWave に連携する二つの方法

CData Sync を使ってAmazon Athena をHeatWave に連携するには、以下の二つの方法があります。

  1. OCI 上のLinux インスタンスにCData Sync をインストールして、その環境からSync を操作する
  2. OCI 上のLinux インスタンスをSSH 踏み台サーバーとして活用して、OCI 以外の環境にインストールしたCData Sync を操作する

今回はより簡単にセットアップ可能な①の方法をご紹介しますが、自社の環境に応じて①と②、どちらの方法を採用するかご検討ください。②の方法でHeatWave と連携する場合は、こちらの記事を参考にしていただけます。

CData Sync は無償トライアルを提供していますので、以下からダウンロードしてお試しください。

無償トライアルへ

事前準備

本手順では、Oracle Cloud Infrastructure(以下、OCI)上にMySQL HeatWave、およびCData Sync を用いたデータパイプラインを構築します。構成は以下のとおりです。

今回構築するパイプライン

MySQL HeatWave のインスタンスについては、事前に作成しているものとして進めていきます。未作成の場合は、OCI の記事を参考に作成してみてください。

それでは、OCI に接続に使用するLinux インスタンスを作ってみましょう。

作成したOCI インスタンスの画面

外部からのアクセスポートはssh 接続のみ許容していて、予めssh キーのキー・ペアを生成しておき、秘密キーをダウンロードしています。

ssh キーペアの作成画面

また、Linux 上のCData Sync へのアクセスにはOCI 上の仮想ファイアウォール、およびOS 上のファイアウォールの設定が必要になります。設定には、スマートスタイル社のこちらの記事を参考にしていただけます。

次に、MySQL HeatWave に今回使用するテーブルを作成して、Linux インスタンスにCData Sync をインストールしていきます。

HeatWave インスタンスに今回使用するデータベースを作る

MySQL 上にAmazon Athena のデータを同期するテーブルを作る

まずは、MySQL 上に今回Amazon Athena のデータを同期するテーブルを作っていきます。

最初に作成したLinux インスタンスに接続しましょう。各環境でのインスタンスへの接続方法はOCI の記事が参考になります。

yum install mysql などのコマンドでMySQL をインストールしたら、MySQL にHeatWave のプライベートIP アドレスを指定して接続します。

mysql -u root -p -h <プライベートIPアドレス>

接続出来たら、以下のコマンドでテーブルを作成しましょう(例としてsync を使用)。

mysql> CREATE DATABASE sync;

以下のコマンドを実行して、作成したテーブルが含まれていればOKです。

mysql> SHOW DATABASES;

Linux インスタンスにCData Sync をインストール

Linux インスタンスにCData Sync をインストール

次に、クロスプラットフォーム版CData Sync をダウンロードして、Linux インスタンスにscp コマンドなどでコピーしておきましょう。

Sync はこちらのページから30日間無償トライアルがダウンロードできますので、お気軽にお試しください。

インスタンスにssh 接続してCData Sync をインストールしていきます。

コピーしておいたCDataSync.tar.gz ファイルをtar コマンドで任意のディレクトリに展開します。

tar -xvzf CDataSync.tar.gz -C CDataSync

それでは、CData Sync を起動してみましょう!

CData Sync をインストールしたディレクトリに移動したら以下のコマンドを実行して、Sync を起動します。

java -jar sync.jar

以下のメッセージが表示されていれば、起動は成功です。

INFO: Sync is now running. Please visit http://localhost:8181 to login.

それでは、以下のアドレスにクライアントからアクセスして、Sync にアクセスしてみましょう。

http://<インスタンスのパブリックIP アドレス>:8181

以下のようなユーザー作成画面が表示されたら準備完了です!ユーザーを作成して、Sync にログインしてみましょう。

Syncのユーザー作成画面

CData Sync のデータソースとしてAmazon Athena の接続を設定

クライアント側からSync にアクセスして設定

ユーザーを作成してCData Sync にログインしたら、データソースとしてAmazon Athena を設定していきましょう。左の[接続]タブをクリックします。

  1. [+接続の追加]ボタンをクリックします。 コネクションの追加。
  2. [データソース]タブを選択して、リスト表示されるデータソースを選ぶか、検索バーにデータソース名を入力して、Amazon Athena を見つけます。
  3. Amazon Athena の右側の[→]をクリックして、Amazon Athena アカウントへの接続画面を開きます。もし、Amazon Athena のコネクタがデフォルトでCData Sync にインストールされていない場合には、ダウンロードアイコン(コネクタのアップロードアイコン)をクリックし、[ダウンロード]をクリックすると、CData Sync にコネクタがインストールされます。 データソースの追加。
  4. 接続プロパティにAmazon Athena に接続するアカウント情報を入力をします。

    Amazon Athena 接続プロパティの取得・設定方法

    Amazon Athena リクエストの認証には、アカウントの管理のクレデンシャルか、IAM ユーザーのカスタムPermission を設定します。 AccessKey にAccess Key Id、SecretKey にはSecret Access Key を設定します。

    AWS アカウントアドミニストレータとしてアクセスできる場合でも、AWS サービスへの接続にはIAM ユーザークレデンシャルを使用することが推奨されます。

    IAM ユーザーのクレデンシャル取得は以下のとおり:

    1. IAM コンソールにログイン。
    2. Navigation ペインで「ユーザー」を選択。
    3. ユーザーのアクセスキーを作成または管理するには、ユーザーを選択してから「セキュリティ認証情報」タブを選択。

    AWS ルートアカウントのクレデンシャル取得は以下のとおり:

    1. ルートアカウントの資格情報を使用してAWS 管理コンソールにサインイン。
    2. アカウント名または番号を選択し、表示されたメニューで「My Security Credentials」を選択。
    3. 「Continue to Security Credentials」をクリックし、「Access Keys」セクションを展開して、ルートアカウントのアクセスキーを管理または作成。

    EC2 インスタンスからの認証

    EC2 インスタンスからCData 製品を使用していて、そのインスタンスにIAM ロールが割り当てられている場合は、認証にIAM ロールを使用できます。 これを行うには、UseEC2Roles をtrue に設定しAccessKeySecretKey を空のままにします。 CData 製品は自動的にIAM ロールの認証情報を取得し、それらを使って認証します。

    AWS ロールとして認証

    多くの場合、認証にはAWS ルートユーザーのダイレクトなセキュリティ認証情報ではなく、IAM ロールを使用することをお勧めします。 代わりにRoleARN を指定してAWS ロールを使用できます。これにより、CData 製品は指定されたロールの資格情報を取得しようと試みます。 (すでにEC2 インスタンスなどで接続されているのではなく)AWS に接続している場合は、役割を担うIAM ユーザーのAccessKeySecretKey を追加で指定する必要があります。AWS ルートユーザーのAccessKey およびSecretKey を指定する場合、 ロールは使用できません。

    MFA での認証

    多要素認証を必要とするユーザーおよびロールには、MFASerialNumber およびMFAToken 接続プロパティを指定してください。 これにより、CData 製品は一時的な認証資格情報を取得するために、リクエストでMFA 認証情報を送信します。一時的な認証情報の有効期間 (デフォルトは3600秒)は、TemporaryTokenDuration プロパティを介して制御できます。

    Amazon Athena への接続

    AccessKeySecretKey プロパティに加え、DatabaseS3StagingDirectoryRegion を設定します。Region をAmazon Athena データがホストされているリージョンに設定します。S3StagingDirectory をクエリの結果を格納したいS3内のフォルダに設定します。

    接続にDatabase が設定されていない場合は、CData 製品はAmazon Athena に設定されているデフォルトデータベースに接続します。

    データソースの追加。
  5. [作成およびテスト]をクリックして、正しくAmazon Athena に接続できているかをテストして保存します。これでレプリケーションのデータソースとしてAmazon Athena への接続が設定されました。

同期先としてMySQL HeatWave の接続を設定

次に、Amazon Athena データを書き込む先(=同期先)として、MySQL HeatWave を設定します。同じく[接続]タブを開きましょう。

  1. [+接続の追加]ボタンをクリックします。
  2. [同期先]タブを選択して、リスト表示されるデータソースを選ぶか、検索バーにデータソース名を入力して、「MySQL」を見つけます。今回接続するのはMySQL HeatWave ですが、Sync での接続ではMySQL を使用してOKです。
  3. MySQL の右側の[→]をクリックして、MySQL HeatWave データベースへの接続画面を開きます。 MySQL HeatWave を同期先に設定。
  4. 必要な接続プロパティを入力します。MySQL HeatWave との接続には、以下のプロパティが必要です:
    • Server: HeatWave のプライベートIP アドレス。
    • Port: サーバーのポート。デフォルトは3306
    • User: HeatWave 構成時に設定したユーザー名。
    • Password: HeatWave 構成時に設定したパスワード。
    • Database: 同期先のデータベース名(本記事ではsync を使用)。

    プライベートIPアドレスとポートについてはMySQL Heatwaveの接続タブから確認できます。

    HeatWave のプライベートIP アドレスとポート。
  5. [作成およびテスト]をクリックして、正しく接続できているかをテストします。
  6. これで同期先としてMySQL HeatWave を設定できました。CData Sync では、MySQL HeatWave のデータベース名を指定するだけで、同期するAmazon Athena に併せたテーブルスキーマを自動的にCREATE TABLE してくれます。同期データに合わせたテーブルを事前に作成するなどの面倒な手順は必要ありません。もちろん、既存テーブルにマッピングを行いデータ同期を行うことも可能です。

Amazon Athena からMySQL HeatWave へのレプリケーションジョブの作成

CData Sync では、レプリケーションをジョブ単位で設定します。ジョブは、Amazon Athena からMySQL という単位で設定し、複数のテーブルを含むことができます。レプリケーションジョブ設定には、[ジョブ]タブに進み、[+ジョブを追加]ボタンをクリックします。 ジョブの追加Salesforce の例)。

[ジョブを追加]画面が開き、以下を入力します。

  1. 名前:ジョブの名前
  2. データソース:ドロップダウンリストから先に設定したAmazon Athena を選択
  3. 同期先:先に設定したMySQL を選択
データソースの設定Salesforce の例)。

すべてのオブジェクトをレプリケーションする場合

Amazon Athena のすべてのオブジェクト / テーブルをレプリケーションするには、[種類]セクションで[すべて同期]を選択して、[タスクを追加]ボタンで確定します。

作成したジョブ画面で、右上の[▷実行]ボタンをクリックするだけで、全Amazon Athena テーブルのMySQL HeatWave への同期を行うことができます。

オブジェクトを選択してレプリケーションする場合

Amazon Athena から特定のオブジェクト / テーブルを選択してレプリケーションを行うことが可能です。[種類]セクションでは、[標準(個別設定)]を選んでください。

次に[ジョブ]画面で、[タスク]タブをクリックし、[タスクを追加]ボタンをクリックします。 ジョブへのタスク追加Salesforce の例)。

するとCData Sync で利用可能なオブジェクト / テーブルのリストが表示されるので、レプリケーションを行うオブジェクトにチェックを付けます(複数選択可)。[タスクを追加]ボタンで確定します。

タスク選択(Salesforce の例)。

作成したジョブ画面で、[▷実行]ボタンをクリックして(もしくは各タスク毎の実行ボタンを押して)、レプリケーションジョブを実行します。 作成したジョブの実行(Salesforce の例)。

それでは、実際にHeatWave にAmazon Athena データが同期されているかどうか、OCI インスタンス上のMySQL Shell で確認してみましょう。

mysql> USE sync; Reading table information for completion of table and column names You can turn off this feature to get a quicker startup with -A Database changed mysql> show tables; +----------------+ | Tables_in_sync | +----------------+ | Customers | +----------------+ 1 rows in set (0.00 sec)

Customers が同期されていますね!このように、とても簡単にAmazon Athena からMySQL HeatWave への同期を行うことができました。

CData Sync の主要な機能を試してみる:スケジューリング・差分更新・ETL

ジョブのスケジュール起動設定

CData Sync では、同期ジョブを1日に1回や15分に1回などのスケジュール起動をすることができます。ジョブ画面の[概要]タブから[スケジュール]パネルを選び、[⚙設定]ボタンをクリックします。[間隔]と同期時間の[毎時何分]を設定し、[保存]を押して設定を完了します。これでCData Sync が同期ジョブをスケジュール実行してくれます。ユーザーはダッシュボードで同期ジョブの状態をチェックするだけです。 スケジュール実行設定。

差分更新

CData Sync では、主要なデータソースでは、差分更新が可能です。差分更新では、最後のジョブ実行時からデータソース側でデータの追加・変更があったデータだけを同期するので、レプリケーションのクエリ・通信のコストを圧倒的に抑えることが可能です。

差分更新を有効化するには、ジョブの[概要]タブから「差分更新」パネルを選び、[⚙設定]ボタンをクリックします。[開始日]と[レプリケーション間隔]を設定して、[保存]します。

SQL での取得データのカスタマイズ

CData Sync は、デフォルトではAmazon Athena のオブジェクト / テーブルをそのままMySQL HeatWave に複製しますが、ここにSQL、またはdbt 連携でのETL 処理を組み込むことができます。テーブルカラムが多すぎる場合や、データ管理の観点から一部のカラムだけをレプリケーションしたり、さらにデータの絞り込み(フィルタリング)をしたデータだけをレプリケーションすることが可能です。

ジョブの[概要]タブ、[タスク]タブへと進みます。選択されたタスク(テーブル)の[▶]の左側のメニューをクリックし、[編集]を選びます。タスクの編集画面が開きます。

UI からカラムを選択する場合には、[カラム]タブから[マッピング編集]をクリックします。レプリケーションで使用しないカラムからチェックを外します。

SQL を記述して、フィルタリングなどのカスタマイズを行うには、[クエリ]タブをクリックし、REPLICATE [テーブル名]の後に標準SQL でフィルタリングを行います。 レプリケーションのカスタマイズ設定。

Amazon Athena からMySQL HeatWave へのデータ同期には、ぜひCData Sync をご利用ください

このようにノーコードで簡単にAmazon Athena データをMySQL HeatWave にレプリケーションできます。データ分析、AI やノーコードツールからのデータ利用などさまざまな用途でCData Sync をご利用いただけます。30日の無償トライアルで、シンプルでパワフルなデータパイプラインを体感してください。

日本のユーザー向けにCData Sync は、UI の日本語化、ドキュメントの日本語化、日本語でのテクニカルサポートを提供しています。

CData Sync の 導入事例を併せてご覧ください。

関連コンテンツ

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。