製品

ソリューション

コネクタ

サポート

価格

企業情報

お役立ち情報

ブログ

検索お問い合わせ

製品をチェック

製品の詳細・30日間の無償トライアルはこちら

CData Sync

BigQuery へのAmazon S3 データのETL パイプラインを作ってデータを統合する方法

データパイプラインツールのCData Sync を使って、Amazon S3 データのBigQuery へのETL パイプラインをノーコードで作成してデータを統合する方法を解説します。

宮本航太
プロダクトスペシャリスト
最終更新日：2024-01-19

CData

こんにちは！プロダクトスペシャリストの宮本です。

CData Sync は、数百のSaaS / DB のデータをGoogle BigQuery をはじめとする各種DB / データウェアハウスにノーコードで統合・レプリケーション（複製）が可能なデータパイプラインツールです。本記事では、Amazon S3 データをCData Sync を使ってGoogle BigQuery に統合するデータパイプラインを作っていきます。

CData Sync とは？

CData Sync は、レポーティング、アナリティクス、機械学習、AI などで使えるよう、社内のデータを一か所に統合して管理できるデータ基盤をノーコードで構築できるETL ツールで、以下の特徴を持っています。

Amazon S3 をはじめとする数百種類のSaaS / DB データに対応
Google BigQuery など多くのRDB、データレイク、データストア、データウェアハウスに同期可能
業務データのデータ分析基盤へのETL / ELT 機能に特化し、極限まで設定操作をシンプルに
主要なSaaS データの差分更新やCDC（Change Data Capture、変更データキャプチャ）のサポート
フレキシブルなSQL での取得データの操作

CData Sync では、1.データソースとしてAmazon S3 の接続を設定、2.同期先としてGoogle BigQuery の接続を設定、3.Amazon S3 からGoogle BigQuery へのレプリケーションジョブの作成、という3つのステップだけでレプリケーション処理を作成可能です。以下に具体的な設定手順を説明します。

1.データソースとしてAmazon S3 の接続を設定

まずはじめに、CData Sync のブラウザ管理コンソールにログインします。CData Sync のインストールをまだ行っていない方は本記事の製品リンクからCData Sync をクリックして、30日の無償トライアルとしてCData Sync をインストールしてください。インストール後にCData Sync が起動して、ブラウザ設定画面が開きます。

それでは、データソース側にAmazon S3 を設定していきましょう。左の［接続］タブをクリックします。

［＋接続の追加］ボタンをクリックします。
［データソース］タブを選択して、リスト表示されるデータソースを選ぶか、検索バーにデータソース名を入力して、Amazon S3 を見つけます。
Amazon S3 の右側の［→］をクリックして、Amazon S3 アカウントへの接続画面を開きます。もし、Amazon S3 のコネクタがデフォルトでCData Sync にインストールされていない場合には、ダウンロードアイコン（コネクタのアップロードアイコン）をクリックし、［ダウンロード］をクリックすると、CData Sync にコネクタがインストールされます。
接続プロパティにAmazon S3 に接続するアカウント情報を入力をします。

Amazon S3 リクエストを認可するには、管理者アカウントまたはカスタム権限を持つIAM ユーザーの認証情報を入力します。AccessKey をアクセスキーID に設定します。SecretKey をシークレットアクセスキーに設定します。

Note: AWS アカウント管理者として接続できますが、AWS サービスにアクセスするにはIAM ユーザー認証情報を使用することをお勧めします。

尚、CData 製品はAmazon S3 のファイルの一覧表示やユーザー管理情報の取得用です。S3 に保管されているExcel、CSV、JSON などのファイル内のデータを読み込みたい場合には、Excel Driver、CSV Driver、JSON Driver をご利用ください。

アクセスキーの取得

IAM ユーザーの資格情報を取得するには：
1. IAM コンソールにサインインします。
2. ナビゲーションペインで「ユーザー」を選択します。
3. ユーザーのアクセスキーを作成または管理するには、ユーザーを選択してから「セキュリティ認証情報」タブを選択します。
AWS ルートアカウントの資格情報を取得するには：
1. ルートアカウントの資格情報を使用してAWS 管理コンソールにサインインします。
2. アカウント名または番号を選択し、表示されたメニューで「My Security Credentials」を選択します。
3. 「Continue to Security Credentials」をクリックし、「Access Keys」セクションを展開して、ルートアカウントのアクセスキーを管理または作成します。
AWS ロールとして認証

多くの場合、認証にはAWS ルートユーザーのダイレクトなセキュリティ認証情報ではなく、IAM ロールを使用することをお勧めします。RoleARN を指定することでAWS ロールを代わりに使用できます。これにより、CData 製品は指定されたロールの資格情報を取得しようと試みます。

（すでにEC2 インスタンスなどで接続されているのではなく）AWS に接続している場合は、ロールを引き受けるIAM ユーザーのAccessKey とSecretKey を追加で指定する必要があります。AWS ルートユーザーのAccessKey および SecretKey を指定する場合、ロールは使用できません。

SSO 認証

SSO 認証を必要とするユーザーおよびロールには、RoleARN およびPrincipalArn 接続プロパティを指定してください。各Identity Provider に固有のSSOProperties を指定し、AccessKey とSecretKey を空のままにする必要があります。これにより、CData 製品は一時的な認証資格情報を取得するために、リクエストでSSO 認証情報を送信します。
［作成およびテスト］をクリックして、正しくAmazon S3 に接続できているかをテストして保存します。これでレプリケーションのデータソースとしてAmazon S3 への接続が設定されました。

2.同期先としてGoogle BigQuery の接続を設定

次に、Amazon S3 データを書き込む先（＝同期先）として、Google BigQuery を設定します。同じく［接続］タブを開きます。

［＋接続の追加］ボタンをクリックします。
［同期先］タブを選択して、リスト表示されるデータソースを選ぶか、検索バーにデータソース名を入力して、Google BigQuery を見つけます。
Google BigQuery の右側の［→］をクリックして、Google BigQuery データベースへの接続画面を開きます。もし、Google BigQuery のコネクタがデフォルトでCData Sync にインストールされていない場合には、ダウンロードアイコン（コネクタのアップロードアイコン）をクリックし、［ダウンロード］をクリックすると、CData Sync にコネクタがインストールされます。
必要な接続プロパティを入力します。Google BigQuery への接続には、OAuth 認証を使用します：

User Account での認証

このOAuth フローでは、ユーザーアカウントクレデンシャルを入力する必要がありません。
1. ［接続のテスト］をクリックするとCData Sync がGoogle BigQuery へのOAuth エンドポイントを開きます。
2. ログインしてCData Sync にアクセスを許可します。
3. CData Sync は、OAuth プロセスを完了します。
Service Account として認証する

Service Accounts では、ブラウザでのユーザーによる承認なしで認証が可能です。Service Accounts にEnterprise-wide の権限をCData Sync に許可することも可能です。
この場合には、OAuth アプリケーションを作成する必要があります。カスタムOAuth アプリの作成を参照してください。はじめにのセクションにOAuth アプリケーションを作成・認証する方法が説明されています。

これらの接続プロパティを入力して接続します：
- OAuthClientId: アプリケーションで設定したClient。
- OAuthClientSecret: アプリケーションのClient Secret。
- OAuthJWTCertType: "PEMKEY_FILE" 設定。
- OAuthJWTCert: 生成した.pem ファイル。
- OAuthJWTCertPassword:.pem ファイルのパスワード。
- OAuthJWTCertSubject: 証明書ストアの最初の証明書を選択するには"*" を選択します。
- OAuthJWTSubject: 権限アクセスを委譲するE メールアドレス。アクセス以上は管理者による承認が必要です。
- DatasetId: 接続するデータセットのID。
- ProjectId: 接続するプロジェクトのID。
接続するとCData Sync がService Account へのOAuth フローを完了します。
［作成およびテスト］をクリックして、正しく接続できているかをテストします
これで同期先としてGoogle BigQuery を設定できました。CData Sync では、Google BigQuery のデータベース名を指定するだけで、同期するAmazon S3 に併せたテーブルスキーマを自動的にCREATE TABLE してくれます。同期データに合わせたテーブルを事前に作成するなどの面倒な手順は必要ありません。もちろん、既存テーブルにマッピングを行いデータ同期を行うことも可能です。

3.Amazon S3 からGoogle BigQuery へのレプリケーションジョブの作成

CData Sync では、レプリケーションをジョブ単位で設定します。ジョブは、Amazon S3 からGoogle BigQuery という単位で設定し、複数のテーブルを含むことができます。レプリケーションジョブ設定には、［ジョブ］タブに進み、［＋ジョブを追加］ボタンをクリックします。

［ジョブを追加］画面が開き、以下を入力します：

名前：ジョブの名前
データソース：ドロップダウンリストから先に設定したAmazon S3 を選択
同期先：先に設定したGoogle BigQuery を選択

すべてのオブジェクトをレプリケーションする場合

Amazon S3 のすべてのオブジェクト / テーブルをレプリケーションするには、［種類］セクションで［すべて同期］を選択して、［ジョブを追加］ボタンで確定します。

作成したジョブ画面で、右上の［▷実行］ボタンをクリックするだけで、全Amazon S3 テーブルのGoogle BigQuery への同期を行うことができます。

オブジェクトを選択してレプリケーションする場合

Amazon S3 から特定のオブジェクト / テーブルを選択してレプリケーションを行うことが可能です。［種類］セクションでは、［標準（個別設定）］を選んでください。

次に［ジョブ］画面で、［タスク］タブをクリックし、［タスクを追加］ボタンをクリックします。

するとCData Sync で利用可能なオブジェクト / テーブルのリストが表示されるので、レプリケーションを行うオブジェクトにチェックを付けます（複数選択可）。［ジョブを追加］ボタンで確定します。

作成したジョブ画面で、［▷実行］ボタンをクリックして（もしくは各タスク毎の実行ボタンを押して）、レプリケーションジョブを実行します。

このようにとても簡単にAmazon S3 からGoogle BigQuery への同期を行うことができました。

CData Sync の主要な機能を試してみる：スケジューリング・差分更新・ETL

ジョブのスケジュール起動設定

CData Sync では、同期ジョブを1日に1回や15分に1回などのスケジュール起動をすることができます。ジョブ画面の［概要］タブから［スケジュール］パネルを選び、［⚙設定］ボタンをクリックします。［間隔］と同期時間の［毎時何分］を設定し、［保存］を押して設定を完了します。これでCData Sync が同期ジョブをスケジュール実行してくれます。ユーザーはダッシュボードで同期ジョブの状態をチェックするだけです。

差分更新

CData Sync では、主要なデータソースでは、差分更新が可能です。差分更新では、最後のジョブ実行時からデータソース側でデータの追加・変更があったデータだけを同期するので、レプリケーションのクエリ・通信のコストを圧倒的に抑えることが可能です。

差分更新を有効化するには、ジョブの［概要］タブから「差分更新」パネルを選び、［⚙設定］ボタンをクリックします。［開始日］と［レプリケーション間隔］を設定して、［保存］します。

SQL での取得データのカスタマイズ

CData Sync は、デフォルトではAmazon S3 のオブジェクト / テーブルをそのままGoogle BigQuery に複製しますが、ここにSQL、またはdbt 連携でのETL 処理を組み込むことができます。テーブルカラムが多すぎる場合や、データ管理の観点から一部のカラムだけをレプリケーションしたり、さらにデータの絞り込み（フィルタリング）をしたデータだけをレプリケーションすることが可能です。

ジョブの［概要］タブ、［タスク］タブへと進みます。選択されたタスク（テーブル）の［▶］の左側のメニューをクリックし、［編集］を選びます。タスクの編集画面が開きます。

UI からカラムを選択する場合には、［カラム］タブから［マッピング編集］をクリックします。レプリケーションで使用しないカラムからチェックを外します。

SQL を記述して、フィルタリングなどのカスタマイズを行うには、［クエリ］タブをクリックし、REPLICATE ［テーブル名］の後に標準SQL でフィルタリングを行います。

Amazon S3 からGoogle BigQuery へのデータ同期には、ぜひCData Sync をご利用ください

このようにノーコードで簡単にAmazon S3 データをGoogle BigQuery にレプリケーションできます。データ分析、AI やノーコードツールからのデータ利用などさまざまな用途でCData Sync をご利用いただけます。30日の無償トライアルで、シンプルでパワフルなデータパイプラインを体感してください。

日本のユーザー向けにCData Sync は、UI の日本語化、ドキュメントの日本語化、日本語でのテクニカルサポートを提供しています。

CData Sync の導入事例を併せてご覧ください。

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。

無償トライアルへ

お問い合わせ

CData Software は、データアクセスおよびデータ接続ソリューションのリーディングプロバイダーです。CData の標準コネクタはあらゆるツール・ミドルウェアからのSaaS やDB データの連携を簡単にします。

お問い合わせ

製品概要

データコネクタ

ETL/ ELT ソリューション

クラウド&API 接続

OEM & カスタムドライバー開発

お問い合わせ先

製品を知る

データ分析 & BI

企業情報

ニュース & 事例

ソリューション

開催予定のイベント

サポート

ブログへ →

ナレッジベース