CData Sync 機能一覧

手軽にハイパフォーマンスなETL / ELT パイプラインを構築するための機能を多数搭載


CData Sync
データパイプラインアイコン

データパイプライン

データ変換(ETL / ELT)

データパイプラインにおいて変換は、レポーティングやデータ分析を容易にするためにデータを加工、整形、集計する方法の1つです。Sync は、データパイプラインを構築する際にデータ変換を管理する手法としてETL(抽出、変換、ロード)およびELT(抽出、ロード、変換)の両方をサポートしています。

データの初期移行

初めてジョブを実行する際、CData Sync はデータソースの履歴データ全体を処理します。このデータには膨大な量の情報が含まれているため、Sync はいくつかの戦略を用いて、効率、パフォーマンス、整合性を最大化します。

差分更新・変更データキャプチャ(CDC)

毎回すべてのデータをロードすることなく、最後のジョブ実行時から追加・変更されたデータだけをクエリできる差分更新機能を搭載。更新対象のデータだけをデータウェアハウスに統合することで作業負荷が大幅に軽減し、帯域幅の使用と同期の遅延を最小限に抑えられます。

並列処理

ジョブで並列処理を使用するよう設定できます。並列処理では、1つのジョブを処理するために複数のワーカースレッドを使用します。並列処理によりSync はワークロードを複数のプロセスに分割し、複数のテーブルを同時に処理することで、より短時間で多くのデータを転送できます。

ヒストリーモード(SCD Type 2)

CData Sync のヒストリーモードは、データソースの履歴データを分析する方法を提供します。ヒストリーモードは、データウェアハウスのデータ変更履歴を保存および管理するSlowly Changing Dimension(SCD) Type 2を実現します。

dbt 連携

人気のデータ変換処理ツール、dbt(Core / Cloud)との連携を提供します。CData Sync からdbt プロジェクト内のテンプレート化されたSQL のコンパイルと実行ができ、モダンなデータモデリング環境の構築を実現できます。

ニアリアルタイムのデータ転送

CData Sync なら、最小1分間隔のデータ転送でデータソース側の変更を遅延なくデータ基盤に転送できます。

リバースETL(Reverse ETL)

CData Sync はDB / DWH からSaaS へのデータ書き戻し機能をサポートしているので、リバースETL 構成のパイプラインを手軽に構築して業務システム内のデータを強化できます。Snowflake、SQL Server などのデータ基盤や基幹システムに統合・集計したデータを業務システムに連携して、データ活用を一歩先へ。

データマネジメントアイコン

データマネジメント

データインテグリティの担保

データ統合戦略の一環として、データの整合性(データインテグリティ)を確保することが重要です。Sync のデータパイプラインでエラーが発生した場合、またはジョブが中断した場合、パイプラインを停止したところから再開できます。更新間やエラー発生時にデータが失われることはありません。

スキーマ変更の自動追従

CData Sync はデータソースのスキーマと同期先のスキーマを比較して差分を検出します。2つのスキーマ間で構造の違いを検出した場合、Sync は同期先のスキーマを変更してデータを格納できるよう同期先テーブルを更新します。

削除のキャプチャ

CData Sync はデータソースから削除されたレコードを自動でキャプチャして、同期先データの精度を保ちます。削除をキャプチャした際の動作は、物理削除・論理削除・スキップを設定できます。

データ型の検出

CData Sync は多くのデータ型を認識し、データ型が厳密に定義できない場合には、Sync はデータに基づいてデータ型を推論します。

管理アイコン

管理・セキュリティ

API 接続

CData Sync は設定管理用のREST API を用意しており、アプリケーションの柔軟な管理を実現します。管理コンソールのUI で実現できることはすべて、REST API の呼び出しで実現できます。

In-Network インストール

CData Sync はどこでも実行できるため、クラウド上にあるシステムと社内ネットワーク上にあるシステムを持つユーザーにとって最適なアプリケーションです。

データ分析基盤の構築を始めるなら