各製品の資料を入手。
詳細はこちら →データパイプライン
データ変換(ETL / ELT)
データパイプラインにおいて変換は、レポーティングやデータ分析を容易にするためにデータを加工、整形、集計する方法の1つです。Sync は、データパイプラインを構築する際にデータ変換を管理する手法としてETL(抽出、変換、ロード)およびELT(抽出、ロード、変換)の両方をサポートしています。
データの初期移行
初めてジョブを実行する際、CData Sync はデータソースの履歴データ全体を処理します。このデータには膨大な量の情報が含まれているため、Sync はいくつかの戦略を用いて、効率、パフォーマンス、整合性を最大化します。
差分更新・変更データキャプチャ(CDC)
毎回すべてのデータをロードすることなく、最後のジョブ実行時から追加・変更されたデータだけをクエリできる差分更新機能を搭載。更新対象のデータだけをデータウェアハウスに統合することで作業負荷が大幅に軽減し、帯域幅の使用と同期の遅延を最小限に抑えられます。
並列処理
ジョブで並列処理を使用するよう設定できます。並列処理では、1つのジョブを処理するために複数のワーカースレッドを使用します。並列処理によりSync はワークロードを複数のプロセスに分割し、複数のテーブルを同時に処理することで、より短時間で多くのデータを転送できます。
ヒストリーモード(SCD Type 2)
CData Sync のヒストリーモードは、データソースの履歴データを分析する方法を提供します。ヒストリーモードは、データウェアハウスのデータ変更履歴を保存および管理するSlowly Changing Dimension(SCD) Type 2を実現します。
dbt 連携
人気のデータ変換処理ツール、dbt(Core / Cloud)との連携を提供します。CData Sync からdbt プロジェクト内のテンプレート化されたSQL のコンパイルと実行ができ、モダンなデータモデリング環境の構築を実現できます。
ニアリアルタイムのデータ転送
CData Sync なら、最小1分間隔のデータ転送でデータソース側の変更を遅延なくデータ基盤に転送できます。
リバースETL(Reverse ETL)
CData Sync はDB / DWH からSaaS へのデータ書き戻し機能をサポートしているので、リバースETL 構成のパイプラインを手軽に構築して業務システム内のデータを強化できます。Snowflake、SQL Server などのデータ基盤や基幹システムに統合・集計したデータを業務システムに連携して、データ活用を一歩先へ。
データマネジメント
データインテグリティの担保
データ統合戦略の一環として、データの整合性(データインテグリティ)を確保することが重要です。Sync のデータパイプラインでエラーが発生した場合、またはジョブが中断した場合、パイプラインを停止したところから再開できます。更新間やエラー発生時にデータが失われることはありません。
スキーマ変更の自動追従
CData Sync はデータソースのスキーマと同期先のスキーマを比較して差分を検出します。2つのスキーマ間で構造の違いを検出した場合、Sync は同期先のスキーマを変更してデータを格納できるよう同期先テーブルを更新します。
削除のキャプチャ
CData Sync はデータソースから削除されたレコードを自動でキャプチャして、同期先データの精度を保ちます。削除をキャプチャした際の動作は、物理削除・論理削除・スキップを設定できます。
データ型の検出
CData Sync は多くのデータ型を認識し、データ型が厳密に定義できない場合には、Sync はデータに基づいてデータ型を推論します。
管理・セキュリティ
API 接続
CData Sync は設定管理用のREST API を用意しており、アプリケーションの柔軟な管理を実現します。管理コンソールのUI で実現できることはすべて、REST API の呼び出しで実現できます。
In-Network インストール
CData Sync はどこでも実行できるため、クラウド上にあるシステムと社内ネットワーク上にあるシステムを持つユーザーにとって最適なアプリケーションです。