各製品の資料を入手。
詳細はこちら →SnapLogic でParquet を外部サービスに連携
CData JDBC Driver を使用して、SnapLogic と外部サービスを連携。
最終更新日:2021-11-05
この記事で実現できるParquet 連携のシナリオ
こんにちは!ドライバー周りのヘルプドキュメントを担当している古川です。
SnapLogic はintegration Platform-as-a-Service(iPaaS)であり、ユーザーはノーコードでデータ連携フローを作成できます。CData JDBC ドライバと組み合わせることで、ユーザーはSnapLogic ワークフローからParquet を含む250を超えるSaaS、ビッグデータ、NoSQL データソースのリアルタイムデータに接続できます。
組み込みの最適化されたデータ処理によって、CData JDBC Driver はリアルタイムParquet のデータを高速に扱えます。プラットフォームがParquet に複雑なSQL クエリを発行すると、ドライバーはフィルタや集計などのサポートされているSQL 操作をParquet に直接プッシュし、サポートされていない操作(主にSQL 関数とJOIN 操作)は組み込みSQL エンジンを利用してクライアント側で処理します。組み込みの動的メタデータクエリを使用すると、ネイティブデータソース型を使用してParquet のデータを操作することができます。
SnapLogic からParquet に接続する
SnapLogic からParquet のデータに接続するには、CData Parquet JDBC Driver をダウンロードしてインストールします。インストール画面に従ってください。インストールが完了すると、インストール先のディレクトリ(デフォルトでは、C:/Program Files/CData/CData JDBC Driver for Parquet/lib)にJAR ファイルが作成されます。
Parquet JDBC Driver をアップロードする
インストール後、JDBC JAR ファイルをSnapLogic 内のディレクトリ(例えば、projects/Jerod Johnson)にManager タブからアップロードします。

接続を設定する
JDBC Driver がアップロードされると、Parquet への接続を作成できます。
- Designer タブに移動します。
- Snaps から「JDBC」を展開して、「Generic JDBC - Select」snap をdesigner にドラッグします。
- Add Account をクリック(または既存のものを選択)して、「Continue」をクリックします。
- 次のフォームでは、JDBC 接続プロパティを設定します。
- JDBC JARs 以下にアップロードしたJAR ファイルを追加します。
- JDBC Driver Class をcdata.jdbc.parquet.ParquetDriver に設定します。
JDBC URL をParquet JDBC Driver 用のJDBC 接続文字列に設定します。例えば、
jdbc:parquet:URI=C:/folder/table.parquet;RTK=XXXXXX;
です。NOTE: RTK は評価版もしくは製品版のキーです。詳しくは、CData のサポートチームにご連絡ください。
組み込みの接続文字列デザイナー
JDBC URL の作成の補助として、Parquet JDBC Driver に組み込まれている接続文字列デザイナーが使用できます。JAR ファイルをダブルクリックするか、コマンドラインからjar ファイルを実行します。
java -jar cdata.jdbc.parquet.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
Parquet 接続プロパティの取得・設定方法
ローカルのParquet ファイルに接続するには、URI 接続プロパティをParquet ファイルへのパスに設定してください。
- 接続プロパティの入力後、「Validate」、そして「Apply」をクリックします。
Parquet のデータを読み込む
接続を検証、適用後に開くフォームで、クエリを設定します。
- Schema name を"Parquet" に設定します。
- Table name を、スキーマ名を使用したParquet 用のテーブルに設定します。例えば、"Parquet"."SampleTable_1" です(ドロップダウンを使用して利用可能なテーブルの全リストを確認できます)。
- テーブルから、使用したい項目ごとにOutput fields を追加します。

Generic JDBC - Select snap を保存します。
接続とクエリを設定したら、snap の終端部分(以下のハイライト部分)をクリックしてデータをプレビューします。

結果が期待どおりのものであることを確認したら、他のsnap を追加してParquet のデータを別のエンドポイントに渡すこともできます。

Parquet のデータを外部サービスにパイプ
本記事では、データをGoogle Spreadsheet にロードします。他のあらゆるサポートされているsnap が使用でき、Generic JDBC snap を他のCData JDBC ドライバと利用してデータを外部サービスに移すこともできます。
- まず、「Worksheet Writer」snap を"Generic JDBC - Select" snap の終端部分にドロップします。
- Google Sheets に接続するアカウントを追加します。
- Worksheet Writer snap を、Parquet のデータをGoogle Spreadsheet に書き込むよう設定します。
これで、接続済みのパイプラインを実行してParquet からデータを抽出し、Google Spreadsheet にプッシュできます。

詳細情報と無償評価版
CData JDBC Driver for Parquet を使えば、Parquet のデータを外部サービスに連携するためのパイプラインをSnapLogic で作成できます。Parquet への接続に関する詳細については、CData のParquet 連携ページを参照してください。30日の無償評価版をダウンロードして今すぐ使い始めましょう。