本記事では CData サポート担当からこんなことを聞かれたらどこを確認すべきか?という観点で、よく頂くお問合せ内容をご紹介します。
記事はこちら →SnapLogic はintegration Platform-as-a-Service(iPaaS)であり、ユーザーはノーコードでデータ連携フローを作成できます。CData JDBC Drivers と組み合わせることで、ユーザーはSnapLogic ワークフローからHive を含む250を超えるSaaS、ビッグデータ、NoSQL データソースのライブデータに接続できます。
組み込みの最適化されたデータ処理によって、CData JDBC Driver はライブHive データを高速に扱えます。プラットフォームがHive に複雑なSQL クエリを発行すると、ドライバーはフィルタや集計などのサポートされているSQL 操作をHive に直接プッシュし、サポートされていない操作(主にSQL 関数とJOIN 操作)は組み込みSQL エンジンを利用してクライアント側で処理します。組み込みの動的メタデータクエリを使用すると、ネイティブデータソース型を使用してHive データを操作することができます。
SnapLogic からHive データに接続するには、CData Hive JDBC Driver をダウンロードしてインストールします。インストール画面に従ってください。インストールが完了すると、インストール先のディレクトリ(デフォルトでは、C:/Program Files/CData/CData JDBC Driver for ApacheHive/lib)にJAR ファイルが作成されます。
インストール後、JDBC JAR ファイルをSnapLogic 内のディレクトリ(例えば、projects/Jerod Johnson)にManager タブからアップロードします。
JDBC Driver がアップロードされると、Hive への接続を作成できます。
JDBC URL をHive JDBC Driver 用のJDBC 接続文字列に設定します。例えば、
jdbc:apachehive:Server=127.0.0.1;Port=10000;TransportMode=BINARY;RTK=XXXXXX;です。
NOTE: RTK は評価版もしくは製品版のキーです。詳しくは、CData のサポートチームにご連絡ください。
JDBC URL の作成の補助として、Hive JDBC Driver に組み込まれている接続文字列デザイナーが使用できます。JAR ファイルをダブルクリックするか、コマンドラインからjar ファイルを実行します。
java -jar cdata.jdbc.apachehive.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
Apache Hive への接続を確立するには以下を指定します。
接続を検証、適用後に開くフォームで、クエリを設定します。
Generic JDBC - Select snap を保存します。
接続とクエリを設定したら、snap の終端部分(以下のハイライト部分)をクリックしてデータをプレビューします。
結果が期待どおりのものであることを確認したら、他のsnap を追加してHive データを別のエンドポイントに渡すこともできます。
本記事では、データをGoogle Spreadsheet にロードします。他のあらゆるサポートされているsnap が使用でき、Generic JDBC snap を他のCData JDBC Driver と利用してデータを外部サービスに移すこともできます。
これで、接続済みのパイプラインを実行してHive からデータを抽出し、Google Spreadsheet にプッシュできます。
上述のように、JDBC Driver for ApacheHive をSnapLogic から使用してデータをHive に書き込むことができます。まずは、Generic JDBC - Insert またはGeneric JDBC - Update snap をダッシュボードに追加します。
これで、Hive にデータを書き込んだり、新しいレコードを挿入したり、既存のレコードを更新するsnap が設定できました。
CData JDBC Driver for ApacheHive を使えば、Hive データを外部サービスに連携するためのパイプラインをSnapLogic で作成できます。Hive への接続に関する詳細については、CData のHive 連携ページを参照してください。30日の無償評価版をダウンロードして今すぐ使い始めましょう。