CData Virtuality - Databricks への接続

はじめに

CData Virtuality は、エンタープライズグレードのデータ仮想化プラットフォームです。データ仮想化によるリアルタイムデータアクセスとデータレプリケーションのバイモーダルによるデータ連携を提供します。本記事では、Databricks 内のデータを仮想統合して活用する手順をご紹介します。

事前準備

CData Virtuality には、インストール版とフルマネージドクラウド(SaaS) 版がございます。入手および初期設定方法は以下の記事をご参照ください。

Databricks への接続

Databricks はCData Virtuality WebInterface にて「Code Editor」内でSQL を実行することでデータソースを追加できます。画面上部のタブより「Code Editor」を開きます。

次にエディタ上で次のようなSQL を入力します。(各種プロパティの値についての詳細はこちらのヘルプページをご覧ください)

CALL SYSADMIN.createConnection(name => '<任意の接続名>', jbossCliTemplateName => 'databricks', connectionOrResourceAdapterProperties => 'PWD=<アクセストークン※1>,host=※2>,httpPath=※2>');;

CALL SYSADMIN.createDatasource(name => '<任意のデータソース名>', translator => 'databricks', modelProperties => 'importer.useFullSchemaName=FALSE', encryptedModelProperties => '', encryptedTranslatorProperties => '');;

※1: アクセストークンはDatabricksワークスペースで、上部バーにある「Databricksユーザー名」->「設定」-> 「開発者」->「アクセストークン」にある「管理」から発行してください。

※2: サーバのホスト名、サーバのHTTP Pathはそれぞれ「コンピュート」のターゲットクラスタ内にある「構成」タブ->「 詳細オプション」->「JDBC/ODBC」タブ内に記載があります。

入力後、アイコン左から二つ目の「▶︎(Run Script)」 を押下し、SQL を実行。下部にあるStatus Log タブを開きexecuted successfully! となっているのを確認します。

上部の「Connections」タブを開くと設定したデータソース名でDatabricks が登録されています。

コードエディタからの確認

再度Code Editor を開き、Data Source内 に上記手順で作成したDatabricks のデータソース(本例では「Databricks」)が追加されていることを確認します。

Databricks のデータソースをクリックして、Databricks のテーブルの右3点をクリックして「Generate Statement」を選択します。Editor エリアにSELECT Statement が生成されたらSQL を「▶︎(Run Script)」で実行します。Databricks 内のレコードデータが取得できれば成功です。

まとめ

本記事では、Databricks 内のテーブルデータを仮想統合して活用する手順をご紹介しました。CData Virtuality はフルマネージドクラウド(SaaS) 版、および、インストール版で無償トライアルを提供しています。無償トライアルを始められたい方や設定を進める中でご不明な点が出てきた際には弊社テクニカルサポートまでお問い合わせください。

関連コンテンツ