PolyBase で外部データソースとしてDatabricks を連携利用

詳細情報をご希望ですか?

無償トライアル:

ダウンロードへ

製品の詳細情報へ:

Databricks ODBC Driver

Databricks ODBC Driver は、ODBC 接続をサポートする各種ツールからDatabricks へのシームレスな連携を実現します。

Databricks に使い慣れたデーたベースのように標準ODBC インターフェースでRead、Write。



CData ODBC Driver for Databricks とSQL Server 2019 のPolyBase を使って、リアルタイムDatabricks に外部データソースとしてアクセス。

SQL Server のPolyBase は、データベーステーブルをクエリするTransact-SQL 構文を使って、外部データにクエリする仕組みです。 CData ODBC Drivers for Databricks を組み合わせて使うことで、SQL Server データと同じようにDatabricks へのアクセスが可能です。 本記事では、外部データソースと外部テーブルの作成から、T-SQL クエリを使ってライブDatabricks データへ接続を認可するところまで説明します。

CData ODBC ドライバーは、ドライバーに組み込まれた最適化されたデータ処理により、PolyBase でライブDatabricks データを送受信するための圧倒的なパフォーマンスを提供します。SQL Server からDatabricks に複雑なSQL クエリを発行すると、ドライバーはフィルタや集計などのサポートされているSQL 操作をDatabricks に直接プッシュダウンし、組み込みSQL エンジンを利用して、サポートされていない操作(一般的にはSQL 関数とJOIN 操作) をクライアント側で処理します。また、PolyBase を使用することで、単一のクエリを使用して分散ソースからデータをプルし、SQL Server データをDatabricks と結合することもできます。

Databricks への接続

未指定の場合は、初めにODBC DSN(data source name)で接続プロパティを指定します。ドライバーのインストールの最後にアドミニストレーターが開きます。Microsoft ODBC Data Source Administrator を使用して、ODBC DSN を作成および構成できます。PolyBase を使用してSQL Server に外部データソースを作成するには、System DSN を構成します。(CData Databricks Sys は自動的に作成されます。)

To connect to a Databricks cluster, set the properties as described below.

Note: The needed values can be found in your Databricks instance by navigating to Clusters, and selecting the desired cluster, and selecting the JDBC/ODBC tab under Advanced Options.

  • Server: Set to the Server Hostname of your Databricks cluster.
  • HTTPPath: Set to the HTTP Path of your Databricks cluster.
  • Token: Set to your personal access token (this value can be obtained by navigating to the User Settings page of your Databricks instance and selecting the Access Tokens tab).

[接続のテスト]をクリックして、DSN がDatabricks に正しく接続できているかを確認します。[テーブル]タブに移動し、Databricks のテーブル定義を確認します。

Databricks データの外部データソースを作成

接続を構成したのち、外部データソースのマスター暗号化キーと資格情報データベースを作成する必要があります。

マスター暗号化キーの作成

以下のSQL コマンドを実行して新しいマスターキー[ENCRYPTION]を作成し、外部データソースの資格情報を暗号化します。

CREATE MASTER KEY ENCRYPTION BY PASSWORD = 'password';

資格情報データベースの作成

以下のSQL コマンドを実行してDatabricks に接続されている外部データソースの資格情報を作成します。

Note:IDENTITY とSECRET はDatabricks のUser プロパティとPassword プロパティに対応しています。

CREATE DATABASE SCOPED CREDENTIAL databricks_creds
WITH IDENTITY = 'username', SECRET = 'password';

Databricks の外部データソースを作成

以下のSQL コマンドを実行し、以前作成したDSN と資格情報を使用して、PolyBase でDatabricks の外部データソースを作成します。

NoteSERVERNAME とPORT は、Databricks のServer とPort の接続プロパティに対応しています。PUSHDOWN は、デフォルトでON に設定されているため、ODBC Driver は、サーバー側の処理を利用して複雑なクエリを実行できます。

CREATE EXTERNAL DATA SOURCE cdata_databricks_source
WITH ( 
  LOCATION = 'odbc://SERVERNAME[:PORT]',
  CONNECTION_OPTIONS = 'DSN=CData Databricks Sys',
  -- PUSHDOWN = ON | OFF,
  CREDENTIAL = databricks_creds
);

Databricks の外部テーブルを作成

外部データソースを作成したら、CREATE EXTERNAL TABLE ステートメントを使用してSQL Server インスタンスからDatabricks にリンクします。テーブルカラムの定義は、CData ODBC Driver for Databricks によって公開されているものと一致しなければなりません。DSN Configuration Wizard の[テーブル]タブを参照し、テーブルの定義を確認できます。

CREATE TABLE ステートメントのサンプル

以下は、Databricks Customers に基づいて外部テーブルを作成するステートメントの一例です。

CREATE EXTERNAL TABLE Customers(
  City [nvarchar](255) NULL,
  CompanyName [nvarchar](255) NULL,
  ...
) WITH ( 
  LOCATION='Customers',
  DATA_SOURCE=cdata_databricks_source
);

SQL Server インスタンスでDatabricks の外部テーブルを作成すると、ローカルデータとリモートデータを同時にクエリできるようになります。CData ODBC Driver に組み込まれているクエリ処理により、可能な限り多くのクエリ処理がDatabricks にプッシュされることで、ローカルのリソースと計算リソースが解放されます。ODBC Driver for Databricks の30日間無料トライアルをダウンロードし、SQL Server データでライブDatabricks データを使い始めましょう。