各製品の資料を入手。
詳細はこちら →【完全ガイド】Spark のデータをSQL Server のリンクサーバーで連携する方法
SQL Server からCData ODBC Driver のSQL Gateway 機能を使ってSpark にリンクサーバーとして接続する方法を解説。設定手順からVisual Studio での活用例まで詳細に紹介します。
最終更新日:2025-03-14
この記事で実現できるSpark 連携のシナリオ
こんにちは!ドライバー周りのヘルプドキュメントを担当している兵藤です。
本記事では、SQL ServerのTDS Remoting 機能を使ってSpark にリンクサーバーとしてシームレスに連携する方法を解説します。この連携には、CData ODBC Driverに同梱されているSQL Gateway を使用します。この方法により、SQL Server のインターフェースからSpark への読み書き双方向のアクセスが可能になり、既存のSQL Server 環境で外部データを活用できるようになります。スクリーンショット付きで紹介していくので、初心者の方でも簡単に設定できます!
Spark をSQL Server のリンクサーバーとして利用する3つの主要シナリオ
- SQL Server に接続しているアプリケーションでSpark のデータを利用したいがデータ接続を増やしたくない
- Spark のデータをSQL Server のデータや他のリンクサーバーのデータをJOIN などして使いたい
- 利用したいミドルウェア・BI ツールなどにODBC やJDBC の汎用のインターフェースがないが、SQL Server には接続できる
【準備編】Spark ODBC DSNの設定方法
まずは、本記事右側のサイドバーからSparkSQL ODBC Driver の無償トライアルをダウンロード・インストールしてください。ODBC ドライバーのインストール完了時にODBC DSN 設定画面が立ち上がります。または、Microsoft ODBC データソースアドミニストレーターを使ってDSN を作成および設定できます。
SparkSQL への接続
SparkSQL への接続を確立するには以下を指定します。
- Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
- Port:SparkSQL インスタンスへの接続用のポートに設定。
- TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
- AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
Databricks への接続
Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。
- Server:Databricks クラスターのサーバーのホスト名に設定。
- Port:443
- TransportMode:HTTP
- HTTPPath:Databricks クラスターのHTTP パスに設定。
- UseSSL:True
- AuthScheme:PLAIN
- User:'token' に設定。
- Password:パーソナルアクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。
【設定手順1】SQL Gateway でSpark ODBC DSN をセットアップする方法
CData ODBC ドライバにはSQL Gateway が同梱されています。このSQL Gateway に、Spark ODBC Driver をサービスとして設定します。
- 「スタート」画面から「SQL Gateway」を起動します。青い「C」のSQL Gateway ロゴが右下のインジケータに表示されます。 アプリケーションコンソールが開かない場合には、SQL Gateway アイコンを右クリックして、「Open Application」をクリックしてください。
- アプリケーションコンソールの「Service」タブを開いて、「Add」をクリックして、新しいODBC データソースを設定します。
-
Spark ODBC の設定を行います。
Service Name]:任意
リモーティングDB 選択:SQL Server を選択
Data Source:ドロップダウンでCData Spark Source Sys を選択
Port:使用していないポートを選択
-
次に「Users」タブ→「Add」からユーザーを登録します。
ユーザー毎にFull アクセスか、Readonly か、None の権限を選択できます。
複数のODBC データソースがある場合には、データソース毎に権限の設定が可能です。
「OK」を押して、ユーザー登録を完了します。 その後「Save Changes」で設定を保存します。 - SQL Gateway の「Service」タブで「Start」ボタンを押して、サービスを起動します。サービスの左側の〇が緑色になれば、サービスは起動中です。
【設定手順2】SQL Server でSpark リンクサーバーを構築する方法
SQL Gateway 側でサービスの設定が終わったら、SQL Server 側でSpark サービスをリンクサーバーとして使う設定をしましょう。
-
SQL Server Management Studio (SSMS) を開きます。
オブジェクトエクスプローラーの「サーバーオブジェクト」で「リンクサーバー」を右クリックして、「新しいリンクサーバー」をクリックします。 -
新しいリンクサーバーの設定画面の「全般」で、以下を入力します。
サーバー種類:その他データソース
プロバイダー:SQL Server Native _Client 11.0
データソース:この例の場合、localhost, 1433 を入力
カタログ:ODBC DSN 名を入力
- また、「セキュリティ」では、「このセキュリティコンテキスト」を選択して、リモートログインにSQL Gateway にユーザー設定したUser 名とPassword を入力します。
これで、リンクサーバーの設定は終わりなので、「OK」を押して設定を保存します。
【活用例1】SSMS(SQL Server Management Studio)でSpark データを操作する方法
SSMS のオブジェクトエクスプローラーのリンクサーバー下にSpark のリンクサーバーが作成され、「テーブル」下にSpark のデータがアプリ単位でテーブルが生成されます。
新しいクエリを選択し、Spark のデータを取得してみます。
実践的なSQL クエリの例と解説
SELECT * from リンクサーバー名.CData Spark Source Sys(ODBC DSN 名).Spark.テーブル名
このように、API のリクエストではなく通常のSQL 構文でデータを扱うことが可能になっています
【活用例2】Visual Studio からSpark のリンクサーバーに連携する方法
Visual Studio のサーバーエクスプローラーの「データ接続」を右クリックし、「接続の追加」をクリックして、データソースの選択画面を開きます。 データソースの選択画面でデータソースを「Microsoft SQL Server 」に選択して、「続行」を押します。
Visual Studio での接続設定とクエリ実行手順
「接続の追加」画面で、以下を入力します。
サーバー名:SQL Server のサーバー名
認証:任意の認証方式
データベース名の選択または入力:※master など
※リンクサーバーを直接データベース名として入力することはできないようです。なので上位のデータベース名で設定しておきます。

「テスト接続」をして大丈夫であれば、「OK」を押して設定を完了させます。
「新しいクエリ」で、SQL でSELECT 文を書いてデータを取得してみます。
SELECT * from リンクサーバー名.CData Spark Source Sys(ODBC DSN 名).Spark.テーブル名
このように、通常のSQL Server のリンクサーバーと同じようにVisual Studio 内Spark のデータを扱うことが可能になります。
他のIDE でもSQL Server にアクセスする方法でSpark のデータにSQL でアクセスが可能になります。
複数データソースのJOIN などを行う場合には大変便利です。
【応用編】Spark データとSQL Server データを組み合わせた高度な活用例
リンクサーバーの真価は、異なるデータソースを組み合わせた分析や処理にあります。以下に実践的な活用例をご紹介します。
複数データソースの結合(JOIN)によるデータ統合
SELECT
s.customer_id,
s.customer_name,
o.order_id,
o.order_date,
o.total_amount
FROM
Sales.Customers s
JOIN
リンクサーバー名.CData Spark Source Sys.Spark.Orders o
ON
s.customer_id = o.customer_id
WHERE
o.order_date > '2023-01-01'
ORDER BY
o.total_amount DESC
このクエリ例では、SQL Server内の顧客データとSpark 内の注文データを顧客IDで結合し、2023年以降の注文を金額順に表示しています。
おわりに
このようにCData ODBC ドライバと併用することで、Spark を含む270を超えるSaaS、NoSQL データをSQL Server に連携できます。30日の無償評価版が利用できますので、ぜひ自社で使っているクラウドサービ スやNoSQL と合わせて活用してみてください。