製品をチェック

Apache Spark ODBC Driver の30日間無償トライアルをダウンロード

 30日間の無償トライアルへ

製品の詳細

Apache Spark アイコン Apache Spark ODBC Driver 相談したい

Apache Spark ODBC Driver は、ODBC 接続をサポートするさまざまなアプリケーションからApache Spark データへの接続を実現するパワフルなツールです。

標準SQL とSpark SQL をマッピングして、SQL-92 で直接Apache Spark にアクセス。

MySQL Workbench からSpark のデータをクエリする方法

MySQL Workbench からSpark のリアルタイムデータにクエリを実行します。

古川えりか
コンテンツスペシャリスト

最終更新日:2022-06-10
spark ロゴ

CData

odbc ロゴ画像
MySQL ロゴ

こんにちは!ドライバー周りのヘルプドキュメントを担当している古川です。

ODBC Driver for SparkSQL とSQL Gateway を使用することで、MySQL インターフェースを使ってSpark にクエリを実行できます。この記事では、MySQL Workbench からSpark データにSQL クエリを投げてデータを取得する方法をご紹介します。

CData ODBC ドライバとは?

CData ODBC ドライバは、以下のような特徴を持ったリアルタイムデータ連携ソリューションです。

  1. Spark をはじめとする、CRM、MA、会計ツールなど多様なカテゴリの270種類以上のSaaS / オンプレミスデータソースに対応
  2. 多様なアプリケーション、ツールにSpark データを連携
  3. ノーコードでの手軽な接続設定
  4. 標準 SQL での柔軟なデータ読み込み・書き込み

CData ODBC ドライバでは、1.データソースとしてSpark の接続を設定、2.MySQL Workbench 側でODBC Driver との接続を設定、という2つのステップだけでデータソースに接続できます。以下に具体的な設定手順を説明します。

CData ODBC ドライバのインストールとSpark への接続設定

まずは、本記事右側のサイドバーからSparkSQL ODBC Driver の無償トライアルをダウンロード・インストールしてください。30日間無償で、製品版の全機能が使用できます。

未指定の場合は、データソース名(DSN)で必要な接続プロパティの値を指定します。ドライバーのインストールの最後にODBC アドミニストレーターが開きます。Microsoft ODBC データソースアドミニストレーターでDSN を作成及び設定する方法については、ヘルプドキュメントの[はじめに]チャプターを参照してください。

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

  • Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
  • Port:SparkSQL インスタンスへの接続用のポートに設定。
  • TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
  • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

  • Server:Databricks クラスターのサーバーのホスト名に設定。
  • Port:443
  • TransportMode:HTTP
  • HTTPPath:Databricks クラスターのHTTP パスに設定。
  • UseSSL:True
  • AuthScheme:PLAIN
  • User:'token' に設定。
  • Password:パーソナルアクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。

SQL Gateway を構成する

Spark への接続を仮想MySQL データベースとして設定する方法については、SQL Gateway の解説記事 を参照してください。クライアントからのMySQL リクエストを受けるMySQL リモートサービスを構築します。このサービスは、SQL Gateway のUI で構成できます。

SQL Gateway でMySQL のリモーティングサービスを設定

MySQL Workbench からSpark をクエリ

以下のステップでは、MySQL Workbench からSQL Gateway で作成された仮想Spark データベースに接続し、Spark データをリアルタイムで操作するための基本的なクエリを発行する方法を説明します。

SQL Gateway を介してSpark に接続

  1. MySQL Workbench で、[add a new MySQL connection]をクリックします。
  2. 接続(CData SQL Gateway for SparkSQL)に名前を付けます。
  3. HostnamePortUsername のパラメータを設定し、SQL Gateway に接続します。
  4. Store in Vault をクリックしてパスワードを設定し、保存します。
  5. Test Connection をクリックして接続が正しく構成されていることを確認し、OK をクリックします。

Spark データをクエリしてみる

  1. 作成した接続(CData SQL Gateway for SparkSQL)を開きます。
  2. [File]->[New Query Tab]と進みます。
  3. SELECT * FROM `CData SparkSQL Sys`.Customers; のようなSpark データを取得するSQL を書いて、実行します。
  4. 無事、Spark のデータが取得できました。

おわりに

MySQL Workbench からリアルタイムSpark データにアクセスすることで、MySQL データベースと同じようにSpark をクエリおよび更新できます。CData ODBC Driver for SparkSQL とCData SQL Gateway の30日の無償評価版はこちらです。

CData ODBC ドライバは日本のユーザー向けに、UI の日本語化、ドキュメントの日本語化、日本語でのテクニカルサポートを提供しています。

関連コンテンツ

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。