製品

ソリューション

コネクタ

サポート

価格

企業情報

お役立ち情報

ブログ

検索お問い合わせ

製品をチェック

Apache Spark Driver の30日間無償トライアルをダウンロード

30日間の無償トライアルへ

製品の詳細

Apache Spark JDBC Driver 相談したい

Apache Spark 連携のパワフルなJava アプリケーションを素早く作成して配布。

Spark データのPostgreSQL インターフェースを作成

Spark JDBC Driver のリモート機能を使用し、データアクセス用のPostgreSQL エントリポイントを作成します。

加藤龍彦
デジタルマーケティング
最終更新日：2022-12-02

CData

こんにちは！ウェブ担当の加藤です。マーケ関連のデータ分析や整備もやっています。

PostgreSQL には多くの対応クライアントがあります。標準のドライバーからBI、アナリティクスツールまで、PostgreSQL はデータ接続の人気のインターフェースです。JDBC ドライバーを使用することで、簡単に任意の標準クライアントから接続できるPostgreSQL エントリポイントを作成できます。

Spark にPostgreSQL データベースとしてアクセスするには、CData JDBC Driver for SparkSQL とJDBC foreign data wrapper (FDW) を使用します。この記事ではFDW をコンパイルしてインストールし、PostgreSQL サーバーからSpark にクエリを実行します。

JDBC データソースとしてSpark データに接続する

JDBC データソースとしてSpark に接続するには、以下が必要です。

Driver のJAR パス：JAR ファイルは、インストールディレクトリのlib サブフォルダにあります。
Driver クラス
cdata.jdbc.sparksql.SparkSQLDriver
JDBC URL: URL は、"jdbc:sparksql:" で始まり、セミコロンで区切られた名前と値の組み合わせで任意の接続プロパティを含めることができます。
SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。
- Server：SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
- Port：SparkSQL インスタンスへの接続用のポートに設定。
- TransportMode：SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
- AuthScheme：使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note：必要な値は、「クラスター」に移動して目的のクラスターを選択し、「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。
- Server：Databricks クラスターのサーバーのホスト名に設定。
- Port：443
- TransportMode：HTTP
- HTTPPath：Databricks クラスターのHTTP パスに設定。
- UseSSL：True
- AuthScheme：PLAIN
- User：'token' に設定。
- Password：パーソナルアクセストークンに設定（値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます）。
ビルトイン接続文字列デザイナ

JDBC URL の構成については、Spark JDBC Driver に組み込まれている接続文字列デザイナを使用できます。JAR ファイルのダブルクリック、またはコマンドラインからJAR ファイルを実行します。
java -jar cdata.jdbc.sparksql.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。

以下は一般的なJDBC URL です。
jdbc:sparksql:Server=127.0.0.1;

JDBC FDW を構築する

FDW は、PostgreSQL を再コンパイルせずに、PostgreSQL の拡張機能としてインストールできます。例としてjdbc2_fdw 拡張子を使用します。

ご使用のバージョンのJRE 共有オブジェクトから、/usr/lib/libjvm.so にシンボリックリンクを追加します。コマンド例： ln -s /usr/lib/jvm/java-6-openjdk/jre/lib/amd64/server/libjvm.so /usr/lib/libjvm.so
ビルドするには、以下のコマンドを実行してください。 make install USE_PGXS=1

Spark データをPostgreSQL データベースとしてクエリする

拡張機能をインストールした後、以下のステップに従ってSpark へのクエリの実行を開始します。

データベースにログイン
データベースの拡張機能をロード CREATE EXTENSION jdbc2_fdw;
Spark のオブジェクトを作成 CREATE SERVER SparkSQL FOREIGN DATA WRAPPER jdbc2_fdw OPTIONS ( drivername 'cdata.jdbc.sparksql.SparkSQLDriver', url 'jdbc:sparksql:Server=127.0.0.1;', querytimeout '15', jarfile '/home/MyUser/CData/CData\ JDBC\ Driver\ for\ Salesforce MyDriverEdition/lib/cdata.jdbc.sparksql.jar');
PostgreSQL デーモンに認識されているユーザーのユーザー名とパスワードのユーザーマッピングを作成 CREATE USER MAPPING for postgres SERVER SparkSQL OPTIONS ( username 'admin', password 'test');
ローカルデータベースに外部テーブルを作成 postgres=# CREATE FOREIGN TABLE customers ( customers_id text, customers_City text, customers_Balance numeric) SERVER SparkSQL OPTIONS ( table_name 'customers');

Spark に対して読み取り/書き込みコマンドを実行可能にする


postgres=# SELECT * FROM customers;

おわりに

このようにCData JDBC Driver for SparkSQL を使って簡単にSpark データを取得して検索対象にすることができました。ぜひ、30日の無償評価版をお試しください。

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。

無償トライアルへ

お問い合わせ

CData Software は、データアクセスおよびデータ接続ソリューションのリーディングプロバイダーです。CData の標準コネクタはあらゆるツール・ミドルウェアからのSaaS やDB データの連携を簡単にします。

お問い合わせ

製品概要

データコネクタ

ETL/ ELT ソリューション

クラウド&API 接続

OEM & カスタムドライバー開発

お問い合わせ先

製品を知る

データ分析 & BI

企業情報

ニュース & 事例

ソリューション

開催予定のイベント

サポート

ブログへ →

ナレッジベース

製品をチェック

目次

Spark データのPostgreSQL インターフェースを作成

Spark JDBC Driver のリモート機能を使用し、データアクセス用のPostgreSQL エントリポイントを作成します。

JDBC データソースとしてSpark データに接続する

SparkSQL への接続

Databricks への接続

ビルトイン接続文字列デザイナ

JDBC FDW を構築する

Spark データをPostgreSQL データベースとしてクエリする

おわりに

関連コンテンツ

トライアル・お問い合わせ

ソリューション

開催予定のイベント

サポート

ブログへ →

ナレッジベース

製品をチェック

目次

Spark データ のPostgreSQL インターフェースを作成

Spark JDBC Driver のリモート機能を使用し、データアクセス用のPostgreSQL エントリポイントを作成します。

JDBC データソースとしてSpark データに接続する

SparkSQL への接続

Databricks への接続

ビルトイン接続文字列デザイナ

JDBC FDW を構築する

Spark データをPostgreSQL データベースとしてクエリする

おわりに

関連コンテンツ

トライアル・お問い合わせ

Spark データのPostgreSQL インターフェースを作成