各製品の資料を入手。
詳細はこちら →CData
こんにちは!ウェブ担当の加藤です。マーケ関連のデータ分析や整備もやっています。
PostgreSQL には多くの対応クライアントがあります。標準のドライバーからBI、アナリティクスツールまで、PostgreSQL はデータ接続の人気のインターフェースです。JDBC ドライバーを使用することで、簡単に任意の標準クライアントから接続できるPostgreSQL エントリポイントを作成できます。
Databricks にPostgreSQL データベースとしてアクセスするには、CData JDBC Driver for Databricks とJDBC foreign data wrapper (FDW) を使用します。この記事ではFDW をコンパイルしてインストールし、PostgreSQL サーバーからDatabricks にクエリを実行します。
JDBC データソースとしてDatabricks に接続するには、以下が必要です。
Driver クラス
cdata.jdbc.databricks.DatabricksDriver
Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。
Note:Databricks インスタンスで必要な値は、クラスターに移動して目的のクラスターを選択し、Advanced Options の下にあるJDBC/ODBC タブを選択することで見つけることができます。
JDBC URL の構成については、Databricks JDBC Driver に組み込まれている接続文字列デザイナを使用できます。JAR ファイルのダブルクリック、またはコマンドラインからJAR ファイルを実行します。
java -jar cdata.jdbc.databricks.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
以下は一般的なJDBC URL です。
jdbc:databricks:Server=127.0.0.1;Port=443;TransportMode=HTTP;HTTPPath=MyHTTPPath;UseSSL=True;User=MyUser;Password=MyPassword;
FDW は、PostgreSQL を再コンパイルせずに、PostgreSQL の拡張機能としてインストールできます。例としてjdbc2_fdw 拡張子を使用します。
ln -s /usr/lib/jvm/java-6-openjdk/jre/lib/amd64/server/libjvm.so /usr/lib/libjvm.so
make install USE_PGXS=1
拡張機能をインストールした後、以下のステップに従ってDatabricks へのクエリの実行を開始します。
CREATE EXTENSION jdbc2_fdw;
CREATE SERVER Databricks
FOREIGN DATA WRAPPER jdbc2_fdw OPTIONS (
drivername 'cdata.jdbc.databricks.DatabricksDriver',
url 'jdbc:databricks:Server=127.0.0.1;Port=443;TransportMode=HTTP;HTTPPath=MyHTTPPath;UseSSL=True;User=MyUser;Password=MyPassword;',
querytimeout '15',
jarfile '/home/MyUser/CData/CData\ JDBC\ Driver\ for\ Salesforce MyDriverEdition/lib/cdata.jdbc.databricks.jar');
CREATE USER MAPPING for postgres SERVER Databricks OPTIONS (
username 'admin',
password 'test');
postgres=# CREATE FOREIGN TABLE customers (
customers_id text,
customers_City text,
customers_CompanyName numeric)
SERVER Databricks OPTIONS (
table_name 'customers');
postgres=# SELECT * FROM customers;
このようにCData JDBC Driver for Databricks を使って簡単にDatabricks のデータを取得して検索対象にすることができました。ぜひ、30日の無償評価版 をお試しください。