製品をチェック

無償トライアル:

無償トライアルへ

製品の情報と無償トライアルへ:

Databricks JDBC Driver

Databricks 連携のパワフルなJava アプリケーションを素早く作成して配布。

データ連携でお困りですか?

お問い合わせ

Databricks データをR で分析


CData JDBC Driver for Databricksで標準的なR 関数とお好みの開発環境を使って、 Databricks を分析。


databricks ロゴ画像
jdbc ロゴ画像

JDBC

R ロゴ画像


Pure R スクリプトおよび 標準SQL を使って、R およびJava をインストール可能なあらゆるマシン上でDatabricks にアクセス。CData JDBC Driver for Databricks とRJDBC package を使って、R でリモートDatabricks data を利用できます。CData Driver を使うことで、業界が認めた基準で書かれたドライバーを活用して、オープンソースでポピュラーなR 言語のデータにアクセスできます。この記事では、ドライバーを使ってDatabricks にSQL クエリを実行する方法、および標準R 関数を呼び出してDatabricks をビジュアライズする方法について説明します。

R をインストール

マルチスレッドのMicrosoft R Open を実行すること、またはBLAS/LAPACK ライブラリにリンクされたオープン R を実行することによって、マルチスレッドおよびマネージドコードから利益を得られたドライバーのパフォーマンスにマッチできます。ここでは、Microsoft R Open 3.2.3 を使用します。CRAN レポジトリのJan. 1, 2016 snapshot からパッケージをインストールするために事前設定されています。このsnapshot は再現性を保証します。

RJDBC パッケージをロード

ドライバーを使うにはRJDBC パッケージをダウンロードします。RJDBC パッケージをインストールしたら、次のコードを入力してパッケージをロードします。

library(RJDBC)

JDBC データソースとしてDatabricks に接続

下記の情報を使いDatabricks にJDBC データソースとして接続します。

  • Driver Class:cdata.jdbc.databricks.DatabricksDriver に設定。
  • Classpath:Driver JAR の場所を設定します。デフォルトではインストールディレクトリの[lib]サブフォルダです。

dbConnect やdbSendQuery のようなDBI 関数は、R にデータアクセスコードを書くための統一インターフェースを提供します。

driver <- JDBC(driverClass = "cdata.jdbc.databricks.DatabricksDriver", classPath = "MyInstallationDir\lib\cdata.jdbc.databricks.jar", identifier.quote = "'")

これで、DBI 関数を使ってDatabricks に接続しSQL クエリを実行する準備が整いました。dbConnect 関数を使ってJDBC 接続を初期化します。一般的なJDBC 接続文字列は次のとおりです。

conn <- dbConnect(driver,"Server=127.0.0.1;Port=443;TransportMode=HTTP;HTTPPath=MyHTTPPath;UseSSL=True;User=MyUser;Password=MyPassword;")

To connect to a Databricks cluster, set the properties as described below.

Note: The needed values can be found in your Databricks instance by navigating to Clusters, and selecting the desired cluster, and selecting the JDBC/ODBC tab under Advanced Options.

  • Server: Set to the Server Hostname of your Databricks cluster.
  • HTTPPath: Set to the HTTP Path of your Databricks cluster.
  • Token: Set to your personal access token (this value can be obtained by navigating to the User Settings page of your Databricks instance and selecting the Access Tokens tab).

スキーマ Discovery

ドライバーはDatabricks API をリレーショナルデータベース、ビュー、ストアドプロシージャとしてモデルします。次のコードを使ってテーブルリストを検出します。

dbListTables(conn)

SQL クエリの実行

dbGetQuery 関数を使ってDatabricks API がサポートするすべてのSQL クエリを実行できます:

customers <- dbGetQuery(conn,"SELECT City, CompanyName FROM Customers WHERE Country = 'US'")

次のコマンドを使って、結果を[data viewer]ウィンドウで見ることができます。

View(customers)

Databricks Data をプロット

CRAN レポジトリで利用可能なあらゆるデータ初期化パッケージを使ってDatabricks を分析する準備が整いました。ビルトインバーのplot 関数を使って簡単なバーを作成できます。

par(las=2,ps=10,mar=c(5,15,4,2)) barplot(customers$CompanyName, main="Databricks Customers", names.arg = customers$City, horiz=TRUE) A basic bar plot. (Salesforce is shown.)