製品

ソリューション

コネクタ

サポート

価格

企業情報

お役立ち情報

ブログ

検索お問い合わせ

製品をチェック

Apache Spark Driver の30日間無償トライアルをダウンロード

30日間の無償トライアルへ

製品の詳細

Apache Spark JDBC Driver 相談したい

Apache Spark 連携のパワフルなJava アプリケーションを素早く作成して配布。

Spark データをR で分析

CData JDBC Driver で標準的なR 関数とお好みの開発環境を使ってSpark を分析。

加藤龍彦
デジタルマーケティング
最終更新日：2023-09-21

CData

こんにちは！ウェブ担当の加藤です。マーケ関連のデータ分析や整備もやっています。

Pure R スクリプトおよび標準SQL を使って、R およびJava をインストール可能なあらゆるマシン上でSpark にアクセス。CData JDBC Driver for SparkSQL とRJDBC package を使って、R でリモートSpark データを利用できます。CData Driver を使うことで、業界が認めた基準で書かれたドライバーを活用して、オープンソースでポピュラーなR 言語のデータにアクセスできます。この記事では、ドライバーを使ってSpark にSQL クエリを実行する方法、および標準R 関数を呼び出してSpark をビジュアライズする方法について説明します。

R をインストール

マルチスレッドのMicrosoft R Open を実行すること、またはBLAS/LAPACK ライブラリにリンクされたオープン R を実行することによって、マルチスレッドおよびマネージドコードから利益を得られたドライバーのパフォーマンスにマッチできます。ここでは、Microsoft R Open 3.2.3 を使用します。CRAN レポジトリのJan. 1, 2016 snapshot からパッケージをインストールするために事前設定されています。このsnapshot は再現性を保証します。

RJDBC パッケージをロード

ドライバーを使うにはRJDBC パッケージをダウンロードします。RJDBC パッケージをインストールしたら、次のコードを入力してパッケージをロードします。


library(RJDBC)

JDBC データソースとしてSpark に接続

下記の情報を使いSpark にJDBC データソースとして接続します。

Driver Class：cdata.jdbc.sparksql.SparkSQLDriver に設定。
Classpath：Driver JAR の場所を設定します。デフォルトではインストールディレクトリの［lib］サブフォルダです。

dbConnect やdbSendQuery のようなDBI 関数は、R にデータアクセスコードを書くための統一インターフェースを提供します。


driver <- JDBC(driverClass = "cdata.jdbc.sparksql.SparkSQLDriver", classPath = "MyInstallationDir\lib\cdata.jdbc.sparksql.jar", identifier.quote = "'")

これで、DBI 関数を使ってSpark に接続しSQL クエリを実行する準備が整いました。dbConnect 関数を使ってJDBC 接続を初期化します。一般的なJDBC 接続文字列は次のとおりです。


conn <- dbConnect(driver,"Server=127.0.0.1;")

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

Server：SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
Port：SparkSQL インスタンスへの接続用のポートに設定。
TransportMode：SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
AuthScheme：使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note：必要な値は、「クラスター」に移動して目的のクラスターを選択し、「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

Server：Databricks クラスターのサーバーのホスト名に設定。
Port：443
TransportMode：HTTP
HTTPPath：Databricks クラスターのHTTP パスに設定。
UseSSL：True
AuthScheme：PLAIN
User：'token' に設定。
Password：パーソナルアクセストークンに設定（値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます）。

スキーマ Discovery

ドライバーはSpark API をリレーショナルデータベース、ビュー、ストアドプロシージャとしてモデルします。次のコードを使ってテーブルリストを検出します。


dbListTables(conn)

SQL クエリの実行

dbGetQuery 関数を使ってSpark API がサポートするすべてのSQL クエリを実行できます：


customers <- dbGetQuery(conn,"SELECT City, Balance FROM Customers")

次のコマンドを使って、結果を［data viewer］ウィンドウで見ることができます。


View(customers)

Spark データをプロット

CRAN レポジトリで利用可能なあらゆるデータ初期化パッケージを使ってSpark を分析する準備が整いました。ビルトインバーのplot 関数を使って簡単なバーを作成できます。


par(las=2,ps=10,mar=c(5,15,4,2)) barplot(customers$Balance, main="Spark Customers", names.arg = customers$City, horiz=TRUE)

A basic bar plot. (Salesforce is shown.)

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。

無償トライアルへ

お問い合わせ

CData Software は、データアクセスおよびデータ接続ソリューションのリーディングプロバイダーです。CData の標準コネクタはあらゆるツール・ミドルウェアからのSaaS やDB データの連携を簡単にします。

お問い合わせ

製品概要

データコネクタ

ETL/ ELT ソリューション

クラウド&API 接続

OEM & カスタムドライバー開発

お問い合わせ先

製品を知る

データ分析 & BI

企業情報

ニュース & 事例

ソリューション

開催予定のイベント

サポート

ブログへ →

ナレッジベース

製品をチェック

目次

Spark データをR で分析

CData JDBC Driver で標準的なR 関数とお好みの開発環境を使ってSpark を分析。

R をインストール

RJDBC パッケージをロード

JDBC データソースとしてSpark に接続

SparkSQL への接続

Databricks への接続

スキーマ Discovery

SQL クエリの実行

Spark データをプロット

関連コンテンツ

トライアル・お問い合わせ

ソリューション

開催予定のイベント

サポート

ブログへ →

ナレッジベース

製品をチェック

目次

Spark データをR で分析

CData JDBC Driver で標準的なR 関数とお好みの開発環境を使ってSpark を分析。

R をインストール

RJDBC パッケージをロード

JDBC データソースとしてSpark に接続

SparkSQL への接続

Databricks への接続

スキーマ Discovery

SQL クエリの実行

Spark データ をプロット

関連コンテンツ

トライアル・お問い合わせ

Spark データをプロット