製品

ソリューション

コネクタ

サポート

価格

企業情報

お役立ち情報

ブログ

検索お問い合わせ

製品をチェック

Salesforce Driver の30日間無償トライアルをダウンロード

30日間の無償トライアルへ

製品の詳細

Salesforce JDBC Driver 相談したい

潜在顧客、連絡先、営業案件、アカウントなどのSalesforce.com アカウントデータを組み込んだパワフルなJava アプリケーションを短時間・低コストで作成して配布できます。

Salesforce データをDatabricks にロードして分析処理を行う方法：CData JDBC Driver

CData JDBC ドライバを使って、クラウドデータ処理基盤のDatabricks で Salesforce データを分析処理。

杉本和也
リードエンジニア
最終更新日：2023-09-07

CData

こんにちは！リードエンジニアの杉本です。

Databricks https://databricks.com/はオープンソースのビッグデータ処理基盤である Apache Spark をクラウドベースで提供しているサービスです。

通常Databricks では、Azure Blob Storage や Data Lakeに存在しているCSV、JSON、Parquetなどのバイナリベースの構造データ、ないしSQL ServerやCosmos DBといったRDB・NoSQLサービスからデータを取り込んで、分析するというアプローチが多いかと思います。しかしながら、今や分析対象となるデータソースはそういったバイナリデータやRDB・NoSQLのdataにとどまらず、SalesforceやDynamics 365といったクラウドサービス上にも数多く存在しています。そこで CData JDBC Driverを活用することにより、Databricks からシームレスにクラウドサービスのデータソースをロード、分析できるようになります。
この記事では、クラウドサービスのビッグデータ処理サービスである Databricks で CData JDBC Driverを利用してSalesforce データを扱う方法を紹介します。

Databricks に JDBC Driver for Salesforceをインストールする

Databricks の管理画面に移動し、対象のクラスターを選択します。

「Libraries」タブから「Install New」をクリックします。ここから接続に必要なJDBC jarファイルをアップロードします。

CData JDBC ドライバのインストールディレクトリ（デフォルト：C:\Program Files\CData\CData JDBC Driver for Salesforce 2019J\lib）に配置されている「cdata.jdbc.salesforce.jar」ファイルをドラッグ・アンド・ドロップして、対象のクラスターにインストールします。

これでドライバーの配置などの準備は完了です。

Notebook で Salesforce データデータにアクセスする：Python

それでは Notebook を立ち上げて、Salesforce データデータにアクセスしましょう。今回は Python を使いますが、Scalaでも同様に実行可能です。

LangauageはPythonを選択し、先程JDBCをインストールしたクラスターを選択します。

Notebook が立ち上がったら、以下のコードをそれぞれ実行していきます。

最初に接続情報を定義します。 URLはSalesforce データのログイン情報とセキュリティトークンを指定します。CData JDBC Driver用の特殊ライセンスをRTKとして指定します。RTK の入手方法については、CData サポートまでご連絡ください。


            # Step 1: Connection Information

            driver = "cdata.jdbc.salesforce.SalesforceDriver"
            url = "jdbc:salesforce:User=username;Password=password;SecurityToken=Your_Security_Token;"
            table = "Account"

次に先程の接続情報をもとに、CData JDBC Driver経由でSalesforce データのデータをデータフレームとして読み込みます。


            # Step 2: Reading the data

            remote_table = spark.read.format("jdbc")\
            .option("driver", driver)\
            .option("url", url)\
            .option("dbtable", table)\
            .load()

読み込んだ結果は以下のコマンドで確認できます。これでDatabricks上でSalesforce データのデータを扱えるようになりました。


            # Step 3: Querying the data

            display(remote_table.select("name"))

Databricks の SparkSQLでデータを処理したい場合は、Temp Viewとして登録します。


            # Step 4: (Optional) Create a view or table

            remote_table.createOrReplaceTempView("SAMPLE_VIEW")

以下のように SparkSQLでデータを取得し、分析することができます。


            %sql

            SELECT Name,AnnualRevenue FROM SAMPLE_VIEW Order by AnnualRevenue desc limit 5

なお、データフレームは対象のNotebook内だけのデータなので、他のユーザーと一緒に利用する場合はテーブルとして保存しておきましょう。


    remote_table.write.format("parquet").saveAsTable("SAMPLE_TABLE")

このようにCData JDBC ドライバをアップロードすることで、簡単にDatabricks でSalesforce データデータをノーコードで連携し、分析に使うことが可能です。

是非、CData JDBC Driver for Salesforce 30日の無償評価版をダウンロードして、お試しください。

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。

無償トライアルへ

お問い合わせ

CData Software は、データアクセスおよびデータ接続ソリューションのリーディングプロバイダーです。CData の標準コネクタはあらゆるツール・ミドルウェアからのSaaS やDB データの連携を簡単にします。

お問い合わせ

製品概要

データコネクタ

ETL/ ELT ソリューション

クラウド&API 接続

OEM & カスタムドライバー開発

お問い合わせ先

製品を知る

データ分析 & BI

企業情報

ニュース & 事例

ソリューション

開催予定のイベント

サポート

ブログへ →

ナレッジベース

製品をチェック

目次

Salesforce データをDatabricks にロードして分析処理を行う方法：CData JDBC Driver

CData JDBC ドライバを使って、クラウドデータ処理基盤のDatabricks で Salesforce データを分析処理。

Databricks に JDBC Driver for Salesforceをインストールする

Notebook で Salesforce データデータにアクセスする：Python

関連コンテンツ

トライアル・お問い合わせ

ソリューション

開催予定のイベント

サポート

ブログへ →

ナレッジベース

製品をチェック

目次

Salesforce データをDatabricks にロードして分析処理を行う方法：CData JDBC Driver

CData JDBC ドライバを使って、クラウドデータ処理基盤のDatabricks で Salesforce データ を分析処理。

Databricks に JDBC Driver for Salesforceをインストールする

Notebook で Salesforce データ データにアクセスする：Python

関連コンテンツ

トライアル・お問い合わせ

CData JDBC ドライバを使って、クラウドデータ処理基盤のDatabricks で Salesforce データを分析処理。

Notebook で Salesforce データデータにアクセスする：Python