製品

ソリューション

コネクタ

サポート

価格

企業情報

お役立ち情報

ブログ

検索お問い合わせ

製品をチェック

Apache Kafka Driver の30日間無償トライアルをダウンロード

30日間の無償トライアルへ

製品の詳細

Apache Kafka JDBC Driver 相談したい

Apache Kafka データに連携するJava アプリケーションを素早く、簡単に開発できる便利なドライバー。

Kafka データをDatabricks にロードして分析処理を行う方法：CData JDBC Driver

CData JDBC ドライバを使って、クラウドデータ処理基盤のDatabricks で Kafka データを分析処理。

杉本和也
リードエンジニア
最終更新日：2023-09-07

CData

こんにちは！リードエンジニアの杉本です。

Databricks https://databricks.com/はオープンソースのビッグデータ処理基盤である Apache Spark をクラウドベースで提供しているサービスです。

通常Databricks では、Azure Blob Storage や Data Lakeに存在しているCSV、JSON、Parquetなどのバイナリベースの構造データ、ないしSQL ServerやCosmos DBといったRDB・NoSQLサービスからデータを取り込んで、分析するというアプローチが多いかと思います。しかしながら、今や分析対象となるデータソースはそういったバイナリデータやRDB・NoSQLのdataにとどまらず、SalesforceやDynamics 365といったクラウドサービス上にも数多く存在しています。そこで CData JDBC Driverを活用することにより、Databricks からシームレスにクラウドサービスのデータソースをロード、分析できるようになります。
この記事では、クラウドサービスのビッグデータ処理サービスである Databricks で CData JDBC Driverを利用してKafka データを扱う方法を紹介します。

Databricks に JDBC Driver for ApacheKafkaをインストールする

Databricks の管理画面に移動し、対象のクラスターを選択します。

「Libraries」タブから「Install New」をクリックします。ここから接続に必要なJDBC jarファイルをアップロードします。

CData JDBC ドライバのインストールディレクトリ（デフォルト：C:\Program Files\CData\CData JDBC Driver for ApacheKafka 2019J\lib）に配置されている「cdata.jdbc.apachekafka.jar」ファイルをドラッグ・アンド・ドロップして、対象のクラスターにインストールします。

これでドライバーの配置などの準備は完了です。

Notebook で Kafka データデータにアクセスする：Python

それでは Notebook を立ち上げて、Kafka データデータにアクセスしましょう。今回は Python を使いますが、Scalaでも同様に実行可能です。

LangauageはPythonを選択し、先程JDBCをインストールしたクラスターを選択します。

Notebook が立ち上がったら、以下のコードをそれぞれ実行していきます。

最初に接続情報を定義します。 URLはKafka データのログイン情報とセキュリティトークンを指定します。CData JDBC Driver用の特殊ライセンスをRTKとして指定します。RTK の入手方法については、CData サポートまでご連絡ください。


            # Step 1: Connection Information

            driver = "cdata.jdbc.apachekafka.ApacheKafkaDriver"
            url = "jdbc:apachekafka:User=admin;Password=pass;BootStrapServers=https://localhost:9091;Topic=MyTopic;"
            table = "SampleTable_1"

次に先程の接続情報をもとに、CData JDBC Driver経由でKafka データのデータをデータフレームとして読み込みます。


            # Step 2: Reading the data

            remote_table = spark.read.format("jdbc")\
            .option("driver", driver)\
            .option("url", url)\
            .option("dbtable", table)\
            .load()

読み込んだ結果は以下のコマンドで確認できます。これでDatabricks上でKafka データのデータを扱えるようになりました。


            # Step 3: Querying the data

            display(remote_table.select("name"))

Databricks の SparkSQLでデータを処理したい場合は、Temp Viewとして登録します。


            # Step 4: (Optional) Create a view or table

            remote_table.createOrReplaceTempView("SAMPLE_VIEW")

以下のように SparkSQLでデータを取得し、分析することができます。


            %sql

            SELECT Name,AnnualRevenue FROM SAMPLE_VIEW Order by AnnualRevenue desc limit 5

なお、データフレームは対象のNotebook内だけのデータなので、他のユーザーと一緒に利用する場合はテーブルとして保存しておきましょう。


    remote_table.write.format("parquet").saveAsTable("SAMPLE_TABLE")

このようにCData JDBC ドライバをアップロードすることで、簡単にDatabricks でKafka データデータをノーコードで連携し、分析に使うことが可能です。

是非、CData JDBC Driver for ApacheKafka 30日の無償評価版をダウンロードして、お試しください。

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。

無償トライアルへ

お問い合わせ

CData Software は、データアクセスおよびデータ接続ソリューションのリーディングプロバイダーです。CData の標準コネクタはあらゆるツール・ミドルウェアからのSaaS やDB データの連携を簡単にします。

お問い合わせ

製品概要

データコネクタ

ETL/ ELT ソリューション

クラウド&API 接続

OEM & カスタムドライバー開発

お問い合わせ先

製品を知る

データ分析 & BI

企業情報

ニュース & 事例

ソリューション

開催予定のイベント

サポート

ブログへ →

ナレッジベース

製品をチェック

目次

Kafka データをDatabricks にロードして分析処理を行う方法：CData JDBC Driver

CData JDBC ドライバを使って、クラウドデータ処理基盤のDatabricks で Kafka データを分析処理。

Databricks に JDBC Driver for ApacheKafkaをインストールする

Notebook で Kafka データデータにアクセスする：Python

関連コンテンツ

トライアル・お問い合わせ

ソリューション

開催予定のイベント

サポート

ブログへ →

ナレッジベース

製品をチェック

目次

Kafka データをDatabricks にロードして分析処理を行う方法：CData JDBC Driver

CData JDBC ドライバを使って、クラウドデータ処理基盤のDatabricks で Kafka データ を分析処理。

Databricks に JDBC Driver for ApacheKafkaをインストールする

Notebook で Kafka データ データにアクセスする：Python

関連コンテンツ

トライアル・お問い合わせ

CData JDBC ドライバを使って、クラウドデータ処理基盤のDatabricks で Kafka データを分析処理。

Notebook で Kafka データデータにアクセスする：Python