CData JDBC ドライバーを使用して、Apache Spark でJSON にデータ連携。
Apache Spark は大規模データ処理のための高速で一般的なエンジンです。CData JDBC Driver for JSON と組み合わせると、Spark はリアルタイムJSON にデータ連携して処理ができます。ここでは、Spark シェルに接続してJSON をクエリする方法について説明します。
CData JDBC Driver は、最適化されたデータ処理がドライバーに組み込まれているため、リアルタイムJSON と対話するための高いパフォーマンスを提供します。JSON に複雑なSQL クエリを発行すると、ドライバーはフィルタや集計など、サポートされているSQL操作を直接JSON にプッシュし、組込みSQL エンジンを使用してサポートされていない操作(SQL 関数やJOIN 操作)をクライアント側で処理します。組み込みの動的メタデータクエリを使用すると、ネイティブデータ型を使用してJSON を操作して分析できます。
※製品について詳しい情報をご希望の方は以下からお進みください。
- JSON にほかのBI、ETL、開発ツールから接続したい:JSON データ連携ガイドおよびチュートリアルのリストへ
- JSON Drivers について詳細を知りたい:ドライバー詳細情報ページへ
- ほかのデータソースに連携したい:CData Drivers 一覧へ
- ドライバーの30日の無償トライアル版を使いたい:トライアル版ダウンロードページへ
- 製品の利用やライセンスについて相談したい:sales@cdata.co.jp までメールにてご相談ください。
CData JDBC Driver for JSON をインストール
CData JDBC Driver for JSON インストーラをダウンロードし、パッケージを解凍し、JAR ファイルを実行してドライバーをインストールします。
Spark Shell を起動してJSON データに接続
- ターミナルを開き、Spark shell でCData JDBC Driver for JSON JAR file をjars パラメータに設定します:
$ spark-shell --jars /CData/CData JDBC Driver for JSON/lib/cdata.jdbc.json.jar
- Shell でJDBC URL を使ってJSON に接続し、SQL Context load() function でテーブルを読み込みます。
データソースへの認証については、ヘルプドキュメントの「はじめに」を参照してください。本製品は、JSON API を双方向データベーステーブルとして、JSON ファイルを読み取り専用ビュー(ローカル ファイル、一般的なクラウドサービスに保存されているファイル、FTP サーバー)としてモデル化します。HTTP Basic、Digest、NTLM、OAuth、FTP などの主要な認証スキームがサポートされています。詳細はヘルプドキュメントの「はじめに」を参照してください。
URI を設定して認証値を入力したら、DataModel を設定してデータ表現とデータ構造をより厳密に一致させます。
DataModel プロパティは、データをどのようにテーブルに表現するかを制御するプロパティで、次の基本設定を切り替えます。
- Document(デフォルト):JSON データのトップレベルのドキュメントビューをモデル化します。本製品 は、ネストされたオブジェクト配列を集約されたJSON オブジェクトとして返します。
- FlattenedDocuments:ネストされた配列オブジェクトと親オブジェクトを、単一テーブルに暗黙的に結合します。
- Relational:階層データから個々の関連テーブルを返します。テーブルには、親ドキュメントにリンクする主キーと外部キーが含まれています。
リレーショナル表現の設定についての詳細は、ヘルプドキュメントの「JSON データのモデリング」を参照してください。また、以下の例で使用されているサンプルデータも確認できます。データには人や所有する車、それらの車に行われたさまざまなメンテナンスサービスのエントリが含まれています。
組み込みの接続文字列デザイナー
JDBC 接続文字列URL の作成には、JSON JDBC Driver にビルトインされたデザイナを使用できます。JAR ファイルをダブルクリックするか、コマンドラインでJAR ファイルを実行するとデザイナが開きます。
java -jar cdata.jdbc.json.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
scala> val json_df = spark.sqlContext.read.format("jdbc").option("url", "jdbc:json:URI=C:\people.json;DataModel=Relational;").option("dbtable","people").option("driver","cdata.jdbc.json.JSONDriver").load()
- 接続が完了し、データがロードされたら、テーブルスキーマが表示されます。
JSON をテンポラリーテーブルとして登録します:
scala> json_df.registerTable("people")
-
データに対して、次のようなカスタムSQL クエリを実行します:
scala> json_df.sqlContext.sql("SELECT [ personal.name.first ], [ personal.name.last ] FROM people WHERE [ personal.name.last ] = Roberts").collect.foreach(println)
You will see the results displayed in the console, similar to the following:
CData JDBC Driver for JSON をApache Spark で使って、JSON に対して、複雑かつハイパフォーマンスなクエリを実行できます。是非、30日の無償試用版 をダウンロードしてお試しください。