Excel データをSpark に移行

詳細情報をご希望ですか?

無償トライアル:

ダウンロードへ

製品の詳細情報へ:

Excel Add-In for Apache Spark

Apache Spark Excel Add-In は、Microsoft Excel からApache Spark 連携を実現するパワフルなツールです。

標準SQL とSpark SQL をマッピングして、SQL-92 で直接Apache Spark にアクセス。大量データのインポート / エクスポート / 更新、データクレンジングおよび重複削除、Excel でのデータ分析などに最適です!



この記事では、Excel Add-In for Spark をつかって、Excel からデータを Spark に移行する方法を説明します。

CData Excel Add-In for Spark を使えば、Excel から直接Spark への編集や保存が可能になります。この記事では、Excel から Spark にデータを移行する方法を説明します。 Spark のデータを一度Excel にエクスポートして編集・データソースの一括更新を行えるだけではなく、Excel スプレッドシートに保存されているデータを一括でSpark にインポートすることも可能です。 今回の記事では、Customers テーブルを使います。同じことが、CData Excel Add-In で取得できるすべてのテーブルに対して実行可能です。


接続の確立

Spark への接続には、Excel Add-in をインストールしたExcel の[CDATA]タブ→[Spark]アイコンをクリックします。

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

  • Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
  • Port:SparkSQL インスタンスへの接続用のポートに設定。
  • TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
  • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

  • Server:Databricks クラスターのサーバーのホスト名に設定。
  • Port:443
  • TransportMode:HTTP
  • HTTPPath:Databricks クラスターのHTTP パスに設定。
  • UseSSL:True
  • AuthScheme:PLAIN
  • User:'token' に設定。
  • Password:個人用アクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。

Spark データの取得

Spark にデータを挿入するには、まず該当するSpark のテーブルを取得します。これによりExcel スプレッドシートとSpark のテーブルが連携した状態になります。取得したテーブルに対し変更、もしくは追加した部分は文字が赤でハイライトされます。

  1. CData リボンからSpark ボタンをクリックします。データ選択ウィザードが表示されます。
  2. テーブルもしくはビューメニューから、Customers テーブルを選択します。
  3. [最大行数]に、取得したい最大行数を入力します。データの一括入力だけが目的の場合は1行だけを取得すれば十分です。リクエストどおりにクエリ欄にSQL クエリが表示されます。
  4. [シート名]に作成されるシートの名前を入力します。デフォルトでは、取得するテーブル名が新しいシート名になります。