今すぐお試しください!

製品の詳細CData Excel Add-In for Apache Spark を確認して、無償評価版をダウンロード:

今すぐダウンロード

Excel データをSpark に移行

この記事では、Excel Add-In for Spark をつかって、Excel からデータを Spark に移行する方法を説明します。

CData Excel Add-In for Spark を使えば、Excel から直接Spark への編集や保存が可能になります。この記事では、Excel から Spark にデータを移行する方法を説明します。 Spark のデータを一度Excel にエクスポートして編集・データソースの一括更新を行えるだけではなく、Excel スプレッドシートに保存されているデータを一括でSpark にインポートすることも可能です。 今回の記事では、Customers テーブルを使います。同じことが、CData Excel Add-In で取得できるすべてのテーブルに対して実行可能です。


接続の確立

Spark への接続には、Excel Add-in をインストールしたExcel の[CDATA]タブ→[Spark]アイコンをクリックします。

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

  • Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
  • Port:SparkSQL インスタンスへの接続用のポートに設定。
  • TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
  • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:The needed values can be found in your Databricks instance by navigating to 'Clusters', selecting the desired cluster, and selecting the JDBC/ODBC tab under 'Advanced Options'.

  • Server:Set to the Server Hostname of your Databricks cluster.
  • Port:443
  • TransportMode:HTTP
  • HTTPPath:Set to the HTTP Path of your Databricks cluster.
  • UseSSL:True
  • AuthScheme:PLAIN
  • User:'token' に設定。
  • Password:Set to your personal access token (value can be obtained by navigating to the User Settings page of your Databricks instance and selecting the Access Tokens tab).

Spark データの取得

Spark にデータを挿入するには、まず該当するSpark のテーブルを取得します。これによりExcel スプレッドシートとSpark のテーブルが連携した状態になります。取得したテーブルに対し変更、もしくは追加した部分は文字が赤でハイライトされます。

  1. CData リボンからSpark ボタンをクリックします。データ選択ウィザードが表示されます。
  2. テーブルもしくはビューメニューから、Customers テーブルを選択します。
  3. [最大行数]に、取得したい最大行数を入力します。データの一括入力だけが目的の場合は1行だけを取得すれば十分です。リクエストどおりにクエリ欄にSQL クエリが表示されます。
  4. [シート名]に作成されるシートの名前を入力します。デフォルトでは、取得するテーブル名が新しいシート名になります。

Spark へのデータの挿入

データ取得後、既存のExcel で保存されているデータを取得したテーブルの下に追加していきます。

  1. テーブルの最終行の下の行に、他のシートを参照する式を入力します。例:=MyCustomersSheetInExcel!A1
  2. Spark に挿入するセルを参照する式を入力し、セルを取得する行数分ドラグダウンします。テーブルに参照された値が表示されます。
  3. 挿入する行を選択して、CDATA リボンの[行を挿入]ボタンをクリックします。

各行の挿入が完了すると、Id の値が表示され、追加した値の文字が赤から黒に変わります。

 
 
ダウンロード