製品をチェック

Excel Add-In for Apache Spark の30日間無償トライアルをダウンロード

 30日間の無償トライアルへ

製品の詳細

Apache Spark アイコン Excel Add-In for Apache Spark 相談したい

Apache Spark Excel Add-In は、Microsoft Excel からApache Spark 連携を実現するパワフルなツールです。

標準SQL とSpark SQL をマッピングして、SQL-92 で直接Apache Spark にアクセス。大量データのインポート / エクスポート / 更新、データクレンジングおよび重複削除、Excel でのデータ分析などに最適です!

Excel を使ってSpark にデータを追加したり、Spark のデータを編集する方法

この記事では、CData Excel Add-In を使ってExcel からデータを Spark に追加・編集する方法を説明します。

加藤龍彦
ウェブデベロッパー

最終更新日:2023-09-28
spark ロゴ

CData

excel ロゴ画像
Excel ロゴ

こんにちは!ウェブ担当の加藤です。マーケ関連のデータ分析や整備もやっています。

CData Excel Add-In for SparkSQL を使えば、Excel から直接Spark のデータ取得、追加、編集が可能になります。Spark のデータを一度Excel にエクスポートして編集・データソースの一括更新を行えるだけではなく、Excel スプレッドシートに保存されているデータを一括でSpark にインポートすることも可能です。

この記事ではExcel Add-In の使い方を説明し、実際にSpark データを取得、追加、編集していきます。記事の例ではCustomers テーブルを使いますが、同じことがCData Excel Add-In で取得できるすべてのSpark データのテーブルに対して実行可能です。

Spark への接続を設定

まずは、本記事右側のサイドバーからSparkSQL Excel Add-In の無償トライアルをダウンロード・インストールしてください。30日間無償で、製品版の全機能が使用できます。

Spark への接続には、Excel Add-in をインストールした後にExcel を起動して、「CData」タブ ->「データの取得」->「取得元:Spark」とクリックしていきます。

Excel のCData タブからデータの取得アイコンをクリックして、取得元:Sparkを選択

接続エディタが表示されるので、接続プロパティを入力して「接続テスト」をクリックしてください。プロパティの取得方法について説明します。

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

  • Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
  • Port:SparkSQL インスタンスへの接続用のポートに設定。
  • TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
  • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

  • Server:Databricks クラスターのサーバーのホスト名に設定。
  • Port:443
  • TransportMode:HTTP
  • HTTPPath:Databricks クラスターのHTTP パスに設定。
  • UseSSL:True
  • AuthScheme:PLAIN
  • User:'token' に設定。
  • Password:パーソナルアクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。

Spark データの取得

接続設定が完了したら、いよいよSpark のデータを取得してみましょう。

  1. 接続が完了すると、以下の「クエリを編集」画面が表示されます。
  2. クエリ編集画面
  3. 「テーブル/ビュー」項目の「選択」ボタンをクリックします。テーブル一覧が表示されるので、取得したいテーブルを選択してください。今回はCustomers を使います。
  4. 以下のようにテーブルのメタデータが自動で取得・表示されます。「最大行数」で取得するレコード数を調整することもできます。新規データの一括入力だけが目的の場合は、1行だけを取得するといったことも可能です。
  5. テーブルの情報
  6. 「シート名」にデータを追加するExcel シートの名前を入力します。デフォルトでは、取得するテーブル名がシート名になります。準備ができたら「OK」をクリックすると、データが取得されます(以下はすべてサンプルデータです)。
  7. 取得したSpark データ

Spark へのデータの追加・更新

これで、データの取得は完了です。ここからはデータ追加をやっていきましょう。今回は、CustomersSample という別シートにあるデータをSpark に追加していく、というシナリオで進めていきます。

  1. テーブルの最終行の下の行に、別シートを参照する式を入力します。例:=CustomersSample!A1。これで、別シートのデータをコピーできました。新たに追加してデータソース側に反映されていないデータは、赤文字で表示されます。注意点として、(読み取り専用)となっているカラムは空のままにしておいてください。 別シートからデータを入力
  2. 参照用のセルをドラッグドロップして、どんどんデータを追加します。CData Excel Add-In では複数行のデータを一括で追加できます。 複数行のデータを追加
  3. それでは、Excel で追加したデータを実際にSpark に追加してみます。追加する行を選択して、CData リボン内の「行の更新」->「選択された行の更新」ボタンをクリックします。
  4. CDataリボンから行を更新

各行の追加が完了すると、追加した値の文字が赤から黒に変わります。もしエラーなく処理が完了しても文字の色が変わらなければ、「ワークアウトのリフレッシュ」を試してみてください。

正常にデータが追加された

データの更新

追加と類似の方法でデータを更新できます。シートに取得したデータを編集すると赤文字になるので、あとは行の更新を実行するだけです。

Spark からExcel へのデータ連携には、ぜひCData Excel Add-In をご利用ください

このようにCData Excel Add-In と併用することで、270を超えるSaaS、NoSQL データをExcel からコーディングなしで扱うことができます。30日の無償評価版が利用できますので、ぜひ自社で使っているクラウドサービスやNoSQL と合わせて活用してみてください。

CData Excel Add-In は、日本のユーザー向けにUI の日本語化、ドキュメントの日本語化、日本語でのテクニカルサポートを提供しています。

関連コンテンツ

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。