各製品の資料を入手。
詳細はこちら →Magic xpi からCData ODBC Driver を使ってSpark につないでみた
CData ODBC Driver を使って、Spark へのデータ連携をMagic xpi から行うことができます。Magic xpi の「データマッパー」機能を使って、Spark のデータをMagic xpi で使ってみましょう。
最終更新日:2022-11-20
この記事で実現できるSpark 連携のシナリオ
こんにちは!テクニカルディレクターの桑島です。
ノーコードでデータを連携・同期・統合するデータ連携(EAI)ツール「Magic xpi」には、ODBC でデータベースへ接続する機能が備わっているので、これを使ってSpark のデータ連携を行うことが可能です。 通常、Spark などのSaaS として提供されるアプリケーションにはWeb API でアクセスしますが、CData Spark ODBC Driver によって、RDB にアクセスするのと同感覚で、Spark のデータを扱うことができます。
CData ODBC ドライバとは?
CData ODBC ドライバは、以下のような特徴を持ったリアルタイムデータ連携ソリューションです。
- Spark をはじめとする、CRM、MA、会計ツールなど多様なカテゴリの270種類以上のSaaS / オンプレミスデータソースに対応
- 多様なアプリケーション、ツールにSpark のデータを連携
- ノーコードでの手軽な接続設定
- 標準 SQL での柔軟なデータ読み込み・書き込み
CData ODBC ドライバでは、1.データソースとしてSpark の接続を設定、2.Magic xpi 側でODBC Driver との接続を設定、という2つのステップだけでデータソースに接続できます。以下に具体的な設定手順を説明します。
CData ODBC ドライバのインストールとSpark への接続設定
まずは、本記事右側のサイドバーからSparkSQL ODBC Driver の無償トライアルをダウンロード・インストールしてください。30日間無償で、製品版の全機能が使用できます。
Magic xpi スタジオにてプロジェクトを作成して、ODBC接続設定を行います。
-
Magic xpi スタジオを起動してメニューバーからファイル > 新規 を選択します。新規プロジェクトウィンドウが起動したらプロジェクト名を指定して新規プロジェクトを作成します。
-
メニューバーからプロジェクト > リソース を選択します。リソース設定ウィンドウが起動したら左下の「新規」ボタンをクリックします。
-
新規リソースウィンドウにて、リソースタイプを「Database」を選択、リソース名にCDataSparkを指定して「OK」ボタンをクリックします。
-
リソース設定ウィンドウにて、DBMSには「ODBC」、データソース名には、Microsoft ODBC データソースアドミニストレーターのシステムDSNで定義されたデータソース名(DSN)、例えば「CData Spark Source」などを設定します。
Microsoft ODBC データソースアドミニストレーターを使ってDSN を作成および設定する方法は、CData Sparkのヘルプドキュメントの「はじめに」をご参照ください。
Microsoft ODBC データソースアドミニストレーターで必要なプロパティを設定する方法は、ヘルプドキュメントの「はじめに」をご参照ください。
SparkSQL への接続
SparkSQL への接続を確立するには以下を指定します。
- Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
- Port:SparkSQL インスタンスへの接続用のポートに設定。
- TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
- AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
Databricks への接続
Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。
- Server:Databricks クラスターのサーバーのホスト名に設定。
- Port:443
- TransportMode:HTTP
- HTTPPath:Databricks クラスターのHTTP パスに設定。
- UseSSL:True
- AuthScheme:PLAIN
- User:'token' に設定。
- Password:パーソナルアクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。
「検証」ボタンをクリックしてデータベースとの接続が成功することを確認して、リソース設定ウィンドウを「OK」ボタンをクリックして終了します。
Spark のデータをCSV ファイルへ出力するフローの作成
Magic xpi スタジオにて、データマッパーコンポーネントを使用してSpark のデータをCSV ファイルへ出力するフローを作成します。
-
プロジェクト内に作成されたフローを右クリックして、特性を選択します。フロー特性ウィンドウが起動したら自動起動をYesに変更して「OK」ボタンをクリックします。
-
トリガコンポーネントが「自動起動」に設定されたことを確認します。コンポーネント内のデータマッパーを右側のペインにドラッグ&ドロップします。
-
データマッパーウィンドウが起動するので「構成」ボタンをクリックします。
-
送り元/送り先管理ウィンドウが開くので、送り元のタイプをDatabase、送り先のタイプをフラットファイルに設定します。
-
送り元の「特性」ボタンをクリックして、データベーススキーマ特性ウィンドウにてDB オペレーションで「Select」を選択、データベース定義で「CDataSpark」を選択して「ウィザード」ボタンをクリックします。
-
使用可能テーブルからテーブルを選択して「追加」ボタンをクリックして選択済テーブルに追加されたことを確認して「次へ」ボタンをクリックします。
-
データベースウィザードにて出力したいカラムを使用可能カラムから「追加」ボタンをクリックして選択済カラムに追加されたことを確認して「次へ」ボタンをクリックします。
Where 句とOrder By 句の定義ウィンドウが表示されるので必要であれば設定して「次へ」ボタンをクリックします。
-
ウィザードの結果にてSQL が表示されます。誤りがなければ「終了」ボタンをクリックします。
-
次に、送り先の「特性」ボタンをクリックして、フラットファイルウィンドウにてデータの送り先で「ファイル」を選択、右横のウィンドウにパス付の出力ファイル名を入力します。
下段の「新規」ボタンを、出力するカラム数分クリックして出力項目を定義します。出力項目に併せて必要に応じて型や桁数を定義してください。
- 送り元/送り先管理ウィンドウに戻り「マップ」ボタンをクリックします。
-
「マップ」ウィンドウが起動するので、送り元から送り先の項目へのドラッグ&ドロップ操作で線でつなぎます。「OK」ボタンをクリックします。
送り元/送り先管理ウィンドウに戻り「OK」ボタンをクリックします。
Magic xpi スタジオからのテスト実行
Magic xpi スタジオから作成したフローを実行します。
-
メニューバーからデバッガ > 開く を選択します。チェック処理が実行され正常に終了すると、メニューバーからデバッガ > 実行 が活性化されるので選択します。
-
フローが実行されて正常に終了すると送り先のフラットファイルウィンドウで指定したファイルが作成されてSpark 内の指定したカラムのデータが出力されていることを確認できます。
おわりに
このようにCData ODBC ドライバと併用することで、270を超えるSaaS、NoSQL データをコーディングなしで扱うことができます。30日の無償評価版が利用できますので、ぜひ自社で使っているクラウドサービスやNoSQL と合わせて活用してみてください。
CData ODBC ドライバは日本のユーザー向けに、UI の日本語化、ドキュメントの日本語化、日本語でのテクニカルサポートを提供しています。