RPA ツールUiPath でSpark データを連携利用

詳細情報をご希望ですか?

無償トライアル:

ダウンロードへ

製品の詳細情報へ:

Apache Spark ODBC Driver

Apache Spark ODBC Driver は、ODBC 接続をサポートするさまざまなアプリケーションからApache Spark データへの接続を実現するパワフルなツールです。

標準SQL とSpark SQL をマッピングして、SQL-92 で直接Apache Spark にアクセス。



Spark ODBC Driver を使って、UiPath からノーコードで連携フローを作成。



UiPath は高機能なRPA(Robotic Process Automation)製品です。UiPath Studioを使うことで、RPAプログラムをフローチャートを描くように開発することが可能です。 CData ODBC driver を使えば、コーディングなしでUiPath からSpark への連携フローを設定することができます。UiPath は、ODBC Driver に対してSQL を発行します。発行されたSQL をCData ODBC driver がSpark へのリアルタイムリクエストに変換し、レスポンスをテーブルデータとして取得します。
この記事では、UiPath Studio を使って、Spark に連携するRPA プログラムを作成します。

※製品について詳しい情報をご希望の方は以下からお進みください。

今回作成するUiPath RPA プロジェクト

以下のようなUiPath RPA プロジェクトを作成します。
「Connect Activity」を利用して、SparkCData ODBC driverに接続し、顧客リストを取得するSQLを実行。取得したDatatableを「Write CSV Activity」を利用してCSV出力します。

Spark ODBC Driver とUiPath Studio の連携

接続プロパティが未設定の場合は、まずODBC DSN(データソース名)で設定します。これはドライバーのインストールの最後の手順です。Microsoft ODBC データソースアドミニストレーターを使ってODBC DSN を作成および設定できます。

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

  • Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
  • Port:SparkSQL インスタンスへの接続用のポートに設定。
  • TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
  • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

  • Server:Databricks クラスターのサーバーのホスト名に設定。
  • Port:443
  • TransportMode:HTTP
  • HTTPPath:Databricks クラスターのHTTP パスに設定。
  • UseSSL:True
  • AuthScheme:PLAIN
  • User:'token' に設定。
  • Password:個人用アクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。

これで、UiPath StudioにSpark data を接続することができます。作業手順は以下です。

  1. スタートページからBlank をクリックして、新しいプロジェクトを作成します。新しいデータベースでFile -> Inport Records -> Data Source をクリックし、CData Spark DSN を選択します。プロジェクト名は任意の名称を設定します。
  2. Spark ODBC Driverの接続を行うためには、Database接続用のActivityが必要になります。 Activities ナビゲーションから[Manage Package]をクリックし、[UiPath.Database.Activities]を検索し、インストールします。
  3. ActivitiesからFlow chartを配置して、下準備は完了です。
  4. ODBC 接続に使用するConnect Activity を配置します。配置後ダブルクリックし、Connectの詳細を表示します。
  5. Connectの詳細画面にて、Configure Connectionをクリックし、Connection Wizard を表示します。Microsoft ODBC Data Source を選択します。
  6. use user or system data source name:から作成したCData Spark Source DSNをドロップダウンで選択します。OK を押して接続を確立します。
  7. Connection 情報を格納するための変数を作成し、Propetries のOutput で、DatabaseConnection を指定し、紐付けを行います。

Execute Query Activity の作成

次に先程作成したODBC Connection 情報を使って、ODBC からデータを取り出すクエリを実行するためのExecute Query Activity を作成します。

  1. Activities ナビゲーションから[Execute Query]を選択し、Flowchartに配置します。
  2. Propertiesに以下のように値を入力します。
    ExistingDbConnection: 先程作成したConneciton変数を入力します。
    Sql: Spark の対象リストを取得するSELECT 文を入力します。
    DataTable: DataTable型の変数を作成し、入力します。

Write CSV の作成

最後のActivityとして、取得したDataTableをCSV出力するActivityを配置します。[FilePath]に出力するCSVのフォルダパスとファイル名(例:"C:\UiPath\Sample.csv")、DataTableに先程作成したDataTable変数を紐づけます。

各Activity の接続と実行

あとは各Activityを紐付ければ、Spark データを出力するRPA プロジェクトの作成は完了です。

RUN をクリックすると、自動的にSpark のデータを取得し、CSVが生成されます。

このようにCData ODBC Drivers を利用して、簡単にUiPath Studio でSpark に連携するフローを作成することができます。