Alteryx DesignerにてDatabricks データを、データプレパレーション・データブレンディング・分析

詳細情報をご希望ですか?

無償トライアル:

ダウンロードへ

製品の詳細情報へ:

Databricks ODBC Driver

Databricks ODBC Driver は、ODBC 接続をサポートする各種ツールからDatabricks へのシームレスな連携を実現します。

Databricks に使い慣れたデーたベースのように標準ODBC インターフェースでRead、Write。



セルフサービスデータアナリティクスのためのDatabricks へのライブ接続のWorkflowを構築

Databricks 用のCData ODBCドライバは、ODBC標準のDatabricks からのライブデータへのアクセスを可能にし、使い慣れたSQL クエリで多種多様なBI、レポート、ETL ツールでDatabricks を扱うことができます。 この記事では、セルフサービスBI、データプレパレーション、データブレンディング、アドバンスドアナリティクスを得意とするAlteryx Designer でODBC 接続を使用してDatabricksに接続して利用する方法を示します。

※製品について詳しい情報をご希望の方は以下からお進みください。

Databricks データへの接続

  1. まだ行っていない場合は、データソース名(DSN)に必要な接続プロパティの値を入力します。 組み込みのMicrosoft ODBC データソースアドミニストレーターを使用してDSN を構成できます。 これは、ドライバのインストールじの最後のステップでも可能です。 Microsoft ODBC データソースアドミニストレータを使用してDSN を作成および設定する方法については、ヘルプドキュメントの「はじめに」の章を参照してください。

    To connect to a Databricks cluster, set the properties as described below.

    Note: The needed values can be found in your Databricks instance by navigating to Clusters, and selecting the desired cluster, and selecting the JDBC/ODBC tab under Advanced Options.

    • Server: Set to the Server Hostname of your Databricks cluster.
    • HTTPPath: Set to the HTTP Path of your Databricks cluster.
    • Token: Set to your personal access token (this value can be obtained by navigating to the User Settings page of your Databricks instance and selecting the Access Tokens tab).
  2. Alteryx Designer を開いて新しいワークフローを作成します。
  3. 新しいInput Data ToolをWorkflowにドラッグ&ドロップします。
  4. 新しい input data toolをクリックして、File or Database 下の「Database Connection -> New ODBC Connection...」を選択します。
  5. Alteryx用に定義下設定済みDSNを選択します。
  6. 開かれたウィザードの中で、クエリーに含めたいフィールドを選択します。
  7. Databricks 内のデータを要件にあった内容で正確に取得しているかを確認する場合には、SQLEditor を開き、クエリーを手動で変更することができます。

クエリー定義で、Alteryx Designer 内でDatabricks への接続の準備ができました。

Databricks に対するセルフサービス分析の実行

これで、Databricks のデータプレパレーション、ブレンディング、分析を行うワークフローを作成する準備が整いました。 以下の例では、データを整理して参照します。

  1. workflow にデータクレンジングツールを追加し、Null テキストフィールドをブランクに置き換え、ヌル数値フィールドを0に置き換えるには、NULL を置き換えるのボックスをオンにします。また、不要な文字を削除するにチェックを入れて先頭と末尾の空白を削除することもできます。
  2. workflow にbrowse data tool を追加します。
  3. run the workflow (CTRL+R) をクリック。
  4. 結果ビューにてクレンジングされたDatabricks データを確認します。