Ready to get started?

Learn more about the CData ODBC Driver for Apache Spark or download a free trial:

Download Now

Alteryx DesignerにてSpark Dataを、データプレパレーション・データブレンディング・分析

セルフサービスデータアナリティクスのためのSpark data へのライブ接続のWorkflowを構築

Spark 用のCData ODBCドライバは、ODBC標準のSparkからのライブデータへのアクセスを可能にし、使い慣れたSQLクエリで多種多様なBI、レポート、ETLツールでSpark dataを扱うことができます 。 この記事では、セルフサービスBI、データプレパレーション、データブレンディング、アドバンスドアナリティクスを得意とするAlteryx DesignerでODBC接続を使用してSpark dataに接続して利用する方法を示します。

Spark Dataへの接続

  1. まだ行っていない場合は、データソース名(DSN)に必要な接続プロパティの値を入力します。 組み込みのMicrosoft ODBCデータソースアドミニストレーターを使用してDSNを構成できます。 これは、ドライバのインストールじの最後のステップでも可能です。 Microsoft ODBCデータソースアドミニストレータを使用してDSNを作成および設定する方法については、ヘルプドキュメントの「はじめに」の章を参照してください。

    Set the Server, Database, User, and Password connection properties to connect to SparkSQL.

  2. Alteryx Designer を開いて新しいワークフローを作成します。
  3. 新しいInput Data ToolをWorkflowにドラッグ&ドロップします。
  4. 新しい input data toolをクリックして、File or Database下の「Database Connection -> New ODBC Connection...」を選択します。
  5. Alteryx用に定義下設定済みDSNを選択します。
  6. 開かれたウィザードの中で、クエリーに含めたいフィールドを選択します。
  7. Spark data内のデータを要件にあった内容で正確に取得しているかを確認する場合には、SQLEditorを開き、クエリーを手動で変更することができます。

クエリー定義で、Alteryx Designer内でSpark dataへの接続の準備ができました。

Spark Dataに対するセルフサービス分析の実行

これで、Spark dataのデータプレパレーション、ブレんディング、分析を行うワークフローを作成する準備が整いました。 以下の例では、データを整理して参照します。

  1. workflowにデータクレンジングツールを追加し、Nullテキストフィールドをブランクに置き換え、ヌル数値フィールドを0に置き換えるには、NULLを置き換えるのボックスをオンにします。また、不要な文字を削除するにチェックを入れて先頭と末尾の空白を削除することもできます。
  2. workflowにbrowse data toolを追加します。
  3. run the workflow (CTRL+R)をクリック。
  4. 結果ビューにてクレンジングされたSpark dataデータを確認します。
 
 
ダウンロード