Ready to get started?

Learn more about the CData ODBC Driver for Apache Hive or download a free trial:

Download Now

Alteryx DesignerにてHive Dataを、データプレパレーション・データブレンディング・分析

セルフサービスデータアナリティクスのためのHive data へのライブ接続のWorkflowを構築

Hive 用のCData ODBCドライバは、ODBC標準のHiveからのライブデータへのアクセスを可能にし、使い慣れたSQLクエリで多種多様なBI、レポート、ETLツールでHive dataを扱うことができます 。 この記事では、セルフサービスBI、データプレパレーション、データブレンディング、アドバンスドアナリティクスを得意とするAlteryx DesignerでODBC接続を使用してHive dataに接続して利用する方法を示します。

Hive Dataへの接続

  1. まだ行っていない場合は、データソース名(DSN)に必要な接続プロパティの値を入力します。 組み込みのMicrosoft ODBCデータソースアドミニストレーターを使用してDSNを構成できます。 これは、ドライバのインストールじの最後のステップでも可能です。 Microsoft ODBCデータソースアドミニストレータを使用してDSNを作成および設定する方法については、ヘルプドキュメントの「はじめに」の章を参照してください。

    Set the Server, Port, TransportMode, and AuthScheme connection properties to connect to Hive.
  2. Alteryx Designer を開いて新しいワークフローを作成します。
  3. 新しいInput Data ToolをWorkflowにドラッグ&ドロップします。
  4. 新しい input data toolをクリックして、File or Database下の「Database Connection -> New ODBC Connection...」を選択します。
  5. Alteryx用に定義下設定済みDSNを選択します。
  6. 開かれたウィザードの中で、クエリーに含めたいフィールドを選択します。
  7. Hive data内のデータを要件にあった内容で正確に取得しているかを確認する場合には、SQLEditorを開き、クエリーを手動で変更することができます。

クエリー定義で、Alteryx Designer内でHive dataへの接続の準備ができました。

Hive Dataに対するセルフサービス分析の実行

これで、Hive dataのデータプレパレーション、ブレんディング、分析を行うワークフローを作成する準備が整いました。 以下の例では、データを整理して参照します。

  1. workflowにデータクレンジングツールを追加し、Nullテキストフィールドをブランクに置き換え、ヌル数値フィールドを0に置き換えるには、NULLを置き換えるのボックスをオンにします。また、不要な文字を削除するにチェックを入れて先頭と末尾の空白を削除することもできます。
  2. workflowにbrowse data toolを追加します。
  3. run the workflow (CTRL+R)をクリック。
  4. 結果ビューにてクレンジングされたHive dataデータを確認します。
 
 
ダウンロード