製品をチェック

HubDB Connector の30日間無償トライアルをダウンロード

 30日間の無償トライアルへ

製品の詳細

HubDB アイコン HubDB Python Connector 相談したい

HubDB へのデータ連携用のPython Connecotr ライブラリ。 Pandas、SQLAlchemy、Dash、petl などの主要なPython ツールにHubDB をシームレスに統合。

Python でHubDB データを変換・出力するETL 処理を作る方法

CData Python Connector とpetl モジュールを使って、HubDB データを変換後にCSV ファイルに吐き出すETL 処理を実装します。

加藤龍彦
デジタルマーケティング

最終更新日:2023-09-23
hubdb ロゴ

CData

python ロゴ画像
Python ロゴ

こんにちは!ウェブ担当の加藤です。マーケ関連のデータ分析や整備もやっています。

Pythonエコシステムには多くのモジュールがあり、システム構築を素早く効率的に行うことができます。本記事では、CData Python Connector for HubDB とpetl フレームワークを使って、HubDB データにPython から接続してデータを変換、CSV に出力するETL 変換を実装してみます。

CData Python Connector は効率的なデータ処理によりHubDB データ にPython から接続し、高いパフォーマンスを発揮します。HubDB にデータをクエリする際、ドライバーはフィルタリング、集計などがサポートされている場合SQL 処理を直接HubDB 側に行わせ、サポートされていないSQL 処理については、組み込みのSQL エンジンによりクライアント側で処理を行います(JOIN やSQL 関数など)。

必要なモジュールのインストール

pip で必要なモジュールおよびフレームワークをインストールします:

pip install petl
pip install pandas

Python でHubDB データをETL 処理するアプリを構築

モジュールとフレームワークをインストールしたら、ETL アプリケーションを組んでいきます。コードのスニペットは以下の通りです。フルコードは記事の末尾に付いています。

CData Connector を含むモジュールをインポートします。

import petl as etl
import pandas as pd
import cdata.hubdb as mod

接続文字列で接続を確立します。connect 関数を使って、CData HubDB Connector からHubDB への接続を行います

cnxn = mod.connect("AuthScheme=OAuth;OAuthClientID=MyOAuthClientID;OAuthClientSecret=MyOAuthClientSecret;CallbackURL=http://localhost:33333;InitiateOAuth=GETANDREFRESH;OAuthSettingsLocation=/PATH/TO/OAuthSettings.txt")")

HubDBデータソースへの接続には、パブリックHubSpotアプリケーションを使用したOAuth認証とプライベートアプリケーショントークンを使用した認証の2つの方法があります。

カスタムOAuthアプリを使用する

すべてのOAuthフローでAuthSchemeを"OAuth"に設定する必要があります。特定の認証ニーズ(デスクトップアプリケーション、Webアプリケーション、ヘッドレスマシン)に必要な接続プロパティについては、ヘルプドキュメントを確認してください。

アプリケーションを登録し、OAuthクライアント認証情報を取得するには、以下の手順を実行してください。

  1. HubSpotアプリ開発者アカウントにログインします。
    • アプリ開発者アカウントである必要があります。標準のHubSpotアカウントではパブリックアプリを作成できません。
  2. 開発者アカウントのホームページで、アプリタブをクリックします。
  3. アプリを作成をクリックします。
  4. アプリ情報タブで、ユーザーが接続する際に表示される値を入力し、必要に応じて変更します。これらの値には、パブリックアプリケーション名、アプリケーションロゴ、アプリケーションの説明が含まれます。
  5. 認証タブで、「リダイレクトURL」ボックスにコールバックURLを入力します。
    • デスクトップアプリケーションを作成する場合は、http://localhost:33333のようなローカルにアクセス可能なURLに設定します。
    • Webアプリケーションを作成する場合は、ユーザーがアプリケーションを承認した際にリダイレクトされる信頼できるURLに設定します。
  6. アプリを作成をクリックします。HubSpotがアプリケーションとそれに関連する認証情報を生成します。
  7. 認証タブで、クライアントIDクライアントシークレットを確認します。これらは後でドライバーを設定する際に使用します。
  8. スコープの下で、アプリケーションの意図する機能に必要なスコープを選択します。

    テーブルにアクセスするには、最低限以下のスコープが必要です:

    • hubdb
    • oauth
    • crm.objects.owners.read
  9. 変更を保存をクリックします。
  10. 統合に必要な機能にアクセスできる本番ポータルにアプリケーションをインストールします。
    • 「インストールURL(OAuth)」の下で、完全なURLをコピーをクリックして、アプリケーションのインストールURLをコピーします。
    • コピーしたリンクをブラウザで開きます。アプリケーションをインストールする標準アカウントを選択します。
    • アプリを接続をクリックします。結果のタブは閉じて構いません。

プライベートアプリを使用する

HubSpotプライベートアプリケーショントークンを使用して接続するには、AuthSchemeプロパティを"PrivateApp"に設定します。

以下の手順に従ってプライベートアプリケーショントークンを生成できます:

  1. HubDBアカウントで、メインナビゲーションバーの設定アイコン(歯車)をクリックします。
  2. 左サイドバーメニューで、統合 > プライベートアプリに移動します。
  3. プライベートアプリを作成をクリックします。
  4. 基本情報タブで、アプリケーションの詳細(名前、ロゴ、説明)を設定します。
  5. スコープタブで、プライベートアプリケーションがアクセスできるようにしたい各スコープに対して読み取りまたは書き込みを選択します。
  6. テーブルにアクセスするには、最低限hubdbとcrm.objects.owners.readが必要です。
  7. アプリケーションの設定が完了したら、右上のアプリを作成をクリックします。
  8. アプリケーションのアクセストークンに関する情報を確認し、作成を続行をクリックし、その後トークンを表示をクリックします。
  9. コピーをクリックして、プライベートアプリケーショントークンをコピーします。

接続するには、PrivateAppTokenを取得したプライベートアプリケーショントークンに設定します。

HubDB をクエリするSQL 文の作成

HubDB にはSQL でデータアクセスが可能です。NorthwindProducts エンティティからのデータを読み出します。

sql = "SELECT PartitionKey, Name FROM NorthwindProducts WHERE Id = '1'"

HubDB データ のETL 処理

DataFrame に格納されたクエリ結果を使って、petl でETL(抽出・変換・ロード)パイプラインを組みます。この例では、HubDB データ を取得して、Name カラムでデータをソートして、CSV ファイルにデータをロードします。

table1 = etl.fromdb(cnxn,sql)

table2 = etl.sort(table1,'Name')

etl.tocsv(table2,'northwindproducts_data.csv')

CData Python Connector for HubDB を使えば、データベースを扱う場合と同感覚で、HubDB データ を扱うことができ、petl のようなETL パッケージから直接データにアクセスが可能になります。

おわりに

HubDB Python Connector の30日の無償トライアル をぜひダウンロードして、HubDB データ への接続をPython アプリやスクリプトから簡単に作成しましょう。



フルソースコード

import petl as etl
import pandas as pd
import cdata.hubdb as mod

cnxn = mod.connect("AuthScheme=OAuth;OAuthClientID=MyOAuthClientID;OAuthClientSecret=MyOAuthClientSecret;CallbackURL=http://localhost:33333;InitiateOAuth=GETANDREFRESH;OAuthSettingsLocation=/PATH/TO/OAuthSettings.txt")")

sql = "SELECT PartitionKey, Name FROM NorthwindProducts WHERE Id = '1'"

table1 = etl.fromdb(cnxn,sql)

table2 = etl.sort(table1,'Name')

etl.tocsv(table2,'northwindproducts_data.csv')

関連コンテンツ

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。