製品をチェック

Azure Data Lake Storage ODBC Driver の30日間無償トライアルをダウンロード

 30日間の無償トライアルへ

製品の詳細

Azure Data Lake Storage アイコン Azure Data Lake Storage ODBC Driver 相談したい

Azure Data Lake Storage ODBC Driver を使って、ODBC 接続をサポートするあらゆるアプリケーション・ツールからAzure Data Lake Storage にデータ連携。

Azure Data Lake Storage にデータベースと同感覚でアクセスして、Azure Data Lake Storage データに使い慣れたODBC インターフェースで連携。

Linux/UNIX 上のPython からAzure Data Lake Storage データにデータ連携

CData ODBC Driver を使って、Linux/UNIX 上のPython アプリケーションからAzure Data Lake Storage データへのデータ連携を実現します。

古川えりか
コンテンツスペシャリスト

最終更新日:2022-11-27
azuredatalake ロゴ

CData

odbc ロゴ画像
Python ロゴ

こんにちは!ドライバー周りのヘルプドキュメントを担当している古川です。

CData ODBC Driver for ADLS を使えば、豊富なPython のエコシステムを使ったデータ連携が簡単に行えます。CData Linux/UNIX ODBC Driver for ADLS とpyodbc module を使って、簡単にAzure Data Lake Storage に連携するPython アプリケーションを構築したり、データ分析が手軽に行えます。本記事では、pyodbc のビルトイン関数を使って、Azure Data Lake Storage に接続し、クエリを実行、表示する方法を説明します。

CData ODBC ドライバとは?

CData ODBC ドライバは、以下のような特徴を持ったリアルタイムデータ連携ソリューションです。

  1. Azure Data Lake Storage をはじめとする、CRM、MA、会計ツールなど多様なカテゴリの270種類以上のSaaS / オンプレミスデータソースに対応
  2. 多様なアプリケーション、ツールにAzure Data Lake Storage データを連携
  3. ノーコードでの手軽な接続設定
  4. 標準 SQL での柔軟なデータ読み込み・書き込み

CData ODBC ドライバでは、1.データソースとしてAzure Data Lake Storage の接続を設定、2.Linux 側でODBC Driver との接続を設定、という2つのステップだけでデータソースに接続できます。以下に具体的な設定手順を説明します。

CData ODBC Drivers をUNIX/Linux マシンで利用

CData ODBC Drivers は、Ubuntu、Debian、RHEL、CentOS、Fedora などの様々なRed Hat ベースおよびDebian ベースのシステムでサポートされています。必要なライブラリとパッケージもいくつかあり、システムによってはそれらがデフォルトでインストールされる場合があります。Linux オペレーティングシステムのサポートされているバージョンと必要なライブラリの詳細については、ヘルプドキュメント(オンラインでインストールおよび検索)の[はじめに]セクションを参照してください。

Driver Manager のインストール

ドライバーをインストールする前に、システムにドライバーマネジャーがあることを確認してください。この記事では、広くサポートされている無料のオープンソースODBC ドライバーマネジャーであるunixODBC を使用します。

Ubuntu のようなDebian ベースのシステムの場合、APT パッケージマネジャーを使用してunixODBC をインストールできます。

$ sudo apt-get install unixODBC unixODBC-dev

Red Hat Linux に基づくシステムの場合、yum またはdnf を使用して、unixODBC をインストールできます。

$ sudo yum install unixODBC unixODBC-devel

unixODBC ドライバーマネジャーは、odbcinst.ini ファイルからドライバーに関する情報を読み取り、odbc.ini ファイルからデータソースに関する情報を読み取ります。 ターミナルに以下のコマンドを入力すると、システム上の構成ファイルの場所を特定できます。

$ odbcinst -j

コマンドの出力には、ODBC データソースと登録済みのODBC ドライバーの構成ファイルの場所が表示されます。 ユーザーデータソースには、odbc.ini が存在するホームフォルダを持つユーザーアカウントからのみアクセスできます。システムのデータソースには、すべてのユーザーがアクセスできます。 以下は、このコマンドの出力例です。

DRIVERS............: /etc/odbcinst.ini SYSTEM DATA SOURCES: /etc/odbc.ini FILE DATA SOURCES..: /etc/ODBCDataSources USER DATA SOURCES..: /home/myuser/.odbc.ini SQLULEN Size.......:8 SQLLEN Size........:8 SQLSETPOSIROW Size.:8

ドライバーのインストール

標準パッケージ形式(Debian .deb パッケージ形式または.rpm ファイル形式)でドライバーをダウンロードすることができます。フィルをダウンロードしたら、ターミナルからドライバーをインストールできます。

ドライバーインストーラーは、ドライバーをunixODBC に登録し、システムDSN を作成します。これは、後にODBC 接続をサポートするツールやアプリケーションで使用できます。

Ubuntu のようなDebian ベースのシステムの場合、sudo を付けるか、root として次のコマンドを実行します。 $ dpkg -i /path/to/package.deb

Red Hat システムおよび.rpms をサポートするその他のシステムの場合には、sudo またはroot として以下のコマンドを実行します。 $ rpm -i /path/to/package.rpm

ドライバーがインストールされると、unixODBC ドライバーマネジャーを使用して、登録されたドライバーと定義されたデータソースを一覧表示できます。

登録済みドライバーを一覧表示

$ odbcinst -q -d CData ODBC Driver for ADLS ...

定義されたデータソースを一覧表示

$ odbcinst -q -s CData ADLS Source ...

CData ODBC Driver for ADLS をunixODBC で使用するには、ドライバーがUTF-16 を使用するように構成されていることを確認してください。これを行うには、以下のように、インストール場所のlib フォルダ(通常は、/opt/cdata/cdata-odbc-driver-for-adls) にあるドライバーのINI ファイル(cdata.odbc.adls.ini) を編集します。

cdata.odbc.adls.ini

... [Driver] DriverManagerEncoding = UTF-16

DSN の変更

ドライバーのインストールにより、システムDSN が事前定義されます。システムデータソースファイル(/etc/odbc.ini)を編集し、必要な接続プロパティを定義することで、DSN を変更できます。さらに、$HOME/.odbc.ini で変更するためにroot アクセスを必要としない、ユーザー固有のDSN を作成できます。

Azure DataLakeStorage 接続プロパティの取得・設定方法

Azure DataLakeStorage Gen 1 への接続

Gen 1 DataLakeStorage アカウントに接続するには、はじめに以下のプロパティを設定します。

  • SchemaADLSGen1 を指定。
  • Account:アカウント名に設定。
  • AzureTenant:テナントId に設定。Azure Portal 内のAzure Data Lake プロパティから取得できます。
  • Directory:(オプション)複製したファイルを格納するためのパスを設定。指定しない場合は、ルートディレクトリが使用されます。

Azure DataLakeStorage Gen 1 への認証

Gen 1 は、認証方法としてAzure Active Directory OAuth(AzureAD)およびマネージドサービスID(AzureMSI)をサポートしています。認証方法は、ヘルプドキュメントの「Azure DataLakeStorage Gen 1 への認証」セクションを参照してください。

Azure DataLakeStorage Gen 2 への接続

Gen 2 DataLakeStorage アカウントに接続するには、はじめに以下のプロパティを設定します。

  • SchemaADLSGen2 に設定。
  • Account:ストレージアカウント名に設定。
  • FileSystem:このアカウントで使用するファイルシステム名に設定。例えば、Azure Blob コンテナ名など。
  • Directory:(オプション)複製したファイルを格納するためのパスを設定。指定しない場合は、ルートディレクトリが使用されます。

Azure DataLakeStorage Gen 2 への認証

Gen 2は、認証方法としてアクセスキー、共有アクセス署名(SAS)、Azure Active Directory OAuth(AzureAD)、マネージドサービスID(AzureMSI)など多様な方法をサポートしています。AzureAD、AzureMSI での認証方法は、ヘルプドキュメントの「Azure DataLakeStorage Gen 2 への認証」セクションを参照してください。

アクセスキーを使用した認証

アクセスキーを使用して接続するには、AccessKey プロパティを取得したアクセスキーの値に、AuthScheme を「AccessKey」に設定します。

Azure ポータルからADLS Gen2 ストレージアカウントのアクセスキーを取得できます。

  1. Azure ポータルのADLS Gen2 ストレージアカウントにアクセスします。
  2. 設定で「アクセスキー」を選択します。
  3. 利用可能なアクセスキーの1つの値を「AccessKey」接続プロパティにコピーします。

共有アクセス署名(SAS)

共有アクセス署名を使用して接続するには、SharedAccessSignature プロパティを接続先リソースの有効な署名に設定して、AuthScheme を「SAS」に設定します。 共有アクセス署名は、Azure Storage Explorer などのツールで生成できます。

/etc/odbc.ini または$HOME/.odbc.ini

[CData ADLS Source] Driver = CData ODBC Driver for ADLS Description = My Description Schema = ADLSGen2 Account = myAccount FileSystem = myFileSystem AccessKey = myAccessKey

これらの構成ファイルの使用に関する具体的な情報については、、ヘルプドキュメントを参照してください。

以下のステップに従ってpyodbc をインストールし、Python オブジェクトを介してAzure Data Lake Storage へのアクセスを開始できます。

pyodbc のインストール

pip ユーティリティを使用してモジュールをインストールできます。

pip install pyodbc

必ず以下のコードでモジュールをインポートしてください。

import pyodbc

Python でのAzure Data Lake Storage データへの接続

これで、ODBC 接続文字列またはDSN で接続できます。以下は、接続文字列の構文です。

cnxn = pyodbc.connect('DRIVER={CData ODBC Driver for ADLS};Schema=ADLSGen2;Account=myAccount;FileSystem=myFileSystem;AccessKey=myAccessKey;')

以下は、DSN の構文です。

cnxn = pyodbc.connect('DSN=CData ADLS Sys;')

Azure Data Lake Storage へのSQL の実行

Cursor をインスタンス化し、Cursor クラスのexecute メソッドを使用してSQL ステートメントを実行します。

cursor = cnxn.cursor()

選択

fetchallfetchone、およびfetchmany を使用し、SELECT ステートメントから返されたRows を取得できます。

import pyodbc cursor = cnxn.cursor() cnxn = pyodbc.connect('DSN=CData ADLS Source;User=MyUser;Password=MyPassword') cursor.execute("SELECT FullPath, Permission FROM Resources WHERE Type = 'FILE'") rows = cursor.fetchall() for row in rows: print(row.FullPath, row.Permission)

パラメータ化されたクエリをシーケンスまたは因数リストで提供できます。

cursor.execute( "SELECT FullPath, Permission FROM Resources WHERE Type = ?", 'FILE',1)

メタデータの発見

getinfo メソッドを使用してデータソースやドライバーの機能に関する情報などのデータを取得できます。getinfo メソッドは、入力をODBC SQLGetInfo メソッドに渡します。

cnxn.getinfo(pyodbc.SQL_DATA_SOURCE_NAME)

CData ODBC Driver for ADLS を使用してAzure Data Lake Storage に接続できるLinux/UNIX 環境で、Python アプリを構築することができるようになりました。

Azure Data Lake Storage からLinux へのデータ連携には、ぜひCData ODBC ドライバをご利用ください

このようにCData ODBC ドライバと併用することで、270を超えるSaaS、NoSQL データをコーディングなしで扱うことができます。30日の無償評価版が利用できますので、ぜひ自社で使っているクラウドサービスやNoSQL と合わせて活用してみてください。

CData ODBC ドライバは日本のユーザー向けに、UI の日本語化、ドキュメントの日本語化、日本語でのテクニカルサポートを提供しています。

関連コンテンツ

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。