各製品の資料を入手。
詳細はこちら →PyCharm でCData ODBC Driver を使ってHDFS に接続
CData ODBC Driver を使用して、ODBC データソースとしてPyCharm からHDFS に接続します。
最終更新日:2022-03-14
この記事で実現できるHDFS 連携のシナリオ
こんにちは!ドライバー周りのヘルプドキュメントを担当している古川です。
CData ODBC Drivers は、ODBC ドライバーをサポートするあらゆる環境から利用可能です。本記事では、PyCharm からのCData ODBC Driver for HDFS の利用を説明します。CData ODBC Deriver をデータソースとして設定する方法、データソースをクエリして結果を表示するためのPyCharm の簡単なコードを含みます。
はじめに、このチュートリアルではCData ODBC Driver for HDFS とPyCharm が、既にインストールされていることを前提としています。
Pyodbc をプロジェクトに追加
以下のステップに従って、pyodbc モジュールをプロジェクトに追加します。
- [File]->[Settings]とクリックして[project settings]ウィンドウを開きます。
- [Project: YourProjectName]メニューから[Project Interpreter]をクリックします。
- pyodbc を追加するため、+ ボタンをクリックしてpyodbc と入力します。
- [Install Package]をクリックしてpyodbc をインストールします。

CData ODBC ドライバとは?
CData ODBC ドライバは、以下のような特徴を持ったリアルタイムデータ連携ソリューションです。
- HDFS をはじめとする、CRM、MA、会計ツールなど多様なカテゴリの270種類以上のSaaS / オンプレミスデータソースに対応
- 多様なアプリケーション、ツールにHDFS のデータを連携
- ノーコードでの手軽な接続設定
- 標準 SQL での柔軟なデータ読み込み・書き込み
CData ODBC ドライバでは、1.データソースとしてHDFS の接続を設定、2.PyCharm 側でODBC Driver との接続を設定、という2つのステップだけでデータソースに接続できます。以下に具体的な設定手順を説明します。
CData ODBC ドライバのインストールとHDFS への接続設定
まずは、本記事右側のサイドバーからHDFS ODBC Driver の無償トライアルをダウンロード・インストールしてください。30日間無償で、製品版の全機能が使用できます。
これで、ODBC 接続文字列またはDSN で接続できます。お客様のOS でDSN を作成するためのガイドについては、CData ドライバードキュメントの[はじめに]セクションを参照してください。
HDFS 接続プロパティの取得・設定方法
HDFS への認証には、次の接続プロパティを設定します。
- Host:HDFS インスタンスのホストに設定してください。
- Port: HDFS インスタンスのポートに設定してください。デフォルトのポートは"50070" です。
以下はDSN の構文です。
[CData HDFS Source]
Driver = CData ODBC Driver for HDFS
Description = My Description
Host = sandbox-hdp.hortonworks.com
Port = 50070
Path = /user/root
User = root
HDFS へのクエリの実行
Cursor をインスタンス化し、Cursor クラスのexecute メソッドを使用してSQL ステートメントを実行します。
import pyodbc
cnxn = pyodbc.connect('DRIVER={CData ODBC Driver for HDFS};Host = sandbox-hdp.hortonworks.com;Port = 50070;Path = /user/root;User = root;')
cursor = cnxn.cursor()
cursor.execute("SELECT FileId, ChildrenNum FROM Files WHERE FileId = '119116'")
rows = cursor.fetchall()
for row in rows:
print(row.FileId, row.ChildrenNum)
CData ODBC Driver を使用してPyCharm でHDFS に接続すると、HDFS にアクセスできるPython アプリケーションを標準データベースのように構築できるようになります。このチュートリアルに関する質問、コメント、フィードバックがある場合には、[email protected] までご連絡ください。
HDFS からPyCharm へのデータ連携には、ぜひCData ODBC ドライバをご利用ください
このようにCData ODBC ドライバと併用することで、270を超えるSaaS、NoSQL データをコーディングなしで扱うことができます。30日の無償評価版が利用できますので、ぜひ自社で使っているクラウドサービスやNoSQL と合わせて活用してみてください。
CData ODBC ドライバは日本のユーザー向けに、UI の日本語化、ドキュメントの日本語化、日本語でのテクニカルサポートを提供しています。