ノーコードでクラウド上のデータとの連携を実現。
詳細はこちら →Apache Spark へのデータ連携用のPython Connecotr ライブラリ。 pandas、SQLAlchemy、Dash、petl などの主要なPython ツールにApache Spark をシームレスに統合。 Python や各種ツールからSpark データに連携できるPython データベース API(DB-API)モジュール。
機能紹介
- Spark SQL にSQL をマッピングし、Apache Spark へのSQL-92 クエリを実現
- DataBricks Enterprise Platform に互換
- Apache Spark SQL NoSQL データへのSQL-92 でのクエリを実現。
- フレキシブルなNoSQL のフラット化 - 自動スキーマ生成、フレキシブルなクエリなど。
- Apache Spark SQL データにリアルタイムアクセス
- BI、帳票、ETL ツールやカスタムアプリへのシームレスなデータ連携
- データ集計、複雑なJOIN クエリなどのSQL をフルサポート
製品仕様
- Spark 連携用のPython Database API (DB-API) モジュール。
- 使い慣れたSQL でApache Spark SQL データにアクセス。Spark に使い慣れたPython Database Connectivity でデータ連携。
- pandas、SQLAlchemy、Dash、petl などの人気のPython ツールにシームレスに統合。
- Spark SQL とSQL をマッピングし、Apache Spark にSQL-92 で直接クエリを実現。
- データ、パラメータ、メタデータでUnicode をフルサポート。
CData Python Connectors の紹介動画
CData Python Connectors の基本的な使い方を紹介する動画でシンプルかつパワフルな連携をご覧ください。
Python Connector 動画を見るPython からApache Spark SQL にデータ連携
サポートされたデータソースにわたり統一されたSQL アクセスを実現するPyton Connector
-
Python からSpark への標準連携
Spark データに以下のPython ベースのフレームワークから連携を実現:
- データ分析/ビジュアライゼーション:Jupyter Notebook、pandas、Matplotlib
- ORM:SQLAlchemy、SQLObject、Storm
- ウェブアプリケーション:Dash、Django
- ETL:Apache Airflow、Luigi、Bonobo、Bubbles、petl
-
Python 標準ツールへの統合
Spark Connector は、Anaconda、Visual Studio Python IDE、PyCharm などの人気のデータサイエンスおよび開発ツールに統合して利用可能です。
-
レプリケーションとキャッシング
CData のレプリケーションやキャッシングコマンドにより、簡単にローカルおよびクラウドデータストア(Oracle、SQL Server、Google Cloud SQL、etc.)へのデータのコピーができます。レプリケーションコマンドはインテリジェントな差分更新によるデータのキャッシュを行う機能を備えています。
-
文字列型、日付型、数値型のSQL 関数群
Spark Connector は50以上の関数ライブラリを持ち、カラムと出力フォーマットを操作します。代表的な例では正規表現、JSON、およびXML 処理機能があります。
-
コラボラティブクエリ処理
Python Connector はクライアント側における追加処理を実現することにより、接続するデータソースの機能を高め、SUM、AVG、MAX、MIN などの分析集計を可能にします。
-
容易なスキーマのカスタマイズ
Spark Connector のデータモデルはテーブル / カラムの追加や削除、データ型の変更などのカスタマイズが簡単に行えます。追加ビルドは不要です。カスタマイズは、human-readable スキーマを使ってランタイムで編集ができます。
-
セキュアな接続
すべてのクライアント - サーバー間接続において、TLS / SSL データ暗号化などのエンタープライズレベルのセキュリティ機能が備わっています。
Python でSpark データに連携
CData Python Connectors は、標準化されたデータベースAPI(DB-API)インターフェースでSpark にアクセスすることができます。幅広いPython データツールからのデータ連携が簡単に実現します。Python からのデータ連携をデータソース固有のインターフェースを意識することなくベーシックなパターンで連携を行うことができます::
- Spark に接続する接続プロパティを設定
- Spark をクエリしてデータを取得・更新
- Python データツールからSpark データに連携
Python からSpark にデータ連携する方法
Python からデータに接続するには、エクステンションをインポートして接続を作ります:
import cdata.spark as mod conn = mod.connect("[email protected]; Password=password;") #Create cursor and iterate over results cur = conn.cursor() cur.execute("SELECT * FROM ApacheSpark") rs = cur.fetchall() for row in rs: print(row)
エクステンションをインポートすると、使い慣れたPython モジュールやツールキットからあらゆるエンタープライズデータに連携が可能になり、データ活用のためのPython アプリケーションをすばやく構築できます。
pandas でSpark データをビジュアライズ
Spark Python Connector はデータセントリックなインターフェースを備え、pandas やSQLAlchemy をはじめとするツールに統合して利用してデータを分析しビジュアライズすることができます。
engine = create_engine("spark///Password=password&User=user") df = pandas.read_sql("SELECT * FROM ApacheSpark", engine) df.plot() plt.show()
フルCRUD サポート
読み込み書き込み双方に対応、Spark Connector は、フルCRUD(Create、Read、Update、Delete)処理をサポートします。ユーザーは、データベーステーブルにアクセスするように、Spark Connector にアクセスして、自在にデータを処理することができます。