ノーコードでクラウド上のデータとの連携を実現。
詳細はこちら →こんにちは!ドライバー周りのヘルプドキュメントを担当している古川です。
R スクリプトおよび 標準SQL を使ってGoogle Data Catalog にアクセス。CData ODBC Driver for GoogleDataCatalog とRODBC package を使って、R でリモートGoogle Data Catalog を利用できます。CData Driver を使うことで、オープンソースでポピュラーなR 言語のデータにアクセスできます。この記事では、ドライバーを使ってGoogle Data Catalog にSQL クエリを実行する方法、およびR でGoogle Data Catalog をビジュアライズする方法について説明します。
CData ODBC ドライバは、以下のような特徴を持ったリアルタイムデータ連携ソリューションです。
CData ODBC ドライバでは、1.データソースとしてGoogle Data Catalog の接続を設定、2.R 側でODBC Driver との接続を設定、という2つのステップだけでデータソースに接続できます。以下に具体的な設定手順を説明します。
まずは、本記事右側のサイドバーからGoogleDataCatalog ODBC Driver の無償トライアルをダウンロード・インストールしてください。30日間無償で、製品版の全機能が使用できます。
接続プロパティの指定がまだの場合は、まずODBC DSN (データソース名)で接続設定を行います。これはドライバーのインストール時に自動的に立ち上がります。Microsoft ODBC データソースアドミニストレーターを使ってODBC DSN を作成および設定できます。
認証プロパティを追加する前に、次の接続プロパティを設定してください。
CData 製品は、認証にユーザーアカウント、サービスアカウント、およびGCP インスタンスアカウントの使用をサポートします。
OAuth の設定方法については、ヘルプドキュメントの「OAuth」セクションを参照してください。
ドライバーを使うにはRODBC パッケージをダウンロードします。RStudio で[Tools]>[Install Packages]をクリックし、RODBC を[Packages]ボックスに入力します。
RODBC パッケージをインストールしたら、次のコードを入力してパッケージをロードします。
library(RODBC)
次のコードを使ってR のDSN に接続できます:
conn <- odbcConnect("CData Google Data Catalog Source")
ドライバーはGoogle Data Catalog API をリレーショナルデータベース、ビュー、ストアドプロシージャとしてモデル化します。次のコードを使ってテーブルリストを検出します。
sqlTables(conn)
sqlQuery 関数を使ってGoogle Data Catalog API がサポートするすべてのSQL クエリを実行します。
schemas <- sqlQuery(conn, "SELECT Type, DatasetName FROM Schemas WHERE ProjectId = 'bigquery-public-data'", believeNRows=FALSE, rows_at_time=1)
次のコマンドを使って、結果を[data viewer]ウィンドウで見ることができます。
View(schemas)
これで、CRAN レポジトリで利用可能なあらゆるデータビジュアライゼーションパッケージを使ってGoogle Data Catalog を分析できます。ビルトインのbar plot 関数を使って簡単なバーを作成できます:
par(las=2,ps=10,mar=c(5,15,4,2))
barplot(schemas$DatasetName, main="Google Data Catalog Schemas", names.arg = schemas$Type, horiz=TRUE)
このようにCData ODBC ドライバと併用することで、270を超えるSaaS、NoSQL データをコーディングなしで扱うことができます。30日の無償評価版が利用できますので、ぜひ自社で使っているクラウドサービスやNoSQL と合わせて活用してみてください。
CData ODBC ドライバは日本のユーザー向けに、UI の日本語化、ドキュメントの日本語化、日本語でのテクニカルサポートを提供しています。