今すぐお試しください!

製品の詳細CData JDBC Driver for Amazon Athena を確認して、無償評価版をダウンロード:

今すぐダウンロード

Athena データをDataiku DSS にロードして分析処理を行う方法:CData JDBC Driver

CData JDBC Driver for Athena を使って、データサイエンスソフトのDataiku Data Science Studio で Athena data を分析処理。

Dataiku Data Science Studio (DSS) www.dataiku.com/は 開発者およびアナリスト向けのデータサイエンスプラットフォームです。

データベース、ファイル系を中心につなぎ先が色々とあります。その中に 「Custom connectivity through JDBC」とあるので、今回はそこに CData JDBC Driver を組み込む内容となっています。
この記事では、Dataiku DSS で CData JDBC Driverを利用してAthena データを扱う方法を紹介します。

Dataiku DSS に JDBC Driver for Athenaを配置する

  • CData JDBC Driver for Athena をインストールします。
  • インストールが完了すると、lib ディレクトリに以下のようにjarファイル、licファイルが置かれました。
  • user@LAPTOP-T1M78GUR:~/cdata/amazonathena$ cd lib/ user@LAPTOP-T1M78GUR:~/cdata/amazonathena/lib$ ll total 7556 drwxr-xr-x 1 root root 4096 Feb 28 12:06 ./ drwxr-xr-x 1 root root 4096 Feb 28 12:06 ../ -rw-r--r-- 1 root root 7685088 Feb 27 14:53 cdata.jdbc.amazonathena.jar -rw-r--r-- 1 root root 368 Feb 28 12:06 cdata.jdbc.amazonathena.lic -rw-r--r-- 1 root root 951 Feb 27 14:40 cdata.jdbc.amazonathena.remoting.ini
  • 次に、jar ファイルと lic ファイルを Dataikuの DSS から参照できるよう以下のディレクトリに配置します。
  • user@LAPTOP-T1M78GUR:~/cdata/amazonathena/lib$ cp -p cdata.jdbc.amazonathena.jar /home/user/DATA_DIR/lib/jdbc/ user@LAPTOP-T1M78GUR:~/cdata/amazonathena/lib$ cp -p cdata.jdbc.amazonathena.lic /home/user/DATA_DIR/lib/jdbc/ user@LAPTOP-T1M78GUR:~/cdata/amazonathena/lib$ ll /home/user/DATA_DIR/lib/jdbc/ total 8064 drwxr-xr-x 1 user user 4096 Feb 28 12:15 ./ drwxr-xr-x 1 user user 4096 Feb 26 17:20 ../ -rw-r--r-- 1 user user 7685088 Feb 27 14:53 cdata.jdbc.amazonathena.jar -rw-r--r-- 1 user user 368 Feb 28 12:06 cdata.jdbc.amazonathena.lic user@LAPTOP-T1M78GUR:~/cdata/amazonathena/lib$
  • これで、DSS に CData AmazonAthena JDBC Driver を組み込むことができました。

Data Science Studio(DSS)で Athena data データにアクセスする

  • 「NEW PROJECT」→ 「Blank Project」をクリックします。
  • データセットを作成していきます。「IMPORT YOUR FIRST DATASET」をクリックします。
  • ここでは、「Other SQL」を選択します。
  • 「IMPORT YOUR FIRST DATASET」をクリックしてください。
  • 「+ NEW CONNECTION」を選択します。
  • 「Other SQL databases」をクリックします。
  • 以下の内容を入力し、接続確認を行います。
    • Connection Name: 任意
    • JDBC driver class: cdata.jdbc.amazonathena.AmazonAthenaDriver
    • JDBC URL: jdbc:amazonathena:AccessKey='a123';SecretKey='s123';Region='IRELAND';Database='sampledb';S3StagingDirectory='s3://bucket/staging/';
  • 接続ができたら、横の「CREATE」ボタンを押して設定した内容を保存します。
  • またプロジェクト画面から「IMPORT YOUR FIRST DATASET」→「Other SQL」で以下の画面を呼び出します。 ここでは、先ほど登録した Athena がデータソースとして選べるようになっています。赤枠にあるように、 Athena のオブジェクトがテーブル一覧になって表示することができました。
  • プレビューからデータの中身を参照することができました。
  • あとは通常のRDB データセットと同じようにプロジェクトで作成したデータセットを使って分析や可視化を行います。
  • このようにCData JDBC Driver を使ってすることで、簡単にDataiku DSS でAthena data データをノーコードで連携し、分析に使うことが可能です。

    是非、CData JDBC Driver for Athena 30日の無償試用版 をダウンロードして、お試しください。

 
 
ダウンロード