ETL ツールのEmbulk を使ってAccess のデータをDB にロードする方法

OSS のETL ツールEmbulk のJDBC Plugin を使って、Access のデータを簡単にDB に同期する方法をご紹介します。

杉本和也
リードエンジニア

最終更新日:2023-10-13

この記事で実現できるAccess 連携のシナリオ

こんにちは!リードエンジニアの杉本です。

Embulk は、大量のデータをDB、クラウドデータストア、DWH にロードできるオープンソースETL ツールです。近頃のトレンドでは1社で複数のオンプレアプリやSaaS を使っており、データ分析にはETL ツールを使ってデータを丸ごとDB/DWH にロードしてから、分析や可視化をすることが主流になっています。Embulk にはいろいろなプラグインがあり、多様なInput とOutput 処理をサポートしています。この記事では、Embulk のJDBC Input Plugin と CData Driver for Access を使って、Access のデータを簡単にDB にロードする方法をご紹介します。この例ではロード先のDB にはMySQL を使います。

Embulk でAccess のデータをロード

  • CData JDBC Driver for Access をEmbulk と同じマシンにインストールします。CData JDBC ドライバは30日間の無償トライアルが利用できるので、サイドバーからお気軽にダウンロードしてご利用ください。
  • 以下のパスにJDBC Driver がインストールされます。後ほどこのパスを使います。
    C:\Program Files\CData\CData JDBC Driver for Access 2019J\lib\cdata.jdbc.access.jar
  • 次に、EmbulkとCData JDBC Driverをつなぎこむための、JDBC Input Plugin をインストールします。以下のリンクからダウンロードできます。

    https://github.com/embulk/embulk-input-jdbc/tree/master/embulk-input-jdbc

    インストール用のコマンドはこちら:

    embulk gem install embulk-input-jdbc
  • 今回はロード先DB としてMySQL を使います。ほかにもSQL Server、PostgreSQL、Google BigQuery などを使うことも可能です。ロードに必要な以下のプラグインをインストールしましょう。

    https://github.com/embulk/embulk-output-jdbc/tree/master/embulk-output-mysql

    コマンドはこちら。

    embulk gem install embulk-output-mysql
  • config ファイルを作成し、Access -> MySQL のジョブを作成します。access-mysql.yml というファイル名で、以下の内容で作成しました。
  • in: type: jdbc driver_path: C:\Program Files\CData\CData JDBC Driver for Access 2025J\lib\cdata.jdbc.access.jar driver_class: cdata.jdbc.access.AccessDriver url: jdbc:access:DataSource=C:/MyDB.accdb; table: "Orders" out: type: mysql host: localhost database: DatabaseName user: UserId password: UserPassword table: "Orders" mode: insert
  • JDBC URL の内容は、ご利用の環境や資格情報を入力してください。

    Access接続の設定方法

    ローカルファイルへの接続設定

    ローカル環境からAccess への接続は非常にシンプルです。ConnectionTypeLocal に設定することで、CRUD 操作(SELECT、INSERT、UPDATE、DELETE)をすべて実行できます。接続にはDataSource プロパティに以下のようなAcces sデータベースファイルのフルパスを指定します。

    C:\Users\Public\Documents\MyDatabase.accdb

    詳細な接続手順については、ヘルプドキュメントの「はじめに」セクションをご参照ください。

    クラウドストレージ上のAccess ファイルへの接続設定

    各種クラウドストレージに保存されているAccess ファイルへのアクセスにも対応しています。ただし、クラウド上のファイルに対するデータ操作は、INSERT、UPDATE、DELETE に制限されますのでご注意ください。

    S3、Google Driver、OneDrive など、各種クラウドストレージ内のAccess ファイルへの接続方法はこちらの記事をご確認ください。

    クラウド上のファイルを更新したい場合は、以下の手順で実施いただけます。

    1. 対応するCData ドライバーを利用し、クラウドサービスからAccess ファイルをダウンロード
    2. Access ドライバーを使用して、ローカル環境でファイルを編集
    3. クラウドサービス用ドライバーのストアドプロシージャを使用して、更新ファイルをアップロード

    具体例として、SharePoint 上のファイルを更新する場合の手順をご紹介します。

    1. CData SharePoint ドライバーのDownloadDocument プロシージャを使用してファイルを取得
    2. CData Access ドライバーでファイルの更新を実施
    3. SharePoint ドライバーのUploadDocument プロシージャで更新内容を反映

    DataSource 接続プロパティの設定について補足いたします。接続先のクラウドストレージを識別するための一意の接頭辞を指定し、続けて目的のファイルパスまたはフォルダパスを記述します。フォルダを指定した場合は1ファイルが1テーブルとして、単一ファイルの場合は単一テーブルとして扱われます。

  • テーブル名は取得したいテーブル名を入れます。
  • これで準備完了です。あとは「embulk run」で実行するだけです。
  • embulk run access-mysql.yml
  • 実行後MySQL Workbenchからテーブルを確認してみると、データが取得できているはずです。

クエリ条件でフィルタリングしたデータのロード

ちなみに、上記の例ではテーブル名を直接指定しましたが、以下のようにSQL クエリを書いてもいいです。 WHERE 句で作成日や修正日を指定すれば、最新のデータだけを対象にすることも可能です。

in: type: jdbc driver_path: C:\Program Files\CData\CData JDBC Driver for Access 2019J\lib\cdata.jdbc.access.jar driver_class: cdata.jdbc.access.AccessDriver url: jdbc:access:DataSource=C:/MyDB.accdb; query: "SELECT OrderName, Freight FROM Orders WHERE [RecordId] = 1" out: type: mysql host: localhost database: DatabaseName user: UserId password: UserPassword table: "Orders" mode: insert

おわりに

CData JDBC Driver for Access をEmbulk で使うことで、Access と連携して簡単にデータを取得できます。ぜひ、30日の無償評価版をお試しください。

関連コンテンツ

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。