各製品の資料を入手。
詳細はこちら →RapidMiner からCSV のデータに連携
CSV をRapidMiner Studio の標準コンポーネント及びデータソース構成ウィザードと統合します。
最終更新日:2022-10-29
この記事で実現できるCSV 連携のシナリオ
こんにちは!ドライバー周りのヘルプドキュメントを担当している古川です。
この記事では、CData JDBC Driver for CSV をRapidMiner のプロセスと簡単に統合する方法を示します。この記事では、CData JDBC Driver for CSV を使用してCSV をRapidMiner のプロセスに転送します。
RapidMiner のCSV にJDBC Data Source として接続する
以下のステップに従ってCSV へのJDBC 接続を確認できます。
- CSV 用の新しいデータベースドライバーを追加します。[Connections]->[Manage Database Drivers]とクリックします。
- 表示されるウィザードで[Add]ボタンをクリックし、接続に名前を入力します。
- JDBC URL のプレフィックスを入力します。
jdbc:csv:
- インストールディレクトリのlib サブフォルダにあるcdata.jdbc.csv.jar ファイルにパスを入力して下さい。
- ドライバークラスを入力します。
cdata.jdbc.csv.CSVDriver
- 新しいCSV 接続を作成します。[Connections]->[Manage Database Connections]とクリックします。
- 接続の名前を入力します。
- データベースシステムの場合は、以前構成したCSV ドライバーを選択します。
- Host ボックスで接続文字列を入力します。
CSV 接続プロパティの取得・設定方法
DataSource プロパティにローカルフォルダ名を設定します。
.csv、.tab、.txt ではない拡張子のファイルを扱う場合には、IncludeFiles 使用する拡張子をカンマ区切りで設定します。Microsoft Jet OLE DB 4.0 driver 準拠の場合にはExtended Properties を設定することができます。別の方法として、Schema.ini ファイルにファイル形式を記述することも可能です。
CSV ファイルの削除や更新を行う場合には、UseRowNumbers をTRUE に設定します。RowNumber はテーブルKey として扱われます。
Amazon S3 内のCSV への接続
URI をバケットおよびフォルダに設定します。さらに、次のプロパティを設定して認証します。
- AWSAccessKey:AWS アクセスキー(username)に設定。
- AWSSecretKey:AWS シークレットキーに設定。
Box 内のCSV への接続
URI をCSV ファイルを含むフォルダへのパスに設定します。Box へ認証するには、OAuth 認証標準を使います。 認証方法については、Box への接続 を参照してください。
Dropbox 内のCSV への接続
URI をCSV ファイルを含むフォルダへのパスに設定します。Dropbox へ認証するには、OAuth 認証標準を使います。 認証方法については、Dropbox への接続 を参照してください。ユーザーアカウントまたはサービスアカウントで認証できます。ユーザーアカウントフローでは、以下の接続文字列で示すように、ユーザー資格情報の接続プロパティを設定する必要はありません。
SharePoint Online SOAP 内のCSV への接続
URI をCSV ファイルを含むドキュメントライブラリに設定します。認証するには、User、Password、およびStorageBaseURL を設定します。
SharePoint Online REST 内のCSV への接続
URI をCSV ファイルを含むドキュメントライブラリに設定します。StorageBaseURL は任意です。指定しない場合、ドライバーはルートドライブで動作します。 認証するには、OAuth 認証標準を使用します。
FTP 内のCSV への接続
URI をルートフォルダとして使用されるフォルダへのパスが付いたサーバーのアドレスに設定します。認証するには、User およびPassword を設定します。
Google Drive 内のCSV への接続
デスクトップアプリケーションからのGoogle への認証には、InitiateOAuth をGETANDREFRESH に設定して、接続してください。詳細はドキュメントの「Google Drive への接続」を参照してください。
ビルトイン接続文字列デザイナ
JDBC URL の構成については、CSV JDBC Driver に組み込まれている接続文字列デザイナを使用してください。JAR ファイルのダブルクリック、またはコマンドラインからJAR ファイルを実行します。
java -jar cdata.jdbc.csv.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
以下は一般的な接続文字列です。
DataSource=MyCSVFilesFolder;
- 必要であればユーザー名とパスワードを入力します。
プロセス内の様々なRapidMiner オペレーターとのCSV 接続を使用できます。CSV を取得するには、[Operators]ビューから[Retrieve]をドラッグします。
[Retrieve]オペレータを選択した状態で、[repository entry]の横にあるフォルダアイコンをクリックして[Parameters]ビューで取得するテーブルを定義できます。表示されるRepository ブラウザで接続ノードを展開し、目的のサンプルセットを選択できます。

最後に、[Retrieve]プロセスから結果に出力をワイヤリングし、プロセスを実行してCSV を確認します。
