エンタープライズサーチのNeuron にGoogle Cloud Storage データを取り込んで検索利用

詳細情報をご希望ですか?

無償トライアル:

ダウンロードへ

製品の詳細情報へ:

Google Cloud Storage JDBC Driver

Google Cloud Storage データを組み込んだパワフルなJava アプリケーションを短時間・低コストで作成して配布できます。



企業内検索エンジンサービスの Neuron にGoogle Cloud Storage のデータを取り込んで検索する方法:CData JDBC Driver。

ブレインズテクノロジー社のNeuron は、先端OSS 技術(Apache Solr)を活用したエンタープライズサーチ(企業内検索エンジン)サービスです。Apache Solr は、エンタープライズサーチ機能をAPI として提供してくれますが、Neuron はApache Solr に企業ユーザーがデータを探索するためのシンプルかつ使いやすいユーザーインターフェースと管理画面・運用機能を提供してくれます。これによりエンドユーザーが簡単にエンタープライズサーチを利用することができます。管理画面では、ファイルやデータのクローリング設定がUI で行えるようになっています。この記事では、Neuron に備わっているJDBC インターフェース経由で、CData JDBC Driver for Google Cloud Storage を利用することでNeuron にGoogle Cloud Storage データを取り込んで検索で利用できるようにします。

Neuron にCData JDBC Driver for Google Cloud Storage データをロード

CData JDBC Driver for Google Cloud Storage のインストールと.jar ファイルの配置

  • CData JDBC Driver for Google Cloud Storage をNeuron と同じマシンにインストールします。
  • 以下のパスにJDBC Driver がインストールされます。
    C:\Program Files\CData\CData JDBC Driver for Google Cloud Storage 20xxJ\lib\cdata.jdbc.googlecloudstorage.jar
  • このcdata.jdbc.googlecloudstorage.jar とcdata.jdbc.googlecloudstorage.lic ファイルをコピーして、Neuron のC:\APP cf\lib フォルダに配置します。

Neuron CF でのGoogle Cloud Storage データを扱うリポジトリの作成

  • Neuron CF でクローラーの設定をGUI で行います。JDBC を読み取るためのリポジトリを作成します。Neuron の管理画面にログインし、[リポジトリ]→[リポジトリコレクション一覧]→[新規]をクリックします。
  • 任意のリポジトリ名を入力します。タイプは[JDBC]を選択します。
  • 次に、ドライバーのクラス名とJDBC 接続文字列でGoogle Cloud Storage への接続を行います。

    ユーザーアカウントでの認証

    ユーザー資格情報の接続プロパティを設定することなく接続できます。InitiateOAuth をGETANDREFRESH に設定したら、接続の準備が完了です。

    接続すると、Google Cloud Storage OAuth エンドポイントがデフォルトブラウザで開きます。ログインして権限を付与すると、OAuth プロセスが完了します。

    サービスアカウントでの認証

    サービスアカウントには、ブラウザでユーザー認証を行わないサイレント認証があります。サービスアカウントを使用して、企業全体のアクセススコープを委任することもできます。

    このフローでは、OAuth アプリケーションを作成する必要があります。詳しくは、ヘルプドキュメントを参照してください。以下の接続プロパティを設定したら、接続の準備が完了です:

    • InitiateOAuth: GETANDREFRESH に設定。
    • OAuthJWTCertType: PFXFILE に設定。
    • OAuthJWTCert: 生成した.p12 ファイルへのパスに設定。
    • OAuthJWTCertPassword: .p12 ファイルのパスワードに設定。
    • OAuthJWTCertSubject: 証明書ストアの最初の証明書が選ばれるように"*" に設定。
    • OAuthJWTIssuer: [サービスアカウント]セクションで[サービスアカウントの管理]をクリックし、このフィールドをサービスアカウントID フィールドに表示されているE メールアドレスに設定。
    • OAuthJWTSubject: サブジェクトタイプが"enterprise" に設定されている場合はエンタープライズID に設定し、"user" に設定されている場合はアプリユーザーID に設定。
    • ProjectId: 接続するプロジェクトのID に設定。

    これで、サービスアカウントのOAuth フローが完了します。


    ドライバクラス名:cdata.jdbc.googlecloudstorage.GoogleCloudStorageDriver
    接続文字列:jdbc:googlecloudstorage:ProjectId='project1';InitiateOAuth=REFRESH
  • [更新]をクリックして、Google Cloud Storage に接続するリポジトリコレクションができました。

Neuron でGoogle Cloud Storage のデータをクローリングするジョブを作成

続いて、Google Cloud Storage のどのデータをどのようにクローリングするのかをジョブで定義していきます。

  • 管理画面で[ジョブ]→[ジョブ一覧]→[新規]とクリックします。
  • 任意のジョブ名を入力します。出力先にはSolr を選択します。リポジトリは先ほど作成したGoogle Cloud Storage に接続するリポジトリコレクションを選びます。
  • 次に基本タブからジョブ実行を手動にするか、定期実行するかを自由に設定します。
  • SQL タブでは、どんなデータを取得するのか、テーブル名やカラム、フィルタリング条件などを設定できます。CData JDBC Driver がGoogle Cloud Storage データをテーブルにモデル化しているので、標準SQL でGoogle Cloud Storage をクエリすることができます。
    • SQL文:SELECT Name, OwnerId FROM Buckets
    • キーカラム:Id など取得テーブルのキーとなるカラム
    • 検索対象カラム:検索の対象とするカラム
    • タイトルカラム:検索結果のタイトルとするカラム
    • タイムスタンプカラム:タイムスタンプとなるカラムがあれば、ここで指定します
  • リクエストパラメータでは、検索結果レコードのURL (があれば)を設定することもできます。URL を表示できると表示された検索結果からレコードに簡単に移動できます。
  • 取得元では、ラベルを設定しておきます。[更新]をクリックして、クローラージョブの設定を完了します。

Neuron でGoogle Cloud Storage データをクロールするジョブを実行

実際にNeuron で作成したジョブを実行します。[ジョブ]→[状態とジョブ管理]をクリックし、作成したジョブの[Start]をクリックします。

ジョブが正常完了すると、[Done]がステータスとして表示されます。

Neuron 上でのGoogle Cloud Storage データの検索の実施

実際にNeuron 上で検索ができるか確認してみます。取得元を絞り込むこと、内容やファイル名での検索、ファイルサイズやファイル更新日の絞り込み、部分一致や全部一致で検索が可能です。 検索をかけてみると、以下のようにデータを取得できました。

CData JDBC Driver for Google Cloud Storage をNeuron で使うことで、Google Cloud Storage コネクタとして機能し、簡単にデータを取得して同期することができました。ぜひ、30日の無償評価版 をお試しください。