本記事では CData サポート担当からこんなことを聞かれたらどこを確認すべきか?という観点で、よく頂くお問合せ内容をご紹介します。
記事はこちら →
Hive データをDB にバックアップしておくニーズがあります。
本記事では、Hive データをDB に入るようにスキーマ化を行うCData ODBC Driver for ApacheHive のキャッシュ機能を使って、SQL Server にHive の任意のアプリを同期する方法を説明します。
ODBC 接続プロパティの指定がまだの場合は、DSN (データソース名)で接続設定を行います。 Microsoft ODBC データソースアドミニストレーターを使ってODBC DSN を作成および設定できます。 ODBC ドライバーのインストール完了時にODBC DSN 設定画面が立ち上がります。 Microsoft ODBC データソースアドミニストレーターを開いて設定を行うことも可能です。 必要なプロパティを設定する方法は、ヘルプドキュメントの「はじめに」をご参照ください。
同じODBC DSN 画面で、Cache Connection とCache Provider のプロパティを設定します。Cache Provider は、キャッシュ先のDB の種類を指定します。Cache Connection は、Cache 先のDB のサーバー名、データベース名、ユーザー、パスワードを入力します。
PowerShell から以下のスクリプトで明示的にCache クエリを実行します。
[void][System.Reflection.Assembly]::LoadWithPartialName("System.Data")
$connectionsString = "DSN=CData ApacheHive Source"
$odbcCon = New-Object System.Data.Odbc.OdbcConnection($connectionsString)
$odbcCon.Open()
$odbcCmd = New-Object System.Data.Odbc.OdbcCommand
$odbcCmd.Connection = $odbcCon
## CACHE SELECT Accountテーブルは毎回全件取得。
$odbcCmd.CommandText = "CACHE SELECT * FROM TableName"
## 以下のようにCEHCKCACHEコマンドであれば、差分の削除も実施する
## $odbcCmd.CommandText = "CHECKCACHE * FROM TableName WITH REPAIR START '11/15/2017' END '2/2/2018'"
$odbcCmd.ExecuteNonQuery() | Out-Null
$odbcCmd.Dispose()
$odbcCon.Close()
$odbcCon.Dispose()
実際にSQL Server でデータが生成されていることが確認できます。あとは、SQL Server のデータをバックアップとして使うなり、BI やレポーティングに利用することが可能です。
このように、CData ODBC Drivers を使うことで、Hive データを簡単にSQL Server のようなDB にレプリケーションすることができます。是非、CData ODBC Drivers の30日の無償評価版 をお試しください。
スクリプトもSQL も書かずにHive データを複製したい場合には、CData Sync がおすすめです。是非、こちらもご覧ください。