metadata:「データのデータ」

by Jonathan Hikita | 2019年10月15日

metadata:「データのデータ」

今日のミッションクリティカルな BI、レポーティング、およびETL アプリケーションはデータに依存しています。そして、データはmetadata(メタデータ)に依存しています。

metadata なしでは、データの分類に多くの時間を費し、アプリケーションはうまくいきませんし、データの実用性を失ってしまうでしょう。実際に活用できるインサイトを提供しビジネスの意思決定を促していくために、データ中心のアプリケーションやデータベースを構築するには適切なメタデータが必要不可欠です。さらに、意味のある方法で(今日の101 レベルの要件で)データとアプリをインテグレーションする場合、その重要なメタデータエクスペリエンスは、技術スタック全体で一貫している必要があります。

metadata(メタデータ)とは何か?

シンプルに定義すると、metadata はデータに関する役立つ情報のサマリー、つまり「データのデータ」です。目的は、固有インスタンスのデータを検索しやすくしたり、使いやすくすることです。

基本的な例としては、説明、カラムタイプの定義(string、int、boolean、datetime)やさらにドメイン固有のデータタイプなどがあります。たとえば、

  • auther
  • Date created
  • Date modified
  • ファイルサイズ
  • Relationships

metadata は、記事、画像、動画からスプレッドシート、ウェブページ、コードスニペット、SaaS アプリ、データベース全体、およびその間のあらゆるものまでを記述できます。

なぜmetadata は重要なのでしょうか?

端的に述べると、metadata はデータを分類するのに役立つため、アプリケーション(開発者)がもとのデータベースから解釈する方法を実際に把握できます。もし、アプリケーションや開発者がデータを解釈できないと、何をすべきかわかりません。たとえば、アプリケーションは12/12/2015 をどのように解釈すべきでしょうか?人間にとっては日付です。しかしアプリには、日付、ストリング、それかまったく何も計算されないものにもなりえます。metadata を利用することでアプリケーションにコンテクスト情報を付加できます。12/12/2015 が日付としで分類され、正しく扱えるようになります。

BI、レポート、カスタムに開発されたアプリケーションに明確な情報を渡すだけでなく、metadata を使用した適切なタグづけにより、アプリケーションと人間の双方にとって、データの意味を迅速に見つけやすくなり、処理が高速化されます。

さらに、metadata を使うことでデータセット間のリレーションを構築できます。これにより、アプリケーションの機能が向上し、データの有用性が広がります。

もし、使っているツールがデータソースを理解できないと、データの上にあらゆる種類の意味付け(インテリジェンス)を構築することは不可能です。メタデータはこの問題を解決し、そもそもデータを使用する最も一般的な理由の1つであるビジネスインテリジェンス(BI)を構築することができます。分析ツールからのより深いインサイトとレポーティングアプリケーションからより関連性の高いレポートを作ることで構築が可能になります。

BI ツールの利用を難しくしているのは、爆発的に増加しているデータおよびデータ型、リレーショナル(構造化)および非リレーショナル(半構造化または非構造化)が企業の処理できるキャパシティを超えてしまっているからにほかなりません。さらに多くのデータが冗長で古く、品質にばらつきがあります。メタデータは、データの適切な供給、標準化、ドキュメント化、分析、およびアクセスを保証するための重要なソリューションなのです。

metadata のユースケース

metadata なしには、次のような広く一般的に利用されているコア機能を使うことができません:

  • データのソート、フィルタリング
  • ブラウジングや検索
  • 検索の正確性の向上
  • トピックごとの結果リストのグルーピング
  • 情報構造やナビゲーションの改善
  • 重複削除。これはストレージとバックアップのコストを削減し、検索を高速化します
  • 適切なデータストレージと迅速な取得により、各種の行政への報告義務の充足
  • モダンなBI ツールでのチャートやグラフタイプでの利用
  • 他のツールとの有用性を高める

あえて言おう、「metadata のないAPI・データなどカスであると。」

metadata を利用するツール

データを利用するあらゆるツールがmetadata から恩恵を受けています。メタデータから恩恵を受けている特定のユースケースは、下記のようなものがあります:

  • データビジュアライゼーションツール(PowerBI、Tableau、Qlik など)
  • データ分析ツール(R、H2O、RapidMiner など)
  • データ変換ツール(PowerCenter、Alteryx、Jaspersoft など)

CData Drivers が提供するメタデータの一貫性

データをフルに活用する鍵はあらゆるデータソースからのメタデータエクスペリエンスを一定に保つことです。残念ながら、エンタープライズデータの性質が異なるため、メタデータへのアクセスはデータソースによって異なるようです。一部ソースでは、API ドキュメントを読むことを意味するかもしれませんし、その他のソースでは、データストレージの方法や固有のクエリスキルなど他の知識が必要なことがあります。

CDataでは、JDBC、ODBC、およびその他の標準ドライバーを使用しており、一貫したインターフェイスを通じて、均一なメタデータエクスペリエンスを実現しています。このソリューションを使用すると、必ずしもデータベースとは限らないソースからメタデータをクエリできるため、通常可能なものよりも深く機能を使用できます。

  • API で静的なメタデータが定義されているもの:ドライバーでは、API で定義されているメタデータが利用可能です。

  • API が動的にメタデータを生成するもの:ドライバーは動的にメタデータを取得し、適切なメタデータを利用可能にします。

  • 非構造化データ:ドライバーは、レコードスキャンを行い、適切なメタデータを検出します。

是非、CData Drivers の30日試用版を使ってみてください。

メタデータを含むAPI を簡単に生成する「API Server」

CData では、ドライバーとは別にDB からAPI を開発する「API Server」も提供しています。 API Server では、DB で持っていたmetadata をAPI で使える形で公開、ドキュメント作成を行います。

API Serverは、一部無償版も用意しています。

関連コンテンツ

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。