データウェアハウス(DWH)とは、さまざまなシステムから構造化データを取得し、時系列に蓄積していくデータベースのことです。
DWHではデータを一箇所に集約し、分析に活かすための仕組みを備えており、データ管理や活用の問題を解決することが可能です。
データレイクとは、構造化されたデータに加え、非構造データも収集し、ファイルとして蓄積する基盤のことです。
一般的にデータレイクは安価なオブジェクトストレージを基盤として構築されます。オブジェクトストレージの特性を活かし、データウェアハウス(DWH)に投入する前の無加工データ、一時データ、ログデータの格納など、広い目的・用途で利用することができます。
しかし、クエリエンジンが提供されておらず、RDBMS等と比較して検索性が悪い場合があります。また、データレイクはクラウド基盤上でサービスとして提供される場合が多いです。
データレイクハウスは、データレイクのファイルに対してクエリエンジンを提供し、クエリによる検索を実現した基盤のことです。
分析用データストアソリューションの最新の技術トレンドとなっています。
歴史の流れと各システムの登場した経緯を見てみましょう。DWH登場以前は、目的のデータを探すだけでも大変なうえ、古いデータは削除する必要があるなど、データ管理には多くの手間を費やしていました。
1990年後半、DWHの誕生によって、そういったデータ管理・活用の問題を解決できるようになりました。
2000年代初頭からデータレイクが出現しています。データレイクは、非構造化データを格納できるため、利用目的が定まっていないが将来的に有益なデータなどを蓄積しておくことができます。それらにデータの加工を施すことで多種多様な分析を行えるようになりました。
2000年代中盤から企業の各種システムがクラウドに移行するにつれてDWHも同様にクラウド移行が求められ、クラウド型データウェアハウスが誕生しました。オンプレミスのDWH特有のコストや運用、拡張性の課題などを解決できるようになりました。
現在は、ほとんどの企業がデータレイクと複数のDWHを必要としており、データレイクハウスはその必要性にマッチしたDWHとデータレイクの長所を組み合わせた新しい技術として登場しました。
データレイクハウスのメリットをご紹介します。メリットは一言でいうと、DWHとデータレイクの“良いとこ取り”である点です。
安価なオブジェクトストレージにデータを補完することでコストを抑えつつ、クエリエンジンでの検索を可能にすることでデータレイクの弱点であった検索の使い勝手の悪さを解消しています。また、オブジェクトストレージの採用によって、ペタバイトクラスのストレージにも対応でき、ユースケースとしてもBIとAIの両者に対応することができます。
従来、データレイクのデータをクエリやBIで分析する場合は、DWHなどのRDBMSにデータを複製・加工して参照する必要がありました。
しかし、データレイクハウスでは直接参照を行うことができるため、このような複製・加工機能が不要となり、それに伴うIOコストも発生しません。
データレイクハウスとデータウェアハウス(DWH)の違いを、対象とするデータ形式、コスト、利用用途の観点で比較します。
データ形式:構造化データのみ対象としています。
コスト :高速な検索性能を実現するための、高コストなストレージやクエリエンジンが必要です。
利用用途 :構造化データを対象とするため、主にBIや分析の用途で利用します。
データ形式:どんなデータ形式も対象としています。オブジェクトストレージを保存領域として利用するのでデータの形式は問いません。
コスト :安価なオブジェクトストレージをデータの保存先として利用するため、DWHより低コストになります。
ストレージのコストが抑えられるためDWHと比べて多くのデータの格納・利用が可能です。
利用用途 :BIや分析の用途および、MLやAIの学習用途としても利用します。
データレイクハウスのアーキテクチャは「取り込み層」、「ストレージ層」、「メタデータ層」、「API層」、「消費層」の5層で構成されます。各層の役割を紹介します。
この層では名前の通り、データの取込を担当します。様々なソースからデータを収集し、レイクハウスで保存、分析できる形式に変換します。
様々なソースに接続するためのプロトコルが使用されています。
この層では、構造化データ、非構造化データ、半構造化データを格納します。
高い耐久性とスケーラビリティを持ち、安価なコストでデータを保管します。
この層ではストレージ層に存在するメタデータを扱います。
ユーザーはこの層でデータカタログやトランザクションの作成、権限管理などを実現できます。データレイクハウスの基盤とも言える層です。
この層ではストレージ層に存在するデータに対して、データ分析や機械学習などで利用可能な形とするためのデータ変換を行います。
この層ではクライアントのアプリとツールをホストします。
ユーザーは保存している全てのメタデータとデータにアクセスし、SQLや機械学習、BIツールなどでの分析タスクを実行できます。
watsonx.data は、エンタープライズ・データを収集、保管、照会、および分析できるレイクハウス・アーキテクチャーです。
オープンデータ形式で動作するように適化された、柔軟で信頼性の高いプラットフォームを提供します。
watsonx.data は第1世代のデータレイクハウスではなく、次世代のデータレイクハウスです。
第1世代のデータレイクハウスと比較した場合の違いに注目して、おすすめできる理由をご紹介します。
1つ目の主な違いは、ハイブリット展開できる点です。第1世代のデータレイクハウスのほとんどはクラウド専用またはオンプレミス専用として利用できますが、watsonx.data はRed Hat OpenShift 上に構築されているため、オンプレミスだけでなく、どのクラウドにもデプロイすることが可能です。
2つ目の主な違いは、クエリエンジンのサポート数です。第1世代のデータレイクハウスのほとんどは、クエリエンジンを1つしか提供していないのに対し、watsonx.data では複数のエンジンをサポートしています。そのため組織が実行できる作業の範囲が他社製品より大きくなります。
3つ目の主な違いは、ガバナンスに関する機能です。第1世代のデータレイクハウスのほとんどは、ガバナンス機能を持っていますが、範囲と能力はwatsonx.data に比べると限られています。watsonx.data には2つのガバナンス・レイヤーがあり、1つが物理メタデータを処理して共有メタデータ・ストアとして動作しているもの、もう1つがIBM Knowledge Catalog(IKC)と統合する論理ガバナンスです。
IKCはガバナンス分野のリーダーとして広く認められている、非常に高度なガバナンス製品です。IKCを使用することでデータ資産へのアクセスを拒否するポリシーや、データ値をマスクしたりするデータ保護ルールを作成し、それらを管理するすべてのカタログに適用できます。
watsonx.data は競合製品より高度なガバナンス機能を提供できるデータレイクハウスと言えるでしょう。
※watsonxは、米国やその他の国におけるInternational Business Machines Corporationの商標または登録商標です。
おすすめソリューション