経営と業務の改善「データ分析・利活用基盤ソリューション」
クラウド型データウェアハウスとは、従来からデータ分析基盤として用いられてきているデータウェアハウス(DWH)を、クラウドのアーキテクチャで実現したものを指します。ここでは、データ分析基盤の役割と要件、それに対する従来のDWHの課題を説明します。その後、当社の提供するクラウド型データウェアハウスでのデータ分析基盤の特長を説明します。
データ分析基盤は主に、各種システムのデータを蓄積し、分析用データを生成し、BIツールや統計分析ツールへ提供する、という機能を持ちます。データ分析基盤が必要となるのは、以下を実現するためです。
分析の要件が単一システム内で閉じることは稀です。例えば販売状況を分析する要件であれば、販売実績値と見込値を組み合わせて、当期の着地を見きわめることが求められます。このような場合、実績値を販売管理システムから、見込値を営業案件管理システムから取得し、両者を組み合わせたデータで分析を行うようにします。このように複数のシステムのデータを1つの基盤に統合する必要があり、この役割をデータ分析基盤が担います。
データ分析基盤がなくても、BIツールから業務アプリのデータベース等に直接接続することは可能です。しかし、分析・可視化のためのクエリは大量データを読み込み集計するため、業務アプリのデータベースの負荷を高め、業務アプリ側のパフォーマンスを低下させる可能性があります。
そのため、BIツールが業務アプリのデータベースに直接接続する方式は、採用されないか、ごく限られた範囲での利用となります。データ分析基盤があれば、業務アプリへ影響を及ぼすことなく、BIツールからデータ分析基盤へのクエリを行うことができるようになります。
大規模データを扱うという特性から、特に以下が求められます。
大容量 |
様々なデータを一元的に保持するため、大容量のデータを蓄積する必要があります。導入初期はデータが蓄積されていないため小さいものの、次第に増え、最終的には数百GB、TBのサイズが求められます。 |
---|---|
性能 |
分析・可視化のためのクエリは大量データを読み込み集計します。汎用的なリレーショナルデータベース(RDBMS)は、このような大量データの読み込みには最適化されておらず、分析画面のパフォーマンスが悪いというケースが生じやすくなります。 |
拡張性 |
可視化・分析の要件は、導入時点でわかるのはごく一部のみであり、運用をしていくなかで次第に認識されたり、新たに発生したりしていきます。新たな要件に対応するため、別のシステムからのデータを収集・蓄積し、可視化画面などを追加することになり、データ領域や処理能力もそれに応じて拡張していく必要があります。 |
従来からデータウェアハウス(DWH)という方法によってデータ分析基盤が実装されてきています。DWH用途に特化した専用製品が各種存在しますが、導入フェーズまたは運用フェーズにおいて以下の課題が生じる場合があります。
運用を続ける内に、蓄積されたデータは次第に増えていきます。また、活用されているデータ分析基盤であればあるほど、利用ユーザーや分析画面も増えていきます。これによって、稼働当初は高速であった画面やクエリも、次第に遅くなっていきます。
ディスクが不足してきた、性能が悪くなってきた、という場合にはシステムの拡張を検討します。しかし、ディスクやCPUなどのマシンスペック自体の拡張は、コントローラ等のハードウェア的な制限があります。ダウンタイムやデータ移行などを考えると、後から拡張することは容易ではありません。
仮想化などの技術によって後からでも容易に変更可能となりますが、ホストマシンのスペック内での割当変更であり、ホストマシン側を拡張するのは、同様に困難です。
上述のように、必要になったときに簡単に拡張することができないため、導入時に将来の最大値やピーク値まで想定し、さらにバッファを見込んで、スペックを決定することになります。そのため、高額な初期費用となります。
また、クラウドDWHの場合には、スペックを変更することは容易になっています。導入時には小さなスペックで始め、運用しながら順次アップできます。利用時間やデータサイズに対する課金となり、ハード購入等がありませんので、初期費用も安価です。
しかし、スペック変更に伴うダウンタイムが長時間であり、これを許容できない場合には、実質的にスペック変更ができないことになります。余裕を持った高めのスペックで24時間365日ずっと起動しておくことになりますので、毎月のサービス利用料は高額・固定的になります。利用者が少ない時間帯も同額となるため、コスト効率に劣るように感じる場合もあります。
当社では、クラウドを活用したデータ分析基盤をご提案しています。特に、近年多くのユーザー様に導入いただいているSnowflakeでは、以下のような特長があります。
拡張性 |
クエリ処理を行うコンピューティング層を、用途に応じて独立・分離させ、複数個を持つことができます。 |
---|---|
コスト |
クラウドストレージは、TBあたり月額で数千円(数十ドル)程度です。ストレージと比べコンピューティングのリソースの方が高額ですが、上述の柔軟に拡張・停止する特性によって、不要な高スペックで常時起動することがなく、利用実態とコストが最適化されます。 |
大容量 |
クラウドストレージの容量は実質的に無制限です。 |
性能 |
汎用的なリレーショナルデータベースとは異なり、大規模/複雑なクエリに適したパーティション、列ストア、データ圧縮などのアーキテクチャを持ちます。 |
導入支援サービス |
データ分析基盤の製品ライセンスとともに、導入・構築の支援サービスを提供します。 |
他システムからのデータ収集機能の実装 |
他システムに接続し、データを収集する仕組み(ETL、レプリケーション、インタフェース等)を提供致します。 |
可視化・分析機能の実装 |
BIツールの導入、可視化画面の設計・実装、統計分析ツールの導入、分析モデルの実装等を提供致します。 |
クラウド型データウェアハウス製品には、「Snowflake」、「Azure Synapse Analytics」などがあります。
Snowflakeは、クラウドテクノロジーをベースにゼロから開発された高速でスケーラブルな次世代データクラウドプラットフォームです。
コンピュートとストレージを完全分離して管理することで、データソースに対し競合のないアクセス、スケーラビリティ確保を可能とします。
また、コストの最適化、ニアゼロメンテナンスなど、運用負担を軽減することも可能です。