ページの本文へ

Hitachi

データ分析・利活用基盤ソリューションのレプリケーションとETLツール

経営と業務の改善「データ分析・利活用基盤ソリューション」

レプリケーションとは?

レプリケーションとは、データソースとなるシステムのデータを、ターゲットに対して複製(レプリカ)する機能です。
ERPやSFA等のシステムがデータソース、データ分析基盤がターゲットとなります。多種多様なソースからデータを収集するため、ソースシステムへ容易に接続し、効率的にデータを取得・複製することが求められます。レプリケーションは、特に下表のような特長があります。

観点

要件、従来の方法の課題

レプリケーションの場合

様々なデータソースへの接続性

各種RDBMS、SaaS、ファイル等に容易に接続できることが求められます。

多くのシステムへのコネクタを利用できます。

差分データ、削除データの反映

大量データを毎回全件洗い替えることは現実できません。追加・変更・削除されたデータを差分として識別し、データ基盤に反映する効率性が求められます。

追加・変更・削除の差分箇所をサービスが識別し、その差分だけを反映します。

データの鮮度、タイムリーな反映

従来の方法では、バッチ処理による日次データ収集が行われます。近年のデータ分析基盤では、なるべく鮮度の良いデータをタイムリーにユーザーへ提供することが求められます。

数分から数時間のサイクルを選択できます。

機能開発の工数・時間・コスト

従来の方法では、対象テーブルごとにインタフェース機能を実装するため、対象の数だけ、工数・時間・コストが必要です。

対象テーブルを選択することでターゲットに対して複製を開始します。

インタフェース方式・責任分解

ファイルベースでのデータ連携では、データ抽出側、転送側、受取側で担当・責任範囲が分かれます。ファイルレイアウト定義やフロー、プロトコルをすり合わせるなど、複雑な調整が必要です。

抽出・転送・受取までサービスが実行します。

つまり、データ分析基盤にレプリケーションを導入することで以下のメリットを得られます。

  1. サービスとして利用できるため、機能開発の工数・時間・コストを抑えて導入可能
  2. 様々なソースのデータをタイムリーに反映できる
  3. シンプルで効率的であり、対象データの拡張性にも優れる

Fivetran

Fivetranは、レプリケーションと変換を行うデータ移動プラットフォームで、自動化されたデータパイプラインをクラウドサービスで提供します。
様々なシステム/サービスからデータを取得し、データ分析基盤(データウェアハウス、レイクハウス)に登録します。また、データ分析基盤上でのデータ変換・加工を実行し、分析に適したデータを作成します。

ETLとは?

ETLとは、データソースとなるシステムのデータを抽出(Extrac)し、必要となる形に変換(Transform)した上で、ターゲットとなるデータベースに書き出し(Load)を行う機能です。また、これらの機能をグラフィカルなインターフェースで実装し実行できるツールがETLツールです。
ETLを適用すると、抽出/変換/書き出しのそれぞれで条件やロジックを定義できます。
また、必要に応じてプログラミングもでき、きめ細かな処理を実現できます。
ただし、開発を伴うため工数(コスト)が必要です。

ETLツール

ETLとして使用可能なツールは様々あります。クラウドネイティブなETLである「Azure Data Factory」や、オンプレミスでも使用可能な「Pentaho」、「DataStage」、「ASTERIA Warp」などがあります。

お問い合わせ

直接の資料請求・お問い合わせは、
お問い合わせフォームからどうぞ

その他、デモ・トライアル・導入相談など、お問い合わせも受け付けております

直接の資料請求・お問い合わせは、お問い合わせフォームからどうぞ 直接の資料請求・お問い合わせは、お問い合わせフォームからどうぞ
TOP