レプリケーションとETLツール

経営と業務の改善「データ分析・利活用基盤ソリューション」

データ分析・利活用基盤ソリューションに関するお問い合わせや資料請求はこちら

レプリケーションとは？

レプリケーションとは、データソースとなるシステムのデータを、ターゲットに対して複製(レプリカ)する機能です。
ERPやSFA等のシステムがデータソース、データ分析基盤がターゲットとなります。多種多様なソースからデータを収集するため、ソースシステムへ容易に接続し、効率的にデータを取得・複製することが求められます。レプリケーションは、特に下表のような特長があります。

観点	要件、従来の方法の課題	レプリケーションの場合
様々なデータソースへの接続性	各種RDBMS、SaaS、ファイル等に容易に接続できることが求められます。	多くのシステムへのコネクタを利用できます。
差分データ、削除データの反映	大量データを毎回全件洗い替えることは現実できません。追加・変更・削除されたデータを差分として識別し、データ基盤に反映する効率性が求められます。	追加・変更・削除の差分箇所をサービスが識別し、その差分だけを反映します。
データの鮮度、タイムリーな反映	従来の方法では、バッチ処理による日次データ収集が行われます。近年のデータ分析基盤では、なるべく鮮度の良いデータをタイムリーにユーザーへ提供することが求められます。	数分から数時間のサイクルを選択できます。
機能開発の工数・時間・コスト	従来の方法では、対象テーブルごとにインタフェース機能を実装するため、対象の数だけ、工数・時間・コストが必要です。	対象テーブルを選択することでターゲットに対して複製を開始します。
インタフェース方式・責任分解	ファイルベースでのデータ連携では、データ抽出側、転送側、受取側で担当・責任範囲が分かれます。ファイルレイアウト定義やフロー、プロトコルをすり合わせるなど、複雑な調整が必要です。	抽出・転送・受取までサービスが実行します。

つまり、データ分析基盤にレプリケーションを導入することで以下のメリットを得られます。

サービスとして利用できるため、機能開発の工数・時間・コストを抑えて導入可能
様々なソースのデータをタイムリーに反映できる
シンプルで効率的であり、対象データの拡張性にも優れる

Fivetran

Fivetranは、レプリケーションと変換を行うデータ移動プラットフォームで、自動化されたデータパイプラインをクラウドサービスで提供します。
様々なシステム/サービスからデータを取得し、データ分析基盤(データウェアハウス、レイクハウス)に登録します。
また、データ分析基盤上でのデータ変換・加工を実行し、分析に適したデータを作成します。

「Fivetran」についての詳細はこちら

ETLとは？

ETLとは、データソースとなるシステムのデータを抽出(Extrac)し、必要となる形に変換(Transform)した上で、ターゲットとなるデータベースに書き出し(Load)を行う機能です。また、これらの機能をグラフィカルなインターフェースで実装し実行できるツールがETLツールです。
ETLを適用すると、抽出/変換/書き出しのそれぞれで条件やロジックを定義できます。
また、必要に応じてプログラミングもでき、きめ細かな処理を実現できます。ただし、開発を伴うため工数(コスト)が必要です。