経営と業務の改善「データ分析・利活用基盤ソリューション」
レプリケーションとは、データソースとなるシステムのデータを、ターゲットに対して複製(レプリカ)する機能です。
ERPやSFA等のシステムがデータソース、データ分析基盤がターゲットとなります。多種多様なソースからデータを収集するため、ソースシステムへ容易に接続し、効率的にデータを取得・複製することが求められます。レプリケーションは、特に下表のような特長があります。
観点 |
要件、従来の方法の課題 |
レプリケーションの場合 |
---|---|---|
様々なデータソースへの接続性 |
各種RDBMS、SaaS、ファイル等に容易に接続できることが求められます。 |
多くのシステムへのコネクタを利用できます。 |
差分データ、削除データの反映 |
大量データを毎回全件洗い替えることは現実できません。追加・変更・削除されたデータを差分として識別し、データ基盤に反映する効率性が求められます。 |
追加・変更・削除の差分箇所をサービスが識別し、その差分だけを反映します。 |
データの鮮度、タイムリーな反映 |
従来の方法では、バッチ処理による日次データ収集が行われます。近年のデータ分析基盤では、なるべく鮮度の良いデータをタイムリーにユーザーへ提供することが求められます。 |
数分から数時間のサイクルを選択できます。 |
機能開発の工数・時間・コスト |
従来の方法では、対象テーブルごとにインタフェース機能を実装するため、対象の数だけ、工数・時間・コストが必要です。 |
対象テーブルを選択することでターゲットに対して複製を開始します。 |
インタフェース方式・責任分解 |
ファイルベースでのデータ連携では、データ抽出側、転送側、受取側で担当・責任範囲が分かれます。ファイルレイアウト定義やフロー、プロトコルをすり合わせるなど、複雑な調整が必要です。 |
抽出・転送・受取までサービスが実行します。 |
つまり、データ分析基盤にレプリケーションを導入することで以下のメリットを得られます。
Fivetranは、レプリケーションと変換を行うデータ移動プラットフォームで、自動化されたデータパイプラインをクラウドサービスで提供します。
様々なシステム/サービスからデータを取得し、データ分析基盤(データウェアハウス、レイクハウス)に登録します。また、データ分析基盤上でのデータ変換・加工を実行し、分析に適したデータを作成します。
ETLとは、データソースとなるシステムのデータを抽出(Extrac)し、必要となる形に変換(Transform)した上で、ターゲットとなるデータベースに書き出し(Load)を行う機能です。また、これらの機能をグラフィカルなインターフェースで実装し実行できるツールがETLツールです。
ETLを適用すると、抽出/変換/書き出しのそれぞれで条件やロジックを定義できます。
また、必要に応じてプログラミングもでき、きめ細かな処理を実現できます。
ただし、開発を伴うため工数(コスト)が必要です。
ETLとして使用可能なツールは様々あります。クラウドネイティブなETLである「Azure Data Factory」や、オンプレミスでも使用可能な「Pentaho」、「DataStage」、「ASTERIA Warp」などがあります。