IBM SPSSは、高度な統計分析、多数の機械学習アルゴリズムを備えたデータサイエンスのためのソフトウェアプラットフォーム・ブランドです。SPSSは設立時、独立した分析ソフトウェア専門の会社として立ち上がりましたが、その後IBMに統合され、現在の「IBM SPSS」ブランドとなりました。IBM SPSSブランドのソフトウェアには、複数の製品が存在しており、用途・目的に応じて使用することができます。
SPSS Statisticsは「仮説検証型」のデータ分析に適したソフトウェアです。記述統計や推測統計、回帰分析など幅広い統計解析手法を提供します。また、欠損データの検出や補正など、データ準備に使用できるオプションも用意されています。
SPSS Amos は「構造方程式モデリング(SEM)」に適したソフトウェアです。回帰分析、因子分析、相関分析、分散分析などの標準的な多変量解析手法を拡張することで、研究や理論をサポートします。
SPSS Modelerは、データマイニングとも呼ばれる「仮説発見型」のデータ分析に適したソフトウェアです。データ入力、統合・加工、可視化、モデリング(機械学習)、予測といったデータマイニングで必要とされる全ワークロードを、ローコード・ノーコードで実装できます。
処理はストリームと呼ばれるグラフィカルなフロー図で表され、試行錯誤や繰り返しての再利用を効率的に行うことができます。
SPSS Modelerでは、データ入力、加工、可視化(グラフ作成、出力)、モデリング(機械学習)などの一連の処理をストリームと呼ばれるフロー図として実装できます。ストリームは、キャンバスと呼ばれる定義領域上に、パレットに一覧されるノードと呼ばれる部品をマウスのドラッグ&ドロップで並べて、矢印で繋ぐことで作成していきます。各種パラメタはデフォルト値が用意されており、最小限の実装で進められるようになっており、プログラミングスキルは必ずしも必要ありません。(ローコード・ノーコード)
一方、高度なプログラミングスキルを持つ経験者向けに、RやPythonを使って機能拡張することも可能であり、「ライト」~「ヘビー」ユースまで様々なデータサイエンティストの要求に応えることができます。
図1:キャンバス上に定義したストリームの例
各種データベースからのデータ取得、CSVや固定長などのフラットファイルから直接データを取得できます。
その他、SPSS Statistics等、他の分析ツールで作成したデータセットを流用することも可能です。
図2:「データ入力」ノードの例
レコード(行)に対する加工、フィールド(列)に対する加工の両方をサポートします。
図3:「レコードの加工」ノードの例
図4:「フィールドの加工」ノードの例
パターン発見、予測、クラスタリングに使用できる様々なモデル化アルゴリズム(機械学習アルゴリズム)が使用できます。
線形回帰、デシジョンツリーといった古くから使用されてきたアルゴリズムに加え、SVM、ランダムフォレスト、XGBoostなど比較的近代的なアルゴリズムまで多くのアルゴリズムが用意されています。各種アルゴリズムは、それぞれ適切なデフォルト値が用意されており高度なアルゴリズムを気軽に試すことができます。
図5:「モデル化」ノードの例
棒グラフ、折れ線グラフ、ヒストグラム、散布図、箱ひげ図といった統計で多用される各種グラフを項目の選択だけで簡単に作成することができます。
図6:「グラフ作成」ノードの例
ストリーム中のどの時点からでもデータを出力することができます。データ内容や統計量算出結果を画面で確認するための機能と、処理結果をデータベースやファイル等の外部環境に出力して2次利用可能とするためのエクスポート機能が含まれます。
図7:「画面出力」ノードの例
図8 「エクスポート」ノードの例
一連の分析ワークロードのいくつかの工程で利用できる支援機能を用意しています。例えば、データ入力および加工の工程では、入力データのクリーニング(欠落値の検出や補完や分析に必要な項目の用意)を半自動化するデータ準備機能を利用できます。
また、モデル化の工程では、複数のモデル化アルゴリズムを実行させて精度の良いものを選択する自動モデリング機能が利用できます。
図9:「自動化」ノードの例
ストリームは、フロー図として可視化され分かりやすいものではありますが、試行錯誤の過程で非常に広大なフローとなってしまう場合や試行錯誤の経緯を忘れてしまう場合が考えられます。あとで設定内容を読み解かずとも処理概要が理解できるように、キャンバス上に吹き出し状のコメントを記載することが可能であり、ストリームの可読性向上に役立ちます。
図10 「コメント機能」使用例
カスタマーライフタイムバリューの最大化を目指すため活動の中で、顧客獲得、客単価向上、解約防止(維持)などの施策で活用できます。
金融業務、保険請求、企業間取引などに潜む脅威に備えるため、予測や異常検知モデリングを活用できます。
製造における歩留まり改善、生産計画立案時のインプットとなる需要予測等に活用できます。
価格、料金体系についてはお問い合わせください。
uniSQUARE MLは、IBM SPSS ModelerのOEM製品であり、日立ソリューションズ東日本のブランドで提供するソフトウェア製品です。
双方は、同様の機能を有したソフトウェアであり、定義ファイルや入力・出力等を相互に流用することが可能です。
おすすめソリューション