「データサイエンティスト養成読本」(技術評論社,2013)にデータマイニングのプロセスとしてタイトルの3つが紹介されていたのでメモ。
CRISP-DM
Cross Industry Standard Process for Data Mining(業界横断型データマイニング汎用プロセス)の略。
SPSSなどが参加するコンソーシアムで開発された方法論。
データ分析から問題解決まで、次のステージに分けて定義している。
Business Understanding
対象のビジネス全体を理解し、課題・目的を明らかにするステージ
Data Understanding
関係者からのヒアリングを含め、データの収集・理解をするステージ
Data Preparation
数理モデル構築のためのデータマート・DWHを構築するステージ
Modeling
仮説に基づいて数理モデルを構築するステージ
Evaluation
構築した数理モデルを評価するステージ
Deployment
評価した数理モデルに基づいて何らかの施策を行うステージ
SEMMA
[Sample Explore Modify Model Assess]の略。
SAS社によって開発された方法論。
データ分析から問題解決まで、次のステージに分けて定義している。
Sample
大量のデータから重要な情報を含む分析用データを取得するステージ
Explore
理解を深めるために未知の傾向や例外を探索するステージ
Modify
モデル選択を意識した、データの作成・選択・変換を行うステージ
Model
結果に繋がるデータ同士の関係性を得るための数理モデルを作成するステージ
Assess
結果を評価し、実行するステージ
KDD
データ分析を次の過程に分けて理解する。
この概念を紹介した文章のタイトル「Knowledge Discovery in Databases」(Fayyadら, 1996)にちなんでKDDと呼ばれている。
Selection
Preprocessing
Transformation
Data Mining
Interpretation/Evaluation(解釈/評価)
その他:KKD
古来より使用されてきた方法論。
次のステージの全て、あるいはいずれかを用いて問題解決を目指す。
Keiken(経験)
Kan(勘)
Dokyou(度胸)