データ分析の方法論を幾つか(CRISP-DMとSEMMAとKDD。ついでにKKD)

「データサイエンティスト養成読本」(技術評論社,2013)にデータマイニングのプロセスとしてタイトルの3つが紹介されていたのでメモ。

CRISP-DM

Cross Industry Standard Process for Data Mining(業界横断型データマイニング汎用プロセス)の略。
SPSSなどが参加するコンソーシアムで開発された方法論。
データ分析から問題解決まで、次のステージに分けて定義している。

  1. Business Understanding

    対象のビジネス全体を理解し、課題・目的を明らかにするステージ
  2. Data Understanding

    関係者からのヒアリングを含め、データの収集・理解をするステージ
  3. Data Preparation

    数理モデル構築のためのデータマート・DWHを構築するステージ
  4. Modeling

    仮説に基づいて数理モデルを構築するステージ
  5. Evaluation

    構築した数理モデルを評価するステージ
  6. Deployment

    評価した数理モデルに基づいて何らかの施策を行うステージ

SEMMA

[Sample Explore Modify Model Assess]の略。
SAS社によって開発された方法論。
データ分析から問題解決まで、次のステージに分けて定義している。

  1. Sample

    大量のデータから重要な情報を含む分析用データを取得するステージ
  2. Explore

    理解を深めるために未知の傾向や例外を探索するステージ
  3. Modify

    モデル選択を意識した、データの作成・選択・変換を行うステージ
  4. Model

    結果に繋がるデータ同士の関係性を得るための数理モデルを作成するステージ
  5. Assess

    結果を評価し、実行するステージ

KDD

データ分析を次の過程に分けて理解する。
この概念を紹介した文章のタイトル「Knowledge Discovery in Databases」(Fayyadら, 1996)にちなんでKDDと呼ばれている。

  1. Selection

  2. Preprocessing

  3. Transformation

  4. Data Mining

  5. Interpretation/Evaluation(解釈/評価)

その他:KKD

古来より使用されてきた方法論。
次のステージの全て、あるいはいずれかを用いて問題解決を目指す。

  1. Keiken(経験)

  2. Kan(勘)

  3. Dokyou(度胸)

0 件のコメント:

コメントを投稿