CRISP-DM方法論
出自 MBA智库百科(https://wiki.mbalib.com/)
CRISP-DM方法論(跨行業數據挖掘標準流程、Cross-Industry Standard Process for Data Mining)
目錄 |
CRISP-DM方法論是NCR、OHRA、SPSS、Daimler-Benz等全球企業一起開發出來的數據挖掘方法論,它沒有特定的工具限制,也沒有特定領域局限,是適用於所有行業的標準方法論,相對於現存的其他數據挖掘方法論,CRISP - DM方法論更具有優越性,因而被廣泛地採用。
CRISP-DM方法論的內容[1]
CRISP - DM方法論把數據挖掘實踐定義為六個標準階段,分別是商業理解、數據理解、數據準備、建立模型、模型評估和模型發佈,以下分別加以簡介:
(一)商業理解階段商業理解是明確要達到的業務目標,並將其轉化為數據挖掘主題。要從商業角度對業務部門的需求進行理解,並把業務需求的理解轉化為數據挖掘的定義,擬定達成業務目標的初步方案。具體包括商業背景分析、商業成功標準的確定、形勢評估、獲得企業資源清單、獲得企業的要求和設想、評估成本和收益、評估風險和意外、初步理解行業術語,並確定數據挖掘的目標和制定數據挖掘計劃。
(二)數據理解階段數據理解是找出可能的影響主題的因素,確定這些影響因素的數據載體、數據體現形式和數據存儲位置。數據理解從數據收集開始,然後熟悉數據,具體包括以下工作內容:檢測數據質量,對數據進行初步理解,簡單描述數據,探測數據意義,並對數據中潛藏的信息和知識提出擬用數據加以驗證的假設。
(三)數據準備階段數據準備是將前面找到的數據進行變換、組合,建立數據挖掘工具軟體要求格式和內容的寬表。數據準備階段要從原始數據中形成作為建模分析對象的最終數據集。數據準備階段的具體工作主要包括數據製表、記錄處理、變數選擇、數據轉換、數據格式化和數據清理等,各項工作並不需要預先規定好執行順序,而且數據準備工作還有可能多次執行。
(四)建立模型階段建立模型是應用軟體工具,選擇合適的建模方法,處理準備好的數據寬表,找出數據中隱藏的規律。在建立模型階段,將選擇和使用各種建模方法,並將模型參數進行優化。對同樣的業務問題和數據準備,可能有多種數據挖掘技術方法可供選用,此時可優選提升度高、置信度高、簡單而易於總結業務政策和建議的數據挖掘技術方法。在建模過程中,還可能會發現一些潛在的數據問題,要求回到數據準備階段。建立模型階段的具體工作包括:選擇合適的建模技術、進行檢驗設計、建造模型。
(五)模型評估階段模型評估是要從業務角度和統計角度進行模型結論的評估。要求檢查建模的整個過程,以確保模型沒有重大錯誤,並檢查是否遺漏重要的業務問題。當模型評估階段結束時,應對數據挖掘結果的發佈計劃達成一致。
(六)模型發佈階段模型發佈又稱為模型部署,建立模型本身並不是數據挖掘的目標,雖然模型使數據背後隱藏的信息和知識顯現出來,但數據挖掘的根本目標是將信息和知識以某種方式組織和呈現出來,並用來改善運營和提高效率。當然,在實際的數據挖掘工作中,根據不同的企業業務需求,模型發佈的具體工作可能簡單到提交數據挖掘報告,也可能複雜到將模型集成到企業的核心運營系統中去。
- ↑ 江生忠,邵全權主編.《保險中介教程》.北京:對外經濟貿易大學出版社.2013.04.第187頁
有標準就是好!