聚類分析

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

(重定向自聚类分析方法)

聚類分析(Cluster Analysis)

目錄

聚類分析概述

  聚類分析(Cluster Analysis)又稱群分析,是根據“物以類聚”的道理,對樣品或指標進行分類的一種多元統計分析方法,它們討論的對象是大量的樣品,要求能合理地按各自的特性來進行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗知識的情況下進行的。聚類分析起源於分類學,在古老的分類學中,人們主要依靠經驗和專業知識來實現分類,很少利用數學工具進行定量的分類。隨著人類科學技術的發展,對分類的要求越來越高,以致有時僅憑經驗和專業知識難以確切地進行分類,於是人們逐漸地把數學工具引用到了分類學中,形成了數值分類學,之後又將多元分析的技術引入到數值分類學形成了聚類分析。

  聚類分析被應用於很多方面,在商業上,聚類分析被用來發現不同的客戶群,並且通過購買模式刻畫不同的客戶群的特征;在生物上,聚類分析被用來動植物分類和對基因進行分類,獲取對種群固有結構的認識;在地理上,聚類能夠幫助在地球中被觀察的資料庫商趨於的相似性;在保險行業上,聚類分析通過一個高的平均消費來鑒定汽車保險單持有者的分組,同時根據住宅類型,價值,地理位置來鑒定一個城市的房產分組;在網際網路應用上,聚類分析被用來在網上進行文檔歸類來修複信息

  聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析的目標就是在相似的基礎上收集數據來分類。聚類源於很多領域,包括數學,電腦科學,統計學,生物學和經濟學。在不同的應用領域,很多聚類技術都得到了發展,這些技術方法被用作描述數據,衡量不同數據源間的相似性,以及把數據源分類到不同的簇中。

聚類分析的計算方法

  聚類分析計算方法主要有如下幾種:分裂法(partitioning methods):層次法(hierarchical methods):基於密度的方法(density-based methods): 基於網格的方法(grid-basedmethods): 基於模型的方法(model-based methods)。

  1、分裂法又稱劃分方法(PAM:PArtitioning method) 首先創建k個劃分,k為要創建的劃分個數;然後利用一個迴圈定位技術通過將對象從一個劃分移到另一個劃分來幫助改善劃分質量。

  • 典型的劃分方法包括:
    • k-means,k-medoids,CLARA(Clustering LARge Application),
    • CLARANS(Clustering Large Application based upon RANdomized Search).
    • FCM

  2、層次法(hierarchical method) 創建一個層次以分解給定的數據集。該方法可以分為自上而下(分解)和自下而上合併)兩種操作方式。為彌補分解與合併的不足,層次合併經常要與其它聚類方法相結合,如迴圈定位。

  • 典型的這類方法包括:
    • BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) 方法,它首先利用樹的結構對對象集進行劃分;然後再利用其它聚類方法對這些聚類進行優化。
    • CURE(Clustering Using REprisentatives) 方法,它利用固定數目代表對象來表示相應聚類;然後對各聚類按照指定量(向聚類中心)進行收縮。
    • ROCK方法,它利用聚類間的連接進行聚類合併。
    • CHEMALOEN方法,它則是在層次聚類時構造動態模型。

  3、基於密度的方法,根據密度完成對象的聚類。它根據對象周圍的密度(如DBSCAN)不斷增長聚類。

  • 典型的基於密度方法包括:
    • DBSCAN(Densit-based Spatial Clustering of Application with Noise):該演算法通過不斷生長足夠高密度區域來進行聚類;它能從含有雜訊的空間資料庫中發現任意形狀的聚類。此方法將一個聚類定義為一組“密度連接” 的點集。
    • OPTICS(Ordering Points To Identify the Clustering Structure):並不明確產生一個聚類,而是為自動交互的聚類分析計算出一個增強聚類順序。

  4、基於網格的方法,首先將對象空間劃分為有限個單元以構成網格結構;然後利用網格結構完成聚類。

  • 典型的基於網格的方法包括:
    • STING(STatistical INformation Grid) 就是一個利用網格單元保存的統計信息進行基於網格聚類的方法。
    • CLIQUE(Clustering In QUEst)和Wave-Cluster 則是一個將基於網格與基於密度相結合的方法。

  5、基於模型的方法,它假設每個聚類的模型併發現適合相應模型的數據。

  • 典型的基於模型方法包括:
    • 統計方法COBWEB:是一個常用的且簡單的增量式概念聚類方法。它的輸入對象是採用符號量(屬性-值)對來加以描述的。採用分類樹的形式來創建一個層次聚類。
    • CLASSIT是COBWEB的另一個版本.。它可以對連續取值屬性進行增量式聚類。它為每個結點中的每個屬性保存相應的連續正態分佈(均值與方差);並利用一個改進的分類能力描述方法,即不象COBWEB那樣計算離散屬性(取值)和而是對連續屬性求積分。但是CLASSIT方法也存在與COBWEB類似的問題。因此它們都不適合對大資料庫進行聚類處理.

  傳統的聚類演算法已經比較成功的解決了低維數據的聚類問題。但是由於實際應用中數據的複雜性,在處理許多問題時,現有的演算法經常失效,特別是對於高維數據和大型數據的情況。因為傳統聚類方法在高維數據集中進行聚類時,主要遇到兩個問題。①高維數據集中存在大量無關的屬性使得在所有維中存在簇的可能性幾乎為零;②高維空間中數據較低維空間中數據分佈要稀疏,其中數據間距離幾乎相等是普遍現象,而傳統聚類方法是基於距離進行聚類的,因此在高維空間中無法基於距離來構建簇。

  高維聚類分析已成為聚類分析的一個重要研究方向。同時高維數據聚類也是聚類技術的難點。隨著技術的進步使得數據收集變得越來越容易,導致資料庫規模越來越大、複雜性越來越高,如各種類型的貿易交易數據、Web 文檔、基因表達數據等,它們的維度(屬性)通常可以達到成百上千維,甚至更高。但是,受“維度效應”的影響,許多在低維數據空間表現良好的聚類方法運用在高維空間上往往無法獲得好的聚類效果。高維數據聚類分析是聚類分析中一個非常活躍的領域,同時它也是一個具有挑戰性的工作。目前,高維數據聚類分析在市場分析信息安全金融娛樂、反恐等方面都有很廣泛的應用。

聚類分析的特征

  聚類分析是根據事物本身的特性研究個體的一種方法,目的在於將相似的事物歸類。它的原則是同一類中的個體有較大的相似性,不同類的個體差異性很大。這種方法有三個特征:

  (1)適用於沒有先驗知識的分類。如果沒有這些事先的經驗或一些國際標準國內標準行業標準,分類便會顯得隨意和主觀。這時只要設定比較完善的分類變數,就可以通過聚類分析法得到較為科學合理的類別;

  可以處理多個變數決定的分類。例如,要根據消費者購買量的大小進行分類比較容易,但如果在進行數據挖掘時,要求根據消費者的購買量、家庭收入、家庭支出、年齡等多個指標進行分類通常比較複雜,而聚類分析法可以解決這類問題;

  (3)聚類分析法是一種探索性分析方法,能夠分析事物的內在特點和規律,並根據相似性原則對事物進行分組,是數據挖掘中常用的一種技術。

聚類分析在市場分析中的應用

  這種較成熟的統計學方法如果在市場分析中得到恰當的應用,必將改善市場營銷的效果,為企業決策提供有益的參考。其應用的步驟為:將市場分析中的問題轉化為聚類分析可以解決的問題,利用相關軟體(如SPSS、SAS等)求得結果,由專家解讀結果,並轉換為實際操作措施,從而提高企業利潤,降低企業成本

  聚類分析在客戶細分中的應用

  消費同一種類的商品或服務時,不同的客戶有不同的消費特點,通過研究這些特點,企業可以制定出不同的營銷組合,從而獲取最大的消費者剩餘,這就是客戶細分的主要目的。常用的客戶分類方法主要有三類:經驗描述法,由決策者根據經驗對客戶進行類別劃分;傳統統計法,根據客戶屬性特征的簡單統計來劃分客戶類別;非傳統統計方法,即基於人工智慧技術的非數值方法。聚類分析法兼有後兩類方法的特點,能夠有效完成客戶細分的過程。

  例如,客戶的購買動機一般由需要認知、學習等內因和文化、社會、家庭、小群體參考群體等外因共同決定。要按購買動機的不同來劃分客戶時,可以把前述因素作為分析變數,並將所有目標客戶每一個分析變數的指標值量化出來,再運用聚類分析法進行分類。在指標值量化時如果遇到一些定性的指標值,可以用一些定性數據定量化的方法加以轉化,如模糊評價法等。除此之外,可以將客戶滿意度水平和重覆購買機會大小作為屬性進行分類;還可以在區分客戶之間差異性的問題上納入一套新的分類法,將客戶的差異性變數劃分為五類:產品利益、客戶之間的相互作用力、選擇障礙、議價能力和收益率,依據這些分析變數聚類得到的歸類,可以為企業制定營銷決策提供有益參考。

  以上分析的共同點在於都是依據多個變數進行分類,這正好符合聚類分析法解決問題的特點;不同點在於從不同的角度尋求分析變數,為某一方面的決策提供參考,這正是聚類分析法在客戶細分問題中運用範圍廣的體現。

  聚類分析在實驗市場選擇中的應用

  實驗調查法市場調查中一種有效的一手資料收集方法,主要用於市場銷售實驗,即所謂的市場測試。通過小規模的實驗性改變,以觀察客戶對產品或服務的反應,從而分析該改變是否值得在大範圍內推廣。

  實驗調查法最常用的領域有:市場飽和度測試。市場飽和度反映市場的潛在購買力,是市場營銷戰略和策略決策的重要參考指標。企業通常通過將消費者購買產品或服務的各種決定因素(如價格等)降到最低限度的方法來測試市場飽和度。或者在出現滯銷時,企業投放類似的新產品或服務到特定的市場,以測試市場是否真正達到飽和,是否具有潛在的購買力。前述兩種措施由於利益和風險的原因,不可能在企業覆蓋的所有市場中實施,只能選擇合適的實驗市場和對照市場加以測試,得到近似的市場飽和度;產品的價格實驗。這種實驗往往將新定價的產品投放市場,對顧客的態度和反應進行測試,瞭解顧客對這種價格的是否接受或接受程度;新產品上市實驗。波士頓矩陣研究的企業產品生命周期圖表明,企業為了生存和發展往往要不斷開發新產品,並使之向明星產品和金牛產品順利過渡。然而新產品投放市場後的失敗率卻很高,大致為66%到90%。因而為了降低新產品的失敗率,在產品大規模上市前,運用實驗調查法對新產品的各方面(外觀設計、性能、廣告和推廣營銷組合等)進行實驗是非常有必要的。

  在實驗調查方法中,最常用的是前後單組對比實驗、對照組對比實驗和前後對照組對比實驗。這些方法要求科學的選擇實驗和非實驗單位,即隨機選擇出的實驗單位和非實驗單位之間必須具備一定的可比性,兩類單位的主客觀條件應基本相同。

  通過聚類分析,可將待選的實驗市場(商場、居民區、城市等)分成同質的幾類小組,在同一組內選擇實驗單位和非實驗單位,這樣便保證了這兩個單位之間具有了一定的可比性。聚類時,商店的規模、類型、設備狀況、所處的地段、管理水平等就是聚類的分析變數。聚類分析在抽樣方案設計中的應用

  抽樣設計是市場調查中非常重要的一個部分,它的合理性直接決定了市場調查結果的可信度。在抽樣方案設計的步驟中,抽樣組織形式的選擇又是一個關鍵環節,它決定了樣本總體的代表性的高低。依據抽樣誤差由低到高的順序排列,按照標誌排隊的等距抽樣方式抽樣誤差最小,其次分別為分層抽樣、按照無關標誌排隊的等距抽樣簡單隨機抽樣整群抽樣非隨機抽樣。結合資源的限制和操作的方便性進行綜合選擇,分層抽樣在實踐中的應用最為廣泛。分層抽樣又稱類型抽樣,它是先將總體所有單位按照重要標誌進行分組,然後在各組內按照簡單隨機抽樣或等距抽樣方式抽取樣本單位的一種抽樣方式。在分組時引入聚類方法,可以增強組別的合理性。

  聚類分析在銷售片區確定中的應用

  銷售片區的確定和片區經理的任命在企業的市場營銷中發揮著重要的作用。只有合理地將企業所擁有的子市場歸成幾個大的片區,才能有效地制定符合片區特點的市場營銷戰略和策略,並任命合適的片區經理。聚類分析在這個過程中的應用可以通過一個例子來說明。某公司在全國有20個子市場,每個市場在人口數量、人均可支配收入、地區零售總額、該公司某種商品的銷售量等變數上有不同的指標值。以上變數都是決定市場需求量的主要因素。把這些變數作為聚類變數,結合決策者的主觀願望和相關統計軟體提供的客觀標準,接下來就可以針對不同的片區制定合理的戰略和策略,並任命合適的片區經理了。

  聚類分析在市場機會研究中的應用

  企業制定市場營銷戰略時,弄清在同一市場中哪些企業是直接競爭者,哪些是間接競爭者是非常關鍵的一個環節。要解決這個問題,企業首先可以通過市場調查,獲取自己和所有主要競爭者品牌方面的第一提及知名度、提示前知名度和提示後知名度的指標值,將它們作為聚類分析的變數,這樣便可以將企業和競爭對手的產品或品牌歸類。根據歸類的結論,企業可以獲得如下信息:企業的產品或品牌和哪些競爭對手形成了直接的競爭關係。通常,聚類以後屬於同一類別的產品和品牌就是所分析企業的直接競爭對手。在制定戰略時,可以更多的運用“紅海戰略”。在聚類以後,結合每一產品或品牌的多種不同屬性的研究,可以發現哪些屬性組合目前還沒有融入產品或品牌中,從而尋找企業在市場中的機會,為企業制定合理的“藍海戰略”提供基礎性的資料。

本條目對我有幫助266
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目

本条目由以下用户参与贡献

Cabbage,Anson,Zfj3000,Yixi,KAER,河河,方小莉,Gaoshan2013,Dan,Mis铭.

評論(共0條)

提示:評論內容為網友針對條目"聚類分析"展開的討論,與本站觀點立場無關。

發表評論請文明上網,理性發言並遵守有關規定。

MBA智库
打开APP

以上内容根据网友推荐自动排序生成