數據歸約
出自 MBA智库百科(https://wiki.mbalib.com/)
目錄 |
數據歸約是指在對挖掘任務和數據本身內容理解的基礎上、尋找依賴於發現目標的數據的有用特征,以縮減數據規模,從而在儘可能保持數據原貌的前提下,最大限度地精簡數據量。
數據歸約主要有兩個途徑:屬性選擇和數據採樣,分別針對原始數據集中的屬性和記錄。
假定在公司的數據倉庫選擇了數據,用於分析。這樣數據集將非常大。在海量數據上進行複雜的數據分析扣挖掘將需要很長時間,使得這種分析不現實或不可行。
數據歸約技術可以用來得到數據集的歸約表示,它雖然小,但仍大致保持原數據的完整性。這樣,在歸約後的數據集上挖掘將更有效,並產生相同(或幾乎相同)的分析結果。
1、特征歸約
特征歸約是從原有的特征中刪除不重要或不相關的特征,或者通過對特征進行重組來減少特征的個數。其原則是在保留、甚至提高原有判別能力的
同時減少特征向量的維度。特征歸約演算法的輸入是一組特征,輸出是它的一個子集。在領域知識缺乏的情況下進行特征歸約時一般包括3個步驟:
(1)搜索過程:在特征空間中搜索特征子集,每個子集稱為一個狀態由選中的特征構成。
(2)評估過程:輸入一個狀態,通過評估函數或預先設定的閾值輸出一個評估值搜索演算法的目的是使評估值達到最優。
(3)分類過程:使用最終的特征集完成最後的演算法。
2、樣本歸約
樣本都是已知的,通常數目很大,質量或高或低,或者有或者沒有關於實際問題的先驗知識。
樣本歸約就是從數據集中選出一個有代表性的樣本的子集。子集大小的確定要考慮計算成本、存儲要求、估計量的精度以及其它一些與演算法和數據特性有關的因素。
初始數據集中最大和最關鍵的維度數就是樣本的數目,也就是數據表中的記錄數。數據挖掘處理的初始數據集描述了一個極大的總體,對數據的分析只基於樣本的一個子集。獲得數據的子集後,用它來提供整個數據集的一些信息,這個子集通常叫做估計量,它的質量依賴於所選子集中的元素。取樣過程總會造成取樣誤差,取樣誤差對所有的方法和策略來講都是固有的、不可避免的,當子集的規模變大時,取樣誤差一般會降低。一個完整的數據集在理論上是不存在取樣誤差的。與針對整個數據集的數據挖掘比較起來,樣本歸約具有以下一個或多個優點:減少成本、速度更快、範圍更廣,有時甚至能獲得更高的精度。
3、特征值歸約
特征值歸約是特征值離散化技術,它將連續型特征的值離散化,使之成為少量的區間,每個區間映射到一個離散符號。這種技術的好處在於簡化了數據描述,並易於理解數據和最終的挖掘結果。
特征值歸約可以是有參的,也可以是無參的。有參方法使用一個模型來評估數據,只需存放參數,而不需要存放實際數據;有參的特征值歸約有以下兩種:
(1)回歸:線性回歸和多元回歸;
(2)對數線性模型:近似離散多維概率分佈。
無參的特征值歸約有3種:
(1)直方圖:採用分箱近似數據分佈,其中V-最優和MaxDiff直方圖是最精確和最實用的;
(2)聚類:將數據元組視為對象,將對象劃分為群或聚類,使得在一個聚類中的對象“類似”而與其他聚類中的對象“不類似”在數據歸約時用數據的聚類代替實際數據;
(3)選樣:用數據的較小隨機樣本表示大的數據集,如簡單選擇n個樣本(類似樣本歸約)、聚類選樣和分層選樣等。
數據歸約類型這一節讀完才意識到涉及到了統計學知識點和概念,只是叫法不一樣