無監督學習
出自 MBA智库百科(https://wiki.mbalib.com/)
無監督學習(unsupervised learning)也叫非監督學習
目錄 |
無監督學習是機器學習(machine learning)中的一種訓練方式/學習方式。更像是讓機器自學,是沒有標簽的一種學習。無法清楚判斷數據集中數據、特征之間的關係,而是要根據聚類或一定的模型得到數據之間的關係。
無監督學習常常被用於數據挖掘,用於在大量無標簽數據中發現些什麼。它的訓練數據是無標簽的,訓練目標是能對觀察值進行分類或者區分等。例如無監督學習應該能在不給任何額外提示的情況下,僅依據所有“貓”的圖片的特征,將“貓”的圖片從大量的各種各樣的圖片中將區分出來。
無監督主要有三種:聚類、離散點檢測和降維。
聚類就是將觀察值聚成一個一個的組,每一個組都含有一個或者幾個特征。 無監督學習中,數據是沒有標簽的或者是有一樣的標簽的。不清楚數據的含義和作用,只知道是有一個數據集的。數據集可以判斷是有兩個數據集,自己進行分類,這就是聚類學習。
可以想象,恰當地提取特征是無監督最為關鍵的環節。在貓的識別中,我們來嘗試提取貓的特征:皮毛、四肢、耳朵、眼睛、鬍鬚、牙齒、舌頭等等。通過對特征相同的動物的聚類,可以將貓或者貓科動物聚成一類。但是此時,我們不知道這群毛茸茸的東西是什麼,我們只知道,這團東西屬於一類,兔子不在這個類(耳朵不符合),飛機也不在這個類(有翅膀)。特征有效性直接決定著演算法有效性。如果我們拿體重來聚類,而忽略體態特征,恐怕就很難區分出兔子和貓了。[1]
聚類經常應用在手機新聞中,比較典型的是一些聚合新聞網站,利用爬蟲爬取新聞後對新聞進行分類的問題。比如谷歌新聞每天都在,收集非常多,非常多的網路的新聞內容。機器將這些新聞分組,同一主題,顯示到一起,組成有關聯的新聞。所以谷歌新聞做的就是搜索非常多的新聞事件,自動地把它們聚類到一起。
除了聚類演算法外,無監督學習中還有一類重要的演算法就是降維的演算法,降維指的是使用較少的列或特征來表示數據的方法,原理是將樣本點從輸入空間通過線性或非線性變換映射到一個低維空間,從而獲得一個關於原數據集的低維表示
在一個典型的監督學習中,我們有一個有標簽的訓練集,我們的目標是找到能夠區分正樣本和負樣本的決策邊界,在這裡的監督學習中,我們有一系列標簽,我們需要據此擬合一個假設函數。與此不同的是,在非監督學習中,我們的數據沒有附帶任何標簽。[2]
以生活常識判斷,監督學習相當於我們解答一本習題冊,習題冊後面有標準答案。所以解答時,我們可以根據答案分析解題步驟,推出類似問題的解答策略;無監督學習,就像是一本後面沒有標準答案的習題冊,無法知道自己正確與否,只能在做題過程中,大致得出相似類型題,更多靠自己摸索。