半監督學習
出自 MBA智库百科(https://wiki.mbalib.com/)
半監督學習(Semi-Supervised Learning,SSL)
目錄 |
半監督學習是機器學習(machine learning)中的一種訓練方式/學習方式。介於監督學習和無監督學習之間。是監督學習與無監督學習相結合的一種學習方法,半監督學習使用大量的未標記數據,以及同時使用標記數據,來進行模式識別工作。
對於半監督學習,其訓練數據的一部分是有標簽的,另一部分沒有標簽,而沒標簽數據的數量常常極大於有標簽數據數量(這也是符合現實情況的)。隱藏在半監督學習下的基本規律在於:數據的分佈必然不是完全隨機的,通過一些有標簽數據的局部特征,以及更多沒標簽數據的整體分佈,就可以得到可以接受甚至是非常好的分類結果。[1]
半監督學習可進一步劃分為純(pure)半監督學習和直推學習(transductive learning),前者假定訓練數據中的未標記樣本並非待測的數據,而後者則假定學習過程中所考慮的未標記樣本恰是待預測數據,學習的目的就是在這些未標記樣本上獲得最優泛化性能。
直推學習(Transductive learning):沒有標記的數據是測試數據,這個時候可以用test的數據進行訓練。這裡需要註意,這裡只是用了test數據中的feature而沒有用label,所以並不是一種欺騙的方法。
歸納學習(Inductive learning):沒有標簽的數據不是測試集。 [2]
處在監督學習和無監督學習之間的是半監督學習。半監督學習使用的訓練資料庫,有一部分是標記過的,而大部分是沒有標記的。因此和監督學習相比,半監督學習的成本較低,但又能達到較高的準確度。