監督學習
出自 MBA智库百科(https://wiki.mbalib.com/)
監督學習(Supervised Learning)也叫有監督學習
目錄 |
監督學習是機器學習中的一種訓練方式/學習方式。
監督學習是指通過讓機器學習大量帶有標簽的樣本數據,訓練出一個模型,並使該模型可以根據輸入得到相應輸出的過程。通過已有的一部分輸入數據與輸出數據之間的對應關係,生成一個函數,將輸入映射到合適的輸出,例如分類。
通俗舉例:高考試題是在考試前就有標準答案的,在學習和做題的過程中,可以對照答案,分析問題找出方法。在高考題沒有給出答案的時候,也是可以給出正確的解決。這就是監督學習。[1]
監督學習、半監督學習、無監督學習(unsupervised learning)屬於機器學習(machine learning)的一種,機器學習屬於人工智慧(artificial intelligence)領域。
所謂人工智慧,通俗理解,就是讓機器能夠擁有人類智慧。什麼是人類智慧?拿一臺機器和一個幼兒比較,給幼兒看一種三花貓的圖片,和她說這是貓,如果再給她看另一品種的貓,幼兒可能會高興地揮舞著手臂認出這也是一隻貓。而如果將圖片輸入一臺非人工智慧機器,告訴機器這是一隻貓,但如果換了不同顏色的貓B時,機器恐怕就不可能認出來了。
而機器學習正是讓機器具有人類識別、思考等方方面面的能力,其中監督學習是最常見的一種機器學習,它的訓練數據是有標簽的,訓練目標是能夠給新數據(測試數據)以正確的標簽。
例如,讓機器學習區分判斷郵件是否為垃圾郵件這一識別能力,一開始先將一些郵件及其標簽(垃圾郵件或非垃圾郵件)一起輸入機器進行訓練,機器的學習模型不斷捕捉這些郵件與標簽間的聯繫進行調整和完善,然後人工輸入一些不帶標簽的新郵件,讓該模型對新郵件進行判斷,以此反覆訓練,最終實現機器識別準確率的提高。[2]
監督並不是指人站在機器旁邊看機器做的對不對,而是下麵的流程:
(1)選擇一個適合目標任務的數學模型
(2)先把一部分已知的“問題和答案”(訓練集)給機器去學習
(3)機器總結出了自己的“方法論”
(4)人類把"新的問題"(測試集)給機器,讓他去解答
監督學習與無監督學習區別[3]
1.有監督學習方法必須要有訓練集與測試樣本。在訓練集中找規律,而對測試樣本使用這種規律。而非監督學習沒有訓練集,只有一組數據,在該組數據集內尋找規律。
2.有監督學習的方法就是識別事物,識別的結果表現在給待識別數據加上了標簽。因此訓練樣本集必須由帶標簽的樣本組成。而非監督學習方法只有要分析的數據集的本身,預先沒有什麼標簽。如果發現數據集呈現某種聚集性,則可按自然的聚集性分類,但不予以某種預先分類標簽對上號為目的。
3.非監督學習方法在尋找數據集中的規律性,這種規律性並不一定要達到劃分數據集的目的,也就是說不一定要“分類”。
這一點是比有監督學習方法的用途要廣。譬如分析一堆數據的主分量,或分析數據集有什麼特點都可以歸於非監督學習方法的範疇。
4.用非監督學習方法分析數據集的主分量與用K-L變換計算數據集的主分量又有區別。後者從方法上講不是學習方法。因此用K-L變換找主分量不屬於無監督學習方法,即方法上不是。而通過學習逐漸找到規律性這體現了學習方法這一點。在人工神經元網路中尋找主分量的方法屬於無監督學習方法。