无监督学习
出自 MBA智库百科(https://wiki.mbalib.com/)
无监督学习(unsupervised learning)也叫非监督学习
目录 |
无监督学习是机器学习(machine learning)中的一种训练方式/学习方式。更像是让机器自学,是没有标签的一种学习。无法清楚判断数据集中数据、特征之间的关系,而是要根据聚类或一定的模型得到数据之间的关系。
无监督学习常常被用于数据挖掘,用于在大量无标签数据中发现些什么。它的训练数据是无标签的,训练目标是能对观察值进行分类或者区分等。例如无监督学习应该能在不给任何额外提示的情况下,仅依据所有“猫”的图片的特征,将“猫”的图片从大量的各种各样的图片中将区分出来。
无监督主要有三种:聚类、离散点检测和降维。
聚类就是将观察值聚成一个一个的组,每一个组都含有一个或者几个特征。 无监督学习中,数据是没有标签的或者是有一样的标签的。不清楚数据的含义和作用,只知道是有一个数据集的。数据集可以判断是有两个数据集,自己进行分类,这就是聚类学习。
可以想象,恰当地提取特征是无监督最为关键的环节。在猫的识别中,我们来尝试提取猫的特征:皮毛、四肢、耳朵、眼睛、胡须、牙齿、舌头等等。通过对特征相同的动物的聚类,可以将猫或者猫科动物聚成一类。但是此时,我们不知道这群毛茸茸的东西是什么,我们只知道,这团东西属于一类,兔子不在这个类(耳朵不符合),飞机也不在这个类(有翅膀)。特征有效性直接决定着算法有效性。如果我们拿体重来聚类,而忽略体态特征,恐怕就很难区分出兔子和猫了。[1]
聚类经常应用在手机新闻中,比较典型的是一些聚合新闻网站,利用爬虫爬取新闻后对新闻进行分类的问题。比如谷歌新闻每天都在,收集非常多,非常多的网络的新闻内容。机器将这些新闻分组,同一主题,显示到一起,组成有关联的新闻。所以谷歌新闻做的就是搜索非常多的新闻事件,自动地把它们聚类到一起。
除了聚类算法外,无监督学习中还有一类重要的算法就是降维的算法,降维指的是使用较少的列或特征来表示数据的方法,原理是将样本点从输入空间通过线性或非线性变换映射到一个低维空间,从而获得一个关于原数据集的低维表示
在一个典型的监督学习中,我们有一个有标签的训练集,我们的目标是找到能够区分正样本和负样本的决策边界,在这里的监督学习中,我们有一系列标签,我们需要据此拟合一个假设函数。与此不同的是,在非监督学习中,我们的数据没有附带任何标签。[2]
以生活常识判断,监督学习相当于我们解答一本习题册,习题册后面有标准答案。所以解答时,我们可以根据答案分析解题步骤,推出类似问题的解答策略;无监督学习,就像是一本后面没有标准答案的习题册,无法知道自己正确与否,只能在做题过程中,大致得出相似类型题,更多靠自己摸索。