信息过滤
出自 MBA智库百科(https://wiki.mbalib.com/)
信息过滤(Information Filtering)
目录 |
信息过滤是大规模内容处理的另一种典型应用。它是对陆续到达的信息进行过滤操作,将符合用户需求的信息保留,将不符合用户需求的信息过滤掉。通常可分为不良信息过滤和个性化信息过滤:不良信息过滤一般指过滤掉暴力反动色情等信息;个性化信息过滤类似于信息检索,帮助用户返回感兴趣的东西。
信息过滤的理论背景[1]
信息过滤,也就是所谓的信息的选择性传播。与信息检索不同,信息过滤关注用户的长线需求(指在一段时间内,比较固定的信息需求),是为非结构化及半结构化的数据设计的,主要用来处理文本信息。其目标是帮助用户处理大量的信息,对动态的信息流进行筛选,着重于排除用户不希望得到的信息,基于用户概型(profile)从输入的信息流中滤掉数据。在信息过滤中,用户的需求表示成概型,一个概型是一个数据结构,通常包括一组主题,用以描述用户感兴趣的主题。根据概型对进入系统的文章流进行评价(ranking),用户在浏览结果时,提供相关反馈并及时更新概型。由于反馈的存在,机器学习的方法在信息过滤中已得到广泛的重视,其中主要的方法有:Bayes学习方法、神经网络方法、决策树、KNN、SVM等。
信息过滤和信息检索如同同一硬币的正反面。大部分信息过滤的的早期研究基于这样的一种设想:有效的信息检索技术同样也是有效的信息过滤技术。许多过滤方法建立在过去成功的检索方法基础之上的,如标引、匹配等。1996年Callan等对这一观点提出了挑战,其思想为:为了设计和评价有效的信息过滤和信息检索系统,需要不同的技术和评价方法。尤其是与信息检索相比,信息过滤需要经过相关反馈学习的更复杂的技术,因此凭借用户提供的最少量的信息来预知用户需求是很重要的。一个需要进行长期和痛苦培训的信息过滤系统,即使具有过滤性能,也认为是无效的;只有过滤性能良好,同时只需要进行简短培训的过滤系统才是有效的。
信息过滤的必要性[2]
面对互联网上丰富的信息时,我们希望检索到的文献都是我们所需要的。然而,浩如烟海的信息海洋让人不知所措,超文本的链接方式又常让人误入歧途,有悖初衷。信息过滤能让用户根据自己的需求,主动选择服务项目与内容,通过过滤机制,快速找到所需的信息。另外用户自主进行的过滤,可增加带宽,减少信息的盲流, 避免塞车现象,使网络传输更加通畅。
随着机读型信息的大量增加,信息检索的性质也大大改变。信息检索系统的使用者面临两个方面的问题:文献数量的急剧增加与它们各自在质量上的巨大差异。日益严重的文献的不均衡性(质量、类型、记录手段等)意味着用户现在比以往更需要对文献进行过滤的工具和帮助他们选择相关文献的工具。
信息过滤的三种类型[2]
Malone,et al.(1987)描述了信息过滤的三种类型:认识(或内容)过滤、经济过滤和社会群体推荐筛选过滤三种信息过滤形式。基于内容的过滤在信息检索方面占据主导地位---其典型特征是建立基于关键词的用户档案。经济过滤将变得与电子货币、安全支付等技术同等重要。第三种类型即社会群体推荐筛选过滤已从原来的理论研究(强调信息发送者的身份特征的重要性)转到具体的研究计划和一些正在应用的系统。这些系统正在使社会群体推荐过滤机制很大程度上建立在用户评分加权的基础上---用户根据事先确定的标准对一篇文献进行打分。
信息过滤的意义[1]
1.改善Internet信息查询技术的需要
随着用户对信息利用效率要求的提高,以搜索引擎为主的现有网络查询技术受到了挑战,网络用户的信息需求与现有的信息查询技术之间的矛盾日益尖锐,其不足主要有如下几方面:
(1)在使用搜索引擎时,只要使用的关键词相同,所得到的结果就相同,它并不考虑用户的信息偏好和用户的不同,对专家和初学者一视同仁,同时返回的结果成千上万良莠不齐,使得用户在寻找自己喜欢的信息时有如大海捞针;
(2)网络信息是动态变化的,用户时常关心这种变化。而在搜索引擎中,用户只能不断地在网络上查询同样的内容,以获得变化的信息,这花费了用户大量的时间。
因此,在现有情况下,传统的信息查询技术已经难以满足用户的信息需求,对信息过滤技术的研究日益受到重视,把信息过滤技术用于Internet信息查询已成为非常重要的研究方向。
2.个性化服务的基础
个性化的实质是针对性,即对不同的用户采取不同的服务策略,提供不同的服务内容。个性化服务将使用户以最少的代价获得最好的服务。在信息服务领域,就是实现“信息找人,按需要服务”的目标。既然是“信息找人”,那什么信息找什么人就是关键。每个用户都有自己特定的、长期起作用的信息需求。用这些信息需求组成过滤条件,对资源流进行过滤,就可以把资源流中符合需求的内容提取出来进行服务。这种做法就叫做“信息过滤”,信息过滤是个性化主动服务的基础。
3.维护我国信息安全的的迫切需要
网络为信息的传递带来了极大的方便,也为机密信息的流出和对我国政治、经济、文化等有害信息的流入带来了便利。发达国家通过网络进行政治渗透和价值观、生活方式的推销,一些不法分子利用计算机网络复制、传播和查阅一些色情的、种族主义的、暴力的、封建迷信或有明显意识形态倾向的信息。我国80%的网民在35岁以下;80%的网民具有大专以上文化学历,而这两个80%正是我们国家建设发展的主力军。所以,中国的信息安全问题已迫在眉睫,必须引起我们高度警惕和重视,而信息过滤是行之有效的防范手段。目前主要通过过滤软件及分级制度对来往信息尤其是越境数据流进行过滤,将不宜出口的保密或宝贵信息资源留在国内,将不符合国情或有害信息挡在网络之外,其中用的较多的为Internet接收控制软件和因特网内容选择平台PICS(Platform for theInternet Content Selection)。
信息中介行业的发展要经过建立最初的客户资料库、建立标准丰富档案内容和利用客户档案获取价值三个阶段。其中第一阶段和第三阶段的主要服务重点都涉及到信息过滤服务。过滤服务过滤掉客户不想要的推销信息,信息中介将建立一个过滤器以检查流入的带有商业性的电子邮件,然后自动剔除与客户的需要和偏好不相符的不受欢迎的信息。客户可提前指定他们想经过过滤服务得到的信息或经过过滤服务排除出去的任何种类的经销商或产品。对于不受欢迎的垃圾信息,信息中介将会在客户得到之前把他们过滤掉。
在网络环境下,尽量减少无效数据的传输对于节省网络资源、提高网络传输效率具有十分重要的意义。通过信息过滤,可减少不必要的信息传输,节省费用,提高经济效益。