信息可视化
出自 MBA智库百科(https://wiki.mbalib.com/)
信息可视化(Information visualization)
目录 |
信息可视化是由斯图尔特·卡德(Stuart K.Card)、约克·麦金利(Jock D.Mackinlay)和乔治·罗伯逊(George G.Robertson)于1989年提出的,它是一个跨学科领域,旨在研究大规模非数值型信息资源的视觉呈现,如软件系统之中众多的文件或者一行行的程序代码,以及利用图形学的技术与方法帮助人们理解和分析数据口。
信息可视化将数据信息和知识转化为一种视觉形式,充分利用人们对可视模式快速识别的自然能力。从某种层面上说,任何事物都可认为是一类信息:图形、表格、地图以及一些加了文本的流程图,都能为人们提供一种信息传递的方式或手段,甚至能表现出隐喻的事情。[1]
信息可视化的产生背景[2]
信息可视化起源于多个方面。首先是1786年苏格兰政治经济学家W.Playfair在图形数据方面的工作,他也许是最早利用线和面等可视化表示数据的人。从此,产生了用图形表示数据的经典方法。1967年,一位法国制图工作者J.Bertin发表了他们的图形理论。这一理论指明了图表的基本元素,描述了图表的设计框架。1983年美国耶鲁大学统计学教授E.R.TuRe发表了数据图理论。Bertin与TuRe的理论在许多领域是著名的和有影响的,这引起了信息可视化的大发展。在信息可视化的发展过程中,科学可视化的产生与发展起了决定性的推动作用。“信息可视化”这一术语最早出现在1989年G.Rob—e~son、S.Card与J.Mackinlay的论文中, 目前信息可视化已成为一个与科学可视化并列的研究领域。
信息可视化的应用领域[2]
1.信息可视化应用的分类。马里兰大学教授本·施奈德曼(Ben Shneiderman)把数据分成以下七类:一维数据(1一D)、二维数据(2-D)、三维数据(3一D)、多维数据(multidimensiona1)、时态数据(TemporaD、层次数据(tree)、和网络数据(Network)。信息可视化方法根据不同的数据也可划分为以下七类:
(1)一维信息可视化。一维信息是简单的线性信息,如文本,或者一列数字。最通常的一维信息可能就是文本文献了。在很多情况下,可视化文本文献不是必要的,因为它们可以容易地被完整阅读,或者阅读所需要的特定部分。然而,在某些情况下,我们需要借助可视化技术增加文本信息的有效性。
(2)二维信息可视化。在信息可视化环境中,二维信息是指包括两个主要属性的信息。宽度和高度可以描述事物的大小,事物在x轴和Y轴的位置表示了它在空间的定位。城市地图和建筑平面图都属于二维信息可视化。
(3)三维信息可视化。三维信息通过引入体积的概念超越了二维信息。许多科学计算可视化都是三维信息可视化,因为科学计算可视化的主要目的就是表示现实的三维物体。计算机模型可以让科学家模拟试验、操作那些现实世界中代价昂贵、实施困难、非常危险或者是现实世界中不可能进行的事情。
(4)多维信息可视化。多维信息是指在信息可视化环境中的那些具有超过3个属性的信息,在可视化中,这些属性的重要性是相当重要的。
(5)时间序列信息可视化。有些信息自身具有时间属性,可以称为时间序列信息。比如,一部小说或者新闻就可以有时间线。学者Liddy建立了一个从文本信息中抽取时间信息的系统SHESS。该系统自动生成一个知识库,这个知识库聚集了关于任何已命名的实体(人、方位、事件、组织、公司或者思想观念)的信息,并且按照时间序列组织这些知识,这个时间序列覆盖了知识库的整个周期。
(6)层次信息可视化。抽象信息之间的一种最普遍关系就是层次关系,如磁盘目录结构、文档管理、图书分类等。传统的描述层次信息的方法就是将其组织成一个类似于树的节点连接表示。这种表示结构简单直观,但是,对于大型的层次结构而言,树形结构的分支很快就会拥挤交织在一起,变得混乱不堪,这主要是因为层次结构在横向(每层节点的个数)和纵向(层次结构的层数)扩展的不成比例造成的。
(7)网络信息可视化。目前,Web的信息不计其数,这些信息分布在遍及世界各地的数以万计的网站上,网站通过文档之间的超链接彼此交织在一起。不论Web现在的规模有多大,它还将继续膨胀。
2.数字图书馆可视化。自美国科学家9O年代初提出了数字图书馆概念后,以驱动多媒体海量数字信息组织与互联网应用问题各方面研究的技术领域开始在全球迅速发展起来。将信息可视化技术引入到数字图书馆领域,解决信息需求与服务的个性化,信息提供的个性化等问题,可以通过信息可视化尝试解决发展问题。这一领域主要关于信息检索过程可视化和信息结果可视化。用户作为信息使用者的同时也是信息构建者,通过增加检索路径到信息空间,这些增加的路径给其他用户检索其他路径提供了有价值的信息。
信息可视化的发展前景[2]
1.可视化数据挖掘(Data-mining vi suaI ization)。
信息可视化不仅用图像来显示多维的非空间数据,使用户加深对数据含义的理解,而且用形象直观的图像来指引检索过程,加快检索速度。在信息可视化中,显示的对象主要是多维的标量数据,目前的研究重点在于,设计和选择什么样的显示方式才能便于用户了解庞大的多维数据及它们相互之间的关系,其中更多地涉及心理学、机交互技术等问题。可视化数据挖掘是一个使用可视化技术在大量的数据中发现潜在有用知识的过程,它可以将许多数据同时显示在屏幕上,并将每一个数据值映射成屏幕的一个像素。像素的颜色对应于每个数据值或是数据值与给定查询值之间的差值。在这种技术中,用户由可视化的视觉反馈指导并且能更快地研究数据库中数据的众多特性。可视化数据挖掘的关键技术主要包括三个方面,即交互性技术、选择查询技术和可视化模型。目前,可视化数据挖掘主要有两种分类系统,一种是Keim提出的分类体系,另外一种是Card提出的分类体系,下面分别介绍这两种分类体系的具体内容:
(1)Keim的分类体系。Keim等人将面向多变量和多维信息的可视化数据挖掘技术分为六大类,包括:一是像素导向(Pixel-based)技术;二是几何映射(Geometric projecfion)技术;三是图标技术(Icon-based):四是分层技术;五是图形技术;六是混合技术。
(2)Card的分类体系。Card等人根据信息可视化的类型将可视化数据挖掘技术分为四个层次。最高层的可视化工具可以为用户提供在其运行环境之外(如在Intemet或在线服务器上收集)进行信息收集的可视化途径;第二层可视化工具旨在通过创建信息工作空间的快速获取和高度交互的可视化表示来支持用户执行任务。第三层是可视化的知识工具,描述数据的可视化表达,它提供了一个控制集用以与这些可视化的表达进行交互,这就使用户能够确定并提取数据的关系。第四层次是增强的可视化对象,它的目标在于揭示对象内部的一些本质信息。
2.可视化技术在空间信息挖掘中的应用。
空间数据挖掘通常以地图应用为主,通常表现为地理现象的分布规律、聚类规律、发展演变规律、相连共生的关联规则等;而应用数据挖掘在GIS遥感影象解译中,由于同物异谱和同谱异物的存在,单纯依靠光谱值知识的统计分类和特征提取难以满足要求,如果能将空间目标的关联知识考虑进去,可以大大提高自动化和准确程度。由此可见,数据挖掘与GIS集成可以根据不同的研究内容分为面向空间要素的数据挖掘、面向非空间要素的数据挖掘和空间要素信息与非空间要素信息的联合数据挖掘。根据不同的类型,所选的可视化技术也不相同,需要根据实际情况决定采用何种可视化数据挖掘技术。面向空间要素的数据挖掘主要是挖掘空间实体间的空间关系、空间规则和特征信息,主要从两种数据挖掘的粒度—— 基于目标实体和栅格来考虑的。面向非空间要素的数据挖掘是对经过空间化后的数据在非空间层次进行一般的数据挖掘,即建立在对GIS所管理的空间实体所对应的属性信息的数据挖掘,然后利用GIS对所挖掘的结果进行表达,是一种较低层次的数据挖掘与GIS集成应用。空间要素和属性信息关联的空间数据挖掘不同于前两者的数据挖掘集成,它的研究内容不仅仅局限于对地理要素的空间位置和空间关系的研究,而还包括对空间现象(四季变换、温度变化、刮风降水)、空间因素(高山、谷地、平原)、空间组成(土壤、地貌、植被、水域、矿产)、空间活动(动物变迁、人类活动、水土流失、沙漠侵蚀)等的研究,力图从中揭示出相互影响的内在机制与规律。
3.KM可视化。
(1)知识管理体系。所谓的“知识工作者”(Knowledge worker)最主要的任务之一,就是如何在做决策前已具备或搜集到所需知识。而如何利用网络资源和信息技术手段,系统地搜寻知识、整理知识、组织知识、并最终有效地加以利用则是知识:作者必备的技能。但是纯粹以文字组织知识不仅困难而且无法展现其全貌。特别是对隐性知识,用纯文字的纪录很难说将知识片段间错综复杂的关联说清楚。思考大师狄波诺认为,避免人类浯言造成的僵化,有一个很好的办法,就是在思考的时候,脑海里尽量多用“图形”少用文字。一个完整的知识管理体系应该包括:知识收集、知识提炼、知识存储和知识应用四个阶段。这是个循环往复,螺旋上升的过程,借助可视化方法表现它, 可以帮助我们更准确地理解它们的相互关系,并寻找和发现新的可视化“隐喻”来表示知识。如前所述,知识收集,知识提炼,知识存储和知识应用是知识管理因为“隐性知识”要能够转化为“显性知识”才能够被纪录保存,这个过程叫做隐形知识的“表达外化”;而“显性知识”则经过人类大脑的综合组织,被作为“隐形知识’而保存在脑中。知识形态之间的转化,需要一种视觉化模型来表达和呈现,就好比UML(Unified Modeling Language; 统一建模语言)作为一种可视化建模语言,被用作软件开发流程中的分析和设计阶段一样。
(2)几种已有的知识可视化工具。一是概念图(Concept Map)。概念图是康乃尔大学的诺瓦克(J.D.Noval0 博士(Novak,J.D.&Gowin,D.B,1984)根据奥苏贝尔(David P.Ausube1)的有意义学习理论提出的一种教学技术。它通常将某一主题的有关概念置于圆圈或方框之中,然后用连线将相关的概念和命题连接,连线上标明两个概念之间的意义关系。二是思维导图(Mind Map)。思维导图最初是20世纪60年代英国人托尼·巴赞(Tony Buzan)(1999)创造的一种笔记方法。托尼·巴赞认为思维导图是对发散性思维的表达,因此也是人类思维的自然功能,是打开大脑潜能的万能钥匙,可以应用于生活的各个方面。三是认知地图(Cogui.tiveMaps)。认知地图也被称为因果图(CausalMaps),是由Ackerman&Eden(2001)提出的,它将“想法”(ideas)作为节点,并将其相互连接起来。
(3)可视化知识建模语言KML(Knowl—edge Modeling Language)。如何在浩瀚信息海洋中获取自己所需的知识,进而进行有效的管理并最终利用知识创造价值是知识管理的重要目标。而如何构建良好的知识模型来存储和表达所需的知识,是知识创造价值过程的关键因素。针对这种需求,提出了可记录隐性知识的可视化知识建模语言(KML),通过使用可视化知识建模语言人们可以将内在的知识记录转化为图形化的文档,从而得以展现知识的全貌,而知识的使用也变得更加直观和有效。
4.信息可视化商品。目前,信息可视化技术的产品化、商品化趋势已经显露出来。总的来说,信息可视化技术商品化有两种模式:一种是将信息可视化技术转化为信息可视化产品,如treemap、theBrain、1N—SP1RETM等;另一种是信息可视化技术与现有软件结合,即信息可视化技术被其他软件采纳,作为其他软件的构件而存在,可视化技术在商务智能中的应用就属于这种模式。
信息可视化与科学可视化的区别[3]
科学可视化是空间数据场的可视化。它是人们为了在计算过程、数据处理流程中了解数据的变化情况,通过图形、图像、图表以及其他可视化手段来检查、分析处理结果数据的过程。在科学可视化中,显示的对象涉及标量、矢量及张量等不同类别的空间数据,研究的重点放在如何真实、快速地显示三维数据场。信息可视化则是指非空间(非结构)数据的可视化,它主要是用图像来显示多维的非空间信息,使用户加深对信息含义的理解,同时利用图像的形象直观性来指引检索过程,加快检索速度。在信息可视化中,显示的对象主要是多维的标量数据,其研究重点在于:设计和选择什么样的显示方式才能便于用户了解庞大的多维数据及它们相互之间的关系,这其中更多地涉及心理学知识、人机交互技术等问题。从图形生成的角度来看,信息可视化难度要小于科学计算可视化。但是,从心理学和人机交互的角度来说,它是一个还未曾进行过充分研究的新领域。
现在将科学可视化与信息可视化的具体区别总结如下。见下表:
科学可视化 | 信息可视化 | |
---|---|---|
目标任务 | 深入理解自然界中实际存在的科学现象 | 搜索、发现信息之间的关系和信息中隐藏的模式 |
数据来源 | 计算和工作测量中的数据 | 大型数据库中的数据 |
数据类型 | 具有物理、几何属性的结构化数据、仿真数据等 | 非结构化数据、各种没有几何属性的抽象数据 |
处理过程 | 数据预处理一映射(构模)一绘制和显示 | 信息获取一知识信息多维显示一知识信息分析与挖掘 |
研究重点 | 如何将具有几何属性的科学数据真实地表现在计算机屏幕上,它主要涉及计算机图形图像等问题题,图形质量是其核心问题 | 如何绘制所关注对象的可视化属性等问题,更重要的问题是是把非空间抽象信息映射为有效的可视化形式,寻找合适的可视化隐喻。 |
主要的应用方法 | 线状图、直方图、等值线(面)、绘制、体绘制技术 | 几何技术、基于图标的技术、面向象素的、分级技术等 |
面向的用户 | 高层次的、训练有素的专家 | 非技术人员、普通用户 |
应用领域 | 医学、地质、气象、流体力学等 | 信息管理、商业,金融等 |