网格数据
出自 MBA智库百科(https://wiki.mbalib.com/)
目录 |
网格数据是指定义在网格之上的数据,散乱点数据可以使用一些数学模型对它们进行网格化,得到网格数据,然后由计算机处理网格数据。
计算机中以栅格结构存贮的内部数据。是扫描式数字化仪的直接产物,适用于屏幕显示和行式打印输出。在网格数据中,把研究范围分成大小均匀的格网矩阵。存贮的信息可以是点、线、面实体,也可以是指向该单元有关属性的指针。格网越小,精度越高,但存贮量越大。因格网是有规则排列的,故实体的坐标位置可隐含在格网的存储地址中。网格数据便于数据处理、区域综合分析和评价。与矢量数据相比,其软件设计较简单,缺点是数据存储量大,特别是稀疏的空间数据,要浪费许多存储单元。适用于数字地形模型,遥感图像等信息的存储。网格数据也是一种资源,但这种资源与其他网格资源相比,具有一些与众不同的特点:
(1)网格中数据的量是巨大的。
网格计算,特别是数据密集型的众多科学和工程计算,通常会需要处理大量的数据,如美国宇航局的卫星每天都将处理和生成超过2TB的数据,全球气候变暖模拟实验也产生TB数量级的数据。另外,对于追求高精度的网格应用,如天气预报的计算、大型仿真计算等,为了提高计算问题的精度,就需要处理更大的数据量。
(2)数据资源是网格应用或程序之间联系的纽带。
网格应用领域中的程序需要访问和产生大量的数据,不同的程序之间也需要传输大量的数据,以实现信息的交互和协调的工作。以天气预报为例,原始的数据来自各个地区观测台的实时观测数据以及某个数据中心的历史天气信息,它们经计算中心处理加工后,形成未来天气的预报信息,该信息数据再由发布系统发布给用户,如电视台、专业网站等。贯穿此过程的就是数据资源,包括实时观测数据、历史数据、预报数据,它们将观测系统、处理系统、发布系统联系起来,构成完整的天气预报网格应用。
(3)数据资源具有可无限复制的特点。
只要通过合法的用户请求,网格数据资源就可以被复制成指定的多个备份。例如一份数字地图的数据,可以复制给多个使用者;或者是一类商品的类型、价格、销量等信息,可以在厂家、代理和销售商之间复制和同步。而其他类型的网格资源则不一定具有可复制的特点。例如硬件资源就无法复制,操作系统、应用软件及其许可证(License)也不应该被复制。
(4)数据资源具有特殊的存储机制。
网格中的数据资源可以创建多个副本,并存于不同的地方,用户请求该数据时,网格管理机构在原始数据和多个备份之间选择合适的数据副本供用户使用。一个数据集也可以是地理上分布的,即一个数据集的多个部分存放在不同的地方,但对用户而言,看到的还是一个完整的数据集,请求使用时当作一个资源来请求,网格管理机构将分散的数据部分合理地组织起来交给用户使用。数据资源还是可被缓存的,用户使用数据资源时可以在本地或距离使用点近的范围中缓存该资源,当以后需要再次使用时只要访问本地缓存就可以了。
数据是网格中的一种重要资源,具有可复制、可移动、可压缩、可加密等特性。网格上许多数据的数据量非常大,且通常为分布式存储,需要专门的管理机制来管理网格上的数据,如数据传输、数据存储、副本管理等。
数据管理是网格系统中重要的模块,它要为网格用户提供透明地共享使用网格上存储资源和数据资源的手段,为用户提供透明地访问、存储、传输和管理数据的界面,使用户能够方便地实现数据共享。
(1)数据实例
网格中的数据可以用数据文件或数据库的形式存在,为了隐藏以不同形式存储的数据的具体细节,提供一个统一的接口,网格中引入了“数据实例”这个新的概念。数据实例是网格上数据管理的基本单位,它可以是一个数据文件或其中的一部分,也可以是一个数据库或其中的部分数据记录,还可以是数据实例的组合,通过数据实例的属性就可以访问相应的数据。
(2)数据传输
数据传输将数据从源节点传输到目的节点,这是网格数据管理的基本功能之一。用户作业所需的输入数据、应用运行产生的结果数据、交换运算过程中的中间数据都需要数据传输的支持。将数据下载到本地,然后开始应用是普遍可见到情况,在某些情况下,如因本地存储空间的限制而不能将所有数据下载到本地后再使用时,数据传输将会更加频繁。数据传输需要满足传输速度、数据完整性、容错性的要求。数据传输可以在源节点和目的节点之间建立一条通路,完成所有数据的传输。为了提高数据传输的速度,可使用并行传输技术。这种方式在节点之间建立多个数据连接,在不同的数据通道上传输数据的不同部分。在源节点的发送能力和目的节点的接收能力足够的前提下,增加通路的数量,从而提高数据传输的速度。
数据传输过程中由于各种原因,如网络故障导致丢包,可能会导致源节点传出的数据和目的节点接收到的数据不一样。有些应用对此不十分敏感,如少量的丢包不会影响语音应用,许多其他的应用,如文件传输,则不允许这种情况的发生。为此,一般使用出错重传或纠错的方式来解决。但某些应用场合,如实时控制,还对时间有严格的要求,没有多余的时间请求出错重传或纠错,这时可使用容错传输技术获得很好的服务质量。容错传输在源节点和目的节点之间建立多条数据通道,每条通道上传输相同的内容,一旦某条或多条通道出现传输错误,就会出现目的节点接收多个数据不一样的情况,通过表决的方式,少数服从多数,选择正确的数据,从而避免重传或纠错操作。这种方式虽然不能完全消除传输错误,但可以降低出错的概率。
网格中除了目的节点主动向源节点请求、源节点向目的节点自动分发会触发数据传输外,还有一种特殊的情况,即由第三方驱动数据传输。这种方式为网格应用带来了便利,任何一个用户或应用可以从任何节点发出请求实现特定两个节点之间的数据传输,在此基础上不仅可以建立复杂的数据共享关系,还可以建立复杂的数据流程,实现复杂的数据驱动。另外,支持第三方控制下的数据传输还可以用来在网格环境下创建新的安全机制,把身份认证的工作由除了通信双方以外的第三方完成,建立符合人类社会习惯的安全体系。 从传输的参与者来看,除了源节点和目的节点之间的点对点传输外,网格还需支持分布传输和汇集传输。分布传输是把一个完整的数据集当中的不同部分分散传输到不同目标节点上,汇集传输则与之相反,数据从多个不同的节点流向一个相同的节点。将一个大任务分解为多个小的子任务交由多个节点处理,最后将结果汇总,这是网格中常见到情况,需要分布传输和汇集传输技术的支持。
(3)数据存储
数据存储机制直接影响着数据的访问。通常而言网格数据分布存储在网格中不同资源的存储介质中,这是因为网格中数据量很大,单个个人或组织所拥有的存储资源容量有限,而且他们拥有的计算资源能力有限,不一定有能力不断处理快速增长的数据,另外分布存储可避免传输带宽的限制带来的问题。网格数据分布存储在不同位置的不同设备中,并具有不同的特点,数据管理模块为用户提供一个统一的数据视图、统一的访问接口,用户不需要了解数据对象的具体底层实现机制。
网格中还有些数据的数据量很小,只有几个或几十个字节,如状态数据、信息记录等信息,但这些数据的使用却是独立的。如果这些数据都作为文件单独存储,其数量将急剧增加,占用大量存储空间,并带来管理的难度,降低存储介质的有效利用率。为避免这种现象,可采用聚集存储技术,把文件大小小于一定规模的多个文件聚集成一个复合文件存储在网格存储空间。与可以将多个文件压缩为一个文件的文件压缩相比,聚集存储的一个文件,不需要解压就可以直接访问,包括读取、修改和删除等操作。