文件组织方式
出自 MBA智库百科(https://wiki.mbalib.com/)
- 文件组织方式(File Organizationmode)
目录 |
文件组织方式是网上数字化信息资源的一种主要存储形式。文件组织方式采用主题组织法的思想,以文件名标识信息内容,用文件夹组织信息资源,并通过网络共享实现信息传播。文件服务器(FTP)即以此方式组织网络信息资源(多为非结构化信息),用户界面就是人们熟悉的文件夹窗口,浏览和下载信息操作简便。
文件组织方式的优点[1]
以文件系统来组织和管理网络信息资源具有以下优点:
(1)简单快捷。计算机有一整套文件处理的理论与技术,在组织网络信息时可以非常容易地利用这些成熟的技术和方法。
(2)适合图形、图像、音频、视频等各种非结构化信息组织管理。由于计算机处理的所有最终结果都能以文件的形式保存下来,因此对于图形、图表、音频、视频等非结构化信息,可以方便地利用文件系统来管理。正因为如此,以文件组织方式来管理信息资源在目前仍然广泛使用。
但是,随着网络信息资源利用的不断普及和信息量的不断增多,以文件为单位共享和传输信息会使网络负载越来越大。同时,文件方式对结构化信息的管理显得力不从心,文件系统只涉及信息的简单逻辑结构,当信息结构较复杂时,就难以实现有效的控制和管理,从而降低了信息组织的效率。因此,文件只能是网络信息资源管理的辅助形式或者是作为信息单位成为其他信息组织方式的管理对象。
文件组织方式的种类[2]
- 1.顺序文件
顺序文件的物理结构最简单,在此结构中,从文件空间的起点开始,文件的各个记录顺序地存放在外存的连续区内,记录的物理顺序和逻辑顺序是完全一致的。它适用于所有的文件媒体。磁带顺序文件从磁带上文件空间头部开始,按物理位置顺序存储记录:磁盘顺序文件的结构从磁盘文件空间最初磁道的头部开始,按物理位置顺序排列。顺序文件适用于按顺序存取处理,处理速度较快,但记录的插入和删除都不方便。
顺序文件是一种最常用、最简单的文件组织方法,在许多资料处理的场合,它仍然是一种简单、经济而有效的方法。如磁带文件、打印文件都是常用的顺序文件。
实现顺序文件的排列方法有如下几种:
- 按记录产生的先后次序排列,这种方法对数据收集系统比较方便有效。
- 按记录键次序排列,可以根据键的升序或降序进行排列。一个记录中的键,可以是一个也可以是多个,分别称为主键、辅键及复合键等。主键是惟一标识记录的域(即记录数据项名称),辅键不是惟一标识记录的域,由两个以上的记录键值组合成的键称为复合记录键。例如在一个职工工资文件中,职工号为主键,姓名、级别、工资额可作为辅键,级别和工资额组成复合键。
按这种方法排列的数据,要求在文件建立时,首先对文件进行排序:
- 按记录的使用频率进行排列。设文件有n个记录,每个记录使用的概率为Pi,则要求该文件记录的排列顺序按使用概率的大小排列,满足。按使用频率对顺序文件进行排列,可以加速记录的搜索速度。
- 自行重组顺序文件。若在上述方法中无法知道其使用频率,可以采用如下几种方法来实现:第一种方法,在记录中加一项使用频率记录,每使用一次加1,然后再按使用率大小排列:第二种方法,在每次记录使用后,将其移至文件的顶端。这样,常用的记录可经常保持在文件的前面:第三种方法,每次记录使用时将其移至现在位置和顶端位置的中间位置,这样可以减少偶然使用的记录占据文件前端位置。
- 2.索引文件
索引文件分为索引顺序文件和索引非顺序文件。索引顺序文件,其记录的物理顺序和逻辑顺序相一致。记录按记录键的顺序存放,并带有索引。这种文件组织方式用得比较普遍,但是只适用于磁盘媒体。对于这种文件记录的存取方式可以采用顺序存取和直接存取,并能进行各种形式的处理。
索引顺序文件的特点是:
- 具有记录键和记录键索引,按记录键顺序排列记录,并设有溢出区。
- 存取速度快。
- 比较节省存储单元。
- 增删比较麻烦。
- 不能用于多码检索。
此外,还有索引非顺序文件,这种文件也带索引表,但文件记录的物理顺序和逻辑顺序不一致,索引表中存有已排序的记录键号以及该键号的记录地址。处理和查找记录时,先查索引表,查到所需的记录地址后,再按地址查找记录。还可以通过设立不同键值的几个索引来利用同一个记录。这种组织方式,可以保证地址的惟一性,存取也比较简单,其缺点是记录数目多时,索引区也很大,索引表本身占用存储空间较大,查找费时。
- 3.直接文件
直接文件中记录的逻辑顺序与物理顺序不一定相同,但记录的键值直接指明该记录的地址,所以只要知道了记录键值,就能查找该记录的物理位置。
直接文件的记录存放在磁盘等随机存储媒体上,且可以被随机处理,所以也称直接文件为随机存取文件。
确定直接文件中记录的物理位置的方法很多,常用的有:
- 直接地址法:指定某记录的地址就是存储设备上的实际地址。
- 相对键法:以文件起始记录为基准的相对地址。
- 杂凑法:寻找一个杂凑函数H(k),将记录键值转换为相应的记录地址。
直接文件有3种形式:无键直接文件、带键直接文件、桶式(bucket)直接文件。
- 无键直接文件:是通过直接地址组织的,在记录中没有键项目,把记录的存储地址作为键值。
- 带键直接文件:在记录中设置键项目,并通过简单的键变换处理,就可以得到相应记录的存储地址。
- 桶式直接文件:文件空间按桶为单位进行划分,每个桶可以存放多个记录,这个桶通常以磁道为单位,也可以用弧段作为单位,每个桶都有编号。根据桶号和记录键值,就可以查到相应记录的地址进行记录处理。由于每个桶能容纳m个具有相同Hash函数值的文件记录,只有当一个桶中m个记录都占满后,若还有转换为该桶地址的记录时,才产生溢出。所以适当地加大桶的尺寸,可以减少溢出现象,防止“冲突”现象的产生,这是桶式直接文件的特点。
增大桶的容量可以减少溢出次数,从而减少查找记录所需的平均查换次数。但桶太大,文件存储空间的密度减少,主数据区利用率低,在内存中查找桶中记录的时间增加,而且要求内存缓冲区足够大,所以桶的容量的选择要全面考虑,应选择大小合适的桶。
除了以上几种基本的文件组织方式外,还有索引链接文件、倒排文件等。索引链接文件是将索引方法和链接方法结合起来的一种组织方式,可用多码检索。倒排文件是一种处理多码检索的组织方式,它利用次键建立次索引表,便于文件记录按各种属性查找,但这种文件占用较大的存储空间。
综合几种基本的文件组织方式的优、缺点列于表中。
特性 组织方式 | 优点 | 缺点 |
顺序文件 | 处理速度快 存储空间利用率高 在任何媒体上实现 | 需要对事务己求预先排序 插入记录麻烦 要检索整个记录 |
索引文件 | 可顺序处理,也可随机处理 记录追加、插入方便 查找速度较快 | 增加索引区和溢出区空间 不能用于多码检索 |
直接文件 | 存取速度快 记录追加、删除容易 | 要进行键变换 存储空间利用率低 |