信息内容审计

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

什么是信息内容审计

　　信息内容审计，是指对进出内部网络的信息，为防止或追查可能的泄密行为所进行的实时内容审计。

信息内容审计的模型

　　在内容审计研究初期，系统模型为主要研究内容，已有结构模型主要有单一主机集中式结构及监听与审计分离的分布式结构等。

　　单一主机集中式结构采用单一主机完成数据包提取、内容审计、报警等功能，该结构实现简单，主要应用于低带宽网络环境、小规模网络及算法研究与测试。

　　分布式结构将监听与审计模块分布实现，同时会采用均衡算法对流量进行分流。文献研究了一种网站内容安全监管系统的框架，采取提取、搜索、滤除和审计4个步骤进行内容检查;文献提出了一种分布式网络内容监控审计系统，采用一台主机作为数据接收机，并根据负载均衡的策略，进行数据包处理和内容审计。文献介绍了一种基于内容安全的局域网监控系统。另外，还有不少文献也描述了相似的系统模型。

　　从总体上来看，已有的分布式结构具有较好的可实施性及可扩充性，但主要还是面对局部网络的内容审计，对于大规模网络环境下的应用还存在不足。并且这些结构在审计细节上描述较为粗略，离实用还有一定距离。

　　概括来讲，已有系统模型主要是针对局部网络区域的内容审计，难以满足大规模网络环境下的复杂多变的审计要求。同时，由于网络流量的增长速度已远远高于处理器处理能力的增长速度，因此使用负载均衡算法来应付大流量内容审计是必须的，但已有的分流技术存在不足，不能实现真正的负载均衡，需要进一步完善数据负载均衡算法。审计体系对系统自身的安全性能考虑较少，在审计系统内部模块的通信安全以及系统自身抗攻击能力等方面存在缺陷，极易受到有经验网络使用者的攻击。

[编辑]

信息内容审计的技术

　　获取数据包后，审计系统对其内容进行深度分析，此过程涉及模式匹配算法、文本语义分析、热点话题发现、不良图像内容识别等关键技术。

　　模式匹配算法

　　审计系统利用多模式精确匹配和多模式相似匹配算法搜索数据包中是否存在敏感模式串，并统计模式串出现的频率，为后续的文本内容分析提供支持。

　　与其他应用环境相比，内容审计中的多模式匹配有如下特点:一是中英文混合环境，由于编码的原因，数据包中与协议相关的部分通常是英文字符，与内容相关的则主要是中文字符，而且两者会交替出现。就中文而言，由于汉字有简繁体之分，文本中会包含2种或2种以上编码的字符。二是不良信息内容发布者会人为在信息中加入干扰字符。另外，由于中英文语言存在比较明显的差异，如中文语言是大字符集语言，字母表数量庞大，词语字符长度较短；英文语言的字母表小，字符长度较长等，这些差异使得在中英文混合环境下进行内容审计的模式匹配算法要求也不同。

　　研究文献提出的经典DFSA算法应用于英文字符环境时效率很高，但直接应用于中文字符匹配时，构建中文字符的完全Hash表时存在存储空间膨胀问题。通过分解中文字符内码构造组合状态自动机，解决了中文字符构建完全Hash表时的空间膨胀问题，但它在中英文混合环境下，会导致字节错位问题。

　　采用加“标记”方法来防止匹配中的错位问题，该方法解决了中英文混合环境下字节错位的问题，但需要对待匹配文本串进行预扫描，匹配效率较低，而且该算法没有考虑ACSII，GB，BIG53种编码混合的情况。通过对中文字符内码的高低字节进行Hash运算，将中文字符映射到大小为65536的集合中进行匹配，该算法避免中英文混合环境下的字节错位问题，也适用于3种编码混合的情形，但对每个中文字符的映射运算，影响了算法的匹配效率。给出并证明了中英文混合环境下多模式匹配算法的性能定理，提出了一种适合于中英文混合环境的多模式匹配算法，该算法在中英文混合环境下能够进行正确高效的匹配，而且不存在空间膨胀问题。

　　涉及到中文的多模式相似匹配会更加复杂。已有多模式相似匹配算法允许在模式串的任意位置插入字符，但一个中文字符的两个字节中间不允许插入字符，在包含m个汉字的字符串中存在m个禁止插入位，因此在中英文混合环境下，已有多模式相似匹配技术会导致错误的匹配结果。文献提出了一种适合于中英文混合环境的多模式相似串匹配算法，该算法把所有模式串转换为多个有限自动机，并利用模式串建立一个状态驱动器，依次用待匹配串的字符驱动状态驱动器，再由状态驱动器驱动各个有限自动机。

　　文本内容分析技术

　　文本内容分析在内容审计中用于深度识别可疑文本，同时发现当前信息流中的热点信息。目前文本内容分析技术大多以词语为基本元素，构建文本表示模型，分析文本相似度并采用分类等方法确定其属性。

　　中文词语之间没有明确的隔断标志，需要进行分词处理。目前最常用的中文分词方法有基于统计的机械分词方法及基于规则的知识分词方法。机械分词方法首先查询字典进行匹配，然后利用词法规则进行分词歧义校正。在文献中提出了机械分词方法的形式化描述模型，此模型可简单描述机械分词方法所采用的具体算法策略。知识分词方法不仅通过词典匹配，还利用词法、句法甚至语义等方面的知识，利用知识的范围更广，同时还可通过人工智能技术进行推理，并将分词与歧义校正合为同一过程。

　　将已有分词算法应用到网络信息内容审计中时，存在分词速度慢，缺乏权威、专业的分词语料库支持、鲁棒性较差等问题，需要深入研究适合于内容审计的分词方法。

　　在中文分词基础上，进而采用VSM(vector space model)模型对文本进行形式化建模，计算文本的相似度。为了便于计算文本之间的相似度，通常进行特征选择处理。常用的特征选择算法有χ2统计、文档频数、期望交叉熵和文本证据权等。进行文本相似度建模后，可进一步采用类中心分类法，贝叶斯、KNN和神经网络等分类算法，实现对文本内容的判别。

　　对于普通完整文本，文本分类系统的效果主要取决于中文分词的准确度、特征选择、分类算法和训练文本。而在内容审计系统中，分类对象为数据包中的片断文本，对于这样的特殊需求，现有文本分类算法均有不足。

　　文献针对这一问题，考虑数据包报文分段对文本分类的影响，在KNN算法的基础上，提出了一种基于上下文的模糊K-最邻近文本分段分类算法。该算法比KNN算法有着更高的查准率、查全率及正确率，并且分类所需时间也更少。

　　近年来，随着网络舆情分析研究的逐渐兴起，网络话题识别与跟踪成为研究热点。目前相关研究集中于挖掘Web文本(新闻、博客等)中的话题信息，同时也有部分研究者针对网络流量内容数据，应用文本内容分析技术分析话题信息。文献基于网络流量内容中话题的流相关特性，采用聚类算法分析网络热点话题信息；文献针对短信流量内容中的突发性热点话题，提出基于特征关联的短信息热点话题发现算法。这些研究虽然仍处于起步阶段，但为网络内容审计技术拓展出了新的研究方向。

　　不良图像内容识别

　　不良图像作为色情信息的重要载体，一直是内容审计的重点对象之一。色情图像的识别属于基于内容的图像过滤范围，但又具有一定独特性，很难用一个简单模型把色情图像所有的特征表现出来，但色情图像也具有比较独特明显的特征，即皮肤裸露。概括来讲，不良图像内容识别主要包括肤色区域检测及敏感特征提取等技术。

　　肤色检测通常采取颜色空间变换、肤色区域建模两个步骤建立肤色统计模型，实现对肤色区域的检测。肤色在颜色空间的分布相当集中，但受光照和人种的影响很大，通常需选择合适的颜色空间来进行肤色检测。文献讨论了颜色空间选择问题，并对所选空间的最优性进行了论证。但是由于肤色检测问题的复杂性，只能根据不同的性能指标选择相对最优的颜色空间。

　　肤色范围建模通过划定人体肤色取值范围，并设定相应阈值区分图像中的肤色区域；文献采用单峰高斯模型对肤色进行建模区分；文献为离散化的颜色空间中的单位区域设定一个概率值，采用规则化查找表或贝叶斯分类算法对肤色区域进行检测。

　　在肤色检测的过程中，需要进行纹理分析来去除类似肤色的区域。文献采用基于DCT变换和Gabor小波变换两种方法提取皮肤纹理特征。文献使用灰度共生矩阵来提取纹理特征。文献根据色情图像肤色区域的纹理特征，建立粗细度模型检测皮肤纹理。

　　获得肤色掩码图像后，进一步提取色情图像的检测特征，构建识别特征向量，将色情图像识别转换成分类问题，然后选择合适的分类器进行识别。文献综合考虑了人体部位结构、部位之间的关联以及颜色与纹理等因素，提出了人体敏感部位的识别方法；文献将SVM分类算法应用于色情图像内容识别；文献在提取人体肤色的基础上加上了面部检测的模块，并结合图像轮廓、面积等多项图像特征进行识别。文献通过建立人体躯干模型，确定图像中人体躯干的大概位置，在此基础上提取色情图像的分类特征。

　　经过上述内容分析后，审计系统根据审计结果，对一定时间内、一定网络范围内的内容安全态势进行评估与预测，在必要时与网络安全防火墙进行安全联动，实施在线阻断等安全防护措施，并向网络管理者提交可订制的内容安全审计报告。

　　内容安全态势评估与预测

　　通过综合分析一定周期内的审计结果，对当前网络信息内容的安全态势进行评估，并对未来的内容安全趋势进行预测，实现对不良信息内容大范围传播的有效控制，一方面根据事态严重程度采取应对措施，遏制事态的发展；另一方面可以评估已采取措施的有效性，为后续措施选取提供依据。

　　近年来，在网络安全研究领域，安全态势评估正成为一个研究热点，被国内外研究者广泛关注，文献提出了一种基于免疫的网络安全风险检测模型，实现对网络系统面临攻击时的实时风险评估；文献提出了一个由风险网络和风险传播算法构成的风险传播模型。上述研究大多专注于网络化系统自身的物理安全，针对网络信息内容的安全态势评估的研究还较少。与网络系统安全评估不同，内容安全态势评估的数据来源为内容安全警报记录和可疑文本的类别信息及信息传播过程的规律，更注重网络使用者思想层次的规律研究。

　　在评估内容安全历史状况的基础上，还需对内容安全态势变化的趋势进行预测。尤其是Web社会网络、IM社会网络等新型社会网络模式，为网络信息快速传播的拓扑基础。

　　从本质上讲，网络内容安全态势问题是用户在此类社会网络上对热点信息关注并传播的问题。针对这一问题，研究者一方面研究基于传染病模型和流言模型，建立关注并传播热点不良信息用户规模趋势的预测模型；另一方面针对社会网络中用户关注热点不良信息的行为趋势，研究了相应的预测模型。文献研究了社会网络边的非均匀性和网络结构对SIR模型传染病传播的联合影响，文献提出了一个基于二维小世界网络的流行病预警SI模型，文献提出了小世界网络中的流言传播模型，并对流言在网络中的传播过程进行了描述，文献提出了无尺度网络中的流言传播模型。文献研究了用户年龄、性别、居住地等属性与用户行为趋近的关联关系，文献研究了网络用户的行为特征，提出了预测用户是否关注并传播热点信息行为的动态概率模型。上述研究为网络内容安全态势的趋势预测提供了重要理论依据，在其基础上，可构建内容安全趋势预测的数学模型。

　　在线处理与阻断

　　当发现违反安全策略的信息内容后，审计系统会根据策略实施相应的在线处理措施，部分措施在审计系统内部完成，如重点监控、证据保留、关键词敏感度提升等；部分与防火墙等环节协同完成，包括危险流量阻断、网络通信限制，其机制与入侵检测和防火墙的联动机制相似。

　　内容审计系统中的在线阻断技术具有较大的实现难度。首先，对传播不良信息的数据包的准确判定具有较大难度，满足怎样的条件可以被认定为恶意数据包，是很难确定的。其次，使用在线阻断对网络流量进行过滤，会造成网络数据传输效率的下降，可能会严重影响正常流量的传输。一般只在网络安全态势严重时才采取在线阻断策略。

　　网络安全联动响应机制可以发挥不同安全技术的特点，从而取得更好的网络安全防范效果，研究重点是信息的收集与分发机制及信息格式的规范化。目前，主要有IETF的入侵检测信息交换格式IDMEF和事件对象描述交换格式；DAPRA的通用入侵检测框架协议组和开发接口；DMTF的通用信息模型。目前，国外有一些研究机构开始这方面的研究，但都不够深入，还没有形成成熟的技术。

来自"https://wiki.mbalib.com/wiki/%E4%BF%A1%E6%81%AF%E5%86%85%E5%AE%B9%E5%AE%A1%E8%AE%A1"

打开MBA智库App, 阅读完整内容打开App

如果您认为本条目还有待完善，需要补充新内容或修改错误内容，请编辑条目或投诉举报。

本条目由以下用户参与贡献

LuyinT.

页面分类: 计算机 | 互联网

评论(共0条)

提示:评论内容为网友针对条目"信息内容审计"展开的讨论，与本站观点立场无关。

发表评论请文明上网，理性发言并遵守有关规定。

查看

工具箱▼

信息内容审计

出自 MBA智库百科(https://wiki.mbalib.com/)

目录

什么是信息内容审计

信息内容审计的模型

信息内容审计的技术

温馨提示

本条目相关课程

本条目由以下用户参与贡献

评论(共0条)

导航

意见反馈

查看

工具箱▼

信息内容审计

出自 MBA智库百科(https://wiki.mbalib.com/)

目录

什么是信息内容审计

信息内容审计的模型

信息内容审计的技术

温馨提示

本条目相关文档

本条目相关课程

本条目由以下用户参与贡献

评论(共0条)

导航

意见反馈