全球专业中文经管百科,由121,994位网友共同编写而成,共计436,047个条目

網頁凈化

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

網頁凈化(Noise Reduction)

目錄

什麼是網頁凈化

  網頁凈化是根據網頁結構,識別網頁中不同類型的內容塊,捨棄雜訊信息,如導航信息、廣告信息、版權信息等,剝離出正文信息。它是主題相關度計算、資源查重、自動摘要、自動分類及元數據抽取的前提,是預處理階段不可缺少的環節。

網頁凈化的目的[1]

  網頁凈化的目的是獲取HTML頁面中的正文信息,同時,網頁凈化可以顯著簡化網頁內標簽結構的複雜性,並減小網頁的大小,從而節省後續處理過程的時間和空間開銷。下圖給出了網頁內容分區的一個示例。

Image:网页内容的分区.jpg

  HTML是一種標記語言,它的標簽在功能上可以分為兩類:一類是用於規劃網頁佈局的標簽,如<table>、<tr>、<td>、<div>、<P>等,它們將網頁內容分成若幹個部分,並確定每個部分在網頁中的顯示位置,從而形成視覺上可以區分的正文信息塊、導航信息塊、廣告信息塊及版權信息塊等內容,這些標記是識別網頁信息塊的基礎;另一類標簽是描述網頁數據項顯示屬性的標簽,如 <a>、<img>、<font>、<b>、<H3>等,其中,<a>表示數據項是超鏈接,<img>表示數據項是圖形,其他標簽定義了數據項顯示的字體屬性,通過對這類標簽的分析,可以確定內容塊中數據的屬性信息。一般情況下,正文信息以純文本為主,導航信息包含大量超鏈接,廣告信息通常包括圖形信息,且其位置一般不在頁面的中心,而版權內容則包括一些特殊的信息內容,如“版權”、“權利”、“all rights reserved”、“copy right”等,這樣,可根據HTML的上述標簽及特殊信息進行網頁凈化。

幾種網頁凈化方法[2]

一、基於標簽樹的凈化方法

  先將HTML中的標簽按照功能分類,然後提取出適合網頁凈化的標簽樹。將HTML標簽分為兩類:

  1)規劃網頁佈局的標簽。網頁是由若幹內容塊組成,而內容塊是由特定的標簽(容器標簽)規划出。常用的容器標簽有<table>、<tr>、<td>、<P>、<div>等。

  2)屬性標簽。網頁中除了描述佈局結構的標簽外,HTML中還定義了一套標簽來描述網頁中的內容。比如:<b>標簽說明它所包含的內容用粗體來顯示。依據容器標簽構造標簽樹中的節點,其他類型的標簽信息作為它所在的內容塊的屬性。

  標簽樹構造完成後,網頁凈化過程就變為對標簽樹中節點的剪裁。依據內容塊中詞頻數與圖片數和超鏈接數的比值可以為每個內容塊設定一個類型,分為主題型、多鏈接型、圖片型三種。如果內容塊中詞項數與圖片數的比值小於某個閾值,該內容塊是圖片型;如果內容塊中詞項數與圖片數的比值小於某個閾值,該內容塊就是圖片型;如果內容塊中作為鏈接導航文字出現的詞項數與該塊中總詞項數的比值小於某個閾值,該內容塊就是多鏈接型,否則為主題類型。

  Web上的網頁根據內容可以分為三類:有主題網頁、目錄網頁和圖片網頁。三種網頁的凈化方法各不相同。在目錄型網頁中,大多數的內容塊都是多鏈接型的。在網頁的佈局上,重要的信息通常分佈在網頁中間區域,而網頁邊緣信息的重要性相對較弱。因此,對於目錄型網頁,我們可以將網頁中間區域的內容塊作為網頁的主題內容,而邊緣的內容塊則通過與主題內容計算相似性的方法來決定取捨。對於圖片網頁,由於網頁中文字較少,因而傳統的向量表示不夠準確,在這種情況下,保留網頁中間區域的圖片型內容塊就可以完成網頁凈化的功能。有主題網頁的凈化過程如下:首先,識別出網頁中的主題內容塊,然後,依據主題內容在剩餘內容塊中識別出與主題相關的內容塊,最後剩下的內容塊就是雜訊內容塊。主題內容塊的識別是依據如下啟髮式規則:一篇有主題網頁中的正文通常是用成段的文字來描述,中間通常不會加入大量的超鏈接,而非正文信息通常是伴隨著超鏈接出現的。因此,在有主題網頁中,如果一個內容塊是主題類型的,則該內容塊中的內容為網頁主題內容的一部分。依據該規則,深度優先遍歷DOM樹並依次記錄主題類型的內容塊,就得到該網頁的主題內容。得到主題內容後,剩餘內容塊的主題相關性是通過與主題內容的相似性來判斷的。相似性計算公式大多採用向量計算公式。因此首要的工作是內容塊的特征向量表示,即表示為:

  (w_1,w_2,w_3 \cdots w_n)

  計算公式如下 w_i=\frac{\sum_{j=1}^{BN}BWeight_j * BTf_{ij}}{\sqrt{\sum_{i=1}^n(\sum_{j=1}^BNBWeight_j * BTf_{ij})^2}}

  其中,BN為網頁中內容塊的總數;n為網頁中不同關鍵詞的總數;BWeightj為網頁中內容塊j的權重,它的值由一個內容塊中的重要標簽來決定;BTfj為關鍵詞i出現在內容塊j中的詞頻。與主題內容相關性較小的即為雜訊。

二、基於ST樹的凈化方法

  在判斷ST樹中噪音元素節點時基於以下兩點假設:①如果ST樹中某個元素節點下的類型節點越多則該節點越重要,類型節點越少則該節點越不重要;②元素節點包含的內容越多樣,該節點越重要。通過這兩點來衡量元素節點的重要性。對於一個網站的ST樹即SST樹來說,內部節點和葉節點採用不同的處理方式。

  對於SST中內部節點E,它的重要程度用CompImp(E)表示,計算方式如下

Comp Im p(E)=(1- r^1)Node Im p(E)+r^1\sum_{i=1}^1[P_iComp Im p(S_i)]

  其中:

Node Imp(E)=\begin{cases}- \sum_{i=1}^1 p_i log_m p_i,& \mbox{if},m>1\\1,&\mbox{if},m=1 \end{cases}

  式中,l代表元素節點E的子類型節點的個數;Pi是網頁使用E節點的第i個子類型的概率,即出現第i個子類型的網頁個數與總網頁個數的比值;Si是E的子類型節點;r是一個大於零的可調參數;另外:

CompImp(S_i)=\frac{\sum_{j=1}^1CompImp(e_j)}{k}

  CompImp(Si)表示類型節點Si的重要程度,ei表示Si中的元素節點,K表示Si中元素節點的個數。對於SST樹中的葉節點E,重要程度計算公式如下,

ComImp(E)=\begin{cases}1 - \frac{\sum_{i=1}^1H(a_i)}{l},& \mbox{if},m>1\\1,&\mbox{if},m=1 \end{cases}

  其中ai表示節點E中的特征項,如詞語,圖像文件,鏈接等;1是節點E中特征項的個數;m是含有E節點的網頁個數;H(ai)是E節點的信息熵。H(ai)計算公式如下:

H(a_i)=- \sum_{j=1}^m P_{ij}log_m P_{ij}

  其中Pij表示含有節點E的網頁中出現ai概率

  雜訊的判斷:如果SST中元素節點E的所有後繼節點的重要程度以及自身的重要程度小於某個閾值則認為E是雜訊。實驗表明這種網頁凈化方法能有效地提高網頁分類系統的性能。

三、兩種方法的特點

  基於標簽樹的凈化方法在依據規劃網頁佈局的標簽(<table>、<tr>、<td>、<P>、<div>等)和屬性標簽構建完標簽樹後,依據內容塊中詞頻數與圖片數和超鏈接數的比值將內容塊分為主題型、多鏈接型、圖片型三種。將Web上的網頁根據內容分為有主題網頁、目錄網頁和圖片網頁。對於目錄型網頁,將網頁中間區域的內容塊作為網頁的主題內容,而邊緣的內容塊則通過與主題內容計算相似性的方法來決定取捨。對於圖片網頁,由於網頁中文字較少,因而傳統的向量表示不夠準確,在這種情況下,保留網頁中間區域的圖片型內容塊就可以完成網頁凈化的功能。有主題網頁的凈化過程如下:首先,識別出網頁中的主題內容塊,然後,依據主題內容在剩餘內容塊中識別出與主題相關的內容塊,最後剩下的內容塊就是噪音內容塊。主題內容塊的識別是依據如下啟髮式規則:一篇有主題網頁中的正文通常是用成段的文字來描述,中間通常不會加入大量的超鏈,而非正文信息通常是伴隨著超鏈出現的。

  基於標簽樹的凈化方法的缺點:對於目錄型網頁和圖片型網頁,凈化方法比較粗糙。對於目錄型網頁是將中間內容作為主題內容,但中間區域的劃分不是很明確;對於圖片型網頁,只是保留中間部分。另外網頁塊的劃分方法有待改進。有些網頁常常將同一個新聞或內容用多個<P>或<div>分割開來,根據標簽樹的構建方法同一個新聞或內容會劃分到不同的內容塊中,不能將同一個新聞或內容劃分到同一個內容塊中。

  ST樹中判斷噪音元素節點時基於以下兩點假設:①如果ST樹中某個元素節點下的類型節點越多則該節點越重要,類型節點越少則該節點越不重要;②元素節點所包含的基於ST樹的凈化方法的缺點:這方法的缺點主要產生於SST樹的構建,在構建某

  個網站的SST樹時,必須保證該網站是按照同一種風格來構建的。如果一個網站中大多數網頁使用不同的風格,則這些網頁的DOM樹也可能完全不一樣,可能沒有相同的類型節點,這樣就不容易構建良好的SST樹,進而會影響到基於ST樹的凈化演算法。

相關條目

參考文獻

  1. 李廣建編著.Web信息系統導論.高等教育出版社,2008
  2. 凌雲,章志勇,歐陽毅等著.智能信息檢索.中國科學技術出版社,2006
本條目對我有幫助1
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目投訴舉報

本条目由以下用户参与贡献

KAER,方小莉,苏青荇.

評論(共0條)

提示:評論內容為網友針對條目"網頁凈化"展開的討論,與本站觀點立場無關。

發表評論請文明上網,理性發言並遵守有關規定。

打开APP

以上内容根据网友推荐自动排序生成

官方社群
下载APP

闽公网安备 35020302032707号