全球专业中文经管百科,由121,994位网友共同编写而成,共计436,136个条目

網路內容過濾技術

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

目錄

什麼是網路內容過濾技術

  網路內容過濾技術指採取適當的技術措施,對互聯網不良信息進行過濾,既可阻止不良信息對人們的侵害,適應社會對意識形態方面的要求,同時,通過規範用戶的上網行為,提高工作效率,合理利用網路資源,減少病毒對網路的侵害,這就是內容過濾技術的根本內涵。

內容過濾技術的過程

  隨著互聯網的迅速普及,網路內容“垃圾”已經開始侵入人們的生活,像現在互聯網上大量的不良信息,以及垃圾郵件、病毒郵件、泄密郵件和網路聊天等問題,已經逐漸侵襲到人們的靈魂。對互聯網取其精華、去其糟粕,從而保護自己以及抵禦力極差的青少年,一種新的技術——內容過濾因此孕育而生,引起人們的關註。

  個人電腦內容過濾 每個人都或多或少有一些使用IE的經驗,通過“工具Internet選項內容分級審查允許”開啟這項功能。

  內容分級審查是根據互聯網內容分級聯盟(ICRA)提供的內容分級標準,來允許或禁止訪問某些不良的網站。內容分級審查功能本來可以讓家長很好地控制孩子的上網,但是非常遺憾,並不是所有的網站都遵守ICRA規範,也就是說這個分級標準並不是放之四海皆準的,它從一開始就成了IE的擺設。

  除了IE自帶的內容過濾功能,市場上還有一些需要安裝在上網電腦終端的內容過濾軟體,常見的有SurfControlCyberPatrol、國內的藍眼睛、過濾王等等。這些軟體可以在一定程度上控制孩子訪問色情、游戲等不良網站,比較適合家庭單機使用。

  企業網路內容過濾

  在每一個互聯網訪問的網路邊緣(企業/學校網路邊緣、網吧網路出口),都可以部署內容過濾工具。這些工具一般是分析網路數據流中包含的HTTP數據包,對數據包頭中的IP地址、URL、文件名、HTTPmethods進行訪問控制

  在網路邊緣的內容過濾產品有兩種表現方式:旁路式(Passby)和穿透式(Passthrough)。旁路式內容過濾產品是獨立的,它監聽網路上所有信息,並有選擇的對基於TCP的連接(如HTTP/HTTPS/FTP/TELNET/POP3/SMTP等)進行阻斷。旁路式過濾的原理基於TCP的連接性:跟蹤所有TCP連接,阻斷時以伺服器身份向客戶端發送HTTPFINPUSHACK,同時以客戶端身份向伺服器發送HTTPRST。一般情況下,旁路式內容過濾產品可以快速部署,對網路運行不存在影響和風險。穿透式內容過濾產品依賴於其他網路邊緣處的基礎平臺,如MicrosoftISA、CiscoCacheEngine、BlueCoatProxySG、NetscreenFirewall等。穿透式內容過濾產品根據這些網路邊緣接入基礎平臺的訪問請求,作出允許或禁止的判斷,然後由這些平臺執行過濾的動作。

  那麼,內容過濾產品如何作出允許或禁止的判斷呢?不同的廠商有著不同的解決方案。從理論上來講,最理想的產品能夠實時對網頁內容進行分析,然後判斷是否允許用戶訪問。例如,用戶訪問一個色情網站,內容過濾產品分析這個網站中頁面的內容,發現其中包含了大量的色情辭彙和圖片信息,從而判斷這是一個不良網站,需要進行過濾。這是一個理想的狀態。但是,在具體的生產應用環境當中,實時分析網頁內容併進行過濾是不現實的,這個問題主要體現在:對網頁內容實時分析給用戶瀏覽體驗帶來的延時是不可以接受的。對文字內容進行比較分析需要大量的計算資源,更不用說圖片信息。試想一下每一個用戶每點擊一個鏈接都要等待數十秒鐘,這還是比較好的情況。一般的企業網路內每秒鐘都會有數個到數十個HTTP連接建立,這對實時的內容分析來說是不可完成的任務。

  所以,絕大部分廠商採取了一個折衷的辦法。他們事先對訪問量較大、名氣較大的網站和網頁的內容做分類的工作,然後把URLIP地址和內容分類對應起來,。當用戶訪問這些網站上的頁面時,內容過濾產品就可以根據事先的分類進行過濾,達到按內容過濾的目的。

  因此,內容分類資料庫的數量和質量是評價一個內容過濾產品的重要指標。有些廠商組建了專門的內容分析部門,他們專職監控每天新出現的網站,然後將這些網站分類更新到資料庫當中。還有些廠商使用人工智慧技術,自動進行分析。內容安全產品的市場爆炸證明,這種辦法是可行的,也是經濟的。

  互聯網骨幹內容過濾

  內容過濾除了在個人電腦和企業網路中的應用,在互聯網骨幹上也可以實現相同的功能。互聯網骨幹的主要任務是在保證可連通性的同時,儘可能快速地提供數據交換通道,這就要求網路結構和配置儘可能簡單。屬於網路高層應用的內容過濾本來不應該在互聯網骨幹上部署實施。但是,出於國家安全的需要,對一些網站還是需要進行屏蔽。電信運營商在互聯網骨幹上使用的內容過濾技術主要是DNS過濾和IP地址過濾:互聯網骨幹DNS伺服器拒絕解析指定URL列表;通過ACL拒絕到指定IP地址的連接。這些手段輕微地影響互聯網性能,但是技術和現實中也是可以實現和接受的。

  另外,現在國內有些地區的寬頻運營商還提供“綠色上網”服務,為申請此項服務的用戶提供內容過濾的功能,以保護青少年和兒童。這些“綠色上網”服務的原理同以上的內容過濾原理是一樣的,不同之處在於每個用戶的可定製化功能。還有些運營商採取了“投訴”的方式來維護更新不良內容網址,通過獎勵上網費用和時間的方式來鼓勵寬頻用戶投訴不良網站。這也是一個很好的思路和現實的做法。

網路內容過濾技術概述

  採取適當的技術措施,對互聯網不良信息進行過濾,既可阻止不良信息對人們的侵害,適應社會對意識形態方面的要求,同時,通過規範用戶的上網行為,提高工作效率,合理利用網路資源,減少病毒對網路的侵害,這就是內容過濾技術的根本內涵。

  一般來說,內容過濾技術包括名單過濾技術、關鍵詞過濾技術、圖像過濾技術、模板過濾技術和智能過濾技術等,如果再細緻分析,現階段的內容過濾技術主要分為基於網關和基於代理兩種。

  首先,基於網關的內容過濾,一般嵌入專門的安全網關或者防火牆等網關設備中,此種網路設備一般通過靜態和動態內容過濾來進行。所謂靜態過濾,就是可自定義可信站點和禁止站點。比如,靜態過濾可以阻塞對“交友社區”的訪問,以拒絕訪問“交友社區”的網站內容。動態過濾也很重要,因為Internet和Web都不是靜態的。相反,新的網頁正以每年數以億計的速度添加到Web,每分鐘都有新的站點和頁面出現。此外,Web頁也不是一個單一的實體,而是由眾多獨立的組件組成,每個組件都有它們自己的URL瀏覽器可以單獨和獨立地獲取它們。其中每個組件都可以通過其URL直接訪問,因此也可能是過濾對象。動態內容過濾可以通過設定URL中的關鍵詞來過濾含此關鍵詞的站點以確定用戶是否應獲取某一請求的URL,即便該URL沒有明確定義。比如,動態過濾可以拒絕訪問URL中有“Porn”字樣的所有站點。理想的防火牆不僅應支持靜態內容過濾,還應能讓用戶選擇一個可以自行決定阻塞的廣泛類別列表,如拍賣、聊天、就業搜索、游戲、仇恨/歧視、歷史、玩笑、新聞股票、泳衣,等等。這種功能可使辦公室管理員和父母允許或阻塞對任何站點類別的訪問。而且,由於Internet始終都在變化,因此應當定期用被歸入站點類型的新URL更新類別列表。

  其次,基於代理的內容過濾。主要以專用的硬體代理上網設備實現,一般是將設備配置成代理緩存伺服器,並部署在企業用戶和Internet之間,這些優化的專用設備就能夠智能地管理用戶的內容請求。當用戶請求一個URL時,請求首先到達設備相應埠安全專用設備進行認證和授權。如果請求的頁面中的對象已經在該專用設備的本地緩存中,它們就從本地直接訪問給用戶,如果不在本地緩存中,安全專用設備就作為用戶的代理,通過Internet和源伺服器通信。當對象從源伺服器返回時,就保存在本地緩存中以為後續的訪問請求服務,同時傳送一個拷貝給訪問的用戶。整個過程被全程監控,並作記錄,供訪問報告統計和為企業計劃提供依據。

網路內容過濾技術的難點

  從這三種過濾手段來看,它們都受制於內容分類的效率和準確性。如何提高內容分類的效率和準確性,是各個廠商鑽研的難題。

  實際上,每個月都有超過100萬個新註冊的網站出現在互聯網上,也就是說互聯網是變化的,這種變化是永不停息的。最好的辦法還是挑選一部分網站放在資料庫當中,這些網站至少具有兩個特征:1、訪問量比較大;2、包含不良內容。對於那些訪問量不大,或者內容“不咸不淡”的網站,大可以忽略不計。

  每個企業或者每個人的瀏覽習慣都是不一樣的,也可能有些人特別喜歡瀏覽一些冷門的網站,這就涉及一個個性化的問題。為了對這些訪問進行控制和過濾,內容過濾產品本身還要具有一定的智能,能夠自動分析歸類這些網站的內容,並對用戶的訪問進行過濾。這樣的分析結果應該保留在訪問者的本地內容過濾設備上,而不是上傳同步到所有的用戶。這樣的話,所有用戶就有一個集中的公共資料庫,包含了絕大部分熱門網站;每個用戶還有一個分散的私人資料庫,包含了自己的瀏覽分析歸類數據。

本條目對我有幫助0
MBA智库APP

扫一扫,下载MBA智库APP

  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目投訴舉報

本条目由以下用户参与贡献

LuyinT.

評論(共0條)

提示:評論內容為網友針對條目"網路內容過濾技術"展開的討論,與本站觀點立場無關。

發表評論請文明上網,理性發言並遵守有關規定。

打开APP

以上内容根据网友推荐自动排序生成

官方社群
下载APP

闽公网安备 35020302032707号