暗網
出自 MBA智库百科(https://wiki.mbalib.com/)
暗網(Deep Web;Hidden web)
目錄 |
所謂的“暗網”,其英文原名叫作“Deep Web”,又稱深層網路,它有泛指和特指兩種層面的定義。
先說泛指,廣泛意義上的“暗網”,指的是那些無法被搜索引擎收錄內容的站點,也就是說,一切有著非公開訪問機制的網站——比如Facebook,甚至一個註冊才能進入的小型BBS——都屬於“暗網”的一部分;另外,由於搜索引擎對於網站內容的抓取通常都是通過追溯超鏈接來完成,有著相當多的頁面因為沒有任何超鏈接的指向,也處於搜索引擎的盲區,故而它們也被納入“暗網”的範疇。與“暗網”對應的,是“明網”,也稱表層網路(Surface Web),曾有學術機構統計過“暗網”與“明網”分別蘊含的數據比例,結果顯示前者的數據存量百倍於後者,且增長速度更快。
真正敏感的,是特指意義上的“暗網”,也就是那些蓄意隱匿信息及身份,將在大多數國家都不合法的生意搬到網上正常經營,追求並捍衛無政府主義的立場。在美劇《紙牌屋》第二季中,女記者佐伊被男主角弗蘭克謀殺,她的記者男友——盧卡斯為了調查已經當上副總統的弗蘭克,通過一個名為Tor的工具訪問“暗網”,尋找黑客幫忙挖掘弗蘭克不為人知的秘密,這個過程就是在“暗網”中完成的。Netflix在拍攝這個橋段時,甚至邀請了真正的網路黑客格雷格·豪斯充當顧問,力求還原劇情的真實性。
Hidden Web最初由Dr.Jill Ellsworth於1994年提出,指那些沒有被任何搜索引擎索引註冊的網站:
“這些網站可能已經被合理地設計出來了,但是他們卻沒有被任何搜索引擎編列索引,以至於事實上沒有人能找到他們。我可以這樣對這些不可見的網站說,你們是隱藏了的。”
另外早期使用“不可見網路”這一術語的,是一家叫做“個人圖書館軟體”公司的布魯斯·芒特(產品開發總監)和馬修·B·科爾(首席執行官和創建人),當他們公司在1996年12月推出和發行的一款軟體時,他們對暗網工具的有過這樣的一番描述:
不可見網路這一術語其實並不准確,它描述的只是那些在暗網中,可被搜索的資料庫不被標準搜索引擎索引和查詢的內容,而對於知道如何進入訪問這些內容的人來說,它們又是相當可見的。
第一次使用暗網這一特定術語,是2001年伯格曼的研究當中。
從信息量來講,與能夠索引的數據相比,“暗網”更是要龐大得多。根據Bright Planet公司此前發佈的一個名為《The Deep Web-Surfacing The Hidden Value》(深層次網路,隱藏的價值)白皮書中提供的數據,“暗網”包含100億個不重覆的表單,其包含的信息量是“非暗網”的40倍,有效高質內容總量至少是後者的1000倍到2000倍。更讓人無所適從的是,Bright Planet發現,無數網站越來越像孤立的系統,似乎沒有打算與別的網站共用信息,如此一來,“暗網”已經成為互聯網新信息增長的最大來源,也就是說,互聯網正在變得“越來越暗”。
當然,所謂“暗網”,並不是真正的“不可見”,對於知道如何訪問這些內容的人來說,它們無疑是可見的。2001年,Christ Sherman、GaryPrice對Hidden Web定義為:雖然通過互聯網可以獲取,但普通搜索引擎由於受技術限制而不能或不作索引的那些文本頁、文件或其它通常是高質量、權威的信息。根據對HiddenWeb的調查文獻得到瞭如下有意義的發現:
(1)Hidden Web大約有307,000個站點,450,000個後臺資料庫和1,258,000個查詢介面。它仍在迅速增長,從2000年到2004年,它增長了3~7倍。
(2)Hidden Web內容分佈於多種不同的主題領域,電子商務是主要的驅動力量,但非商業領域相對占更大比重。
(3)當今的爬蟲並非完全爬行不到Hidden Web後臺資料庫內,一些主要的搜索引擎已經覆蓋Hidden Web大約三分之一的內容。然而,在覆蓋率上當前搜索引擎存在技術上的本質缺陷。
(4)Hidden Web中的後臺資料庫大多是結構化的,其中結構化的是非結構化的3.4倍之多。
(5)雖然一些Hidden Web目錄服務已經開始索引Web資料庫,但是它們的覆蓋率比較小,僅為0.2%~15.6%。
(6)Web資料庫往往位於站點淺層,多達94%的Web資料庫可以在站點前3層發現。
它分為兩種:
一種是技術的原因,很多網站本身不規範、或者說互聯網本身缺少統一規則,導致了搜索引擎的爬蟲無法識別這些網站內容並抓取,這不是搜索引擎自身就能解決的問題,而是有賴整個網路結構的規範化,百度的“阿拉丁計劃”、谷歌的“雲計算”就是要從根本解決這一問題。
另一個原因則是很多網站根本就不願意被搜索引擎抓取,比如考慮到版權保護內容、個人隱私內容等等,很多網站都在屏蔽百度、比如視頻網站優酷曾經也宣佈屏蔽百度一樣,這更不是搜索引擎能解決的問題了。如果他們能被搜索引擎抓取到,就屬於違法了。
數據顯示,能夠搜索到的數據僅占全部信息量的千分之二。而對暗網的發掘能擴大搜索資料庫,使人們能夠在搜索引擎上搜索到更多的網頁、信息。
幾乎任何有抱負的通用搜索引擎都有一個共同的夢想:整合人類所有信息,並讓大家用最便捷的方式各取所需。
對此,百度說:“讓人們最便捷地獲取信息,找到所求”;谷歌說:“整合全球信息,使人人皆可訪問並從中受益”。這兩者表達的實際上是同一個願景。
然而,這註定是一項不可能完成的任務。據科學家估測,人類信息大概只有0.2%實現了web化,並且這個比例很可能在持續降低。更甚的是,即便在已經Web化的信息中,搜索引擎的蜘蛛能抓取到的和不能抓取到的比例為1:500。
信息孤島