Robots協議
出自 MBA智库百科(https://wiki.mbalib.com/)
目錄 |
什麼是Robots協議[1]
Robots協議也稱為爬蟲協議、爬蟲規則、機器人協議,是網站國際互聯網界通行的道德規範,其目的是保護網站數據和敏感信息、確保用戶個人信息和隱私不被侵犯。“規則”中將搜索引擎抓取網站內容的範圍做了約定,包括網站是否希望被搜索引擎抓取,哪些內容不允許被抓取,而網路爬蟲可以據此自動抓取或者不抓取該網頁內容。如果將網站視為酒店里的一個房間,robots.txt就是主人在房間門口懸掛的“請勿打擾”或“歡迎打掃”的提示牌。這個文件告訴來訪的搜索引擎哪些房間可以進入和參觀,哪些不對搜索引擎開放。
Robots協議的詳解[2]
Robots協議是Web站點和搜索引擎爬蟲交互的一種方式,Robots.txt是存放在站點根目錄下的一個純文本文件。該文件可以指定搜索引擎爬蟲只抓取指定的內容,或者是禁止搜索引擎爬蟲抓取網站的部分或全部內容。當一個搜索引擎爬蟲訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索引擎爬蟲就會按照該文件中的內容來確定訪問的範圍;如果該文件不存在,那麼搜索引擎爬蟲就沿著鏈接抓取。
另外,robots.txt必須放置在一個站點的根目錄下,而且文件名必須全部小寫。如果搜索引擎爬蟲要訪問的網站地址是http://www.w3.org/,那麼robots.txt文件必須能夠通過http://www.w3.org/robots.txt打開並看到裡面的內容。
# robots.txt for http://www.w3.org
#
#$Id:robots.txt.v 1.482007/10/1605:3l:15 gerald Exp$
#
#Forusebysearch.w3.org
User-agent:W3C-gsa
Disallow:/Out-Of-DateUser-agent:W3T_SE
Disallow:/Out-Of-Date-
User-agent:MozillaJ4.0(compatible;MSIE6.0;WindowsNT;MSSearch4.0Robot)
Disallow:
#W3CLinkchecker
User-agent:W3C-checklink
Disallow:
#excludesomeaccess-controlledareas
User-agent:*
Disallow:/Team
Disallow;/Project
Disallow:/Web
Disallow:/Systems
Disallow:/History
Disallow:/0ut-Of-Date
Disallow:/People/all/
Disallow:/2005/11/Translations/Query
Disallow:/2000/06/webdata/xslt
Disallow:/2000/09/webdata/xslt
Disallow:/2005/08/online-xslt/xslt
Disallow:/Search/Mail/Public/
Disallow:/2006/02/chartergen
具體使用格式如下:
(1)User.agent:用於描述搜索引擎爬蟲的名字。在Robots.txt文件中,如果有多條User-agent記錄,說明有多個搜索引擎爬蟲會受到該協議的限制,對該文件來說,至少要有一條User-agent記錄。如果該項的值設為木,則該協議對任何搜索引擎爬蟲均有效,在Robots.txt文件中,“User-agent:*這樣的記錄只能有一條。
(2)Disallow:用於描述不希望被訪問到的一個URL。這個URL可以是一條完整的路徑,也可以是部分路徑,任何以Disallow開頭的URL均不會被Robot訪問到。
搜索引擎爬蟲必須要遵守Robots協議並執行Web站點的要求。因此搜索引擎爬蟲需要有一個分析Robots協議的模塊,並嚴格按照Robots協議的規定抓取Web主機允許訪問的目錄和網頁。
當然,Robots.txt只是一個協議,如果搜索引擎爬蟲的設計者不遵循這個協議,網站管理員也無法阻止搜索引擎爬蟲對於某些頁面的訪問,但一般的搜索引擎爬蟲都會遵循這些協議,而且網站管理員還可以通過其他方式來拒絕網路蜘蛛對某些網頁的抓取。
搜索引擎爬蟲在下載網頁的時候,會去識別網頁的HTML代碼,在其代碼部分會有META標識。通過這些標識,可以告訴搜索引擎爬蟲本網頁是否需要被抓取,還可以告訴搜索引擎爬蟲本網頁中的鏈接是否需要被繼續跟蹤。例如:表示本網頁不需要被抓取,但是網頁內的鏈接需要被跟蹤。
現在一般的網站都希望搜索引擎能更全面地抓取自己網站的網頁,因為這樣可以讓更多的訪問者能通過搜索引擎找到此網站。為了讓本網站的網頁更全面地被抓取到,網站管理員可以建立一個網站地圖,即SiteMap。許多搜索引擎爬蟲會把sitemap.htm文件作為一個網站網頁爬取的入口,網站管理員可以把網站內部所有網頁的鏈接放在這個文件裡面,那麼搜索引擎爬蟲可以很方便地把整個網站抓取下來,避免遺漏某些網頁,也會減小對網站伺服器的負擔。
Robots協議的約束力[3]
“Robots的約束力固然僅限於自律,無強制性,但這不等於說它背後反映的精神,沒有法律基礎。”中國社會科學院信息化研究中心秘書長薑奇平表示,美國的電子隱私權法就規定“將決定權交給消費者,讓其切實有效地授權或者拒絕他人採集和使用其個人信息”,可見遵守規則就是要遵守公平競爭,不是沒有強制力就可以不公平競爭。
- ↑ 百度訴奇虎索賠1億已立案.齊魯晚報.2013年02月25日
- ↑ 袁津生 趙傳剛等編著.21世紀高等學校精品教材 搜索引擎與信息檢索教程.中國水利水電出版社,2008年04月第1版.
- ↑ 百度訴奇虎360索賠一億元法院立案 專家認為行業協議需強化法律效力.法制網——法制日報.2013-02-21