對于一個網(wǎng)站來說,應(yīng)該有一些人并不喜歡網(wǎng)站所有頁面都被Google抓取,因此就產(chǎn)出了robots.txt文件這一東西。本篇文章將詳細講解robots.txt文件是什么以及robots.txt文件的限制。
robots.txt文件是什么
robots.txt 文件規(guī)定了搜索引擎抓取工具可以無法請求抓取您網(wǎng)站上的哪些網(wǎng)頁或文件。此文件主要用于使您的網(wǎng)站避免收到過多請求;它并不是一種用于阻止 Google 訪問某個網(wǎng)頁的機制。
注意:
1.需要在禁止抓取某些內(nèi)容時,robots.txt文件才有意義。robots.txt不存在或者是一個空文件意味著允許抓取網(wǎng)站上的所有內(nèi)容。
2.有些因服務(wù)器設(shè)置的問題,robots.txt文件不存在時會返回狀態(tài)碼“200”,而不是“404”狀態(tài)碼。這可能導(dǎo)致搜索引擎錯誤解讀robots文件。因此為了避免此類情況的發(fā)生,即使你允許抓取網(wǎng)站上所有的內(nèi)容,也要在網(wǎng)站根目錄下放一個空的robots.txt文件。
二、robots.txt文件對網(wǎng)站有什么優(yōu)點
1、疾速增加網(wǎng)站權(quán)重和拜訪量;
2、制止某些文件被查找引擎索引,能夠節(jié)約服務(wù)器帶寬和網(wǎng)站拜訪速度;
3、為查找引擎供給一個簡潔明了的索引環(huán)境
三、robots.txt 的限制
在創(chuàng)建或修改 robots.txt 之前,您應(yīng)了解這種網(wǎng)址屏蔽方法的限制。有時候,您可能需要考慮采用其他機制來確保搜索引擎無法在網(wǎng)絡(luò)上找到您的網(wǎng)址。
1.并非所有搜索引擎都支持 robots.txt 指令
robots.txt 文件中的命令并不能強制抓取工具對您的網(wǎng)站采取的行為;是否遵循這些命令由抓取工具自行決定。Googlebot 和其他正規(guī)的網(wǎng)頁抓取工具都會遵循 robots.txt 文件中的命令,但其他抓取工具未必也會如此。因此,如果您想確保自己網(wǎng)站上的特定信息不會被網(wǎng)頁抓取工具抓取,我們建議您采用其他屏蔽方法(如為您服務(wù)器上的隱私文件提供密碼保護)。
2.不同的抓取工具對語法的解析各不相同
雖然正規(guī)的網(wǎng)頁抓取工具會遵循 robots.txt 文件中的指令,但這些抓取工具可能會以不同的方式來解析這些指令。您應(yīng)該好好了解一下適用于不同網(wǎng)頁抓取工具的正確語法,因為有些抓取工具可能會無法理解某些命令。
3.如果其他網(wǎng)站上有鏈接指向被 robots.txt 文件屏蔽的網(wǎng)頁,則此網(wǎng)頁仍可能會被編入索引
盡管 Google 不會抓取被 robots.txt 屏蔽的內(nèi)容或?qū)⑵渚幦胨饕?,但如果網(wǎng)絡(luò)上的其他位置有鏈接指向被禁止訪問的網(wǎng)址,我們?nèi)钥赡軙业皆摼W(wǎng)址并將其編入索引。因此,相關(guān)網(wǎng)址和其他公開顯示的信息(如相關(guān)頁面鏈接中的定位文字)仍可能會出現(xiàn)在 Google 搜索結(jié)果中。要正確阻止您的網(wǎng)址出現(xiàn)在 Google 搜索結(jié)果中,您應(yīng)為您服務(wù)器上的文件設(shè)置密碼保護,或者使用 noindex 元標(biāo)記或響應(yīng)標(biāo)頭(或者徹底移除網(wǎng)頁)。