seo優(yōu)化往大了講海納百川,往小點(diǎn)講也有很多重要元素。抓取和索引這兩件事就是SEO領(lǐng)域中簡(jiǎn)單而又重要的觀念,熟悉了解它們之后便可以優(yōu)化搜索引擎蜘蛛抓取、索引你的網(wǎng)站。
了解網(wǎng)絡(luò)蜘蛛
Google官方將它稱為Google Spider、Google Bot,我們便將其稱之為蜘蛛,想象一下互聯(lián)網(wǎng)便是一個(gè)又一個(gè)的蜘蛛網(wǎng)連在一起,而搜索引擎本身有屬于它的軟件,就像是蜘蛛一樣在巨大的網(wǎng)絡(luò)上爬行,并收集 資訊。
做 SEO工作,維持網(wǎng)路蜘蛛與網(wǎng)站之間良好的關(guān)系是非常重要的,你必須要了解各大搜尋引擎蜘蛛的效能以及規(guī)范,并盡量讓它能夠完整抓取你網(wǎng)站上的優(yōu)質(zhì)內(nèi)容。
早些年,Bing的蜘蛛太大容量的網(wǎng)站內(nèi)容會(huì)無法抓取,這是它本身的功能限制,你必須要把最好的內(nèi)容往前方,如果容量太大的話,后邊的內(nèi)容Bing是抓不到的。
理解抓取 ( Crawl ) 、索引 ( Index )
搜索引擎運(yùn)作原理我們可以簡(jiǎn)單說為:
抓取 ( Crawl) – > 演算、建立索引到搜索引擎上 ( Index ) – > 供查詢、使用
抓取 ( Crawl) 便是指搜索引擎捕捉你網(wǎng)站上的資料的行為,包括網(wǎng)站的關(guān)鍵字、內(nèi)容、反向鏈接等等,刷取完畢之后便會(huì)通過索引蜘蛛在爬完你的資料之后,將所有內(nèi)容進(jìn)行演算、歸檔,并且收錄到搜索引擎中,這個(gè)建檔、收錄的過程被稱之為( Index )。
索引完成之后,用戶才能在搜索引擎中找到你的網(wǎng)站,簡(jiǎn)單來講,先有抓取才會(huì)有索引,通過Google站長(zhǎng)工具,我們可以看到網(wǎng)站被抓取、索引的情況。
抓取和索引是完全不同的兩件事,有可能你的頁面被Google正常抓取,卻沒有將頁面索引到搜索引擎上,這樣的情況一般來講就很有可能是你的網(wǎng)站有違規(guī)的行為,又或者排名太差,在搜索引擎上根本找不到自己的頁面。
抓取 ( Crawl ) 與索引 ( Index )的優(yōu)化工作
為什么抓取 ( Crawl ) 需要優(yōu)化?
抓取的優(yōu)化功能就是要確定Google、Bing在抓取、并且是完整的抓取整站的資料,有可能因?yàn)槟程幍木W(wǎng)站結(jié)構(gòu)以及HTML語法的錯(cuò)誤,導(dǎo)致它看不到你的網(wǎng)站,這是非常致命的一件事情。
當(dāng)然,有時(shí)候你也不希望蜘蛛去抓取某些個(gè)網(wǎng)站,比如說有頁面未完成、還在測(cè)試階段,你不希望Google看到這個(gè)頁面,那就必須使用些特殊的語法,阻止蜘蛛抓到這些頁面的資料。
為什么索引 ( Index )需要優(yōu)化?
測(cè)試索引 ( Index )的唯一辦法就是實(shí)際使用搜尋引擎去搜尋自己的網(wǎng)站。
先排除排名的情況外,先確保你的頁面都有正常的建立搜索引擎,并且某些頁面會(huì)影響用戶體驗(yàn),你并不希望被建立進(jìn)搜索引擎,你就要使用meta robots來進(jìn)行SEO工作。
怎么阻止搜索引擎抓取 ( Crawl ) 和索引 ( Index )頁面
meta robots以及robots.txt的工作分別是阻止Google 抓取、索引你的頁面,可是我們明明巴不得搜索引擎把整站的頁面全都給抓取、索引,為什么還要阻止搜索引擎呢?
這年頭已經(jīng)不是單純SEO排名、流量高就有用的,為了能夠讓網(wǎng)站產(chǎn)生價(jià)值,制造轉(zhuǎn)換,所以使用體驗(yàn)相對(duì)重要,如果你有些頁面會(huì)給用戶帶來不好的體驗(yàn),可以用這個(gè)辦法去阻止該頁面出現(xiàn)在Google搜索結(jié)果中。
Robots.txt可以阻止搜索引擎抓取你的資料,如果你使用了robots.txt來阻擋搜索引擎,那么搜索引擎將會(huì)略過你所阻擋的頁面,不去做抓取。
但meta robots 就不同了,他在索引層面阻止搜索引擎索引你的頁面,但Google還是有抓取你的網(wǎng)站資料的,但究竟為什么我們要這樣做?
關(guān)于Robots.txt的一些事情
大多數(shù)情況下,我們都不會(huì)使用Robots.txt來阻止搜索引擎抓取我們的網(wǎng)站,除非你確定這個(gè)頁面對(duì)SEO有負(fù)面影響,若你有頁面不希望出現(xiàn)在搜索引擎上的話,還是用Meta Robots控制索引就好,除非有以下的情況:
·未完成的頁面
網(wǎng)站頁面正在開發(fā)中,并且開發(fā)時(shí)間比較長(zhǎng),甚至還需要進(jìn)行修改、索引,這時(shí)候被蜘蛛抓取、索引,可能會(huì)給用戶搜索帶來錯(cuò)誤的信息,而且未完成的頁面也會(huì)影響用戶的使用體驗(yàn)。
·測(cè)試頁面
新首頁、新頁面測(cè)試之類,這些一模一樣的頁面、域名會(huì)讓搜索引擎犯迷糊的。
·網(wǎng)站后臺(tái)、其他原因
注意-Google說它們是參考參考
了解meta robots以及robots.txt之后,你可以優(yōu)化網(wǎng)站的抓取及索引狀況,阻止特定頁面跟被抓到或是被索引。
Google官方有明確的聲明,meta robots和robots.txt確實(shí)可以告訴Google你希望那些頁面不要被抓取以及索引,Google也會(huì)盡量尊重你的決定。
然而,Google官方不保證搜索引擎會(huì)完全服從meta robots和robots.txt,肉搜索引擎認(rèn)為你的網(wǎng)站有很多很多反向鏈接、流量很高、內(nèi)容很優(yōu)質(zhì)、是非常非常棒的網(wǎng)站,它也有可能執(zhí)意要抓取、索引你的網(wǎng)站。