搜索引擎蜘蛛抓取體驗(yàn),聽(tīng)上去是一個(gè)新名詞,其實(shí)它和用戶體驗(yàn)一樣,很早就出現(xiàn)在SEO行業(yè)里面了。搜索引擎蜘蛛抓取體驗(yàn),可能是潛伏在資深SEOER腦海里的一個(gè)詞。
什么是搜索引擎蜘蛛抓取體驗(yàn)?zāi)兀?/span>
良好的代碼結(jié)構(gòu),良好的URL結(jié)構(gòu)。相信很多站長(zhǎng)都有采集經(jīng)驗(yàn),很多CMS都帶有采集功能。
我們知道搜索引擎抓有抓取份額,它是搜索引擎蜘蛛花在一個(gè)網(wǎng)站上的抓取頁(yè)面的總的時(shí)間上限。對(duì)于特定網(wǎng)站,搜索引擎蜘蛛花在這個(gè)網(wǎng)站上的總時(shí)間是相對(duì)固定的,不會(huì)無(wú)限制地抓取網(wǎng)站所有頁(yè)面。
決定抓取需求的主要有兩個(gè)因素。一是頁(yè)面權(quán)重,網(wǎng)站上有多少頁(yè)面達(dá)到了基本頁(yè)面權(quán)重,搜索引擎就想抓取多少頁(yè)面。二是索引庫(kù)里頁(yè)面是否太久沒(méi)更新了。說(shuō)到底還是頁(yè)面權(quán)重,權(quán)重高的頁(yè)面就不會(huì)太久不更新。頁(yè)面權(quán)重和網(wǎng)站權(quán)重又是息息相關(guān)的,提高網(wǎng)站權(quán)重,就能使搜索引擎愿意多抓取頁(yè)面。
搜索引擎蜘蛛抓取體驗(yàn)和你寫(xiě)采集規(guī)則是一樣的,一個(gè)網(wǎng)站有良好的代碼結(jié)構(gòu),良好的URL結(jié)構(gòu),你可以輕易寫(xiě)出采集規(guī)則,順利完成這個(gè)網(wǎng)站內(nèi)容采集工作。
URL,一個(gè)網(wǎng)站的URL如果很復(fù)雜,經(jīng)過(guò)幾次302或301跳轉(zhuǎn)后才能到達(dá)目的頁(yè)面。這樣的URL,如果你要用CMS寫(xiě)采集規(guī)則,是不是增加了采集規(guī)則的難度。有些URL甚至通過(guò)JS跳轉(zhuǎn),才能到達(dá)內(nèi)容頁(yè)面,這些URL鏈接,請(qǐng)問(wèn)該如何寫(xiě)采集規(guī)則。
代碼結(jié)構(gòu),一個(gè)網(wǎng)站的列表頁(yè)面和內(nèi)容頁(yè)面,代碼非常復(fù)雜。有可能是word編輯的內(nèi)容,直接復(fù)制到網(wǎng)站后臺(tái)編輯器,直接發(fā)布。一個(gè)列表頁(yè)面,可能是JS,iframe嵌入頁(yè)面,這樣的代碼結(jié)構(gòu),該如何寫(xiě)采集規(guī)則?你可能就直接放棄采集這個(gè)網(wǎng)站。搜索引擎蜘蛛也一樣,可能計(jì)劃來(lái)1萬(wàn)次抓取的,由于分析效率太低,它可能只能來(lái)1000次。
如果SEOER有編程經(jīng)驗(yàn),通過(guò)對(duì)代碼復(fù)雜的分析,針對(duì)網(wǎng)站寫(xiě)出采集規(guī)則是沒(méi)問(wèn)題的。那么,搜索引擎蜘蛛呢?搜索引擎蜘蛛該如何來(lái)抓取這些內(nèi)容,搜索引擎蜘蛛可不會(huì)針對(duì)某個(gè)網(wǎng)站寫(xiě)采集規(guī)則。
如果一個(gè)網(wǎng)站的搜索引擎蜘蛛狀態(tài)碼40%都是302?筆者仔細(xì)看了他網(wǎng)站的鏈接結(jié)構(gòu),都是/xxxx結(jié)尾的,訪問(wèn)后鏈接后面自動(dòng)加了/,變?yōu)?xxxx/。搜索引擎蜘蛛訪問(wèn)/xxxx后通過(guò)302跳轉(zhuǎn),到了/xxxx/。請(qǐng)問(wèn),這樣的跳轉(zhuǎn)訪問(wèn),搜索引擎蜘蛛抓取體驗(yàn)是怎么樣的?答案很明確,造成了蜘蛛多訪問(wèn)一次,如果這個(gè)網(wǎng)站有100萬(wàn)頁(yè)面,蜘蛛就會(huì)多訪問(wèn)100萬(wàn)次,才能抓取到目標(biāo)內(nèi)容。
所以,一個(gè)良好的URL規(guī)則,和代碼規(guī)則,可以很大程度提高百度抓取體驗(yàn),提高收錄幾率。