很多站長(zhǎng)都會(huì)遇到這個(gè)問題,網(wǎng)站開發(fā)完成上線后,百度一直不收錄。即使收錄也只是收錄個(gè)首頁,內(nèi)頁很難快速被收錄。如何解決這個(gè)問題?搜索引擎的進(jìn)化在互聯(lián)網(wǎng)早期,網(wǎng)站數(shù)量有限,所以人工整理是可行的,比如就有DMOZ這樣的人工編輯的網(wǎng)站數(shù)據(jù)庫,分門別類的整理好各種網(wǎng)址。
后來全球網(wǎng)站數(shù)量爆炸性增長(zhǎng),人工整理就不現(xiàn)實(shí)了,于是有了網(wǎng)絡(luò)爬蟲(也叫蜘蛛)代替人工去訪問抓取網(wǎng)站,這就是最原始的搜索引擎。雖然互聯(lián)網(wǎng)是一個(gè)網(wǎng)狀結(jié)構(gòu),但是抓取整個(gè)互聯(lián)網(wǎng)上的所有網(wǎng)站還是有難度的,首先要解決的問題就是如何發(fā)現(xiàn)這些網(wǎng)站。
為了解決這個(gè)問題,搜索引擎都會(huì)有一個(gè)基礎(chǔ)的網(wǎng)站數(shù)據(jù)庫,從這里的網(wǎng)站開始爬取,希望能抓取整個(gè)互聯(lián)網(wǎng)上的信息。而且依靠鏈接之間的引用關(guān)系和使用的鏈接文本來計(jì)算網(wǎng)頁的權(quán)重,從而能對(duì)搜索結(jié)果排序。比如Google的PageRank算法。
Yahoo算是非常早的搜索引擎,它就使用DMOZ的網(wǎng)站作為爬蟲的抓取起點(diǎn),而且懷疑Google也使用DMOZ數(shù)據(jù),因?yàn)?0多年前做網(wǎng)站時(shí),大家都希望自己的網(wǎng)站能被DMOZ收錄,甚至賄賂DMOZ的編輯人員。
還有那時(shí)候大家都拼命交換友情鏈接,PR值高的網(wǎng)站就是大爺。這背后對(duì)應(yīng)著網(wǎng)站的收錄速度和排名高低。
一個(gè)新網(wǎng)站,如果有PR值高的網(wǎng)站給你加友情鏈接,很快網(wǎng)站就可以被抓取收錄。早期互聯(lián)網(wǎng)內(nèi)容貧乏,隨便做個(gè)網(wǎng)站,找有權(quán)重的網(wǎng)站交換友情鏈接,這些搜索引擎爬蟲都如饑似渴的抓取收錄??涩F(xiàn)在互聯(lián)網(wǎng)上的內(nèi)容太多了(Google的總索引頁面數(shù)477億左右)),搜索引擎也變得越來越挑剔,所以新站起流量越來越難了。
用新注冊(cè)的域名做網(wǎng)站,從被百度收錄到有排名需要很長(zhǎng)的時(shí)間。
就像你遇到一個(gè)陌生人,你完全不知道他的底細(xì),考核觀察的時(shí)間就會(huì)很長(zhǎng)。
所以希望網(wǎng)站快速被收錄,建議花錢買老域名,而且最好選域名注冊(cè)歷史久、沒有不良記錄、各大搜索引擎還有殘留索引記錄的為佳。
什么叫“沒有不良記錄”?
域名沒有做過黃、賭、毒、醫(yī)療等違法或灰色行業(yè)。
多點(diǎn)擊一些網(wǎng)頁快照,看看年初的月份,再看看近期的快照。還有一點(diǎn)就是,查看快照時(shí)候,右鍵查看下頁面源碼,看底部的友情鏈接部分有沒有違法網(wǎng)站,避免選擇被黑過的網(wǎng)站。
而且如果一個(gè)域名長(zhǎng)達(dá)一年多沒有做過網(wǎng)站,可能也要放棄。關(guān)于購買老域名,可以上聚名網(wǎng)或其他提供老域名搶注或交易的網(wǎng)站,平均價(jià)格在100-200之間。
基礎(chǔ)的域名數(shù)據(jù),比如百度權(quán)重,各個(gè)搜索引擎的收錄情況,可以使用愛站SEO助手或自己寫程序抓取。以上技巧很實(shí)用,前段時(shí)間跟一個(gè)朋友學(xué)的。
投懷送抱法
1、主動(dòng)推送:最為快速的提交方式。
適用場(chǎng)景:把網(wǎng)站當(dāng)天新產(chǎn)生的鏈接通過這種方式推給百度,保證新鏈接可以及時(shí)被百度收錄。
在站長(zhǎng)平臺(tái)后臺(tái)點(diǎn)擊“網(wǎng)頁抓取”->“鏈接提交”可以看到具體的使用說明,百度提供有curl、php和ruby等樣例代碼。
2、自動(dòng)推送:最為方便的提交方式。
使用方法:將自動(dòng)推送的JS代碼加到網(wǎng)站每個(gè)頁面里,當(dāng)有用戶訪問這個(gè)頁面時(shí),頁面鏈接就會(huì)自動(dòng)推送給百度??梢耘浜现鲃?dòng)推送使用。
3、Sitemap:傳統(tǒng)提交方式。
很多網(wǎng)站CMS都提供生成Sitemap的功能,如果沒有的話,需要借助工具或自己寫代碼生成。通過Sitemap告訴百度蜘蛛哪些網(wǎng)頁希望被抓取。
百度Sitemap支持3種格式:txt文本格式、xml格式、Sitemap索引格式。
如果是小網(wǎng)站,頁面數(shù)量小于5萬,可以使用txt或xml格式的sitemap文件放到網(wǎng)站根目錄下就可以。
如果是網(wǎng)頁數(shù)量超過5萬,可以網(wǎng)址拆分成5萬為一組的xml文件,然后放到Sitemap索引文件中,通過站長(zhǎng)平臺(tái)提交給百度。
具體格式參考百度官方說明:Sitemap提交工具站長(zhǎng)資訊百度站長(zhǎng)平臺(tái)
Sitemap提交方式收錄速度慢于主動(dòng)推送。
4、手動(dòng)提交:最偷懶的后臺(tái)提交方式。
通過百度站長(zhǎng)后臺(tái)手動(dòng)提交,一次只能提交20個(gè)網(wǎng)址。
但這里有原創(chuàng)提交入口,原創(chuàng)內(nèi)容可以通過這里提交。
主動(dòng)提交Sitemap有利于百度對(duì)你網(wǎng)站內(nèi)容的識(shí)別抓取,但不一定會(huì)收錄所有網(wǎng)址,頁面質(zhì)量高才會(huì)收錄。
重復(fù)提交沒有用,反而會(huì)浪費(fèi)主動(dòng)推送配額。
有專門的移動(dòng)版Sitemap格式,需要按百度要求格式制作提交.
搜索引擎雖然越來越高級(jí),但是爬蟲(蜘蛛)的基本原理并沒有大變化。
想要頁面被收錄,就需要蜘蛛訪問抓取頁面,如果沒有蜘蛛光顧,網(wǎng)站被收錄就無從談起。
所以主動(dòng)推廣,交換鏈接依然是加快收錄的有效手段。
如果你有一個(gè)百度抓取頻率很高的網(wǎng)站,在主要頁面上增加鏈接文本指向新站,引導(dǎo)蜘蛛抓取你的新站。還有些人會(huì)用一些黑帽手法,比如蜘蛛池,利用抓取的漏洞把百度蜘蛛困在資源站中,最后導(dǎo)出外鏈到新站以加快收錄。