雖然百度放出了打擊采集網(wǎng)站的算法,百度到底是喜歡原創(chuàng)文章的網(wǎng)站還是采集文章的網(wǎng)站?但給我的感覺是沒有真正落實下去的。不僅如此,對于那些辛辛苦苦原創(chuàng)的站長來說,有時候做出來的效果還沒有人家輕輕松松的采集效果來的好。
所以今天我們就來和大家分析一下網(wǎng)站如何采集文章做SEO!
對于一個網(wǎng)站來說,內(nèi)容是十分重要的,除非你是付費玩家(SEM),不用做內(nèi)容也可以獲得不錯的排名。而對于我們這些草根站長來說,內(nèi)容就像是蓋樓的地基一樣,得先將地基打好,才能夠蓋起一棟棟摩天大樓。
那么想要利用采集文章來優(yōu)化網(wǎng)站的話,建議大家對網(wǎng)站優(yōu)化的幾個要點著重了解一下,首先是網(wǎng)站的TDK書寫,網(wǎng)站的TDK書寫是十分重要的,
當(dāng)百度蜘蛛進(jìn)來你的網(wǎng)站以后,首先抓取的就是該網(wǎng)頁的TDK。
可能有些朋友不知道TDK是啥,它主要就是網(wǎng)頁的三大標(biāo)簽,標(biāo)題(title)、關(guān)鍵字(keywords)以及描述(description),所以大家在發(fā)布文章的時候一定要合理的去設(shè)置它們。
第二點就是網(wǎng)頁內(nèi)鏈錨文本,由于我們是選擇采集文章來做的優(yōu)化,所以每天發(fā)布的文章是非常多的,這時候就可能會有較多的百度蜘蛛前來抓取網(wǎng)站的內(nèi)容。
而我們就是要利用好百度蜘蛛會不斷深入爬行的這么一個特點,通過對網(wǎng)站文章的內(nèi)部鏈接設(shè)置,使其不斷的在我們網(wǎng)站里邊爬行、抓取,這樣的話有利于我們網(wǎng)站整體權(quán)重的提升。
第三點是關(guān)于網(wǎng)站內(nèi)部的評論模塊,雖然可能說前期沒有人會在我們的網(wǎng)站下方評論,但我們可以自己去評論呀,對于評論模塊其實百度蜘蛛也會去抓取,那么我們應(yīng)該如何利用好評論呢?
可以利用評論來增加一下關(guān)鍵詞的密度,百度對于頁面的關(guān)鍵詞密度也是有所考核的,我們在站長工具里面看到推薦的密度在2%-8%之間,
采集文章的本質(zhì)就是搬運,而在互聯(lián)網(wǎng)上搬運文章莫過于兩種方法:
手動復(fù)制的話需要耗費過多的時間以及精力,得上各大網(wǎng)站去尋找自己想要的文章,再去復(fù)制收集,不過手動搬運的話也是有好處的,就是我們可以更精確的找到自己想要的文章。
關(guān)于小說采集站的玩法其實就是類似采集軟件的,采集軟件可以根據(jù)我們所提供的關(guān)鍵詞全網(wǎng)自動收集,并且對于自媒體網(wǎng)站的文章還會有顯示出閱讀量、評論數(shù)等等。
利用采集軟件的話有利于我們對數(shù)據(jù)的分析,例如哪個文章比較多人看,比較招人喜歡。這些我們都可以通過數(shù)據(jù)分析出來,再將其搬運至我們的網(wǎng)站中。
1、采集流程原理
目前采集通常有兩種方式:
1)定向采集:按原點分類,設(shè)定條件采集,有站有什么就采什么,再過濾處理!
2)泛采集:通用爬蟲采集
我們這里用的是:據(jù)于關(guān)鍵詞基礎(chǔ)上,指定N個站點,定向采集
原理:借用搜索引擎指令 site: domain keyword
原理圖
2、內(nèi)容處理
1)標(biāo)題
方法一:精簡原始標(biāo)題
步驟如下:
對原始標(biāo)題分詞
去除停止詞
獲取詞綴詞性
去除修飾詞,如形容詞、副詞、介詞…,保留原標(biāo)題主謂賓,獲取句子主干
通?;趈ieba分詞或nltk實現(xiàn),要刪除的修飾詞可以預(yù)先分析大量的標(biāo)題來提取,追加到字典中。。
如:阿里巴巴部分產(chǎn)品頁的title就是這樣處理的,把用戶發(fā)布的產(chǎn)品名中一些無關(guān)大雅的詞綴干掉,提取主干放到title標(biāo)簽中
方法二:插入搜索詞
步驟如下:
搭建xunsearch或其他的開源搜索,對采集標(biāo)題創(chuàng)建索引
用提前準(zhǔn)備好的搜索詞(就是要做的那些詞)依次到搜索接口中搜索
對搜索結(jié)果中出現(xiàn)的標(biāo)題前方插入當(dāng)前搜索詞
我要做的詞有“電動車電池正確使用方法”
比如匹配出來原標(biāo)題
“不要再讓過度放電毀了你的電動車電池”
“黃山一男子用拆線搭線的方式偷走電瓶車”
………………..
則標(biāo)題前插入關(guān)鍵詞:
“[電動車電池正確使用方法] 不要再讓過度放電毀了你的電動車電池”
或“[電動車電池正確使用方法] 黃山一男子用拆線搭線的方式偷走電瓶車”
當(dāng)然也可以:“{插入的搜索詞}{精簡后的原始標(biāo)題}”
方法三:插入當(dāng)前標(biāo)題已包含搜索詞的衍生詞、相關(guān)搜索詞
步驟如下:
抓取標(biāo)題已包含搜索詞的百度相關(guān)搜索或下拉框,
標(biāo)題中插入相關(guān)搜索或下拉框的詞
如:“[{百度相關(guān)搜索詞1}]{原始標(biāo)題}”、“[{下拉框推薦詞1}{原始標(biāo)題}]”
也可以: [{百度相關(guān)搜索詞1}]{精簡后的原始標(biāo)題}”、“[{下拉框推薦詞1}{精簡后的原始標(biāo)題}]”
2)正文內(nèi)容
正文的處理主要是針對重復(fù)性,盡量降低與原始內(nèi)容的相似性
正文開頭、結(jié)尾處插入隨機(jī)文本
方法一:提前準(zhǔn)備一些能夠通用的文本模板,隨機(jī)調(diào)用,替換關(guān)鍵詞
方法二:正文中隨機(jī)截一段文字
方法三:隨機(jī)調(diào)出N條相關(guān)文章標(biāo)題和概要,放到首尾
修改正文內(nèi)容
基于textrank算法提取文本摘要,放到正文前面。
為了防止字?jǐn)?shù)過少,可以提前用k-means和tf-idf,找出當(dāng)前文章的相似文章,可以提取它們正文字?jǐn)?shù)最長的段落的摘要,加到當(dāng)前的文章中用作字?jǐn)?shù)上的補(bǔ)全。
聚合頁面
聚合頁面就是由詞根挖出來的10個擴(kuò)展詞,每個擴(kuò)展詞生成一個列表頁或其他形式的聚合頁面,頁面內(nèi)容就是對應(yīng)這個詞采集的20篇內(nèi)容。
這是最簡單的模型
通常模型
以擴(kuò)展詞”電動車電池正確使用方法”為例子
聚合頁面 要采集內(nèi)容有:
怎樣保護(hù)充電器嗎?
怎樣延長蓄電池壽命?
電動車電池充電環(huán)境要求?
這種模型通常機(jī)器+工人先預(yù)設(shè)好模型再采集內(nèi)容,再處理組合。
擴(kuò)展詞:九江適合逛街的地方
標(biāo)題:關(guān)鍵字組合,
內(nèi)容:聚合頁面,內(nèi)容組合