Matt Cutts談大爸爸?jǐn)?shù)據(jù)中心,補(bǔ)充材料網(wǎng)頁(yè)及收錄網(wǎng)頁(yè)數(shù)下降
在大爸爸?jǐn)?shù)據(jù)中心更新結(jié)束后,很多站長(zhǎng)發(fā)現(xiàn)被收錄的網(wǎng)頁(yè)數(shù)急劇下降。有時(shí)候能從幾萬(wàn)頁(yè)降到幾頁(yè),而且補(bǔ)充材料網(wǎng)頁(yè)越來(lái)越多。
很多人一直在問(wèn),為什么Matt Cutts對(duì)這個(gè)問(wèn)題一直不做評(píng)論?今天Matt Cutts發(fā)了一個(gè)很長(zhǎng)的帖子,一次性回答大爸爸更新之后的一些問(wèn)題。帖子很長(zhǎng),下面揀要點(diǎn)翻譯一下。
首先Matt Cutts給那些不想讀這么長(zhǎng)帖子的人兩點(diǎn)小結(jié)。第一,Google的爬行和索引部門(mén)有足夠的機(jī)器。收錄網(wǎng)頁(yè)數(shù)下降并不是因?yàn)镚oogle沒(méi)地方存了。第二,Google繼續(xù)認(rèn)真聽(tīng)取站長(zhǎng)們的反饋。
大爸爸更新3月份已經(jīng)結(jié)束
在12月爬行/索引部門(mén)已經(jīng)準(zhǔn)備好開(kāi)始大爸爸更新。大爸爸指的是爬行和一部分索引軟件的更新(這是第一次聽(tīng)說(shuō)稍微具體點(diǎn)兒的關(guān)于大爸爸到底是什么的信息)。
1月上旬,Matt Cutts給出一個(gè)正在運(yùn)行大爸爸?jǐn)?shù)據(jù)中心的IP地址,要求站長(zhǎng)們提供反饋。
2月份,大爸爸?jǐn)?shù)據(jù)中心在更多數(shù)據(jù)中心使用。
3月份,很多站長(zhǎng)開(kāi)始投訴他們的網(wǎng)頁(yè)沒(méi)有被大爸爸收錄,并且有越來(lái)越多的補(bǔ)充材料網(wǎng)頁(yè)。
3月13 號(hào),Google Guy (一位匿名Google員工)在站長(zhǎng)世界論壇征求具體的例子。
在看了這些例子網(wǎng)站之后,我可以在幾分鐘之內(nèi),就看出問(wèn)題在哪兒。這些在大爸爸?jǐn)?shù)據(jù)中心里面有問(wèn)題的網(wǎng)站,是那些我們的算法對(duì)這個(gè)網(wǎng)站的反向鏈接和導(dǎo)出鏈接的信任度都很低的網(wǎng)站。比如說(shuō)大量交換鏈接,連向垃圾網(wǎng)站,買(mǎi)賣(mài)鏈接。
大爸爸和補(bǔ)充材料結(jié)果無(wú)關(guān)。所以當(dāng)大爸爸不收錄一個(gè)網(wǎng)站的網(wǎng)頁(yè)的時(shí)候,補(bǔ)充引擎就可能收錄更多的網(wǎng)頁(yè)。
我和爬行/索引部門(mén)一起調(diào)節(jié)了算法的門(mén)檻,以收錄更多這種網(wǎng)站。3月22號(hào),我發(fā)了一個(gè)帖子,告訴大家我們正在收錄更多的網(wǎng)頁(yè)。
3月29號(hào),大爸爸更新完全完成,舊系統(tǒng)關(guān)閉,從那之后所有的爬行都是由大爸爸控制的。
考慮到程序編碼更新的數(shù)量,我覺(jué)得大爸爸更新是很成功的,只有兩個(gè)投訴。第一個(gè)就是前面提到的,信任度比較低的網(wǎng)站的網(wǎng)頁(yè)被爬行和收錄的比較少,我們對(duì)此作出了反應(yīng),很快開(kāi)始收錄更多的網(wǎng)頁(yè)。另一個(gè)投訴是Google Adsense爬行的網(wǎng)頁(yè)開(kāi)始出現(xiàn)在搜索結(jié)果中,實(shí)際上這是爬行緩存代理的設(shè)計(jì)。
關(guān)于大爸爸就這些了。大爸爸從12月份開(kāi)始出現(xiàn)到3月份完全完成。在完成大爸爸之后,我們把注意力更多的轉(zhuǎn)向了對(duì)補(bǔ)充材料結(jié)果的更新。下面將會(huì)談到比較具體的時(shí)間表。在這同時(shí),有一種說(shuō)法是我們的機(jī)器都滿(mǎn)了。從我個(gè)人的角度 看,我們當(dāng)然有足夠的機(jī)器來(lái)爬行和索引網(wǎng)頁(yè)。
補(bǔ)充材料結(jié)果更新
4月初,我們開(kāi)始向用戶(hù)顯示更新過(guò)的補(bǔ)充材料結(jié)果。
4月13 號(hào),有人開(kāi)始談?wù)摫皇珍浀木W(wǎng)頁(yè)減少了。
4月24號(hào),Google Guy希望人們提供細(xì)節(jié)。
我看了這些反饋,并沒(méi)有看出什么重要的規(guī)律。我把這些例子交給了爬行/索引部門(mén),他們也沒(méi)看出什么規(guī)律。網(wǎng)站地圖部門(mén)也進(jìn)行了研究,結(jié)論是和網(wǎng)站地圖也沒(méi)什么關(guān)系。負(fù)責(zé)補(bǔ)充材料結(jié)果更新的部門(mén),檢查了這些反饋意見(jiàn)。5月5號(hào),他們發(fā)現(xiàn)使用”site:”指令(注:這個(gè)指令會(huì)列出所有被收錄的網(wǎng)頁(yè)),并不返回補(bǔ)充材料結(jié)果,他們?cè)诋?dāng)天就解決了這個(gè)問(wèn)題。后來(lái)他們又發(fā)現(xiàn)了site指令無(wú)法工作于由分字符鏈接的域名,很快也解決了。
Google Guy在5月8號(hào)希望站長(zhǎng)們提供更多信息。
這些就是我所知道的補(bǔ)充材料結(jié)果的問(wèn)題和已經(jīng)解決了的問(wèn)題。下面舉一些具體的例子,看為什么有的網(wǎng)站被收錄的網(wǎng)頁(yè)數(shù)急劇減少。
一個(gè).tv關(guān)于某一個(gè)國(guó)家房地產(chǎn)的網(wǎng)站。5月3號(hào),這個(gè)網(wǎng)站的管理員說(shuō)他的網(wǎng)站從兩萬(wàn)頁(yè)降到了300頁(yè)。我看過(guò)以后,用”site:”指令已經(jīng)可以返回31200頁(yè)。所以這個(gè)域名應(yīng)該沒(méi)有問(wèn)題了。
一個(gè)5月11號(hào)的例子,站長(zhǎng)只提供了網(wǎng)址,沒(méi)有其他文字和解釋。這也是一個(gè)房地產(chǎn)網(wǎng)站,有387頁(yè)被收錄。但是在網(wǎng)頁(yè)底部你可以看到這些鏈接到鈴聲下載,SEO比賽,魚(yú)油網(wǎng)站等等,我想我找到了問(wèn)題。如果你想讓你的網(wǎng)站更多頁(yè)被收錄的話(huà),你得多考慮你的鏈接的質(zhì)量。對(duì)索引進(jìn)行了修改以后,我們處理交換鏈接和買(mǎi)賣(mài)鏈接的能力都提高了。
再看一個(gè)5月4號(hào)的例子,又是一個(gè)房地產(chǎn)網(wǎng)站。站長(zhǎng)說(shuō)被收錄的網(wǎng)頁(yè)數(shù)從一萬(wàn)降到了80,我看了一下這個(gè)網(wǎng)站,這回看到的是鏈接向貸款按揭網(wǎng)站,信用卡網(wǎng)站,運(yùn)動(dòng)器械網(wǎng)站等。和上面的一樣,如果你做很多交換鏈接,現(xiàn)在新的蜘蛛有不同的爬行優(yōu)先考慮,你就不要奇怪了。
再看一個(gè)健康保養(yǎng)的目錄網(wǎng)站,看起來(lái)是個(gè)不錯(cuò)的網(wǎng)站,也沒(méi)鏈接向不好的網(wǎng)站,但是整個(gè)域名只有6個(gè)導(dǎo)入鏈接。這么少的導(dǎo)入鏈接,我想Google蜘蛛只能爬行比較少的網(wǎng)頁(yè)。
總體上來(lái)說(shuō),我檢查的幾個(gè)網(wǎng)站在這幾天都有了更多的被收錄的網(wǎng)頁(yè)。做很多交換鏈接的網(wǎng)站,可能發(fā)現(xiàn)爬行次數(shù)少了。如果你的導(dǎo)入鏈接太少,被爬行的也會(huì)比較少。
我的評(píng)論:看來(lái)大爸爸完成之后,Google確實(shí)減少了對(duì)很多網(wǎng)站的爬行和收錄。原因主要在于鏈接的質(zhì)量。做大量交換鏈接,買(mǎi)賣(mài)鏈接,鏈接向垃圾網(wǎng)站,鏈接向無(wú)關(guān)網(wǎng)站,受影響會(huì)比較大。Google發(fā)現(xiàn)受影響的網(wǎng)站太多之后,也做了調(diào)整。
但是就我目前所看,被收錄的網(wǎng)頁(yè)數(shù)非常不穩(wěn)定。不同數(shù)據(jù)中心之間的數(shù)據(jù)很可能還不同步,而且哪些網(wǎng)站會(huì)被當(dāng)作補(bǔ)充材料的選擇算法,還有很大問(wèn)題。
來(lái)源:SEO每天一貼 Zac 昝輝