免费无码国产在线观看九色,亚洲欧美国产精品电台种子

網(wǎng)站的搜索引擎蜘蛛抓取越多越好？事實未必

威海Spider 威海Spider
839

做過SEO或站長的都應(yīng)該知道，網(wǎng)站要想做排名就必須使網(wǎng)站文章先收錄，而網(wǎng)站內(nèi)容收錄由跟搜索引擎蜘蛛的來訪抓取有很大的關(guān)系。

搜索引擎蜘蛛，又被稱為網(wǎng)頁爬蟲，網(wǎng)絡(luò)機器人，在FOAF社區(qū)中間，也經(jīng)常被稱為網(wǎng)頁追逐者，是一種按照一定的規(guī)則，自動的抓取萬維網(wǎng)信息的程序或者腳本。另外它還有一些不常使用的名字，如：螞蟻，自動索引，模擬程序或者蠕蟲。那么，對于一個網(wǎng)站來說，是不是來網(wǎng)站爬行的搜索引擎蜘蛛越多越好呢？

一、搜索引擎蜘蛛抓取網(wǎng)頁的原理

關(guān)于搜索引擎獲得網(wǎng)頁的工具，是一款爬行程序(俗稱蜘蛛)，蜘蛛程序每天都會爬行大量的網(wǎng)頁，并將一些新的網(wǎng)頁信息帶到服務(wù)器以便進行網(wǎng)頁索引的建立。

搜索引擎蜘蛛抓取網(wǎng)頁的原理

可以說，互聯(lián)網(wǎng)就是由一個個鏈接構(gòu)成的，蜘蛛程序順著這些鏈接爬行并發(fā)現(xiàn)網(wǎng)頁信息，蜘蛛程序爬行每一個頁面，當這個頁面不再有新的鏈接信息的時候，它就返回，下次再到這個頁面的時候，再去爬行（具體可查看馬海祥博客的《搜索引擎工作的基礎(chǔ)流程與原理》相關(guān)介紹）。

當給它足夠的時間，他就會找到互聯(lián)網(wǎng)所有的網(wǎng)頁信息(至少是被鏈接的)，在爬行的時候，它還會不斷的向服務(wù)器提供信息，所以我們在進行網(wǎng)站日志分析的時候，如果發(fā)現(xiàn)某一個網(wǎng)頁被某個搜索引擎的蜘蛛程序程序爬行并成功抓取數(shù)據(jù)，那么，這個網(wǎng)頁就很有可能被索引。

所以，從SEO的角度來說，提高網(wǎng)頁的索引數(shù)據(jù)(收錄量)對于一個網(wǎng)站的搜索引擎優(yōu)化(SEO)是非常有利的。

當蜘蛛程序在爬行鏈接的過程中，它還會對爬行過的鏈接進行處理，因為鏈接需要載體(文字、圖片或其他信息)，發(fā)現(xiàn)鏈接載體并存儲鏈接數(shù)據(jù)。

所以這里我們要做的，就是努力增加蜘蛛爬行頁面的頻率(在以往的網(wǎng)站分析中經(jīng)常提到)，以保證我們網(wǎng)頁在搜索引擎數(shù)據(jù)庫中的索引是最新的。

比如蜘蛛程序今天訪問了網(wǎng)站的兩個網(wǎng)頁并成功抓取，隔了兩個星期，它再來訪問這兩個頁面的時候，這兩個網(wǎng)頁其中一個更新了，另一個確沒有，那么，蜘蛛程序可能會在一個星期內(nèi)再次回訪更新過的那個網(wǎng)頁，而在一個月后才去訪問沒有更新的那個網(wǎng)頁，隨著時間的推移，蜘蛛程序會更加頻繁是爬行經(jīng)常更新的網(wǎng)頁，以達到更新服務(wù)器中的索引數(shù)據(jù)，向用戶提供最新的網(wǎng)頁信息。

二、搜索引擎蜘蛛是不是越多越好？

不論哪個搜索引擎的爬蟲，來抓取你網(wǎng)站的頁面的時候，肯定在消耗你的網(wǎng)站資源，例如網(wǎng)站的連接數(shù)、網(wǎng)絡(luò)帶寬資源(空間流量)、服務(wù)器的負載、甚至還有盜鏈等，那是不是所有的搜索引擎蜘蛛都是有用呢？

另外，搜索引擎的爬蟲來抓取你的頁面數(shù)據(jù)后，它也不一定收用數(shù)據(jù)，只代表它“到此一游”留下痕跡而已，據(jù)馬海祥了解有些搜索引擎只是過來找下它想要的資源，甚至還有很多是開發(fā)人員的蜘蛛測試。

對于一個原創(chuàng)內(nèi)容豐富，URL結(jié)構(gòu)合理易于爬取的網(wǎng)站來說，簡直就是各種爬蟲的盤中大餐，很多網(wǎng)站的訪問流量構(gòu)成當中，爬蟲帶來的流量要遠遠超過真實用戶訪問流量，甚至爬蟲流量要高出真實流量一個數(shù)量級。

對于那些想提高網(wǎng)站有效利用率的網(wǎng)站，雖然設(shè)置了相當嚴格的反爬蟲策略，但是網(wǎng)站處理的動態(tài)請求數(shù)量仍然是真實用戶訪問流量的2倍。

可以肯定的說，當今互聯(lián)網(wǎng)的網(wǎng)絡(luò)流量有很大一部分的流量是爬蟲帶來的，因此反搜索引擎爬蟲是一個值得SEO長期探索和解決的問題。

所以，從SEO的角度來說，搜索引擎蜘蛛來網(wǎng)站訪問并非越多越好，并且還要合理的屏蔽無效的搜索引擎蜘蛛的抓取。

三、過多的搜索引擎爬蟲對網(wǎng)站的影響

既然對于網(wǎng)站來說，搜索引擎蜘蛛并非是越多越好，那么，這具體是因為什么原因?qū)е碌哪兀?/p>

1、浪費帶寬資源

如果你的網(wǎng)站帶寬資源有限，而爬蟲的量過多，導(dǎo)致正常用戶訪問緩慢，原本虛擬主機主機的連接數(shù)受限，帶寬資源也是有限，這種情況搜索引擎爬蟲受影響呈現(xiàn)更明顯。

2、過于頻繁的抓取會導(dǎo)致服務(wù)器報錯

如果搜索引擎爬蟲過于頻繁，會抓取掃描很多無效頁面，甚至抓頁面抓到服務(wù)器報502、500 、504等服務(wù)器內(nèi)部錯誤了，蜘蛛爬蟲還在不停使勁抓取。

3、與網(wǎng)站主題不相關(guān)的搜索引擎爬蟲消耗資源

比如一淘網(wǎng)的抓取工具是一淘網(wǎng)蜘蛛(EtaoSpider)，目前是被各大電子商務(wù)購物網(wǎng)站屏蔽的，拒絕一淘網(wǎng)抓取其商品信息及用戶產(chǎn)生的點評內(nèi)容。

被禁止的原因首先應(yīng)該是它們之間沒有合作互利的關(guān)系，還有就是EtaoSpider爬蟲是一個抓取最瘋狂的蜘蛛，據(jù)馬海祥對一些電商網(wǎng)站的測試發(fā)現(xiàn)：一淘網(wǎng)蜘蛛(EtaoSpider)的一天爬行量比“百度蜘蛛（Baiduspider）”“360蜘蛛（360Spider）”“SOSO蜘蛛（Sosospider）”等主流蜘蛛爬蟲多幾倍，并且是遠遠的多。

重點是EtaoSpider被抓取只會消耗你的網(wǎng)站資源，它不會給你帶來訪問量，或者其它對你有利用的。

4、無效的測試抓取

一些搜索引擎開發(fā)程序員，它們寫的爬蟲程序在測試爬行。

5、robots.txt文件也并非是萬能

肯定有很多人認為，在robots.txt設(shè)置屏蔽搜索引擎爬蟲即可，或者允許某些特定的搜索引擎爬蟲，能達到你預(yù)想效果。

正規(guī)搜索引擎會遵守規(guī)則，不過不會及時生效，但是據(jù)我對馬海祥博客的測試發(fā)現(xiàn)：實際上某些蜘蛛往往不是這樣的，先掃描抓取你的頁面，無視你的robots.txt，也可能它抓取后不一定留用，或者它只是統(tǒng)計信息，收集互聯(lián)網(wǎng)行業(yè)趨勢分析統(tǒng)計。

6、不是搜索引擎蜘蛛，但具有蜘蛛的特性

例如采集軟件，采集程序，網(wǎng)絡(luò)掃描e-mail地址的工具，各式各樣的SEO分析統(tǒng)計工具，千奇百怪的網(wǎng)站漏洞掃描工具等等，這些抓取對網(wǎng)站沒有任何好處！

四、如何解決無效搜索引擎蜘蛛取的問題

各種搜索引擎的蜘蛛爬蟲會不斷地訪問抓取我們站點的內(nèi)容，也會消耗站點的一定流量，有時候就需要屏蔽某些蜘蛛訪問我們的站點。那么接下來，馬海祥就根據(jù)自己的經(jīng)驗跟大家分享4種解決無效搜索引擎蜘蛛抓取的方法：

1、只運行常用的搜索引擎蜘蛛抓取

依據(jù)空間流量實際情況，就保留幾個常用的，屏蔽掉其它蜘蛛以節(jié)省流量。

2、通過服務(wù)器防火墻來屏蔽ip

從服務(wù)器防火墻iptable直接屏蔽蜘蛛IP段、詳細的IP，這是最直接、有效的屏蔽方法。

3、WWW服務(wù)器層面做限制

例如Nginx，Squid，Lighttpd，直接通過“http_user_agent”屏蔽搜索引擎爬蟲。

4、最后robots.txt文件做限制

搜索引擎國際規(guī)則還是要遵循規(guī)則的。

五、各大搜索引擎蜘蛛的名稱

抓取網(wǎng)站的搜索引擎蜘蛛是不是越多越好

為了使大家找到適合自己網(wǎng)站的搜索引擎蜘蛛，馬海祥也特意整理了一份最新的各大搜索引擎蜘蛛名稱(大家要注意下寫法的不同點，特別是大小寫)：

1、百度蜘蛛：Baiduspider

網(wǎng)上的資料百度蜘蛛名稱有BaiduSpider、baiduspider等，那是舊黃歷了。百度蜘蛛最新名稱為Baiduspider，我通過對網(wǎng)站日志的檢查還發(fā)現(xiàn)了Baiduspider-image這個百度旗下蜘蛛，是抓取圖片的蜘蛛。

常見百度旗下同類型蜘蛛還有下面這些：Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取圖片)、Baiduspider-video(抓取視頻)、Baiduspider-news(抓取新聞)。

2、谷歌蜘蛛：Googlebot

這個爭議較少，但也有說是GoogleBot的，谷歌蜘蛛最新名稱為“compatible; Googlebot/2.1;”，不過，我還在馬海祥博客的日志中發(fā)現(xiàn)了Googlebot-Mobile，看名字是抓取wap內(nèi)容的。

3、360蜘蛛：360Spider

它是一個很“勤奮抓爬”的蜘蛛。

4、SOSO蜘蛛：Sosospider

5、雅虎蜘蛛：“Yahoo! Slurp China”或者Yahoo!

6、有道蜘蛛：YoudaoBot，YodaoBot

7、搜狗蜘蛛：Sogou News Spider（來源：夫唯seo特訓(xùn)營）

Public @ 2015-11-05 16:22:38

Categories

Tags

網(wǎng)站的搜索引擎蜘蛛抓取越多越好？事實未必

【院長幫幫忙】頁面無用時間信息導(dǎo)致網(wǎng)頁不被爬蟲抓?。ǖ谝黄冢?/a>

輕松兩步，正確識別百度蜘蛛（User-Agent）

Google爬行緩存代理（crawl caching proxy）

網(wǎng)站的搜索引擎蜘蛛抓取越多越好？事實未必

更多您感興趣的搜索

Categories

Tags

網(wǎng)站的搜索引擎蜘蛛抓取越多越好？事實未必

【院長幫幫忙】頁面無用時間信息導(dǎo)致網(wǎng)頁不被爬蟲抓?。ǖ谝黄冢?/a>

輕松兩步，正確識別百度蜘蛛（User-Agent）

Google爬行緩存代理（crawl caching proxy）

網(wǎng)站的搜索引擎蜘蛛抓取越多越好？事實未必

更多您感興趣的搜索

網(wǎng)站的搜索引擎蜘蛛抓取越多越好？事實未必

【院長幫幫忙】頁面無用時間信息導(dǎo)致網(wǎng)頁不被爬蟲抓?。ǖ谝黄冢?/a>

輕松兩步，正確識別百度蜘蛛（User-Agent）

網(wǎng)站的搜索引擎蜘蛛抓取越多越好？事實未必