百度搜索資源平臺(tái)-平臺(tái)工具使用手冊(cè)-普通收錄
1、網(wǎng)站驗(yàn)證
2、普通收錄
3、快速收錄
4、死鏈提交
5、網(wǎng)站改版
6、索引量
7、流量與關(guān)鍵詞
8、抓取異常
9、抓取診斷
10、抓取頻次
11、robots
12、反饋中心
13、站點(diǎn)子鏈
14、移動(dòng)適配
15、分潤(rùn)中心
16、站點(diǎn)屬性
如何選擇普通收錄方式
API推送:最為快速的提交方式,建議您將站點(diǎn)當(dāng)天新產(chǎn)出鏈接立即通過此方式推送給百度,以保證新鏈接可以及時(shí)被百度收錄。
sitemap:您可以定期將網(wǎng)站鏈接放到Sitemap中,然后將Sitemap提交給百度。百度會(huì)周期性的抓取檢查您提交的Sitemap,對(duì)其中的鏈接進(jìn)行處理,但收錄速度慢于API推送。
手動(dòng)提交:如果您不想通過程序提交,那么可以采用此種方式,手動(dòng)將鏈接提交給百度。
使用API推送功能會(huì)達(dá)到怎樣效果
及時(shí)發(fā)現(xiàn):可以縮短百度爬蟲發(fā)現(xiàn)您站點(diǎn)新鏈接的時(shí)間,使新發(fā)布的頁(yè)面可以在第一時(shí)間被百度收錄
保護(hù)原創(chuàng):對(duì)于網(wǎng)站的最新原創(chuàng)內(nèi)容,使用API推送功能可以快速通知到百度,使內(nèi)容可以在轉(zhuǎn)發(fā)之前被百度發(fā)現(xiàn)
如何使用API推送功能
1,需要網(wǎng)站制作數(shù)據(jù)推送接口,進(jìn)入API推送工具后,會(huì)看到接口調(diào)用地址的token,token是由16個(gè)英文數(shù)字組合的字符串
2,下面提供一些推送示例
1)curl推送示例
將要提交的url數(shù)據(jù)寫入一個(gè)本地文件,比如urls.txt,每個(gè)url占一行,然后調(diào)用curl命令:
curl -H 'Content-Type:text/plain' --data-binary @urls.txt
"http://data.zz.baidu.com/urls?site=www.example.com&token=edk7yc4rEZP9pDQD"
使用php、python、java等可以參照這個(gè)過程推送結(jié)構(gòu)化數(shù)據(jù)。
2)post推送示例
POST /urls?site=www.58.com&token=edk7ychrEZP9pDQD HTTP/1.1
User-Agent: curl/7.12.1
Host: data.zz.baidu.com
Content-Length: 83
http://www.example.com/1.html
http://www.example.com/2.html
3)php推送示例
$urls = array(
'http://www.example.com/1.html',
'http://www.example.com/2.html',
);
$api = 'http://data.zz.baidu.com/urls
site=www.58.com&token=edk7ychrEZP9pDQD';
$ch = curl_init();
$options = array(
CURLOPT_URL => $api,
CURLOPT_POST => true,
CURLOPT_RETURNTRANSFER => true,
CURLOPT_POSTFIELDS => implode("\n", $urls),
CURLOPT_HTTPHEADER => array('Content-Type: text/plain'),
);
curl_setopt_array($ch, $options);
$result = curl_exec($ch);
echo $result;
4)ruby推送示例
require 'net/http'
urls = ['http://www.example.com/1.html', 'http://www.example.com/2.html']
uri = URI.parse('http://data.zz.baidu.com/urls
site=www.xxx.com&token=eTk7ychrWZP1pDQD')
req = Net::HTTP::Post.new(uri.request_uri)
req.body = urls.join("\n")
req.content_type = 'text/plain'
res = Net::HTTP.start(uri.hostname, uri.port) { |http| http.request(req) }
puts res.body
如何查看推送反饋
您可以通過推送后返回的狀態(tài)碼和字段來(lái)判斷數(shù)據(jù)是否推送成功。
1,狀態(tài)碼為200,表示推送成功,可能返回以下字段:
字段
是否必選
參數(shù)類型
說明
success
是
int
成功推送的url條數(shù)
remain
是
int
當(dāng)天剩余的可推送url條數(shù)
not_same_site
否
array
由于不是本站url而未處理的url列表
not_valid
否
array
不合法的url列表
成功返回示例:
{
"remain":4999998,
"success":2,
"not_same_site":[],
"not_valid":[]
}
2,狀態(tài)碼為4XX或500,表示推送失敗,返回字段有:
字段
是否必選
類型
說明
error
是
int
錯(cuò)誤碼,與狀態(tài)碼相同
message
是
string
錯(cuò)誤描述
常見的推送失敗返回示例說明:
error
message
含義
400
site error
站點(diǎn)未在站長(zhǎng)平臺(tái)驗(yàn)證
empty content
post內(nèi)容為空
only 2000 urls are allowed once
每次最多只能提交2000條鏈接
over quota
超過每日配額了,超配額后再提交都是無(wú)效的
401
token is not valid
token錯(cuò)誤
404
not found
接口地址填寫錯(cuò)誤
500
internal error, please try later
服務(wù)器偶然異常,通常重試就會(huì)成功
API推送功能常見問題
1, 和原來(lái)的sitemap提交接口有什么區(qū)別?
答:狀態(tài)反饋更及時(shí)了,原來(lái)提交后需要登錄到搜索資源平臺(tái)查看提交是否成功。目前只要根據(jù)提交后返回的數(shù)據(jù)就可以判斷了。
2, 已經(jīng)存在的提交sitemap數(shù)據(jù)的程序代碼需要做什么修改?
答:主要修改兩點(diǎn)。第一點(diǎn),提交的接口需要修改;第二點(diǎn),需要處理下接口返回的信息,失敗后需要根據(jù)錯(cuò)誤進(jìn)行相應(yīng)處理,報(bào)錯(cuò)的鏈接是無(wú)法提交成功的
3,為什么提交成功后看不到數(shù)據(jù)變化?
答:我們反饋的是新提交鏈接的數(shù)量,如果您提交的鏈接在之前提交過(即重復(fù)提交)是不會(huì)被統(tǒng)計(jì)到的
4,在什么時(shí)機(jī)使用API推送提交功能效果最明顯?
答:頁(yè)面鏈接產(chǎn)生或發(fā)布時(shí)立即提交,這樣效果是最好的
5,每次提交一條數(shù)據(jù)和多條數(shù)據(jù)有什么區(qū)別?
答:沒有區(qū)別
6,重復(fù)提交已經(jīng)發(fā)布的鏈接會(huì)有什么問題?
答:會(huì)有兩個(gè)影響。第一,將浪費(fèi)您提交的配額,每個(gè)站點(diǎn)每天可提交的數(shù)量是有限制的,如果您都提交了舊鏈接,當(dāng)有新鏈接時(shí)可能因?yàn)榕漕~耗盡無(wú)法提交。第二,如果您經(jīng)常重復(fù)提交舊鏈接,我們會(huì)下調(diào)您的配額,您可能會(huì)失去API推送功能的權(quán)限
7,API推送可以推多少條鏈接?
答:API推送可提交的鏈接數(shù)量上限是根據(jù)您提交的新產(chǎn)生有價(jià)值鏈接數(shù)量而決定的,百度會(huì)根據(jù)您提交數(shù)量的情況不定期對(duì)上限額進(jìn)行調(diào)整,提交的新產(chǎn)生有價(jià)值鏈接數(shù)量越多,可提交鏈接的上限越高。
什么是Sitemap
Sitemap(即站點(diǎn)地圖)就是您網(wǎng)站上各網(wǎng)頁(yè)的列表。創(chuàng)建并提交Sitemap有助于百度發(fā)現(xiàn)并了解您網(wǎng)站上的所有網(wǎng)頁(yè)。您還可以使用Sitemap提供有關(guān)您網(wǎng)站的其他信息,如上次更新日期、Sitemap文件的更新頻率等,供百度Spider參考。
百度對(duì)已提交的數(shù)據(jù),不保證一定會(huì)抓取及索引所有網(wǎng)址。但是,我們會(huì)使用Sitemap中的數(shù)據(jù)來(lái)了解網(wǎng)站的結(jié)構(gòu)等信息,這樣可以幫助我們改進(jìn)抓取策略,并在日后能更好地對(duì)網(wǎng)站進(jìn)行抓取。
此外,Sitemap 與搜索排名沒有關(guān)系。
百度Sitemap支持哪些格式
百度Sitemap協(xié)議支持文本格式和xml格式,可以根據(jù)自己情況來(lái)選擇任意一種格式組織sitemap。具體格式說明及示例如下:
1.第一種格式樣例:txt文本格式
在一個(gè)txt文本列明需要向百度提交的鏈接地址,將txt文本文件通過搜索資源平臺(tái)進(jìn)行提交
http://www.example.com/repaste/101562698_5230191316.html
http://www.example.com/repaste/101586283_5230215075.html
http://www.example.com/repaste/101639435_5230310576.html
此文本文件需要遵循以下指南:
· 文本文件每行都必須有一個(gè)網(wǎng)址。網(wǎng)址中不能有換行。
· 不應(yīng)包含網(wǎng)址列表以外的任何信息。
· 您必須書寫完整的網(wǎng)址,包括 http。
· 每個(gè)文本文件最多可包含 50,000 個(gè)網(wǎng)址,并且應(yīng)小于10MB(10,485,760字節(jié))。如果網(wǎng)站所包含的網(wǎng)址超過 50,000 個(gè),則可將列表分割成多個(gè)文本文件,然后分別添加每個(gè)文件。
· 文本文件需使用 UTF-8 編碼或GBK編碼。
2.第二種格式樣例:xml格式
單個(gè)xml數(shù)據(jù)格式如下:
<?xml version="1.0" encoding="utf-8"?>
<!-- XML文件需以u(píng)tf-8編碼-->
<urlset>
<!--必填標(biāo)簽-->
<url>
<!--必填標(biāo)簽,這是具體某一個(gè)鏈接的定義入口,每一條數(shù)據(jù)都要用<url>和</url>包含在里面,這是必須的 -->
<loc>http://www.yoursite.com/yoursite.html</loc>
<!--必填,URL鏈接地址,長(zhǎng)度不得超過256字節(jié)-->
<lastmod>2009-12-14</lastmod>
<!--可以不提交該標(biāo)簽,用來(lái)指定該鏈接的最后更新時(shí)間-->
<changefreq>daily</changefreq>
<!--可以不提交該標(biāo)簽,用這個(gè)標(biāo)簽告訴此鏈接可能會(huì)出現(xiàn)的更新頻率 -->
<priority>0.8</priority>
<!--可以不提交該標(biāo)簽,用來(lái)指定此鏈接相對(duì)于其他鏈接的優(yōu)先權(quán)比值,此值定于0.0-1.0之間-->
</url>
<url>
<loc>http://www.yoursite.com/yoursite2.html</loc>
<lastmod>2010-05-01</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
上述Sitemap向百度提交了一個(gè)url:http://www.yoursite.com/yoursite.html
若有多條url,按照上述格式重復(fù)<url></url>之間的片斷,列明所有url地址,打包到一個(gè)xml文件,向搜索資源平臺(tái)進(jìn)行提交。
創(chuàng)建Sitemap時(shí)有哪些注意事項(xiàng)?
第一,一個(gè)Sitemap文件包含的網(wǎng)址不得超過 5 萬(wàn)個(gè),且文件大小不得超過 10 MB。如果您的Sitemap超過了這些限值,請(qǐng)將其拆分為幾個(gè)小的Sitemap。這些限制條件有助于確保您的網(wǎng)絡(luò)服務(wù)器不會(huì)因提供大文件而超載。
第二,一個(gè)站點(diǎn)支持提交的sitemap文件個(gè)數(shù)必須小于5萬(wàn)個(gè),多于5萬(wàn)個(gè)后會(huì)不再處理,并顯示“鏈接數(shù)超”的提示。
第三,如果驗(yàn)證了網(wǎng)站的主域,那么Sitemap文件中可包含該網(wǎng)站主域下的所有網(wǎng)址。
第四,搜索資源平臺(tái)sitemap文件提交已不再支持索引型文件形式,歷史提交的索引型文件已不再進(jìn)行抓取,建議站長(zhǎng)及時(shí)刪除,重新進(jìn)行資源提交。
如何提交Sitemap
第一步,將需提交的網(wǎng)頁(yè)列表制作成一個(gè)Sitemap文件,文件格式請(qǐng)閱讀百度Sitemap協(xié)議都支持哪些格式。
第二步,將Sitemap文件放置在網(wǎng)站目錄下。比如您的網(wǎng)站為example.com,您已制作了一個(gè)sitemap_example.xml的Sitemap文件,將sitemap_example.xml上傳至網(wǎng)站根目錄即example.com/sitemap_example.xml
第三步,登錄百度搜索資源平臺(tái),確保提交Sitemap數(shù)據(jù)的網(wǎng)站已驗(yàn)證歸屬。
第四步,進(jìn)入Sitemap工具,點(diǎn)擊“添加新數(shù)據(jù)”,文件類型選擇“URL列表”,填寫抓取周期和Sitemap文件地址
最后,提交完之后,可在Sitemap列表里看到提交的Sitemap文件,如果Sitemap文件里面有新的網(wǎng)站鏈接,可以選擇文件后,點(diǎn)擊更新所選,即對(duì)更新的網(wǎng)站鏈接進(jìn)行了提交。
什么是移動(dòng)Sitemap協(xié)議,如何提交移動(dòng)Sitemap協(xié)議
百度推出了移動(dòng)Sitemap協(xié)議,用于將網(wǎng)址提交給移動(dòng)搜索收錄。百度移動(dòng)Sitemap協(xié)議是在標(biāo)準(zhǔn)Sitemap協(xié)議基礎(chǔ)上制定的,增加了<mobile:mobile/>標(biāo)簽,它有四種取值:
<mobile:mobile/> :移動(dòng)網(wǎng)頁(yè)
<mobile:mobile type="mobile"/> :移動(dòng)網(wǎng)頁(yè)
<mobile:mobile type="pc,mobile"/>:自適應(yīng)網(wǎng)頁(yè)
<mobile:mobile type="htmladapt"/>:代碼適配
無(wú)該上述標(biāo)簽表示為PC網(wǎng)頁(yè)
下方樣例相當(dāng)于向百度移動(dòng)搜索提交了一個(gè)移動(dòng)網(wǎng)頁(yè):http://m.example.com/index.html,向PC搜索提交了一個(gè)傳統(tǒng)網(wǎng)頁(yè):http://www.example.com/index.html,同時(shí)向移動(dòng)搜索和PC搜索提交了一個(gè)自適配網(wǎng)頁(yè)http://www.example.com/autoadapt.html:
<?xml version="1.0" encoding="UTF-8" ?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:mobile="http://www.baidu.com/schemas/sitemap-mobile/1/">
<url>
<loc>http://m.example.com/index.html</loc>
<mobile:mobile type="mobile"/>
<lastmod>2009-12-14</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.example.com/index.html</loc>
<lastmod>2009-12-14</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.example.com/autoadapt.html</loc>
<mobile:mobile type="pc,mobile"/>
<lastmod>2009-12-14</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.example.com/htmladapt.html</loc>
<mobile:mobile type="htmladapt"/>
<lastmod>2009-12-14</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
按照移動(dòng)Sitemap協(xié)議做好Sitemap后,在Sitemap工具點(diǎn)擊添加新數(shù)據(jù)提交,與提交普通Sitemap方式一致。
我提交時(shí)填寫的周期是什么含義?
百度Spider會(huì)參考設(shè)置周期抓取Sitemap文件,因此請(qǐng)根據(jù)Sitemap文件內(nèi)容的更新(比如增加新url)來(lái)設(shè)置。請(qǐng)注意若url不變而僅是url對(duì)應(yīng)的頁(yè)面內(nèi)容更新(比如論壇帖子頁(yè)有新回復(fù)內(nèi)容),不在此更新范圍內(nèi)。Sitemap工具不能解決頁(yè)面更新問題。
Sitemap提交后,多久能被百度處理?
Sitemap數(shù)據(jù)提交后,一般在1小時(shí)內(nèi)百度會(huì)開始處理。在以后的調(diào)度抓取中,如果您的sitemap支持etag,我們會(huì)更頻繁抓取sitemap文件,從而及時(shí)發(fā)現(xiàn)內(nèi)容更新;否則抓取的周期會(huì)比較長(zhǎng)。
提交的Sitemap都會(huì)被百度抓取并收錄嗎?
百度對(duì)已提交的數(shù)據(jù),不保證一定會(huì)抓取及收錄所有網(wǎng)址。是否收錄與頁(yè)面質(zhì)量相關(guān)。
XML格式的 Sitemap 中,“priority”提示會(huì)影響我的網(wǎng)頁(yè)在搜索結(jié)果中的排名嗎?
不會(huì)。Sitemap 中的“priority”提示只是說明該網(wǎng)址相對(duì)于您自己網(wǎng)站上其他網(wǎng)址的重要性,并不會(huì)影響網(wǎng)頁(yè)在搜索結(jié)果中的排名。
網(wǎng)址在 Sitemap 中的位置是否會(huì)影響它的使用?
不會(huì)。網(wǎng)址在 Sitemap 中的位置并不會(huì)影響百度對(duì)它的識(shí)別或使用方式。
Sitemap中提交的url能否包含中文?
因?yàn)檗D(zhuǎn)碼問題建議最好不要包含中文。
來(lái)源:百度搜索資源平臺(tái) 百度搜索學(xué)堂