頭條搜索站長(zhǎng)平臺(tái)-Sitemap提交
功能說明
提交sitemap工具可以向頭條搜索提交網(wǎng)站的sitemap文件,幫助頭條spider更好的抓取您的網(wǎng)站。您可以在此工具下選擇已經(jīng)驗(yàn)證的站點(diǎn),進(jìn)行驗(yàn)證站點(diǎn)的sitemap文件提交。
sitemap提交后,頭條搜索會(huì)根據(jù)sitemap了解網(wǎng)站中數(shù)據(jù)情況。
sitemap要求
sitemapindex文件要求
sitemapindex文件根節(jié)點(diǎn)必須是<sitemapindex>。
sitemapindex文件編碼必須為UTF-8,第一行為: <?xml version="1.0" encoding="utf-8" ?>。
sitemapindex文件禁止使用命名空間,禁止使用規(guī)定之外的屬性。
sitemapindex文件大小不得超過5M,sitemap節(jié)點(diǎn)數(shù)量不超過1W。
必須保證sitemap中所有URL可訪問,且內(nèi)容符合XML數(shù)據(jù)文件規(guī)范。
1.XML數(shù)據(jù)文件規(guī)范
數(shù)據(jù)XML文件的根節(jié)點(diǎn)必須為<DOCUMENT>
數(shù)據(jù)XML文件編碼必須為UTF-8,第一行為: <?xml version="1.0" encoding="utf-8" ?>
數(shù)據(jù)XML文件禁止使用命名空間,禁止使用規(guī)定之外的屬性。
數(shù)據(jù)XML單個(gè)文件大小不得超過10M(必須滿足),item數(shù)目不得超過1W。
除根節(jié)點(diǎn)之外的其它節(jié)點(diǎn),標(biāo)簽名建議采用英文小寫字母及下劃線‘_’
數(shù)據(jù)節(jié)點(diǎn)中包含轉(zhuǎn)義字符,請(qǐng)使用CDATA
對(duì)于數(shù)組型的節(jié)點(diǎn),請(qǐng)?jiān)谥挥幸粋€(gè)子節(jié)點(diǎn)時(shí)保證和多個(gè)節(jié)點(diǎn)時(shí)的結(jié)構(gòu)相同
2.Txt格式規(guī)范
Txt文件編碼必須為UTF-8
Txt文件大小不得超過10M,每個(gè)文本文件最多可包含5w個(gè)網(wǎng)址
Txt文件每行都必須有一個(gè)網(wǎng)址,網(wǎng)址中不能有換行
Txt文件中不能包含網(wǎng)址列表以外的任何信息
- 必須書寫完整的網(wǎng)址,包含http/https
- 必須保證Txt文件中所有URL 可訪問,且內(nèi)容符合Txt數(shù)據(jù)規(guī)范
注意事項(xiàng)
提交的sitemap有作弊嫌疑的url,頭條將進(jìn)行嚴(yán)厲的處罰措施并取消相關(guān)權(quán)限
頭條spider有自身的爬取規(guī)則,sitemap只是幫助頭條spider更好的收錄您的網(wǎng)站,提交sitemap并不會(huì)決定網(wǎng)站收錄或者排名。
工具使用方法
1. sitemap索引格式
<?xml version='1.0' encoding='UTF-8'?>
<sitemapindex>
<sitemap>
<loc>https://www.toutiao.com/1.xml</loc>
<lastmod>2019-12-05</lastmod>
</sitemap>
<sitemap>
<loc>https://www.toutiao.com/2.xml</loc>
<lastmod>2019-12-05</lastmod>
</sitemap>
</sitemapindex>
2. xml格式
<?xml version="1.0" encoding="utf-8"?>
<urlset>
<url>
<loc>https://www.toutiao.com/1</loc>
<lastmod>2019-11-26</lastmod>
</url>
<url>
<loc>https://www.toutiao.com/2</loc>
<lastmod>2019-11-26</lastmod>
</url>
</urlset>
3.txt格式
http://www.example.com/1.html
http://www.example.com/2.html
http://www.example.com/3.html
4. 提交sitemap
完成sitemap制作后可以使用sitemap提交工具進(jìn)行提交
sitemap提交幫助
1)提交成功
等待:代表您的sitemap文件已經(jīng)解析完畢,等待抓取
正常:代表您的sitemap文件在抓取中
異常:代表您的sitemap文件存在問題,不能抓取
2)提交失敗
若在Sitemap提交工具使用中發(fā)生錯(cuò)誤,請(qǐng)確認(rèn)是否為以下原因:
Sitemap文件地址無法訪問,請(qǐng)確認(rèn)提交的地址可正常訪問。
Sitemap文件地址與提交站點(diǎn)不是包含關(guān)系,請(qǐng)確認(rèn)提交的地址屬于已驗(yàn)證的站點(diǎn)
相同的Sitemap文件地址已經(jīng)添加過,請(qǐng)勿重新添加。
提交的Sitemap格式不規(guī)范,請(qǐng)檢查該數(shù)據(jù)格式,修改后重新提交。
sitemap異常原因解釋
sitemap異常原因解釋解決方法
爬蟲被封禁可能是您的網(wǎng)站對(duì)Bytespider的UA或IP進(jìn)行封禁建議您根據(jù)我們公布的UA和IP進(jìn)行解封,第二天重新抓取之后會(huì)恢復(fù)正常
sitemap文件數(shù)據(jù)量過大可能是您的sitemap節(jié)點(diǎn)數(shù)量超過了5w個(gè)建議您拆分為幾個(gè)小的sitemap文件
sitemap地址非法可能是您的sitemap地址不可訪問或者存在xml和txt混合模式的數(shù)據(jù)建議您按照我們的要求提交sitemap地址
站點(diǎn)服務(wù)不可用我們請(qǐng)求您的網(wǎng)站3次后發(fā)現(xiàn)您的網(wǎng)站仍舊不可訪問會(huì)暫時(shí)停止抓取,則返回該原因請(qǐng)您檢查服務(wù)器是否可正常運(yùn)轉(zhuǎn),如果正常,等正常調(diào)度后正常抓取
sitemap地址不存在可能是您的地址無法訪問,返回404,我們獲取不了任何信息請(qǐng)您排查sitemap地址鏈接,等正常調(diào)度后可恢復(fù)正常抓取
txt文件未發(fā)現(xiàn)有效鏈接可能是您的txt文件鏈接并非按照要求提供html鏈接請(qǐng)您按照我們的規(guī)范格式提交
xml文件數(shù)據(jù)量過大可能是您的xml文件大小超過10M,item數(shù)目超過1W個(gè)建議您拆分幾個(gè)小的xml文件
Sitemap相關(guān)QA
Sitemap文件支持什么格式提交?
目前頭條搜索sitemap支持xml、txt格式提交,不支持單條鏈接提交。
我提交時(shí)填寫的周期是什么含義?
ByteSpider會(huì)參考設(shè)置周期抓取Sitemap文件,因此請(qǐng)根據(jù)Sitemap文件內(nèi)容的更新(比如增加新url)來設(shè)置。請(qǐng)注意如果url不變僅是url對(duì)應(yīng)的頁面內(nèi)容更新(比如UGC回答有新內(nèi)容),不在此更新范圍內(nèi),Sitemap工具不能解決頁面更新問題。
Sitemap提交后,多久能被頭條搜索處理?
Sitemap數(shù)據(jù)提交后,一般在1小時(shí)內(nèi)頭條搜索就會(huì)開始處理,但抓取時(shí)間會(huì)以Sitemap文件大小決定,如果遇到狀態(tài)“等待”時(shí)間較長(zhǎng),可以觀察一下。
提交的Sitemap都會(huì)被頭條搜索抓取并收錄嗎?
頭條搜索對(duì)網(wǎng)站提交的數(shù)據(jù),無法保證一定會(huì)抓取且收錄所有網(wǎng)址,數(shù)據(jù)鏈接能否被收錄與頁面質(zhì)量相關(guān),可盡量避免低質(zhì)內(nèi)容提交。
Sitemap的url鏈接可以包含中文嗎?
不要有,“中文”無法解碼。
為什么我提交的sitemap返回異常?
封禁:如果返回狀態(tài)為請(qǐng)求異常,請(qǐng)務(wù)必確認(rèn)是否封禁頭條搜索的出口ip和ua
格式有誤:請(qǐng)確認(rèn)您的sitemap是否嚴(yán)格按照提交幫助中的格式生成,sitemapindex里面包含的xml也應(yīng)以.xml結(jié)尾
解析失?。航馕鍪≈淮嬖谟趚ml格式,如果因?yàn)榻馕鍪》祷禺惓#?qǐng)檢查您的xml是否符合標(biāo)準(zhǔn)sitemap格式規(guī)范
創(chuàng)建Sitemap時(shí)有哪些注意事項(xiàng)
sitemapindex文件大小不得超過5M,sitemap節(jié)點(diǎn)數(shù)量不超過1W個(gè)。如果您的Sitemap超過了這些限值,請(qǐng)將其拆分為幾個(gè)小的Sitemap。數(shù)據(jù)量限制有助于確保您的網(wǎng)絡(luò)服務(wù)器不會(huì)因提供大文件而超負(fù)荷;
站點(diǎn)支持提交的sitemap文件個(gè)數(shù)必須少于1w個(gè),多于1w個(gè)后會(huì)不再處理,并顯示“sitemap文件數(shù)據(jù)量過大”
提示
sitemap數(shù)據(jù)能幫助頭條搜索改進(jìn)抓取策略,不能承諾收錄,也不能決定收錄量級(jí),不能決定搜索排名。
來源:頭條搜索站長(zhǎng)平臺(tái)