頭條搜索站長平臺-sitemapindex文件要求
sitemapindex文件根節(jié)點必須是<sitemapindex>。
sitemapindex文件編碼必須為UTF-8,第一行為: <?xml version="1.0" encoding="utf-8" ?>。
sitemapindex文件禁止使用命名空間,禁止使用規(guī)定之外的屬性。
sitemapindex文件大小不得超過5M,sitemap節(jié)點數(shù)量不超過1W。
必須保證sitemap中所有URL可訪問,且內(nèi)容符合XML數(shù)據(jù)文件規(guī)范。
1.XML數(shù)據(jù)文件規(guī)范
數(shù)據(jù)XML文件的根節(jié)點必須為<DOCUMENT>
數(shù)據(jù)XML文件編碼必須為UTF-8,第一行為: <?xml version="1.0" encoding="utf-8" ?>
數(shù)據(jù)XML文件禁止使用命名空間,禁止使用規(guī)定之外的屬性。
數(shù)據(jù)XML單個文件大小不得超過10M(必須滿足),item數(shù)目不得超過1W。
除根節(jié)點之外的其它節(jié)點,標簽名建議采用英文小寫字母及下劃線‘_’
數(shù)據(jù)節(jié)點中包含轉(zhuǎn)義字符,請使用CDATA
對于數(shù)組型的節(jié)點,請在只有一個子節(jié)點時保證和多個節(jié)點時的結(jié)構(gòu)相同
2.Txt格式規(guī)范
Txt文件編碼必須為UTF-8
Txt文件大小不得超過10M,每個文本文件最多可包含5w個網(wǎng)址
Txt文件每行都必須有一個網(wǎng)址,網(wǎng)址中不能有換行
Txt文件中不能包含網(wǎng)址列表以外的任何信息
- 必須書寫完整的網(wǎng)址,包含http/https
- 必須保證Txt文件中所有URL 可訪問,且內(nèi)容符合Txt數(shù)據(jù)規(guī)范
注意事項
提交的sitemap有作弊嫌疑的url,頭條將進行嚴厲的處罰措施并取消相關(guān)權(quán)限
頭條spider有自身的爬取規(guī)則,sitemap只是幫助頭條spider更好的收錄您的網(wǎng)站,提交sitemap并不會決定網(wǎng)站收錄或者排名。
來源:頭條搜索站長平臺