網(wǎng)站抓取了一些不存在的目錄跟頁面?
1. 重新編輯robots.txt文件,將網(wǎng)站中不需要抓取的頁面和目錄添加進去; 2. 如果抓取的網(wǎng)站帶有反爬蟲功能,建議可以設置User-Agent,以區(qū)分人為訪問和爬蟲程序進行訪問; 3. 設置深度抓取,讓程序對某個網(wǎng)頁進行抓取時,只抓取它指定難度及深度的URL; 4. 不定時發(fā)起網(wǎng)站掃描任務,用來檢查異常的URL,以及分析抓取URL的情況,同時將發(fā)現(xiàn)的問題處理掉; 5. 合理設置抓取速度,一般建議抓取的最高速度不宜超過網(wǎng)頁平均加載速度的1/5,以免對網(wǎng)站服務器造成壓力; 6. 建立黑名單,將連續(xù)多次無效抓取情況的網(wǎng)址納入黑名單中,黑名單中的網(wǎng)址抓取程序會忽略其內(nèi)容; 7. 禁止抓取某些特定格式的URL,例如`.pdf`、`.doc`等文件格式。