考慮到平時要做優化,看百度爬蟲到底爬取了哪些目錄,哪些鏈接或目錄被爬取的次數比較少,以便對頁面的鏈接做nofollow,robots.txt等屏蔽處理,引導爬蟲抓取哪些需要被爬取的頁面,提升整體的收錄率。
總結了用的較多幾條命令:
1. 百度蜘蛛爬行的次數 cat access_log | grep Baiduspider+ | wc 最左面的數值顯示的就是爬行次數。
2. 百度蜘蛛的詳細記錄(Ctrl+C可以終止) cat access_log | grep Baiduspider+ 也可以用下面的命令: cat access_log | grep Baiduspider+ | tail -n 10 cat access_log | grep Baiduspider+ | head -n 10 只看最后10條或最前10條,這用就能知道這個日志文件的開始記錄的時間和日期。
3. 百度蜘蛛抓取首頁的詳細記錄 cat access_log | grep Baiduspider+ | grep “GET / HTTP”
4. 百度蜘蛛派性記錄時間點分布 cat access_log | grep “Baiduspider+” | awk ‘{print $4}’
5. 百度蜘蛛爬行頁面按次數降序列表 cat access_log | grep “Baiduspider+” | awk ‘{print $7}’ | sort | uniq -c | sort
新聞熱點
疑難解答