網站SEO診斷時如何查看被百度蜘蛛爬行過的記錄
做網站SEO診斷時查看百度蜘蛛爬行記錄的方法:第一,前往空間服務器,下載網站日志。利用FTP工具登錄服務器端,一般在服務器根目錄之下存在一個logs文件夾,這里面裝的就是網站日志,當然不同的服務器類型,日志文件的文件夾名稱和我介紹的不一樣,但沒關系,日志文件的擴展名是log。
日志中蜘蛛的訪問行為
進入日志文件夾,你會發現,日志文件是按每一天的訪問情況為一個文件保存的:第二,打開網站日志文件,搜索:Baiduspider。用CTRL+F搜索功能查找baiduspider
百度(Baidu)爬蟲名稱:Baiduspider
這里先普及一下關于搜索引擎蜘蛛的一點小知識,各大搜索引擎的蜘蛛都有名字:
百度的叫baiduspider;
谷歌的叫Googlebot;
微軟的叫bingbot;
搜狐的叫Sogou web spider;
第三,鑒別百度蜘蛛的真偽。
由于很多站長工具會模擬百度蜘蛛的名稱來爬抓網站,因此,需要我們鑒別百度蜘蛛的真偽。
鑒別方法:
開始—運行—輸入 cmd ,用命令nslookup +ip
只要是百度的IP段,代碼中會有出現:name:baiduspider,如果沒有出現,那就不說不是真的百度IP段
第四,可以通過日志工具來查看網站日志。例如:光年日志。
因為國內主要是以百度為優化對象,我們來看看關于百度蜘蛛爬行記錄的信息分析,在日志記錄中隨便找一個百度蜘蛛的信息:
125.90.88.96 - - [07/Sep/2012:19:16:21 +0800] "GET / HTTP/1.1" 200 5374 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
怎么解讀這些信息呢?蜘蛛IP--【訪問時間】“獲取路徑”HTTP反饋值200 反饋字節數5357 百度蜘蛛標記。
好吧,這里面獲取路徑與HTTP反饋值是非常重要的信息,200為正常讀取,讀取了5374個字節。我們再分析一條記錄:
220.181.51.118 - - [07/Sep/2012:09:54:15 +0800] "GET /product/disp.php?id=93 HTTP/1.1" 301 249 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
認真看獲取路徑這一項,因為我的網站是老域名,原來的主人被收錄的路徑/product/disp.php?id=93,百度蜘蛛同樣爬行,結果我的 新網站里肯定不會有這一條信息,由于HTTP反饋了301,而301代表已移動 — 請求的數據具有新的位置且更改是永久的。其實這對于我來說是一件好事,蜘蛛爬行不通,知道這條收錄記錄已經失效,慢慢就會從百度的收錄數據庫中刪除。現在 百度正在審核我的新站點,一天爬行只有23次,也很不錯了的。
好了,大家是不是可以舉一反三的學會看其它搜索引擎蜘蛛的爬行記錄了呢?下次,網站SEO診斷將重點再分享一下HTTP的反饋值,大家通過這個反饋值可以獲悉自己網站的健康狀態,非常重要。
作者:周志松
微信/QQ:540220927
歡迎交流,轉載請注明出處:SEO診斷網