百度用于抓取網(wǎng)頁(yè)的措施叫做Baiduspider - 百度蜘蛛,我們查察網(wǎng)站被百度抓取的情形主若是剖析,網(wǎng)站日志里百度蜘蛛Baiduspider的活潑性:抓取頻率,返回的HTTP狀況碼。
查察日志的方法:
經(jīng)由過(guò)程FTP,在網(wǎng)站根目錄找到一個(gè)日志文件,文件名一樣尋常搜羅log,下載解壓內(nèi)里的記事本,這即是網(wǎng)站的日志,記錄了網(wǎng)站被訪謁和操縱的情形。
由于各個(gè)處事器和主機(jī)的情形差別,差此外主機(jī)日志成果記錄的內(nèi)容差別,有的乃至沒(méi)有日志成果。
日志內(nèi)容如下:
61.135.168.22 - - [25/oct/2010:04:02:45 +0800] "GET /youhua/youhuan_578.html HTTP/1.1" 200
850 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"
剖析:
GET /youhua/youhuan_578.html 代表,抓取/youhua/youhuan_578.html 這個(gè)頁(yè)面。
200 代表樂(lè)成抓取。
850 代表抓取了850個(gè)字節(jié)。
要是你的日志里名目不是云云,則代表日志名目設(shè)置差別。
很多日志里可以看到 200 0 0和200 0 64 則都代表正常抓取。
抓取頻率是經(jīng)由過(guò)程查察逐日的日志里百度蜘蛛抓取次數(shù)來(lái)獲知。抓取頻率并沒(méi)有一個(gè)類型的時(shí)刻表或頻率數(shù)字,我們一樣尋常經(jīng)由過(guò)程多日的日志對(duì)近來(lái)武斷。固然,我們但愿百度蜘蛛逐日抓取的次數(shù)越多越好。