我们在做网站优化的时候,经常要通过分析网站日志来寻找站点的相关信息。
比如:
1、网站上线时,是否有搜索引擎蜘蛛的痕迹。是否被收录,有没有死链和错误链接。
2、网站收录异常时,分析网站日志,对比日志中蜘蛛的行为。
3、网站被封问题时,分析网站日志,进行修改。
我们说:网站日志是站点管理员和搜索引擎对话沟通的途径,我们可以通过网站日志,了解搜
索引擎蜘蛛的访问情况。
先说如何下载日志:
2009-10-22 16:18:31 W3SVC194 59.36.99.93 GET /index.asp - 80 - 61.135.165.202
Nokia6681/1.0+(2.30.0)+Series60/2.6+Profile/MIDP-2.0+Configuration/CLDC-
1.1+(compatible;+baiduspider;++http://www.baidu.com/search/spider.html) 200 0 0
11831 (注意:baiduspider,百度机器人。)
2009-10-22 16:22:18 W3SVC194 59.36.99.93 GET /html/SEOERdzpzs_568_14.html - 80 -
203.208.60.202 Mozilla/5.0+(compatible;+Googlebot/2.1;+
+http://www.google.com/bot.html) 200 0 0 8438 (注意:Googlebot,谷歌机器人。)
2009-10-22 18:24:15 W3SVC194 59.36.99.93 GET /bbs/index.asp
boardid=9&TopicMode=0&List_Type=8,0,0&page= 80 - 202.160.180.113
Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html)
200 0 0 15677 (注意:Slurp,雅虎机器人。)
关于搜索引擎机器人:
百度:baiduspider Google:Googlebot Msn:msnbot
yahoo:Slurp yodao:YoudaoBot sogou:Sogou+get+spider
搜索以上蜘蛛名称,就可以看到蜘蛛抓取的痕迹。我们重要的就是如何读懂后面的那些代码。我们称HTTP状态码。(像:200)
我们说在日志里,发现比较多的HTTP状态码是,200(正常)、304(没变化)、404(错误链接)。
在这里,200 0 0 11831 我们说因为服务器或虚拟主机设置的日志记录内容的不同,格式也不同。我们需要通过观察自己站点,通过对网站日志的分析,来确定第几个数是代表抓取的字节数。一般比较大的这个数就是本次抓取的字节数。
在这里,304代表,自从上次抓取后,该内容没有更新。一般情况下,网站的图片经常会返回该值。
404代表,访问的这个链接是错误链接。这个错误链接,一方面来自原本存在后来删除了网页,另一方面可能来自本来就不存在,但其他人外链了这么个死链接。