网站优化

如何分析网站日志

2010-12-09

我们在做网站优化的时候,经常要通过分析网站日志来寻找站点的相关信息。

比如:

1、网站上线时,是否有搜索引擎蜘蛛的痕迹。是否被收录,有没有死链和错误链接。

2、网站收录异常时,分析网站日志,对比日志中蜘蛛的行为。

3、网站被封问题时,分析网站日志,进行修改。

我们说:网站日志是站点管理员和搜索引擎对话沟通的途径,我们可以通过网站日志,了解搜

索引擎蜘蛛的访问情况。

先说如何下载日志:

网站日志在根目录下,如图所示:

点击浏览下一页
下面部分日志内容:

2009-10-22 16:18:31 W3SVC194 59.36.99.93 GET /index.asp - 80 - 61.135.165.202

Nokia6681/1.0+(2.30.0)+Series60/2.6+Profile/MIDP-2.0+Configuration/CLDC-

1.1+(compatible;+baiduspider;++http://www.baidu.com/search/spider.html) 200 0 0

11831  (注意:baiduspider,百度机器人。)

2009-10-22 16:22:18 W3SVC194 59.36.99.93 GET /html/SEOERdzpzs_568_14.html - 80 -

203.208.60.202 Mozilla/5.0+(compatible;+Googlebot/2.1;+

+http://www.google.com/bot.html) 200 0 0 8438  (注意:Googlebot,谷歌机器人。)

2009-10-22 18:24:15 W3SVC194 59.36.99.93 GET /bbs/index.asp

boardid=9&TopicMode=0&List_Type=8,0,0&page= 80 - 202.160.180.113

Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html)

200 0 0 15677  (注意:Slurp,雅虎机器人。) 

关于搜索引擎机器人:

百度:baiduspider    Google:Googlebot    Msn:msnbot
 
yahoo:Slurp    yodao:YoudaoBot    sogou:Sogou+get+spider

搜索以上蜘蛛名称,就可以看到蜘蛛抓取的痕迹。我们重要的就是如何读懂后面的那些代码。我们称HTTP状态码。(像:200)

我们说在日志里,发现比较多的HTTP状态码是,200(正常)、304(没变化)、404(错误链接)。

在这里,200 0 0 11831  我们说因为服务器或虚拟主机设置的日志记录内容的不同,格式也不同。我们需要通过观察自己站点,通过对网站日志的分析,来确定第几个数是代表抓取的字节数。一般比较大的这个数就是本次抓取的字节数。

在这里,304代表,自从上次抓取后,该内容没有更新。一般情况下,网站的图片经常会返回该值。

404代表,访问的这个链接是错误链接。这个错误链接,一方面来自原本存在后来删除了网页,另一方面可能来自本来就不存在,但其他人外链了这么个死链接。