如何分析网站日志

2010-12-09

我们在做网站优化的时候，经常要通过分析网站日志来寻找站点的相关信息。

比如：

1、网站上线时，是否有搜索引擎蜘蛛的痕迹。是否被收录，有没有死链和错误链接。

2、网站收录异常时，分析网站日志，对比日志中蜘蛛的行为。

3、网站被封问题时，分析网站日志，进行修改。

我们说：网站日志是站点管理员和搜索引擎对话沟通的途径，我们可以通过网站日志，了解搜

索引擎蜘蛛的访问情况。

先说如何下载日志：

网站日志在根目录下，如图所示：

下面部分日志内容：

2009-10-22 16:18:31 W3SVC194 59.36.99.93 GET /index.asp - 80 - 61.135.165.202

Nokia6681/1.0+(2.30.0)+Series60/2.6+Profile/MIDP-2.0+Configuration/CLDC-

1.1+(compatible;+baiduspider;++http://www.baidu.com/search/spider.html) 200 0 0

11831 （注意：baiduspider，百度机器人。）

2009-10-22 16:22:18 W3SVC194 59.36.99.93 GET /html/SEOERdzpzs_568_14.html - 80 -

203.208.60.202 Mozilla/5.0+(compatible;+Googlebot/2.1;+

+http://www.google.com/bot.html) 200 0 0 8438 （注意：Googlebot，谷歌机器人。）

2009-10-22 18:24:15 W3SVC194 59.36.99.93 GET /bbs/index.asp

boardid=9&TopicMode=0&List_Type=8,0,0&page= 80 - 202.160.180.113

Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html)

200 0 0 15677 （注意：Slurp，雅虎机器人。）

关于搜索引擎机器人：

百度：baiduspider Google：Googlebot Msn：msnbot

yahoo：Slurp yodao：YoudaoBot sogou：Sogou+get+spider

搜索以上蜘蛛名称，就可以看到蜘蛛抓取的痕迹。我们重要的就是如何读懂后面的那些代码。我们称HTTP状态码。（像：200）

我们说在日志里，发现比较多的HTTP状态码是，200（正常）、304（没变化）、404（错误链接）。

在这里，200 0 0 11831 我们说因为服务器或虚拟主机设置的日志记录内容的不同，格式也不同。我们需要通过观察自己站点，通过对网站日志的分析，来确定第几个数是代表抓取的字节数。一般比较大的这个数就是本次抓取的字节数。

在这里，304代表，自从上次抓取后，该内容没有更新。一般情况下，网站的图片经常会返回该值。

404代表，访问的这个链接是错误链接。这个错误链接，一方面来自原本存在后来删除了网页，另一方面可能来自本来就不存在，但其他人外链了这么个死链接。

网站优化