SEOer必会技能网站日志分析

本帖最后由 天生柚稚笨 于 2016-10-13 14:04 编辑

 作为一名SEOer,学会日志分析是必需要掌握的一项基本的技能,通过日志分析可以分析爬虫抓取页面的有效性,通过分析返回的状态码能及时发现网站是否存在一些错误或者蜘蛛无法爬取的页面,排查网站页面中存在的404错误页面。

 一、网站日志能以为我们做什么?

 可以记录蜘蛛抓取页面的痕迹,帮助我们排查网站页面中存在的404错误页面,500服务器错误等,页面重要内容是否被爬虫完整爬到,还可以帮助我们分析用户的行为,用户行为直接用统计工具分析也行。

 二、常见HTTP状态码表达的意思

 1、200代码,表示蜘蛛爬取正常

 2、404代码,错误链接或者链接已经不存在

 3、301代码,永久重定向

 4、302代码,临时重定向

 5、304代码,客户端已经执行了GET,但页面未发生变化,也就是说页面没有更新。

 6、500代码,表示网站内部程序或服务器有错

 可以给大家看下网站日志中各个数据都代表什么意思,总之这个文件是记录的一天发生在网站上的一些行为,我们就可以通过对日志文件分析解决网站存在的一些问题。

 三、日志代码解读

 从日志文件当中可以解读出两个部分内容:

 1、搜索引擎抓取情况

 从日志文件中,可以大家看到搜索引擎抓取了一些404页面及低质量重负页面(噪音行为)

 /date-2016-01.html(低质量重负页面)

 /author-1.html(低质量重负页面)

 /downloads/(低质量页面)

 /contact.html(死链接),但这里有个问题,这个页面返回的状态码为200而不是404,但页面却跳转到404页面,从中可以发现服务器设置一定有问题;

 备注:可以通过nslookup ip 识别蜘蛛的真假

 当我们有一些页面或者目录不希望蜘蛛抓取的时候,我们需要在robots中进行屏蔽。屏蔽robots是一个避免蜘蛛抓取无用链接的重要手段,可以让蜘蛛花更多的精力放在我们需要他抓取的页面上。

未经允许不得转载:SEO教程网 » SEOer必会技能网站日志分析