浅析网站日志的分析对优化的作用
2015-01-23  网站营销
  很多初学SEO的朋友都会错误的认为网站有多少收录、快照时间或者外链的多少能衡量一个人的SEO能力、技术的高低,其实不然,网站收录、外链多少这是做SEO的最基本保证,还有就是无论您采用什么方法操控,有好的排名、有好的流量才是硬道理。在日常的优化进程中,网站日志的分析对一个网站的优化有多大的作用?现在又有多少朋友能精准的通过日志的分析找出网站各阶段的状况?今天来给大家说说网站日志的优化的作用有多大。

  一、蜘蛛访问网站的次数侧面反应权重

  蜘蛛访问网站的次数能侧面反应出网站自身的权重,一般小网站单个蜘蛛每天来访的次数大概在几十次。如果高于几十次,那么说明通过链接爬行到网站上的次数较多,那么抓取收录的机会就会大一些,最终对排名也是有积极的影响。如果每天来访一两次甚至零次,那么网站非常危险。

  二、根据蜘蛛对网站抓取排行做调整

  在很多网站日志中,都能清晰的看到页面的抓取排行,URL的抓取排行,这些排行最能直接的反应网站的那些部分是最受蜘蛛欢迎的。如果出现了很多css或js的文件都被大量的访问,那么页面中这样的链接就大大浪费了权重,所以需要修改robots文件给予禁止。查看有些网站的日志,能明显的看到那些被过渡抓取,那些重点内容抓取的较少,这样观察之后就能做到心中有数,可以有的放矢。比如之前我的网站会莫名奇妙的多出一些抓取文件夹,而这些文件夹在网站中是并不存在的,所以要及时发现,并给予屏蔽。

  三、过多404页面能降低网站整体权重

  最近发现一个现象,晏旭工作室的客户网站或多或少的都有404错误页面,这是不可避免的现象。有时候是空间上本身问题,有时候是自身网站的设置问题,有时候是外部网站存在外部链接的问题,从日志中一旦发现,就应该立刻调整。如果是抓取某个URL404特别多的话,需要在网站上建立这样一个URL页面,有效的利用,也可以修改robots文件给予屏蔽,禁止抓取。大量的404错误会被蜘蛛记录下来,对网站是减分印象,所以会从整体上降低网站的权重。

  四、百度不同IP段蜘蛛代表的意思

  123.125.68.* 这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。
  220.181.68.* 每天这个IP 段只增不减很有可能进沙盒或K站。
  220.181.7.*、123.125.66.* 代表百度蜘蛛IP造访,准备抓取你东西。
  121.14.89.* 这个ip段作为度过新站考察期。
  203.208.60.* 这个ip段出现在新站及站点有不正常现象后。
  210.72.225.* 这个ip段不间断巡逻各站。
  125.90.88.* 广东茂名市电信也属于百度蜘蛛IP 主要造成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的。
  220.181.108.95 这个是百度抓取首页的专用IP,如是220.181.108段的话,基本来说你的网站会天天隔夜快照,绝对错不了的,我保证。
  220.181.108.92 同上98%抓取首页,可能还会抓取其他 (不是指内页)220.181段属于权重IP段此段爬过的文章或首页基本24小时放出来。
  123.125.71.106 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
  220.181.108.91 属于综合的,主要抓取首页和内页或其他,属于权重IP 段,爬过的文章或首页基本24小时放出来。
  220.181.108.75 重点抓取更新文章的内页达到90%,8%抓取首页,2%其他。权重IP 段,爬过的文章或首页基本24小时放出来。
  220.181.108.86 专用抓取首页IP 权重段,一般返回代码是30400 代表未更新。
  123.125.71.95 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
  123.125.71.97 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
  220.181.108.89 专用抓取首页IP 权重段,一般返回代码是30400 代表未更新。
  220.181.108.94 专用抓取首页IP 权重段,一般返回代码是30400 代表未更新。
  220.181.108.97 专用抓取首页IP 权重段,一般返回代码是30400 代表未更新。
  220.181.108.80 专用抓取首页IP 权重段,一般返回代码是30400 代表未更新。
  220.181.108.77 专用抓首页IP 权重段,一般返回代码是30400 代表未更新。
  123.125.71.117 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。