我是最近才开始观察网站日志的,因为网站收录出了点意外,每天都在查看网站日志,关于网站日志的索引量和实际收录量的差距,我大概观察了一下,日志的索引数据和SITE的数据并不相符,日志索引量和实际收录并不相同。早就听过关于网站索引和实际收录不同的说法,因为没有遇到到收录(段文杰博客)异常问题,一直也没有在意过,这几天刚好花时间验证一下。
一:索引数据比实际收录要多一些,昨天上午的时间,通过网站日志查看,百度蜘蛛来访了大概10个文章页面,3个分类页面,而同时去SITE网站收录时,发现这10个文章页面和3个分类页面并没有放出来,到了晚上的时间,再次SITE收录量,发现被放出了2个文章页面,其它的数据依然未被放出,到了今天早上时,又去查看了网站日志,发现百度蜘蛛又索引了很多新的URL,但是通过SITE并没有发现这些页面,通过百度统计和百度站长平台去查看收录,依然没有发现收录的痕迹。
二:搜索引擎需要审核索引的数据,对于百度蜘蛛索引的URL,搜索引擎为什么没有及时放出来呢,可能是百度需要审核这些内容,如果是不合理的内容,搜索引擎就不会放出来,如果是合理的内容,搜索引擎会尽快给予展示的机会,个人猜测,如果是新站点,可能被放出来的时间更慢一些,权重高的站点,蜘蛛索引以后,数据会马上被展示出来。还有一种猜测是,也许这是搜索引擎的一种规则,每一条被索引的数据都需要入库,索引和入库不是一个体系,数据入库需要时间。
按照常理,索引到的数据最终会被搜索引擎展示出来,百度蜘蛛能够正常索引网站内容证明网站是正常的,但是如果百度蜘蛛长期不访问站点,在网站日志中看不到被索引的痕迹,证明网站肯定存在问题。观察网站日志的方式大概有三种,第一种是通过空间管理后台查看,有的空间提供了日志查询功能,有的空间则没有提供。第二种是通过FTP查看,在FTP的目录中,会看到详细的网站日志,不同的空间,FTP的目录位置不同,所保存的日志数量也不同。第三种方法是通过工具查看,至于如何使用工具,大家可以百度一下,一般通过空间管理后台查看日志即可。
很多站长和我一样,没有养成查看网站日志的习惯,基本都是通过SITE或者是流量统计系统查看收录量,还是希望大家经常查看网站日志,以了解更详细的数据。