百度在不久前上线了星火计划,主要针对原创内容这一块,为的是更好的识别原创打击盗版,百度的这一举动得到了众多站长的响应支持,而百度是如何识别原创内容的,搜索引擎能不能真的识别出谁是原创谁又是盗版呢,百度并没有公布识别的方法,个人猜测如下下。
根据收录时间,这可能是比较靠谱的一个方法,但也存在弊端,由于每个站点的权重不同,百度蜘蛛访问的时间也不同,先发布的文章不一定先被收录,后发布的文章不一定后收录,一些权重高的站点,文章刚发表立刻就被搜索引擎收录,而有些新站,好几天的时间还不被收录。如果是同一篇文章,发表在两个不同的站点,A站是原创,发表的时间较早,但收录较晚,B站是盗版,发表时间较晚,但收录较早,搜索引擎将如何识别这两篇文章呢。
根据发表时间,这个说法比较靠谱一些,百度蜘蛛并不像我们想象中那么简单,有人可能以为,权重高的站点盗版了你的原创文章,而且先被搜索引擎收录了,搜索引擎就会以为这是原创首发,其实并非如此,即使百度蜘蛛没有及时索引你的原创URL,等到日后来索引时,依然会正确的识别出来。以实例来证明一下,我在2月4号发表了一篇文章,在2月4号这一天,百度蜘蛛并未来访,这篇文章被另一个站点盗版,盗版时间是2月5号,到了2月7号时,我的(段文杰博客)原创文章才被搜索引擎收录,通过百度快照看到,这篇文章的快照时间并不是2月7号,而是2月4号,这说明百度很清楚,这篇文章是2月4号发布的,早于盗版网站的2月5号。
有很多站长都对原创文章有误解,认为原创文章的排名就必须比盗版好,其实并不是这样,原创文章不是万能的,并不能马上提升网站排名,搜索引擎对于高权重的站点非常重视,会把排名优先安排给权重高的网站,而不是安排给原创网站。有人又说了,既然是这样,那原创文章还有什么用,干脆都盗版算了。做站长时间长的可能会更明白一些,搜索引擎对一个网站的认可是需要时间的,即使一个网站做的很好了,也不可能短期内被搜索引擎认可,原创文章的优势在于后续勃发。
我一直都担心文章被盗版的问题,害怕搜索引擎把我的原创视为盗版,但通过分析后我发现,搜索引擎是能够根据发表时间识别的,只要你的文章发表时间靠前,即使搜索引擎收录的晚,搜索引擎也会根据发表时间进行判断,并不是大家想象中的那样,谁的文章先收录,谁就成了正版,谁的文章后收录,谁的文章就成了盗版,搜索引擎没有这么简单,是我们把搜索引擎看得简单了。