重复内容通常是指网域内或网域间与其他内容完全匹配或大致类似的有一定体量的内容。多数情况下,其成因并不具有欺骗性质。非恶意重复内容可包括:
- 既可生成常规网页,又可针对移动设备生成精简版网页的论坛
- 通过多个不同网址显示或链接的商店项目
- 网页的打印专用版本
如果您的网站有多个包含大量重复内容的网页,您可以采用多种方法向 Google 指明您的首选网址(该过程称为"规范化")。
不过,在某些情况下,有些人会故意在网域间加入重复内容,意在操纵搜索引擎的排名或赢得较多的流量。这种欺骗性做法会使用户在同一组搜索结果中看到实质相同的内容重复出现,从而导致糟糕的用户体验。
Google 会尽量保证编入索引和显示的网页包含不同的信息。该过滤操作意味着,如果您网站的每篇文章都有"常规"和"打印"两个版本,而且两个版本都未被系统根据 noindex 元标记屏蔽,那么我们会选择其中一个版本列出。仅在极个别情况下,Google 才会认为重复内容的用意是操纵我们的排名并欺骗我们的用户,当此类情况出现时,我们也会对相应网站的索引和排名进行适当的调整。这样一来,网站的排名可能会受到影响,或者我们可能会将网站从 Google 索引中完全移除,网站移除后将不会再显示在搜索结果中。
您可采取一些措施来主动解决内容重复的问题并确保访问者可看到您希望他们看到的内容。
- 使用 301 重定向:如果您已调整了您的网站结构,那么请在您的 .htaccess 文件中使用 301 重定向("RedirectPermanent")来灵活地重定向用户、Googlebot 和其他"蜘蛛"程序(在 Apache 中,您可在 .htaccess 文件中进行以上操作;而在 IIS 中,您可通过管理控制台来进行以上操作)。
- 保持一致:尽量使您的内部链接保持一致。例如,请勿链接到 http://www.example.com/page/、http://www.example.com/page 和 http://www.example.com/page/index.htm。
- 使用顶级域名:为便于我们选用最恰当的文档版本,请尽量使用顶级域名来处理针对特定国家/地区的内容。例如,与 http://www.example.com/de 或 http://de.example.com 相比http://www.example.de 更能说明这是专为德国提供的内容。
- 联合供稿须谨慎:如果您以联合供稿方式在其他网站上显示您的内容,那么,在每次相关搜索中,Google 都会始终显示我们认为最适合用户的版本,这有可能是您的首选版本,也有可能不是。不过,建议您确保以联合供稿形式展示相应内容的每个网站都包含一个指回原始文章的链接。您也可要求其他网站的站长对包含您的联合供稿资料的网页使用 noindex 元标记,从而阻止搜索引擎将那些版本编入索引。
- 最大限度地减少重复的样板文字:例如,不在每个网页的底部添加冗长的版权文字,而只添加一段简短摘要,然后链接到能够提供详细信息的网页。此外,您还可以使用参数处理工具指定您希望 Google 处理网址参数的方式。
- 避免发布无实际内容的网页:用户不喜欢看到"空白"网页,因此请尽量避免使用占位内容。例如,请勿发布尚无实际内容的网页。如果您确实需要创建占位符网页,请使用 noindex 元标记阻止搜索引擎将这些网页编入索引。
- 了解自己的内容管理系统:请务必熟悉内容在您网站上的显示方式。博客、论坛以及相关系统往往会以不同的格式显示相同的内容。例如,某个博客条目可能会显示在博客首页、存档网页以及包含带有同一标签的其他条目的网页中。
- 最大限度地减少相似内容:如果您的多个网页内容相似,那么,请考虑扩充每个网页的内容,或将这些网页合并成一个。例如,如果您的旅行网站上包含与两个城市分别对应的不同网页,但这两个网页中的内容相同,您便可将这两个网页合并为一个网页来同时介绍这两个城市的相关信息,或者扩充每个网页的内容以使其包含相应城市的独特信息。
Google 不建议使用 robots.txt 文件或其他方法阻止抓取工具访问您网站上的重复内容。如果搜索引擎无法抓取包含重复内容的网页,便无法自动检测这些网址是否指向相同内容,导致误将它们视为独立的不同网页。一个更好的解决方案是允许搜索引擎抓取这些网址,并使用 rel="canonical" link 元素、网址参数处理工具或 301 重定向将这些网址标记为重复内容。如果重复内容导致我们从您的网站抓取了过多内容,您还可以在 Search Console 中调整抓取速度设置。
除非重复内容看上去意在欺骗用户以及操纵搜索引擎结果,否则,我们不会对含有重复内容的网站采取措施。如果您的网站存在内容重复问题,但您并未采纳上述建议,我们通常能够选择适宜的内容版本在搜索结果中显示。
但是,如果我们的审查显示您采用了欺骗性做法,并且您的网站已从我们的搜索结果中移除,请仔细检查您的网站。如果您的网站已从我们的搜索结果中移除,请参阅网站站长指南了解详情。如果您已进行更改并确信网站不再违反我们的指南,请提交重新审核网站的请求。
在极少数情况下,我们的算法选择的网址可能来自未经您允许擅自使用您的内容的外部网站。如果您认为其他网站违反版权法抄袭了您的内容,可以与该网站的站长联系,要求其移除相关内容。此外,您还可以根据《数字千年版权法案》提交请求,请求 Google 从搜索结果中移除涉嫌侵权的网页。