可以通过在 HTTP 响应中包含 noindex 元标记或标头,阻止网页或其他资源显示在 Google 搜索中。当 Googlebot 下次抓取该网页并发现该标记或标头时,就会完全阻止该网页出现在 Google 搜索结果中,不论是否有其他网站链接到该网页。
重要提示:为让 noindex 指令生效,网页或资源不得被 robots.txt 文件屏蔽,并且必须能被抓取工具访问。如果该网页被 robots.txt 文件屏蔽或抓取工具无法访问该网页,那么抓取工具将永远无法看到 noindex 指令,因此该网页可能仍会显示在搜索结果中,例如,如果有其他网页链接到该网页的情况。
如果您不具备对服务器的根访问权限,可借助非常实用的 noindex 控制对您网站中各个网页的访问权限。
实施 noindex
实施 noindex 的方法有两种:将其作为元标记实施,或作为 HTTP 响应标头实施。这两种方法的效果相同,从中选择更方便您网站采用并且更适合相应内容类型的那一种方法即可。
标记
若想阻止大部分搜索引擎网页抓取工具将您网站中的某个网页编入索引,请将以下元标记放入该网页的
部分中:若想仅阻止 Google 网页抓取工具将网页编入索引,请使用以下元标记:
请注意,某些搜索引擎网页抓取工具对 noindex 指令可能会有不同的解读。因此,您的网页可能仍会出现在其他搜索引擎的结果中。
详细了解 noindex 元标记。
HTTP 响应标头
除了使用元标记,您还可在响应中返回一个值为 noindex 或 none 的 X-Robots-Tag 标头。响应标头可用于非 Html 资源,例如 PDF、视频文件和图片文件。下面是一个 HTTP 响应示例,它含有一个 X-Robots-Tag,用来指示抓取工具不要将某一网页编入索引:
HTTP/1.1 200 OK
(…)
X-Robots-Tag: noindex
(…)
详细了解 noindex 响应标头。
帮助我们发现您的元标记
我们必须抓取您的网页,才能看到元标记和 HTTP 标头。如果某个网页仍显示在搜索结果中,可能是因为在您添加标记后我们尚未抓取过该网页。您可以使用网址检查工具请求 Google 重新抓取您的网页。此外,也可能是因为 robots.txt 文件阻止 Google 网页抓取工具访问该网址,因此这些抓取工具无法发现此标记。若要允许 Google 访问您的网页,您必须修改 robots.txt 文件。您可以使用 robots.txt 测试工具修改和测试 robots.txt。