维亿CMS资源网,免费分享和下载
当前位置: 首页 > CMS建站 > 抓取异常是什么意思?详解百度抓取异常的入口、原因及影响

抓取异常是什么意思?详解百度抓取异常的入口、原因及影响

匿名站长 CMS建站
扫码手机访问

抓取异常是什么意思

一、抓取异常是什么

Baiduspider无法正常抓取,就是抓取异常,对于大量内容无法正常抓取的网站,搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、权重上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。

二、百度抓取异常的入口

登陆百度搜索资源平台,然后从" 搜索服务"找到" 抓取异常"点击进入,百度抓取异常工具入口链接为:https://ziyuan.baidu.com/crawl/index。

百度抓取异常工具

*百度抓取异常工具截图

百度抓取异常工具目前给出了服务器错误、访问被拒绝、找不到页面、其他错误共四类错误原因,可分别点击查看具体抓取错误的时间、数量以及链接等。通过错误网址进行查看与分析,确认页面的访问情况是否正常,从而查找出错的原因。

404错误链接异常查看

*404错误链接异常查看示例

注意:"链接异常"仅显示前1000条存在错误的网址,百度已对"找不到页面"进行死链屏蔽,站长无需再手动提交。

三、百度抓取异常的原因

1、网站异常的原因

(1)、dns异常

当Baiduspider无法解析您网站的IP时,会出现DNS异常。可能是您的网站IP地址错误,或者域名服务商把Baiduspider封禁。请使用WHOIS或者host查询自己网站IP地址是否正确且可解析,如果不正确或无法解析,请与域名注册商联系,更新您的IP地址。

(2)、连接超时

抓取请求连接超时,可能原因服务器过载,网络不稳定。

(3)、抓取超时

抓取请求连接建立后,下载页面速度过慢,导致超时,可能原因服务器过载,带宽不足。

(4)、连接错误

无法连接或者连接建立后对方服务器拒绝。

2、链接异常的原因

(1)、访问被拒绝

爬虫发起抓取,httpcode返回码是403。

(2)、找不到页面

爬虫发起抓取,httpcode返回码是404。

协议死链,表示用户已无法访问该页面内容,建议通过百度站长平台--死链工具提交死链的方式进行处理,以便搜索引擎更快地发现死链接,减少死链接对用户以及搜索引擎造成的负面影响。

(3)、服务器错误

爬虫发起抓取,httpcode返回码是5XX。

(4)、其他错误

爬虫发起抓取,httpcode返回码是4XX,不包括403和404。

四、百度抓取异常的影响

1、主动封禁百度蜘蛛抓取

站长由于站点承受压力问题或者其他原因您选择了禁止百度蜘蛛的抓取。如果站长的配置正确,并且DNS更新并生效后,百度的蜘蛛就不会对该站点的页面进行抓取,网站的页面也不会被收录。

2、被动出现的抓取异常

对于大量内容无法正常抓取的网站,搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、权重上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。

五、抓取异常常见问答

1、什么是死链

页面已经无效,无法对用户提供任何有价值信息的页面就是死链接,包括协议死链和内容死链两种形式。

协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如404、403、503状态等。

内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。

对于死链,建议及时修复死链数据,或进行死链数据推送,以便搜索引擎更快地发现死链,减少死链对用户以及搜索引擎的影响。

2、什么是IP禁封

限制网络的出口IP地址,禁止该IP段的使用者进行内容访问,即为IP禁封。

3、什么是UA禁封

UA即为用户代理(User-Agent),服务器通过UA识别访问者的身份。当网站针对指定UA的访问,返回异常页面(如403,500)或跳转到其他页面的情况,即为UA禁封。 

4、什么是异常重定向

将网络请求重新指向其他位置即为重定向。常见的重定向有两种:永久重定向(301跳转协议)和暂时重定向(302跳转协议),目前百度都可以识别和支持。对于长时间跳转到其他域名的情况,如网站更换域名,建议您使用301跳转协议。

5、还有哪些其他异常

针对百度refer的作弊:网页针对来自百度的refer返回不同于正常内容的行为。

针对百度ua的作弊:网页对百度UA返回不同于页面原内容的行为。

JS跳转作弊:网页加载了百度无法识别的JS跳转代码,使得用户通过搜索结果进入页面后发生了跳转的情况。

压力过大引起的偶然禁封:百度会根据站点的规模,访问量等信息,自动设定一个合理的抓取压力。但是在异常情况下,如压力控制失常时,服务器会根据自身负荷进行保护性的偶然封禁。这种情况下,请在返回码中返回503(其含义是  "Service Unavailable"),百度蜘蛛会过段时间再来尝试抓取这个链接,如果网站已空闲,则会被成功抓取。

总结

优化猩SEO:网站如果出现抓取异常的链接,访问网站的用户不仅没有办法浏览想看的内容,大大降低用户体验,还会让搜索引擎认为网站质量不高,从而降低对网站的评价,所以网站出现抓取异常一定要及时排查问题并进行优化。

参考链接:

平台工具使用手册_抓取异常_百度搜索资源平台

https://ziyuan.baidu.com/college/courseinfo?id=267&page=9

站点抓取异常查询工具_百度搜索资源平台

https://ziyuan.baidu.com/wiki/45

抓取异常问答_搜索资讯_百度搜索资源平台

https://ziyuan.baidu.com/wiki/32

修改于2023-05-30

标签:

异常

免责声明:

本站提供的资源,都来自网络,版权争议与本站无关,所有内容及软件的文章仅限用于学习和研究目的。不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负,我们不保证内容的长久可用性,通过使用本站内容随之而来的风险与本站无关,您必须在下载后的24个小时之内,从您的电脑/手机中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。侵删请致信E-mail: 123456@qq.com

同类推荐