如何封禁AhrefsBot,SemrushBot,MJ12bot等垃圾蜘蛛爬虫
AhrefsBot,SemrushBot,MJ12bot等蜘蛛都是国外做网站第三方分析的平台(类似于国内的站长工具),分析的数据(网站内链,外链,历史,权重等)提供给做谷歌SEO的人员使用,按说不屏蔽也没什么关系。
但是如果他爬取频率太高,影响了网站正常的访问,或者给网站服务器造成很大的压力,那么我们可以选择直接屏蔽掉这些蜘蛛
1,采用robots.txt 文件来屏蔽
User-agent: AhrefsBot Disallow: / User-agent: DotBot Disallow: / User-agent: SemrushBot Disallow: / User-agent: Uptimebot Disallow: / User-agent: MJ12bot Disallow: / User-agent: YandexBot Disallow: /
如果还有其他蜘蛛再往下面添加即可,但是robots.txt 文件只是约定俗成的文件,也有很多蜘蛛不会遵守规则,如果你的网站是linux Nginx服务器,那么可以采用下面这种方式。
2,如果是Nginx服务器,可以在网站的配置文件里面加上这段代码
if ($http_user_agent ~* (SemrushBot|MJ12bot|AhrefsBot|DotBot|YandexBot)) { return 403; }
这样蜘蛛再来的时候抓取不到数据,就不会再来了。百度,搜狗,神马,头条等国内搜索引擎的蜘蛛不受影响
3,直接封禁爬虫的IP地址,这种方式简单粗暴,立竿见影。
例如:官方公布的AhrefsBot爬虫IP段如下:
54.36.148.0/24
54.36.149.0/24
54.36.150.0/24
195.154.122.0/24
195.154.123.0/24
195.154.126.0/24
195.154.127.0/24
如果你使用的是阿里云服务器,找到阿里云服务器安全组,配置入网方向IP地址禁入
扫描二维码推送至手机访问。
版权声明:本站内容为原创和部分整理自网络,如有侵权务必联系我们删除,保障您的权益,本站所有软件资料仅供学习研究使用,不可进行商业用途和违法活动,本站不承担任何法律责任。