如果你的网站频繁出现 502/503 错误,并且服务器资源一直是高占用的情况,I/O读写占用也非常高的话,可以阅读本文章进行错误排查。
如果你使用的是宝塔面包/aapanel面板,请首先查阅网站错误日志在以下目录:
/www/wwwlogs
如果查阅日志中有被机器人(bots)频繁访问采集数据的情况,你需要配置nginx服务来阻止某些恶意爬虫:
Nginx黑名单
这是一个为nginx提供的恶意爬虫黑名单,请根据项目说明进行配置:
这个方法是github上分享的,原文地址:https://github.com/mariusv/nginx-badbot-blocker
在Installation段介绍了详细的使用方法。
简单说就是在自己虚拟主机的nginx配置文件html段里面引入下面两个配置文件
include nginx-badbot-blocker/blacklist.conf; include nginx-badbot-blocker/blockips.conf;然后重启nginx服务就可以了。
使用安全插件屏蔽
在wordpress添加插件Wordfence,直接在Wordfence的防火墙设置里面,也可以禁止特定爬虫抓取,还可以设置抓取频率,当爬虫频率过高的时候会自动阻止它。
使用robots.txt文件
robots.txt文件做过网站的人应该都听说过,所以这里就不给你科普它的作用了。
直接插入下面这些内容保存,就可以了。
User-agent: YandexBot Disallow: / User-agent: DotBot Disallow: / User-agent: BLEXBot Disallow: /
User-agent: “日志中查到的恶意爬虫的名字”
Disallow: /