反爬虫机制和破解方法汇总

网络不是法外之地，请大家文明上网

通过UA 识别爬虫
有些爬虫的UA很好识别，比如百度，与正常浏览器的UA是不一样的，可以通过识别UA的方法直接封禁此类请求
设置IP的访问频率
如果同一个IP超过一定频率，可以通过弹出验证码的方式来过滤机器人（如何巧妙设置验证，也是一个很有意思的问题）
通过并发识别爬虫
很多爬虫的并发率是非常高的，当达到一定阈值，可以直接封禁
限制单个 IP/API token的访问量
识别出合法爬虫
设置合法爬虫的白名单，例如百度的自动收录等，如果不是合法爬虫则可以直接封禁
蜜罐资源
蜜罐资源策略简单来说就是 钓鱼执法 ，通过在页面上设置一些隐式链接，普通用户无法访问，一旦有IP请求了这些资源，则可以判断这些IP是爬虫的IP