说明
网络不是法外之地,请大家文明上网
反爬虫机制
通过UA 识别爬虫
有些爬虫的UA很好识别,比如百度,与正常浏览器的UA是不一样的,可以通过识别UA的方法直接封禁此类请求设置IP的访问频率
如果同一个IP超过一定频率,可以通过弹出验证码的方式来过滤机器人(如何巧妙设置验证,也是一个很有意思的问题)通过并发识别爬虫
很多爬虫的并发率是非常高的,当达到一定阈值,可以直接封禁限制单个 IP/API token的访问量
识别出合法爬虫
设置合法爬虫的白名单,例如百度的自动收录等,如果不是合法爬虫则可以直接封禁蜜罐资源
蜜罐资源策略简单来说就是钓鱼执法
,通过在页面上设置一些隐式链接,普通用户无法访问,一旦有IP请求了这些资源,则可以判断这些IP是爬虫的IP
破解反爬虫机制
设置下载延迟
禁止cookie
很多网站会通过cookie识别用户身份,禁止cookie可以让服务器无法追踪爬虫轨迹使用UA池
每次发送爬虫请求的时候,从UA池里随机使用一个UA使用IP池
每次发送爬虫请求的时候,使用不同的代理IP分布式爬取
模拟登录