说明

网络不是法外之地,请大家文明上网

反爬虫机制

  • 通过UA 识别爬虫
    有些爬虫的UA很好识别,比如百度,与正常浏览器的UA是不一样的,可以通过识别UA的方法直接封禁此类请求

  • 设置IP的访问频率
    如果同一个IP超过一定频率,可以通过弹出验证码的方式来过滤机器人(如何巧妙设置验证,也是一个很有意思的问题)

  • 通过并发识别爬虫
    很多爬虫的并发率是非常高的,当达到一定阈值,可以直接封禁

  • 限制单个 IP/API token的访问量

  • 识别出合法爬虫
    设置合法爬虫的白名单,例如百度的自动收录等,如果不是合法爬虫则可以直接封禁

  • 蜜罐资源
    蜜罐资源策略简单来说就是 钓鱼执法 ,通过在页面上设置一些隐式链接,普通用户无法访问,一旦有IP请求了这些资源,则可以判断这些IP是爬虫的IP

破解反爬虫机制

  • 设置下载延迟

  • 禁止cookie
    很多网站会通过cookie识别用户身份,禁止cookie可以让服务器无法追踪爬虫轨迹

  • 使用UA池
    每次发送爬虫请求的时候,从UA池里随机使用一个UA

  • 使用IP池
    每次发送爬虫请求的时候,使用不同的代理IP

  • 分布式爬取

  • 模拟登录