爬虫小白-如何辨别是否有cookie反爬案例

一、Cookie介绍

  • 先推荐该篇文章简单了解Cookie、Session、Token、JWT
  • 1、cookie的类型:会话cookie和持久cookie;其唯一的区别在于过期时间,如果设置了Discard参数,或者没有设置Expires或Max-Age参数来说明扩展的过期时间,这个cookie就是一个会话cookie
  • 2、会话cookie:是一种临时的cookie,它记录了用户访问站点时的设置和偏好,用户退出浏览器时,会话cookie就被删除了。
  • 3、 持久cookie的生存时间更长一些,它们存储在硬盘上,浏览器退出,计算机重启时它们仍然存在。通常用持久cookie维护某个用户会周期性访问的配置文件或登录名。

在这里插入图片描述

二、cookie生成来源区分查找

  • 1、cookie参数一般是通过两种方式生成,一种是服务端返回的cookie,另一种是网页端有javascript代码生成的cookie
  • 2、首先将打开谷歌开发者工具(一般按F12即可打开),清除掉网页缓存的cookie参数以及其他的参数,一般我们选择一个Clear Storage即可
    在这里插入图片描述
    在这里插入图片描述
  • 3、清掉缓存后,再刷新网页,同样在谷歌开发者工具Application的位置查看是否有HttpOnly属性,或者是第一个请求的响应头里面的Set-Cookie , 测试网站
    在这里插入图片描述
    在这里插入图片描述

三、如何判断是否有cookie反爬

  • 删掉cookie,重放请求,看是否还能和之前一样请求到一样的响应数据内容,如果能,则没有cookie反爬,如果不能,则有cookie反爬
  • 如何确定cookie哪个参数是反爬的关键,测试法,多个键值对一个一个删,看谁影响到了,具体的看b站视频十一姐时一介绍讲解
  • 测试:通过重放请求与删除单个cookie测试
    在这里插入图片描述
    在这里插入图片描述

四、来自服务器生成的cookie反爬解决方法(视频讲解见b站十一姐时一)

  • 1、来自服务器生成的cookie,一般我们不用管,只需要请求对应的链接即可,可以直接用会话session保持,比如requests里面的session

  • 2、案例一,szxx_session的cookie反爬 , 以及请求头参数X-Csrf-Token反爬 , 案例视频手把手讲解
    在这里插入图片描述

  • 3、代码-仅供学习交流

    # -*- coding: utf-8 -*-            
    # @Time : 2023-07-23
    # @Author: sy
    # @公众号: 逆向OneByOne
    # @url: http://www.zjmazhang.gov.cn/hdjlpt/published?via=pc
    import urllib3
    import re
    from loguru import logger
    import requests
    urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
    
    
    def _requests(url, data=None):
        if data:
            res = ses.post(url, headers=headers, data=data, timeout=10)
        else:
            res = ses.get(url, headers=headers, timeout=10)
        logger.info(f">>>requests {
            
            url}")
        logger.success(f">>>status_code 【{
            
            res.status_code}】 res.cookies {
            
            res.cookies} ses.cookies {
            
            ses.cookies}")
        if res.status_code in [521, 412, 202, 200]:
            return res
    
    
    def page(token):
        post_url = "http://www.zjmazhang.gov.cn/hdjlpt/letter/pubList"
        form_data = {
          
          
            "offset": "0",
            "limit": "20",
            "site_id": "759010"
        }
        headers.update({
          
          "X-Csrf-Token": token})
        resp = _requests(post_url, form_data)
        print(resp.text)
        print("请问麻章区办理居住证需要满足什么条件?" in resp.text)
    
    
    def index():
        index_url = "http://www.zjmazhang.gov.cn/hdjlpt/published?via=pc"
        resp = _requests(index_url)
        print("请问麻章区办理居住证需要满足什么条件?" in resp.text)
        xsrf_token = re.search(r"var _CSRF = '(.*?)';",resp.text).group(1)
        return xsrf_token
    
    
    ses = requests.session()
    headers = {
          
          
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
        "Accept-Encoding": "gzip, deflate",
        "Accept-Language": "zh-CN,zh;q=0.9",
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36"
    }
    _token = index()
    page(_token)
    

五、来自js生成的cookie反爬解决方法(视频讲解见b站十一姐时一)

1、hook-cookie脚本
  • 1、来自js生成的cookie需要解密研究,可以通过hook-cookie的方式定位,cookie生成位置,然后回溯生成逻辑过程, 案例视频手把手教-上
    (function() {
          
          
       'use strict';
        var _cookie = ""; // hook cookie
        Object.defineProperty(document, 'cookie', {
          
          
            set: function(val) {
          
          
                console.log('cookie set->', new Date().getTime(), val);
                debugger;
                _cookie = val;
                return val;
            },
            get: function() {
          
          
                return _cookie;
            }
       });
    })()
    
2、过无限debugger之(function(){}constructor(‘debugger’)()
  • 1、为什么浏览器打开控制台会进入无限debugger的代码,而不打开就会正常执行也不会卡死?案例视频手把手教-中

    • 代码中明确插入了 debugger 关键字,浏览器才会在相应位置进入调试模式。所以可以通过检测控制台是否打开,并在代码中插入 debugger 关键字,让在控制台打开的情况下触发调试器断点,从而阻止爬虫程序的正常执行
    • 如果浏览器的控制台没有打开,那么 (function(){}constructor('debugger')() 这段代码将被正常执行,而不会触发调试器断点
    • 当控制台打开时,浏览器会执行 (function(){}constructor('debugger')() 这段代码,并在构造函数中的字符串参数 ‘debugger’ 处触发调试器断点,导致代码陷入循环调试状态
  • 2、一种检验浏览器控制台打开的方式之一
    在这里插入图片描述

  • 3、不推荐 Never pause here过无限debugger,RangeError: Maximum call stack size exceeded , 这个错误表示递归调用的层级太深,超过了 JavaScript 引擎的处理能力;从而造成内存溢出,浏览器卡死
    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述

  • 4、本次案例,过无限debugger,选择如下方式 , (function(){}constructor('debugger')()
    在这里插入图片描述

    // 1. 备份之前的Function.prototype.constructor
    Function.prototype.constructor_= Function.prototype.constructor
    // 2. 重写Function.prototype.constructor 
    Function.prototype.constructor = function() {
          
          
        if (arguments[0] === 'debugger') {
          
          
            return
        } else {
          
          
            return Function.prototype.constructor_.apply(this, arguments)
        }
    }
    
3、逆向扣代码生成cookie-acw_sc__v2
  • 1、本次案例,来自客户端生成的cookie反爬acw_sc__v2 和服务器的cookie反爬xq_a_token案例视频手把手教-下在这里插入图片描述在这里插入图片描述
  • 2、代码-仅供学习交流
    # -*- coding: utf-8 -*-            
    # @Time : 2023-07-30
    # @Author: sy
    # @公众号: 逆向OneByOne
    # @url: https://xueqiu.com/today
    # @desc: acw_sc__v2 cookie  xq_a_token 反爬
    # encoding: utf-8
    import execjs  # pip install execjs
    from loguru import logger
    import requests
    import re
    
    
    def get_acw_sc__v2(arg1):
        """python还原逻辑"""
    
        def unsbox(_string):
            _a = [15, 35, 29, 24, 33, 16, 1, 38, 10, 9, 19, 31, 40, 27, 22, 23, 25, 13, 6, 11, 39, 18, 20, 8, 14, 21, 32,
                  26, 2, 30, 7, 4, 17, 5, 3, 28, 34, 37, 12, 36]
            _b = [""] * len(_a)
            for _i in range(len(_string)):
                _temp = _string[_i]
                for _j in range(len(_a)):
                    if _a[_j] == _i + 1:
                        _b[_j] = _temp
            _b = [x for x in _b if x.strip() != ""]
            return "".join(_b)
    
        def hex_xor(_string, _x):
            result = ""
            _i = 0
            while _i < len(_string) and _i < len(_x):
                _a = int(_string[_i: _i + 2], 16)
                _b = int(_x[_i: _i + 2], 16)
                _c = hex(_a ^ _b).replace("0x", "")
                _c = "0" + _c if len(_c) == 1 else _c
                result += _c
                _i += 2
            return result
    
        # string1 = '0F4A08CC6A35765EC0286D04833CFDEFF20E73F5'
        string1 = "3000176000856006061501533003690027800375"
        string2 = unsbox(arg1)
        arg2 = hex_xor(string2, string1)
        return arg2
    
    
    def method_2():
        """ 第二种方式直接python请求 """
        headers = {
          
          
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36",
        }
        url = "https://xueqiu.com/today"
        # 第一次请求
        ses = requests.session()
        res = ses.get(url, headers=headers, timeout=10)
        arg1 = re.search("arg1='(.*?)'", res.text).group(1)
        print(dict(ses.cookies))
        ses.cookies.update({
          
          "acw_sc__v2": get_acw_sc__v2(arg1)})
        # # 第二次请求
        ses.get(url, headers=headers, timeout=10)
        print(dict(ses.cookies))
        # 第三次请求
        url = "https://xueqiu.com/query/v1/status/hots.json?count=10&page=1&scope=day&type=news"
    	resp = ses.get(url=url,  headers=headers, timeout=10)
    	for item in resp.json()['data'][:1]:
            title = item['title']
            desc = item['description']
            logger.success(f"title is {
            
            title}  >>>>>  {
            
            desc}")
    
    
    
    method_2()
    

猜你喜欢

转载自blog.csdn.net/weixin_43411585/article/details/131880328