SpringCloudAlibaba:服务容错之Sentinel学习

目录

一、高并发带来的问题

服务雪崩效应

二、常见容错方案

(一)隔离

(二)超时

(三)限流

(四)熔断

(五)降级

三、常见的容错组件

四、Sentinel概述

(一)Sentinel 特征:

(二)两个重要概念

五、安装Sentinel控制台

1、下载jar包,上传到服务器

2、编写启动脚本(根据官网启动命令)

六、Sentinel规则

(一)流量控制规则

1、QPS流控

2、并发线程数

(二)隔离与降级

1、Feign整合Sentinel

2、线程隔离

(三)熔断降级规则

1.慢调用比例 (SLOW_REQUEST_RATIO):

2.异常比例 (ERROR_RATIO):

3.异常数 (ERROR_COUNT):

(四)热点规则

七、Sentinel规则持久化

一、概念

二、如何持久化?

1.添加 pom 依赖

2.修改 yml 配置文件,添加 Nacos 数据源配置

3.Nacos 配置管理

三、yml 配置详解(与 Ncaos 整合)

四、json 参数详解

1、流控规则

2、降级规则

3、热点规则

4、系统规则

5、授权规则

五、持久化过程中碰到的错误


一、高并发带来的问题

微服务架构中,我们将业务拆分成一个个的服务,服务与服务之间可以相互调用,但是由于网络原因或者自身的原因,服务并不能保证服务的100%可用,如果单个服务出现问题,调用这个服务就会出现网络延迟,此时若有大量的网络涌入,会形成任务堆积,最终导致服务瘫痪。

服务雪崩效应

在分布式系统中,由于网络原因或自身的原因,服务一般无法保证 100% 可用。如果一个服务出现了问题,调用这个服务就会出现线程阻塞的情况,此时若有大量的请求涌入,就会出现多条线程阻塞等待,进而导致服务瘫痪。 由于服务与服务之间的依赖性,故障会传播,会对整个微服务系统造成灾难性的严重后果,这就是服务故障的 “雪崩效应” 。

二、常见容错方案

要防止雪崩的扩散,我们就要做好服务的容错,容错说白了就是保护自己不被猪队友拖垮的一些措 施, 下面介绍常见的服务容错思路和组件。 常见的容错思路: 常见的容错思路有隔离、超时、限流、熔断、降级这几种,下面分别介绍一下。

(一)隔离

它是指将系统按照一定的原则划分为若干个服务模块,各个模块之间相对独立,无强依赖。当有故 障发生时,能将问题和影响隔离在某个模块内部,而不扩散风险,不波及其它模块,不影响整体的 系统服务。常见的隔离方式有:线程池隔离和信号量隔离.

(二)超时

在上游服务调用下游服务的时候,设置一个最大响应时间,如果超过这个时间,下游未作出反应, 就断开请求,释放掉线程。

(三)限流

限流就是限制系统的输入和输出流量已达到保护系统的目的。为了保证系统的稳固运行,一旦达到 的需要限制的阈值,就需要限制流量并采取少量措施以完成限制流量的目的。

(四)熔断

在互联网系统中,当下游服务因访问压力过大而响应变慢或失败,上游服务为了保护系统整 体的可用性,可以暂时切断对下游服务的调用。这种牺牲局部,保全整体的措施就叫做熔断。

服务熔断一般有三种状态:

熔断关闭状态(Closed): 服务没有故障时,熔断器所处的状态,对调用方的调用不做任何限制

熔断开启状态(Open):后续对该服务接口的调用不再经过网络,直接执行本地的fallback方法

半熔断状态(Half-Open):尝试恢复服务调用,允许有限的流量调用该服务,并监控调用成功率。如果成功率达到预期,则说明服务已恢复,进入熔断关闭状态;如果成功率仍旧很低,则重新进入熔断关闭状 态。

(五)降级

降级其实就是为服务提供一个托底方案,一旦服务无法正常调用,就使用托底方案。

三、常见的容错组件

Hystrix

Hystrix是由Netflix开源的一个延迟和容错库,用于隔离访问远程系统、服务或者第三方库,防止 级联失败,从而提升系统的可用性与容错性。

Resilience4J

Resilicence4J一款非常轻量、简单,并且文档非常清晰、丰富的熔断工具,这也是Hystrix官方推 荐的替代产品。不仅如此,Resilicence4j还原生支持Spring Boot 1.x/2.x,而且监控也支持和 prometheus等多款主流产品进行整合。

Sentinel

Sentinel 是阿里巴巴开源的一款断路器实现,本身在阿里内部已经被大规模采用,非常稳定。

四、Sentinel概述

Sentinel (分布式系统的流量防卫兵) 是阿里开源的一套用于服务容错的综合性解决方案。它以流量 为切入点, 从流量控制、熔断降级、系统负载保护等多个维度来保护服务的稳定性。

Sentinel 分为两个部分:

  • 核心库(Java 客户端)不依赖任何框架/库,能够运行于所有 Java 运行时环境,同时对 Dubbo / Spring Cloud 等框架也有较好的支持。

  • 控制台(Dashboard)基于 Spring Boot 开发,打包后可以直接运行,不需要额外的 Tomcat 等 应用容器

(一)Sentinel 特征:

丰富的应用场景、完备的实时监控、广泛的开源生态、完善的 SPI 扩展点

(二)两个重要概念

1、资源 资源就是Sentinel要保护的东西;资源是 Sentinel 的关键概念。它可以是 Java 应用程序中的任何内容,可以是一个服务,也可以是一个方法,甚至可以是一段代码。

2、规则 规则就是用来定义如何进行保护资源的 作用在资源之上, 定义以什么样的方式保护资源,主要包括流量控制规则、熔断降级规则以及系统 保护规则。

五、安装Sentinel控制台

1、下载jar包,上传到服务器

您可以从 release 页面 下载您需要的班版本的控制台 jar 包。

2、编写启动脚本(根据官网启动命令)

将jar包上传至服务器,并在同一目录下创建启动脚本start.sh,内容如下:

  1. 创建start.sh

    [root@localhost sentinel]# touch start.sh  
  2. 编辑start.sh文件(使用命令或者使用Xtfp软件进行编辑)

    [root@localhost sentinel]# vim start.sh

    将下面内容复制到文件中,如若8081端口冲突,可使用 -Dserver.port=新端口 进行设置。

    rm -rf /sentinel/sentinel.log
    nohup java -Dserver.port=8081 -Dcsp.sentinel.dashboard.server=localhost:8081 -Dproject.name=sentinel-dashboard -jar sentinel-dashboard-1.8.6.jar > /sentinel/sentinel.log 2>&1 &
  3. 给予权限

    [root@localhost sentinel]# chmod 777 start.sh
  4. 启动sentinel控制台

    [root@localhost sentinel]# ./start.sh
  5. 访问控制台:192.168.XXX.XXX:8081 (Linux系统IP地址,可使用 ip a 命令查看) 进行访问

    username:sentinel    password:sentinel

  

六、Sentinel规则

(一)流量控制规则

流量控制,其原理是监控应用流量的QPS(每秒查询率) 或并发线程数等指标,当达到指定的阈值时对流量进行控制,以避免被瞬时的流量高峰冲垮,从而保障应用的高可用性。

项目中引入jar包

<dependency>
    <groupId>com.alibaba.cloud</groupId>
    <artifactId>spring-cloud-starter-alibaba-sentinel</artifactId>
</dependency>

1、QPS流控

(1)yml文件配置

spring:
  cloud:
    sentinel: # 服务容错
      transport:
        dashboard: 192.168.177.129:8081
        port: 8719

(2)定义资源

@RestController
@RefreshScope // 在需要动态读取配置的类上添加此注解就可以(动态配置刷新)
@RequestMapping("/user")
public class UserController {    
    @RequestMapping("/get1")
    @SentinelResource(value = "/resource/user/get1", blockHandler = "blockHandlerForGet1")
    public Integer get1(){
        return 111111;
    }
​
    public Integer blockHandlerForGet1(BlockException ex) {
        return 999999;
    }
}

(3)启动项目,发送请求(http://localhost:端口号/user/get1)

(4)定义限流规则 点击簇点链路,我们就可以看到访问过的接口地址,然后点击对应的(@SentinelResource注解的value的值)流控按钮,进入流控规则配置页面。新增流控规则界面如下:

  • 资源名: 唯一名称,默认是请求路径,可自定义

  • 针对来源: 指定对哪个微服务进行限流,默认指default,意思是不区分来源,全部限制 阈值类型/单机阈值:

    QPS(每秒请求数量): 当调用该接口的QPS达到阈值的时候,进行限流。 线程数:当调用该接口的线程数达到阈值的时候,进行限流。

  • 是否集群:暂不需要集群

(5)效果

再快速通过网页发送多次请求,会发现每秒只有两次是get1结果,其余超出的都是blockHandlerForGet1的结果。

2、并发线程数

Sentinel并发控制是指使用Sentinel来限制接口的最大并发访问量。Sentinel并发控制不负责创建和管理线程池,而是简单统计当前请求上下文的线程数且(正在执行的调用数目),如果超出阈值,新的请求会被立即拒绝,效果类似于信号量隔离。并发数控制通常在调用端进行配置。

(1)定义资源

@RequestMapping("/get1")
@SentinelResource(value = "/resource/user/get1", blockHandler = "blockHandlerForGet1")
public Integer get1(){
    try {
        Thread.sleep(5000);
    } catch (Exception e) {
        throw new RuntimeException(e);
    }
    return 666666;
}
//   blockHandler 函数会在原方法被限流/降级/系统保护的时候调用
public Integer blockHandlerForGet1(BlockException ex){
    return 999999;
}

(2)定义限流规则

(3)测试

使用Postman进行测试,建立多个请求,都发送请求进行测试。

3、流控模式

sentinel共有三种流控模式,分别是:

  • 直接(默认):接口达到限流条件时,开启限流

  • 关联:当关联的资源达到限流条件时,开启限流 [适合做应用让步]

  • 链路:当从某个接口过来的资源达到限流条件时,开启限流

4、流控效果

在Sentinel中,当流控规则生效时,会对超出阈值的请求进行限流处理。常见的限流策略有:

  1. 直接拒绝:直接拒绝超出阈值的请求,返回限流提示。

  2. 慢启动(Warm Up):它从开始阈值到最大QPS阈值会有一个缓冲阶段,一开始的阈值是最大QPS阈值的1/3,然后慢慢增长,直到最大阈值,适用于将突然增大的流量转换为缓步增长的场景。

    举个例子,阀值为10,预热时长设置5秒。 系统初始化的阀值为10 / 3约等于3,即阀值刚开始为3,然后过了 5秒后阀值才慢慢升高恢复到10。

  3. 排队等待:超出阈值的请求会加入等待队列,当阈值允许时依次放行,如果等待超时则拒绝。

(二)隔离与降级

现代微服务架构都是分布式的,由非常多的服务组成。不同服务之间相互调用,组成复杂的调用链路。以上的问题在链路调用中会产生放大的效果。复杂链路上的某一环不稳定,就可能会层层级联,最终导致整个链路都不可用。因此我们需要对不稳定的弱依赖服务调用进行熔断降级,暂时切断不稳定调用,避免局部不稳定因素导致整体的雪崩。熔断降级作为保护自身的手段,通常在客户端(调用端)进行配置。

1、Feign整合Sentinel

  1. 修改application.yml开启Feign的Sentinel功能

    feign:
      sentinel:
        enabled: true
  2. 创建feign远程调用接口

    @FeignClient(value = "order-server",path = "/order")
    public interface OrderFeign {
        
        @GetMapping("/get1")
        Integer get1();
    }
    ​
  3. 给feignClient编写失败后的降级逻辑 方式一:FallbackClass 无法对远程调用的异常做处理 方式二:FallbackFactory 可以对远程调用的异常做处理

    public class UserClientFallbackFactory implements FallbackFactory<OrderFeign> {
        @Override
        public OrderFeign create(Throwable cause) {
            return new OrderFeign() {
                @Override
                public Integer get1() {
                    return 123456;
                }
            };
        }
    }
    ​
  4. 将降级工程注册为一个Bean

    @Configuration
    public class SentinelConfig {
        @Bean
        public UserClientFallbackFactory userClientFallbackFactory(){
            return new UserClientFallbackFactory();
        }
    }
  5. 给feign远程调用接口指定降级工厂

    @FeignClient(value = "order-server",path = "/order",fallbackFactory = UserClientFallbackFactory.class)
    public interface OrderFeign {
    ​
        @GetMapping("/get1")
        Integer get1();
    }

2、线程隔离

线程隔离有两种实现方式:

  • 线程池隔离

  • 信号量隔离(Sentinel默认采用)

(三)熔断降级规则

现代微服务架构都是分布式的,由非常多的服务组成。不同服务之间相互调用,组成复杂的调用链路。以上的问题在链路调用中会产生放大的效果。复杂链路上的某一环不稳定,就可能会层层级联,最终导致整个链路都不可用。因此我们需要对不稳定的弱依赖服务调用进行熔断降级,暂时切断不稳定调用,避免局部不稳定因素导致整体的雪崩。熔断降级作为保护自身的手段,通常在客户端(调用端)进行配置。

熔断策略:

1.慢调用比例 (SLOW_REQUEST_RATIO):

选择以慢调用比例作为阈值,需要设置允许的慢调用 RT(即最大的响应时间),请求的响应时间大于该值则统计为慢调用。当单位统计时长(statIntervalMs)内请求数目大于设置的最小请求数目,并且慢调用的比例大于阈值,则接下来的熔断时长内请求会自动被熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求响应时间小于设置的慢调用 RT 则结束熔断,若大于设置的慢调用 RT 则会再次被熔断。

解读:如果在统计时长10秒内,发送的请求超过10个,并且其中百分之50(比例阈值)的请求时间超过了500ms(最大RT),则触发熔断,熔断时长为5s,在5s时间之内所有请求都将无法访问,等进入half-open状态,放行一次请求进行测试。

2.异常比例 (ERROR_RATIO):

当单位统计时长(statIntervalMs)内请求数目大于设置的最小请求数目,并且异常的比例大于阈值,则接下来的熔断时长内请求会自动被熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求成功完成(没有错误)则结束熔断,否则会再次被熔断。异常比率的阈值范围是 [0.0, 1.0],代表 0% - 100%。

3.异常数 (ERROR_COUNT):

当单位统计时长内的异常数目超过阈值之后会自动进行熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求成功完成(没有错误)则结束熔断,否则会再次被熔断。注意由于统计时间窗口是分钟级别的,若时间窗口小于 60s,则结束熔断状态后仍可能再进入熔断状态。

(四)热点规则

// 测试热点规则
@RequestMapping("/get2")
@SentinelResource(value = "/resource/user/get2", blockHandler = "blockHandlerForTest")
public Integer get2(@RequestParam("id") Integer id){
	return 666666;
}

public Integer blockHandlerForTest(Integer id, BlockException ex) {
	return 999999;
}

七、Sentinel规则持久化

push模式:控制台将配置规则推送到远程配置中心,例如Nacos。Sentinel客户端监听Nacos,获取配置变更的推送消息,完成本地配置更新。

一、概念

当应用重启后,Sentinel 规则就消失了,生产环境需要将配置的规则进行持久化

二、如何持久化?

将限流、熔断配置规则持久化进 Nacos 保存,只要刷新被监控的应用,Sentinel 控制台的流控规则就能看到,持久化后无需重新配置才能看到。只要 Nacos 里面的配置不删除,针对该应用的Sentinel上的流控规则持续有效。

1.添加 pom 依赖

<dependency>
    <groupId>com.alibaba.csp</groupId>
    <artifactId>sentinel-datasource-nacos</artifactId>
</dependency>

2.修改 yml 配置文件,添加 Nacos 数据源配置

spring:
   cloud:
    sentinel:
      # Sentinel 规则持久化
      datasource:
        # 自定义命名
        flow-rule:
          # 支持多种持久化数据源:file、nacos、zk、apollo、redis、consul
          nacos:
            username: nacos
            password: nacos
            # nacos服务地址
            server-addr: 192.168.177.129:8848
            # 命名空间,根据环境配置
            # namespace: public
            # 这里我做了一下细分,不同规则设置不同groupId
            group-id: USER_SENTINEL_FLOW_GROUP
            # 仅支持JSON和XML类型
            data-id: ${spring.application.name}.yaml
            # 规则类型:flow(流)、degrade(降级)、param-flow(参数流)、system(系统)、authority(权限)
            rule-type: flow
            data-type: json

3.Nacos 配置管理

流控规则持久化配置参数说明:

resource:资源名。

limitApp:来源应用。

grade:阈值类型。0 表示线程数,1 表示是QPS。

count:单机阈值。

strategy:流控模式。0 表示直接,1 表示关联,2 表示链路。

controlBehavior:流控效果。0 表示快速失败,1 表示Warm up,2 表示排队等待。 clusterMode:是否集群。false 表示否,true 表示是。

测试结果当应用重启后,Sentinel 控制台依旧存在之前配置的规则,规则任然有效。

三、yml 配置详解(与 Ncaos 整合)

spring:
  cloud:
    sentinel:
      datasource:
        # 名称随意
        flow:
          nacos:
            server-addr: localhost:8848
            dataId: ${spring.application.name}-flow-rules
            groupId: SENTINEL_GROUP
            # 规则类型:flow(流)、degrade(降级)、param-flow(参数流)、system(系统)、authority(权限)
            # org.springframework.cloud.alibaba.sentinel.datasource.RuleType
            rule-type: flow
        degrade:
          nacos:
            server-addr: localhost:8848
            dataId: ${spring.application.name}-degrade-rules
            groupId: SENTINEL_GROUP
            rule-type: degrade
        system:
          nacos:
            server-addr: localhost:8848
            dataId: ${spring.application.name}-system-rules
            groupId: SENTINEL_GROUP
            rule-type: system
        authority:
          nacos:
            server-addr: localhost:8848
            dataId: ${spring.application.name}-authority-rules
            groupId: SENTINEL_GROUP
            rule-type: authority
        param-flow:
          nacos:
            server-addr: localhost:8848
            dataId: ${spring.application.name}-param-flow-rules
            groupId: SENTINEL_GROUP
            rule-type: param-flow

四、json 参数详解

1、流控规则

[
  {
    // 资源名
    "resource": "/test",
    // 针对来源,若为 default 则不区分调用来源
    "limitApp": "default",
    // 限流阈值类型(1:QPS;0:并发线程数)
    "grade": 1,
    // 阈值
    "count": 1,
    // 是否是集群模式
    "clusterMode": false,
    // 流控效果(0:快速失败;1:Warm Up(预热模式);2:排队等待)
    "controlBehavior": 0,
    // 流控模式(0:直接;1:关联;2:链路)
    "strategy": 0,
    // 预热时间(秒,预热模式需要此参数)
    "warmUpPeriodSec": 10,
    // 超时时间(排队等待模式需要此参数)
    "maxQueueingTimeMs": 500,
    // 关联资源、入口资源(关联、链路模式)
    "refResource": "rrr"
  }
]

2、降级规则

[
  {
    // 资源名
    "resource": "/test1",
    "limitApp": "default",
    // 熔断策略(0:慢调用比例,1:异常比率,2:异常计数)
    "grade": 0,
    // 最大RT、比例阈值、异常数
    "count": 200,
    // 慢调用比例阈值,仅慢调用比例模式有效(1.8.0 引入)
    "slowRatioThreshold": 0.2,
    // 最小请求数
    "minRequestAmount": 5,
    // 当单位统计时长(类中默认1000)
    "statIntervalMs": 1000,
    // 熔断时长
    "timeWindow": 10
  }
]

3、热点规则

[
  {
    // 资源名
    "resource": "/test1",
    // 限流模式(QPS 模式,不可更改)
    "grade": 1,
    // 参数索引
    "paramIdx": 0,
    // 单机阈值
    "count": 13,
    // 统计窗口时长
    "durationInSec": 6,
    // 是否集群 默认false
    "clusterMode": 默认false,
    // 突发事件计数
    "burstCount": 0,
    // 集群模式配置
    "clusterConfig": {
      // 失败时回退到本地
      "fallbackToLocalWhenFail": true,
      // 流程ID
      "flowId": 2,
      // 示例计数
      "sampleCount": 10,
      // 阈值类型
      "thresholdType": 0,
      // 窗口间隔时间
      "windowIntervalMs": 1000
    },
    // 流控效果(支持快速失败和匀速排队模式)
    "controlBehavior": 0,
    // 针对来源,若为 default 则不区分调用来源
    "limitApp": "default",
    // 超时时间(排队等待模式需要此参数)
    "maxQueueingTimeMs": 0,
    // 高级选项
    "paramFlowItemList": [
      {
        // 参数类型
        "classType": "int",
        // 限流阈值
        "count": 222,
        // 参数值
        "object": "2"
      }
    ]
  }
]

4、系统规则

[
  {
    // RT
    "avgRt": 1,
    // CPU 使用率
    "highestCpuUsage": -1,
    // LOAD
    "highestSystemLoad": -1,
    // 线程数
    "maxThread": -1,
    // 入口 QPS
    "qps": -1
  }
]

5、授权规则

[
  {
    // 资源名
    "resource": "sentinel_spring_web_context",
    // 流控应用
    "limitApp": "/test",
    // 授权类型(0代表白名单;1代表黑名单。)
    "strategy": 0
  }
]

五、持久化过程中碰到的错误

1、Nacos配置文件的属性名与值要和bootstrap.yml要对应上

2、Nacos配置文件中的json要注意格式正确

3、因为设置了Nacos登录,bootstrap.yml文件中但凡是涉及到Nacos下边都要设置username和password。

猜你喜欢

转载自blog.csdn.net/Microhoo_/article/details/131000922