Hystrix
简介
Hystrix
是 Netlifx
开源的一款容错框架,防雪崩利器,具备服务降级,服务熔断,依赖隔离,监控(Hystrix Dashboard
)等功能
Hystrix
服务熔断产生的背景
分布式系统环境下,服务间类似依赖非常常见,一个业务调用通常依赖多个基础服务。如下图,对于同步调用,当库存服务不可用时,商品服务请求线程被阻塞,当有大批量请求调用库存服务时,最终可能导致整个商品服务资源耗尽,无法继续对外提供服务。并且这种不可用可能沿请求调用链向上传递,这种现象被称为雪崩效应
引起雪崩效应常见场景
- 硬件故障:如服务器宕机,机房断电,光纤被挖断等
- 流量激增:如异常流量,重试加大流量等
- 缓存击穿:一般发生在应用重启,所有缓存失效时,以及短时间内大量缓存失效时。大量的缓存不命中,使请求直击后端服务,造成服务提供者超负荷运行,引起服务不可用
- 程序
BUG
:如程序逻辑导致内存泄漏,JVM
长时间FullGC
等 - 同步等待:服务间采用同步调用模式,同步等待造成的资源耗尽
雪崩效应应对策略
针对造成雪崩效应的不同场景,可以使用不同的应对策略,没有一种通用所有场景的策略,参考如下:
- 硬件故障:多机房容灾、异地多活等
- 流量激增:服务自动扩容、流量控制(限流、关闭重试)等
- 缓存击穿:缓存预加载、缓存异步加载等
- 程序
BUG
:修改程序bug
、及时释放资源等 - 同步等待:资源隔离、
MQ
解耦、不可用服务调用快速失败等。资源隔离通常指不同服务调用采用不同的线程池;不可用服务调用快速失败一般通过熔断器模式结合超时机制实现
综上所述,如果一个应用不能对来自依赖的故障进行隔离,那该应用本身就处在被拖垮的风险中。 因此,为了构建稳定、可靠的分布式系统,我们的服务应当具有自我保护能力,当依赖服务不可用时,当前服务启动自我保护功能,从而避免发生雪崩效应
初探 Hystrix
Hystrix
设计目标,作用
- 对来自依赖的延迟和故障进行防护和控制——这些依赖通常都是通过网络访问的
- 阻止故障的连锁反应
- 快速失败并迅速恢复
- 回退并优雅降级
- 提供近实时的监控与告警
Hystrix
遵循的设计原则
- 防止任何单独的依赖耗尽资源(线程)
- 过载立即切断并快速失败,防止排队
- 尽可能提供回退以保护用户免受故障
- 使用隔离技术(例如隔板,泳道和断路器模式)来限制任何一个依赖的影响
- 通过近实时的指标,监控和告警,确保故障被及时发现
- 通过动态修改配置属性,确保故障及时恢复
- 防止整个依赖客户端执行失败,而不仅仅是网络通信
Hystrix
如何实现这些设计目标
- 使用命令模式将所有对外部服务(或依赖关系)的调用包装在
HystrixCommand
或HystrixObservableCommand
对象中,并将该对象放在单独的线程中执行 - 每个依赖都维护着一个线程池(或信号量),线程池被耗尽则拒绝请求(而不是让请求排队)
- 记录请求成功,失败,超时和线程拒绝
- 服务错误百分比超过了阈值,熔断器开关自动打开,一段时间内停止对该服务的所有请求
- 请求失败,被拒绝,超时或熔断时执行降级逻辑
- 近实时地监控指标和配置的修改
Hystrix
入门
项目概览
Hystrix
的使用(不整合 Feign
)
在使用 Feign
组件作为接口调用远程服务时,是不需要添加 Hystrix
的依赖的。因为 Feign
默认已经集成了 Hystrix
和 Ribbon
。如果单独使用 Hystrix
组件时,可以导入以下依赖
<dependency>
<groupId>org.springframework.cloud</groupId>
<artifactId>spring-cloud-starter-netflix-hystrix</artifactId>
</dependency>
Hystrix-study-user
服务的主启动类
@SpringBootApplication
@EnableEurekaClient
@EnableFeignClients
@EnableCircuitBreaker // 开启断路器
@EnableHystrixDashboard // 开启 Hystrix 的监控仪表盘
public class UserApplication {
private static final Logger log = LoggerFactory.getLogger(UserApplication.class);
public static void main(String[] args) {
SpringApplication.run(UserApplication.class, args);
log.info("===============springcloud user启动了=================");
}
// 解决 hystrix-dashBoard 仪表盘不能访问
@SuppressWarnings({
"rawtypes", "unchecked" })
@Bean
public ServletRegistrationBean getServlet() {
HystrixMetricsStreamServlet streamServlet = new HystrixMetricsStreamServlet();
ServletRegistrationBean registrationBean = new ServletRegistrationBean(streamServlet);
registrationBean.setLoadOnStartup(1);
registrationBean.addUrlMappings("/hystrix.stream");
registrationBean.setName("HystrixMetricsStreamServlet");
return registrationBean;
}
}
Hystrix-study-user
服务的 Feign
的客户端接口
@FeignClient(name = "STUDY-ACTIVITY", fallback = UserFeignFallback.class)
public interface UserFeign {
@RequestMapping(path = {
"/activity/getCoupon" }, method = RequestMethod.POST)
String getCoupon(@RequestBody Integer id);
@RequestMapping(path = {
"/activity/getCouponTimeOut" }, method = RequestMethod.POST)
String getCouponTimeOut(@RequestBody Integer id);
@RequestMapping(path = {
"/demo/timeOut" }, method = RequestMethod.POST)
String timeOut(@RequestParam Integer mills);
// Hystrix 的断路器测试
@RequestMapping(path = {
"/timeOut" }, method = RequestMethod.POST)
String tripTest(@RequestParam Integer mills);
}
Hystrix-study-user
服务的服务降级类
@Component
public class UserFeignFallback implements UserFeign {
@Override
public String getCoupon(Integer id) {
return null;
}
@Override
public String getCouponTimeOut(Integer id) {
return "------超过2000毫秒时,直接进入服务降级处理------";
}
@Override
public String timeOut(Integer mills) {
return "---------------您的请求【超时】或【失败】,已进入服务降级模式了----------------";
}
// Hystrix的断路器测试
@Override
public String tripTest(Integer mills) {
return "-------------请求未通过-----------";
}
}
Hystrix-study-user
服务的 Service
实现类
@Service
public class UserServiceImpl implements UserService {
private static final Logger log = LoggerFactory.getLogger(UserServiceImpl.class);
@Autowired
private UserFeign userFeign;
// 采用 Feign 客户端来调用服务 Hystrix-study-activity
@HystrixCommand(fallbackMethod = "firstLoginError")
@Override
public String firstLogin(Integer id) {
String result = userFeign.getCoupon(id);
log.info("===================result的值为:" + result + "======================");
return result;
}
// 当服务 Hystrix-study-activity 不可用时,这时让其回调这个备用方案
public String firstLoginError(Integer id) {
return "---------您请求的服务暂时不可用,请稍后再试--------------";
}
}
Hystrix-study-user
服务的配置文件
server.port=8080
spring.application.name=study-user
eureka.client.service-url.defaultZone=http://eureka7001.com:8761/eureka/
#事实上,springcloud默认已为Feign整合了Hystrix,要想为Feign打开Hystrix支持,只需要设置feign.hystrix.enabled=true即可。
feign.hystrix.enabled=true
#补充:在springcloud Dalston之前的版本中,Feign默认开启Hystrix支持,无需设置feign.hystrix.enabled=true.
#从springcloud Dalston版本开始,Feign的Hystrix支持默认关闭,需要手动设置开启
#配置Hystrix的超时时间
#default全局有效,service id指定应用有效
hystrix.command.default.execution.timeout.enabled=true #默认为true
#默认值为 1000毫秒(对于每一个标有注解 @FeignClient 的接口的所有抽象方法生效)
#hystrix.command.default.execution.isolation.thread.timeoutInMilliseconds=9000
#显示服务器详细的健康信息
management.endpoint.health.show-details=always
#暴露全部的监控信息(解决hystrix-dashBoard仪表盘不能访问)
management.endpoint.web.exposure.include="*"
服务测试
分别启动 Hystrix-study-activity,Hystrix-study-eureka,Hystrix-study-user
三个服务,使用 Postman
测试如下
此时再关闭 Hystrix-study-activity
服务
说明执行了 UserFeignFallback
服务降级处理类的相应方法
@HystrixCommand
注解的简单使用
依然使用上面的入门项目,只不过不需要引入 Hystrix
的依赖了,直接使用 Feign
客户端进行调用。在使用 Feign
组件作为接口调用远程服务时,是不需要添加 Hystrix
的依赖的。因为 Feign
默认已经集成了 Hystrix
和 Ribbon
。如果单独使用 Hystrix
组件时,可以导入以下依赖
![](/qrcode.jpg)
Hystrix-study-user
服务的 Service
实现类添加方法
execution.isolation.thread.timeoutInMilliseconds
:该属性用来配置方法执行的超时时间。我们在之前对于降级处理时间的配置,都是在全局配置文件 application.yml
中配置的,commandProperties
可以让我们在一些具有独特要求的方法上,单独进行一些配置操作
// 设置Hystrix的服务降级超时时间,超过2000毫秒时,直接进入服务降级处理
@HystrixCommand(commandProperties = {
@HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds", value = "2000") })
@Override
public String firstLoginTimeOut(Integer id) {
String result = userFeign.getCouponTimeOut(id);
log.info("===================result的值为:" + result + "======================");
return result;
}
Hystrix-study-activity
服务的 Controller
类
@Controller
@RequestMapping(path = {
"/activity" })
public class ActivityController {
private static final Logger log = LoggerFactory.getLogger(ActivityController.class);
@RequestMapping(path = {
"/getCouponTimeOut" }, method = RequestMethod.POST)
@ResponseBody
public String getCouponTimeOut(@RequestBody Integer id) {
try {
Random random = new Random();
TimeUnit.SECONDS.sleep(random.nextInt(10) % (7) + 4);
} catch (InterruptedException e) {
e.printStackTrace();
}
log.info("=============该用户首次登陆(注册),领取优惠券失败============");
return "error";
}
}
服务测试
分别启动 Hystrix-study-activity,Hystrix-study-eureka,Hystrix-study-user
三个服务,使用 Postman
测试如下
说明执行了 UserFeignFallback
服务降级处理类的相应方法
修改 Hystrix-study-activity
服务的 Controller
类再测试
@Controller
@RequestMapping(path = {
"/activity" })
public class ActivityController {
private static final Logger log = LoggerFactory.getLogger(ActivityController.class);
@RequestMapping(path = {
"/getCouponTimeOut" }, method = RequestMethod.POST)
@ResponseBody
public String getCouponTimeOut(@RequestBody Integer id) {
log.info("=============该用户首次登陆(注册),领取优惠券成功============");
return "SUCCESS";
}
}
再测试结果
@HystrixCommand
注解的常见使用
@Service
public class UserServiceImpl implements UserService {
private static final Logger log = LoggerFactory.getLogger(UserServiceImpl.class);
@Autowired
private UserFeign userFeign;
@HystrixCommand(threadPoolKey = "time", threadPoolProperties = {
@HystrixProperty(name = "coreSize", value = "2"),
@HystrixProperty(name = "maxQueueSize", value = "20")}, commandProperties = {
@HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds", value = "9000")})
@Override
public String timeOut(Integer mills) {
log.info("-----------mills:的值为:" + mills + "--------------");
return userFeign.timeOut(mills);
}
@HystrixCommand(threadPoolKey = "time_1", threadPoolProperties = {
@HystrixProperty(name = "coreSize", value = "2"),
@HystrixProperty(name = "maxQueueSize", value = "20")}, commandProperties = {
@HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds", value = "9000")})
@Override
public String timeOut_1(Integer mills) {
log.info("-----------mills:的值为:" + mills + "--------------");
return userFeign.timeOut(mills);
}
/**
* Hystrix的断路器测试
*
* 模拟测试:3秒钟内,请求次数达到2次,并且失败率在50%以上,断路器做跳闸动作。跳闸后的活动窗口设置为3秒
*
* 服务的健康状态检查:http://ip:port/actuator/health
* Hystrix的健康状态为:status: "UP"
* Hystrix的断路器跳闸后状态为:status: "CIRCUIT_OPEN"
* 此时要删除服务的降级处理类 UserFeignFallback,才能查看健康状态
*/
@HystrixCommand(commandProperties = {
@HystrixProperty(name = "metrics.rollingPercentile.timeInMilliseconds", value = "3000"),
@HystrixProperty(name = "circuitBreaker.requestVolumeThreshold", value = "2"),
@HystrixProperty(name = "circuitBreaker.errorThresholdPercentage", value = "50"),
@HystrixProperty(name = "circuitBreaker.sleepWindowInMilliseconds", value = "3000")})
@Override
public String tripTest(Integer mills) {
return userFeign.tripTest(mills);
}
}
鉴于篇幅,文章不再赘述,详情可以查看:https://www.cnblogs.com/zhenbianshu/p/9630167.html
Hystrix
与 Ribbon
的超时时间
- 如果
hystrix.command.default.execution.timeout.enabled = true(默认)
,则会有两个执行方法超时的配置:一个就是ribbon
的ReadTimeout
,一个就是熔断器hystrix
的timeoutInMilliseconds
,此时谁的值小谁生效 - 如果
hystrix.command.default.execution.timeout.enabled = false
,则熔断器不进行超时熔断,而是根据ribbon
的ReadTimeout
抛出的异常而熔断,也就是取决于ribbon
ribbon
的ConnectTimeout
配置的是请求服务的超时时间,除非服务找不到,或者网络原因,这个时间才会生效ribbon
还有MaxAutoRetries
对当前实例的重试次数,MaxAutoRetriesNextServer
对切换实例的重试次数,如果ribbon
的ReadTimeout
超时,或者ConnectTimeout
连接超时,会进行重试操作- 由于
ribbon
的重试机制,通常熔断的超时时间需要配置的比ReadTimeout
长,ReadTimeout
比ConnectTimeout
长,否则还未重试就熔断了 - 为了确保重试机制的正常运作,理论上(以实际情况为准)建议
hystrix
的超时时间为:(1 + MaxAutoRetries + MaxAutoRetriesNextServer) * ReadTimeout