Volcano v1.1.0 发布,CNCF 唯一容器批量计算项目

10 月 30 日,Volcano 社区正式发布 v1.1.0 版本 。

Volcano 是基于 Kubernetes 构建的批量计算平台,源自于华为云 AI 容器,提供作业管理、批量调度、依赖管理、资源预留等能力,支持包括 TensorFlow、Spark、MPI、Slurm 在内的多个业界主流计算框架,主要帮助用户将 AI、大数据等资源消耗波动大、计算密集型的业务从传统的 Batch、HPC 系统快速迁移到云原生。

新版本特性包括:

支持 HDRF。HDRF 是一种基于权重树的公平性调度策略。在 Volcano 中,权重树的叶子节点表示待调度 Pod,非叶子节点包含 Task、Job、PodGroup 和 Queue 等。所有节点均有一个正值权重,表示该节点的相对重要性。调度过程中,会根据权重树自动决定 Pod 的调度次序,同时支持权重的动态调整。

支持自动化目标任务识别与资源预留。调度器会自动识别出当前待调度作业队列中优先级最高且等待时间最久的作业,作为目标作业。随后的调度周期中,调度器会为该作业锁定若干节点。被锁定的节点将在目标作业被调度前拒绝新作业的投递,等待当前运行在自身上面的负载逐步退出,以尽可能的腾出空闲资源为目标作业的投递做准备。

支持调度性能监控。通过与Grafana、Prometheus等开源组件的配合,可以直观的查看到Volcano的实时调度情况,包括当前系统的作业总量、状态分布、实时吞吐、时延等核心指标。监控组件也将为调度器性能自动调优提供参考依据。

其他更新。本次版本还加入了其他优化点,如队列权重校验、支持 Pending 作业自定义再入队重试次数、支持 Arm64等。

修复。本次版本修复了 allocate action 调度高优先级任务失败后低优先级任务调度阻塞、指定 minAvailable 小于作业副本数时队列容量超限等 bug。

发布详情页: https://github.com/volcano-sh/volcano/releases/tag/v1.1.0

猜你喜欢

转载自www.oschina.net/news/119662/volcano-1-1-0-released