那有卖百度云资源(持续更新)

 2016 年开始,Kubernetes 社区就不断收到来自不同渠道的大量诉求:希望能在 Kubernetes 集群上运行 TensorFlow 等机器学习框架。这些诉求中,除了之前文章所介绍的,像 Job 这些离线任务的管理之外,还有一个巨大的挑战:深度学习所依赖的异构设备及英伟达的 GPU 支持。

我们不禁好奇起来:Kubernetes 管理 GPU 能带来什么好处呢?

本质上是成本和效率的考虑。由于相对 CPU 来说,GPU 的成本偏高。在云上单 CPU 通常是一小时几毛钱,而 GPU 的花费则是从单 GPU 每小时 10 元 ~ 30 元不等,这就要想方设法的提高 GPU 的使用率。

为什么要用 Kubernetes 管理以 GPU 为代表的异构资源?

具体来说是三个方面:

加速部署:通过容器构想避免重复部署机器学习复杂环境;

提升集群资源使用率:统一调度和分配集群资源;

保障资源独享:利用容器隔离异构设备,避免互相影响。

首先是加速部署,避免把时间浪费在环境准备的环节中。通过容器镜像技术,将整个部署过程进行固化和复用,如果同学们关注机器学习领域,可以发现许许多多的框架都提供了容器镜像。我们可以借此提升 GPU 的使用效率。

通过分时复用,来提升 GPU 的使用效率。当 GPU 的卡数达到一定数量后,就需要用到 Kubernetes 的统一调度能力,使得资源使用方能够做到用即申请、完即释放,从而盘活整个 GPU 的资源池。

而此时还需要通过 Docker 自带的设备隔离能力,避免不同应用的进程运行同一个设备上,造成互相影响。在高效低成本的同时,也保障了系统的稳定性。

猜你喜欢

转载自www.cnblogs.com/ibsusbw/p/12191271.html
今日推荐