Work Records

1. 设计并实现large scale, distributed deep learning inference platform

API Server, CLI (FLask, Mysql)

  1. 接入公司CAS,实现用户鉴权 (CAS SSO)

ModelZoo (Flask, OS, HDFS)

  1. 设计并实现ModelZoo,接收用户上传并转换好的模型(ONNX -> TensorRT), 进行模型的版本控制,并存储到TOS,HDFS
  2. 测试Tfserving

Mesos

  1. 增加cAdvisor 的docker 性能监控 (metrics,grafana)

Marathon

  1. 修改Marathon,实现Docker Containerizer支持NV docker,实现资源的隔离

2. 改进并维护deep learning inference platform Arnold

  1. 访问数据库,得到训练任务的统计数据
    分不同的部门,集群,训练框架,任务状态
  2. 增加训练框架支持
  3. 制作report

3. RDMA性能监控

  1. 新机器加入集群
  2. 测试RDMA通信是否正常
  3. 部署监控服务,保证RDMA网络正常

猜你喜欢

转载自www.cnblogs.com/lawrenceSeattle/p/10285715.html