Caffe支持多GPU分布式计算 - 代码天地

Caffe支持多GPU分布式计算

其他 2018-10-31 21:53:17 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/tianrolin/article/details/52513721

Caffe允许多GPU间并行计算，多GPU模式工作模式为“不共享数据，却共享网络”。当目标机器GPU数量大于1时，Caffe将允许多个solver存在，且应用到不同的GPU上去。

vector<int> gpus;
get_gpus(&gpus);
if (gpus.size() > 0)
{
    Caffe::SetDevice(gpus[0]);
    Caffe::set_mode(Caffe::GPU);
    // 启用多个solver
    Caffe::set_solver_count(gpus.size());
}

其中第一个solver会成为root_solver_，其它solver就会成为shared_solver。root_solver_有很大一部分特权，具体有以下几点：

1. LOG(INFO)日志信息：避免产生多份重复的信息，因此只允许root_solver_输出日志信息；

2. 测试：只有root_solver_才能测试，应该是为了减少冗余计算；

3.统计结果：只有root_solver_才能输出统计结果，原因同第一点。

直接使用solver_count的地方是DataLayer层中的DataReader对象。每一个DataLayer都有一个DataReader，DataReader工作方式为异步线程，程序允许同时执行多个DataLayer，但是不可以有多个ConvLayer。

ps: 本文主要参考Physcal《从零开始山寨Caffe·叁：全局线程管理器》一文。

猜你喜欢

转载自blog.csdn.net/tianrolin/article/details/52513721

Caffe支持多GPU分布式计算

Keras多GPU及分布式

horovod tensorflow 分布式多gpu

Pytorch分布式(多GPU)

分布式TensorFlow多主机多GPU原理与实现

pytorch多GPU分布式训练代码编写

多GPU分布式训练笔记

【分布式训练】基于PyTorch进行多GPU分布式模型训练（补充）

Caffe 分布式训练

高版本Keras多GPU和分布式训练（Multi-GPU and distributed training）

深度学习框架Tensorflow分布式实战多机多卡GPU，CPU并行

分布式计算--(分布式+多进程+多线程+多协程)

分布式计算

分布式计算多机部署与配置

支持异构 GPU 集群的超大规模模型的高效的分布式训练框架 Whale

支持异构GPU集群的超大规模模型的高效的分布式训练框架Whale

支持分布式的callback

ehcache 分布式支持

TensorFlow实战-TensorBoard-多GPU并行及分布式并行-第9章

pytorch GPU分布式训练单机单卡、单机多卡

【深入了解PyTorch】PyTorch分布式训练：多GPU、数据并行与模型并行

Hugging Face高效训练技术四：多GPU分布式训练（DP、PP、TP 、ZeRO）

keras multi gpu 分布式训练

python实现GPU分布式训练

Caffe 使用多GPU

给大家分享一篇分布式计算--(分布式+多进程+多线程+多协程)

架构调优（一）：什么是分布式计算方式(分布式+多进程+多线程+多协程)

分布式计算误区

【分布式计算】介绍

python 分布式计算

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)