Centos环境下使用tensorflow2.0分布式训练

其他 2020-04-18 01:43:02 阅读次数: 0

Centos环境下使用tensorflow2.0分布式训练

单机多卡训练

由于一台服务器上配置多个显卡，而在运行tensorflow代码时默认调用第一张显卡，使得其余显卡处于空闲状态，无法充分利用显卡造成速度过慢，内存过小等问题。
在tensorflow2.0中tf.distribute.MirroredStrategy可支持多个 GPU 在同一台主机上训练，使用这种策略时，我们只需实例化一个 MirroredStrategy 策略:

batch_size_per_replica = 16
strategy = tf.distribute.MirroredStrategy()
print('Number of devices: %d' % strategy.num_replicas_in_sync)  # 输出设备数量
batch_size = batch_size_per_replica * strategy.num_replicas_in_sync

虽然机器依然具有 2 块显卡，但程序不使用分布式的设置，直接进行训练，Batch Size 设置为 32。使用单机四卡时，测试总 Batch Size 为 32（分发到单台机器的 Batch Size 为 16）和总 Batch Size 为 64（分发到单台机器的 Batch Size 为 32）两种情况。
MirroredStrategy 过程简介

训练开始前，该策略在所有 N 个计算设备上均各复制一份完整的模型；
每次训练传入一个批次的数据时，将数据分成 N 份，分别传入 N 个计算设备（即数据并行）；
N 个计算设备使用本地变量（镜像变量）分别计算自己所获得的部分数据的梯度；
使用分布式计算的 All-reduce 操作，在计算设备间高效交换梯度数据并进行求和，使得最终每个设备都有了所有设备的梯度之和；
使用梯度求和的结果更新本地变量（镜像变量）；
当所有设备均更新本地变量后，进行下一轮训练（即该并行策略是同步的）。
默认情况下，TensorFlow 中的 MirroredStrategy 策略使用 NVIDIA NCCL 进行 All-reduce 操作。
总的来说：数据并行，模型并行

发布了56 篇原创文章 · 获赞 1 · 访问量 1681

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_44549556/article/details/105084519

Centos环境下使用tensorflow2.0分布式训练

tensorflow1.13分布式训练参考资料 -教程原理

VirtualBox+Centos6.4搭建Hadoop1.1.2分布式环境

【tensorflow2.0】使用TPU训练模型

CentOS 7.3下Hadoop2.8分布式集群安装与测试

Centos7下搭建Hadoop-2.8.4分布式集群

hadoop版本3.1.0分布式环境下执行mapreduce作业

CentOS7分布式部署pyspider

Spark 1.6.1分布式集群环境搭建

Hadoop 2.6.4分布式集群环境搭建

hadoop2.6分布式环境搭建

Hadoop 2.7分布式集群环境搭建

jmeter学习-13分布式环境配置

ZooKeeper3.4.6分布式环境搭建

tensorflow分布式训练

tensorflow 分布式训练

Tensorflow2.0分批训练模型

ColossalAI GPT2分布式训练调试配置—GPT系列训练与部署

1.1分布式-分布式概念

Hadoop2.0分布式集群的平台搭建

Schedulerx2.0分布式计算原理&最佳实践

Schedulerx2.0分布式执行之——广播执行

[翻译] 使用 TensorFlow 进行分布式训练

TensorFlow2.0教程-使用keras训练模型

【tensorflow2.0】使用单GPU训练模型

四、Tensorflow的分布式训练

TensorFlow、PyTorch分布式训练

CentOs6搭建Hadoop1.2.1分布式集群

centos 7虚拟机安装hadoop2.7.6分布式

（三）CentOS7搭建FastDFS V5.11分布式文件系统

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)