在服务器指定GPU进行训练

企业开发 2023-07-15 17:53:09 阅读次数: 0

Moviattion

在公司的服务器上的GPU共同使用，我申请到了使用GPU编号为6和7两块GPU，一般情况下代码的默认使用GPU是0，如果GPU 0被其他人占用，那么就需要指定GPU 进行训练。

Method

我整理了两种方法去实现指定的GPU去训练：

1. 在你的Terminal中输入命令。

export CUDA_VISIBLE_DEVICES = 7

然后可以执行你的py文件进行训练。

2. 修改你的python代码。

在你的python代码靠前的地方加上下面的代码：

os.environ["CUDA_VISIBLE_DEVICES"] = "7"

以上两种方法都可以达到使用第7块GPU学习的目的，很遗憾我的代码仅能使用一块GPU，以后我将学习如何使用多块GPU来同时训练模型。

补充，显存的使用关注的是Memory-Usage 这一列，不一定是Volatile GPU-util 利用率。下面这个就是显存占满了，但是却没有利用。利用率为0%。
在这里插入图片描述
这里应该遇到了僵尸进程：

查看pid号
sudo fuser -v /dev/nvidia*
然后kill PId 的进程号
sudo kill -9 pid号码

如果自己不是root用户，那么输入以下指令查看GPU被哪个用户使用

ps -f -p pid_number
ps u pid_number

Torch1.8 和RTX3080 不兼容的问题：

NVIDIA GeForce RTX 3080 Ti with CUDA capability sm_86 is not compatible with the current PyTorch installation. The current PyTorch
install supports CUDA capabilities sm_37 sm_50 sm_60 sm_70.

解决方法：
安装环境的时候，先不要安装torch，使用如下命令去安装torch

> conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch

实时查看GPU 的使用情况

 watch -n 1 -d nvidia-smi

实时查看nohup.out 的内容

tail -f nohup.out

Pycharm 中将一个代码部署到新的服务器上面：

记得右键设置 set as default 将对应的服务器的环境进行更新。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_41623632/article/details/125656662

在服务器指定GPU进行训练

指定服务器特定GPU进行训练的方法

【多GPU训练】选择服务器中部分指定GPU进行使用

在服务器上指定GPU编号进行训练模型（终端指令操作与代码文件内编写均有）

GPU服务器离线训练模型

linux服务器如何指定gpu以及用量

【环境配置】服务器后台指定 GPU 运行代码

在服务器上指定GPU跑代码

通过云服务器租用GPU进行基于YOLOV5的人体检测模型训练

GPU服务器

服务器有多台GPU 如何指定GPU运行程序

tensorflow在训练模型的时候如何指定GPU进行训练

[tensorflow] 在训练模型的时候如何指定GPU进行训练

阿里云GPU云服务器训练神经网络服务器训练深度学习模型

【目标检测实验系列】AutoDL线上GPU服务器租用流程以及如何用Pycharm软件远程连接服务器进行模型训练（以Pycharm远程训练Yolov5项目为例子超详细）

06服务器GPU

便宜的GPU服务器

服务器后台进行Python模型训练

TensorFlow指定GPU/CPU进行训练和输出devices信息

解决YOLOX不能指定GPU进行训练的问题

比对在训练CNN模型任务下ECS服务器和GPU服务器的速度差异

Tensorflow指定GPU训练

【Tensorflow】指定GPU训练

指定GPU训练模型

深度学习训练 | PyCharm远程连接免费云GPU服务器教程

拿到全新的GPU云服务器之后，如何部署环境以训练模型

yolov3 yolov4训练自己的数据集自建数据集训练提供gpu服务器

linux环境新NVIDIA-GPU服务器进行压力测试

向日葵远程控制服务器，辅助周末进行gpu推断监控

配置使用云服务器训练神经网络模型——在阿里GPU服务器训练yolov5模型

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)