[GPU AMD] Entraînement de modèle d'IA à l'aide d'une carte A

Faire des réclamations

rocm a été mis à jour tant de versions, pourquoi n'y a-t-il pas de version Windows
~~####Les utilisateurs de RX580 ne
prendront pas en charge RX580 après la version rocm4.0, ordures AMD

Configuration de l'appareil utilisée

Linux : Ubuntu20.04.1
Processeur : R9-5900hx
GPU : RX6800M 12G
Python : 3.10.6

Installer le pilote GPU

Si vous avez installé avec succès le pilote GPU, vous pouvez l'ignorer . Si vous avez déjà installé d'autres versions et que le pilote n'a pas réussi, entrez le pilote de désinstallation
dans le terminal.
sudo amdgpu-install --uninstall

Visitez le site officiel amd pour télécharger amdgpu-install_xxxxxx.xxxxxx_all.deb

Entrez le répertoire où se trouve le package d'installation,
puis entrez dans le terminal : sudo apt install ./amdgpu-install_xxxxxxx-xxxxxx_all.deb(Remarque : amdgpu-install_xxxxxxx-xxxxxx_all.deb fait référence à la version amdgpu que vous avez téléchargée

puis sudo apt updateencoresudo apt upgrade -y

Lancer l'installation du pilote

sudo amdgpu-install --no-dkms
sudo apt install rocm-dev
//安装完后重启
sudo reboot

Environnement de configuration

ls -l /dev/dri/render*
sudo usermod -a -G render $LOGNAME
sudo usermod -a -G video $LOGNAME
sudo reboot

test

# 显示gpu性能监控
rocm-smi
#查看显卡信息的两条命令(直接在终端输入)
/opt/rocm/bin/rocminfo
/opt/rocm/opencl/bin/clinfo
#有一条报错可能是没安装好

ajouter un chemin

echo 'export PATH=$PATH:/opt/rocm/bin:/opt/rocm/profiler/bin:/opt/rocm/opencl/bin/x86_64' | sudo tee -a /etc/profile.d/rocm.sh

Installer MIopen

#安装hip
sudo apt-get install miopen-hip
#下载miopenkernels,适用与gfx1030的a卡,如果你不是可以试一下
链接:https://www.123pan.com/s/xW39-oyMmH
sudo dpkg -i miopenkernels-gfx1030-36kdb_1.1.0.50200-65_amd64.deb

Architecture RDNA2 installer pytorch

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/rocm5.1.1

Les utilisateurs de RX580 (gfx803) installent ceci

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/rocm3.7

exécuter stable-diffusion-webui

sudo apt install git
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
#一般会提示pip版本太低,更新一下
python -m pip install --upgrade pip wheel
pip install -r requirements.txt' -i https://pypi.tuna.tsinghua.edu.cn/simple
HSA_OVERRIDE_GFX_VERSION=10.3.0 python launch.py --precision full --no-half
#HSA_OVERRIDE_GFX_VERSION可以模拟版本可以填9.0.0或者8.0.3(没试过)
//一般来讲会提示没有模型,如果有扔./models/Stable-diffusion里,本文不提供,自行百度

Erreur cuda rapide, solution

la torche ne peut pas utiliser le gpu

#打开launch.py找到这句代码
commandline_args = os.environ.get('COMMANDLINE_ARGS', "")
#改成
commandline_args = os.environ.get('COMMANDLINE_ARGS', "--skip-torch-cuda-test")

Résolution de problème

rocm-gdb s'appuie sur libpython3.8 pour résoudre

Dans les logiciels et mises à jour - autres logiciels - ajoutez les sources logicielles suivantes

deb https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy main

Mettre à jour la source du logiciel

sudo apt upgrade
sudo apt update

Installez libpython3.8 et relancez amdgpu-install

sudo apt install libpython3.8
sudo apt install rocm-dev

rocm-llvm dépend de python mais ne peut pas l'installer

Trouver un répertoire à exploiter

apt download rocm-llvm
ar x rocm-llvm_xxxx.xxxxx_amd64.deb
tar xf control.tar.xz
#编辑文件,如果没有vim将先安装sudo apt install vim
vim control
#找到如下一行:
Depends: python, libc6, libstdc++6|libstdc++8, libstdc++-5-dev|libstdc++-7-dev, libgcc-5-dev|libgcc-7-dev, rocm-core
#改为如下内容:
Depends: python3, libc6, libstdc++6|libstdc++8, libstdc++-5-dev|libstdc++-7-dev|libstdc++-10-dev, libgcc-5-dev|libgcc-7-dev|libgcc-10-dev, rocm-core
#重新打包
tar c postinst prerm control | xz -c > control.tar.xz
ar rcs rocm-llvm.deb debian-binary control.tar.xz data.tar.xz
#安装前先安装依赖
sudo apt install libstdc++-10-dev libgcc-10-dev rocm-core
#安装
sudo dpkg -i rocm-llvm.deb
#重新安装驱动
sudo amdgpu-install --no-dkms

Erreur de syntaxe / changement de version de python lors de l'exécution de launch.py

La plupart du temps, votre python par défaut d'ubuntu ne correspond pas

#先查看本地安装了多少个python
ls /usr/bin/python*
#正常来讲会出现一下内容
#/usr/bin/python      /usr/bin/python3.10-config  /usr/bin/python3-futurize
#/usr/bin/python3     /usr/bin/python3.8          /usr/bin/python3-pasteurize
#/usr/bin/python3.10  /usr/bin/python3-config 
#我们要用的是python3.10的,所以
sudo rm /usr/bin/python  #删除原来的链接
sudo ln -s /usr/bin/python3.10 /usr/bin/python    #创建新的链接
python --version    #测试

Impossible de fonctionner sans point de contrôle. Recherchez et placez un fichier .ckpt dans l'un de ces emplacements. Le programme se terminera.

Vous n'avez pas de modèle, mettez le modèle dans /models/Stable-diffusion (fichier cpkt)

Après avoir installé le pilote, redémarrez l'écran noir

Lors du démarrage, sélectionnez le deuxième élément (mode de récupération), puis sélectionnez le premier élément pour continuer à entrer dans le système et désinstallez le pilote après l'entrée.

Le plugin de téléchargement a expiré après l'exécution

La vitesse de téléchargement des plugins dépend de la fluidité de l'accès à github. Si vous êtes bloqué, modifiez launch.py
​​. Exemple

gfpgan_package = os.environ.get('GFPGAN_PACKAGE', "git+https://github.com/TencentARC/GFPGAN.git@8d2447a2d918f8eba5a4a01463fd48e45126a379")
修改成
gfpgan_package = os.environ.get('GFPGAN_PACKAGE', "git+ https://ghproxy.com/https://github.com/TencentARC/GFPGAN.git@8d2447a2d918f8eba5a4a01463fd48e45126a379")

Surveillance du GPU (en référence au GPU qui ne fonctionne pas)

Exécutez webui avec l'environnement root (je ne l'ai pas essayé)

su
#输入密码,如果没设置就用sudo passwd root设置密码
HSA_OVERRIDE_GFX_VERSION=10.3.0 python launch.py --precision full --no-half
#HSA_OVERRIDE_GFX_VERSION可以模拟版本可以填9.0.0或者8.0.3(没试过)

s'amuser

Entrez dans le répertoire webui et effectuez les opérations suivantes

HSA_OVERRIDE_GFX_VERSION=10.3.0 python launch.py --precision full --no-half

S'il y a une erreur de hanche lors de l'exécution, vous pouvez l'ignorer si vous ne trouvez pas gfx1030 ou d'autres numéros de version, attendez un moment et vous ne serez pas invité à une génération ultérieure (cela se produit chaque fois que vous démarrez le première exécution)

Surveillance de la carte graphique (en option)

sudo apt install radeontop
radeontop

Je suppose que tu aimes

Origine blog.csdn.net/qq_44948500/article/details/127346390
conseillé
Classement