深度学习:loss nan accuracy变化小

win11 + rtx3060ti +TensorFlow-gpu+cuda

看似上面的环境非常简单,但是里面的版本对应非常严格,我尝试过TensorFlow2.3.0+cuda10.2,遇到各种奇葩问题:

1.cpu训练数据时,loss和accuracy都正常,且稳定下降;相同数据,gpu训练时loss不下降,accuracy不下降

2.cpu训练时,loss正常,且稳定下降;gpu训练时loss为nan

最后各种google,发现有可能是cuda带来的影响,于是升级了cuda11.2,升级后发现功能更加丝滑、不会出现奇葩问题了。

cuda安装也是坑,如果安装了其它版本,一定要先卸载完全,否则不能正常安装;最后根据安装提示,我安装了vs2019,才顺利完成cuda11.2的安装

运行的时候会提示zlib找不到,下载后放到c:\\windows\system32目录 

http://www.winimage.com/zLibDll/zlib123dllx64.zip