Conda配置Tensorflow-gpu错误排查思路梳理

小知识,大挑战!本文正在参与“程序员必备小知识”创作活动

之前配置深度学习环境都还比较顺利,以为这次也不会有什么问题。于是在下午之前的状态都是:写一行指令,切出去看会儿视频,看完切回来再写一行指令.....

结果这次在虚拟环境下配置还是被坑得不轻,最后凌晨才搞定(强迫症,事情不办完睡不着),然后就人生第一次在公司睡了一觉。

现在把问题排查的思路梳理如下,以醒后世(哭惹)。

PS:本文主旨为“完成全套配置操作流程”之后,测试配置是否成功(包括tf是否安装成功,是否能正确识别到gpu)以及若安装不成功,则排查问题可能存在位置的思路。

Let's go!

测试配置是否成功

  1. 在当前虚拟环境中启动python

  2. 测试Tensorflow安装是否成功:

    import tensorflow as tf
    tf.__version__  #注意version前后各两条下划线
    #若输出版本号,则Tensorflow安装成功
    复制代码
  3. 测试Tensorflow是否能找到GPU:

    tf.config.list_physical_devices()
    #r如果输出的列表中,有元素device_type='GPU',则Tensorflow-gpu正常
    复制代码

    或直接使用以下代码:

    tf.config.list_physical_devices('GPU')
    #如果输出非空列表,则Tensorflow-gpu正常
    复制代码

如果上述3步都没有问题,那么你现在可以点一下赞然后退出了,否则请继续向下阅读。

配置故障排查

  1. 如果你是在系统环境中安装的Tensorflow,请务必阅读此条:

    查看系统的CUDA版本可以使用nvcc -V和nvidia-smi两条指令,而CUDA有 runtime apidriver api,nvcc -V的查询结果对应前者,nvidia-smi的查询结果对应后者。两者具体差别如下:

    www.jianshu.com/p/eb5335708…

    安装Tensorflow时,应参照runtime api版本。

  1. 检查Tensorflow/CUDA/cuDNN版本是否匹配:

    点击如下链接比对推荐安装版本和自己安装的版本是否一致:

    www.tensorflow.org/install/sou…

  2. 检查CUDA安装是否成功:

    tf.test.is_built_with_cuda()    #本行代码依旧在python中执行
    #如果输出的布尔值为True,则Tensorflow与CUDA的匹配没有问题
    复制代码
  3. 检查cuDNN安装是否成功:

    image.png

以上,希望能够帮到你。

猜你喜欢

转载自juejin.im/post/7017626833159979015

相关文章