目录
- 背景
- 第一部分 GPU环境
- 第二部分 Tensorflow-GPU环境部署
- 第三部分 Pytorch-GPU环境部署
- 参考文献及资料
背景
本文环境:Ubuntu 16.04
GPU:Nvidia GTX 1080
第一部分 GPU环境
1.1 种类
目前市场上商用GPU主要是N卡(Nvidia生产)和A卡(AMD生产)。本文主要是介绍N卡环境部署。
1 | root@deeplearning:~# lspci -k | grep -A 2 -i "VGA" |
1.2 安装驱动
参看显卡的驱动版本:
1 | root@deeplearning:# ubuntu-drivers devices |
其中建议安装版本是nvidia-430 - third-party free recommended
所以使用下面的命令进行安装:
1 | sudo apt-get update |
上面的方法失败率较高,建议使用手动下载驱动介质后,手动安装。介质在下面NVIDIA官方网址下载:
https://www.nvidia.cn/geforce/drivers/
按照要求检索后,选择最新版本的介质,例如:NVIDIA-Linux-x86_64-510.54.run(2022-03-22)
1 | 使用root用户 |
按照完成后重启os。
使用下面命令查看,注意确认版本:
1 | root@deeplearning:# nvidia-smi |
1.3 安装cuda
CUDA(Compute Unified Device Architecture,统一计算设备架构),是显卡厂商NVIDIA在2007年推出的并行计算平台和编程模型。CUDA仅能在有NVIDIA显卡的设备上才能执行,并不是所有的NVIDIA显卡都支持CUDA,目前NVIDIA的GeForce、ION、Quadro以及Tesla显卡系列上均可支持。根据显卡本身的性能不同,支持CUDA的版本也不同。
首先检查当前系统的 GPU 型号:
1 | root@deeplearning:~# lspci | grep -i nvidia |
去官网(https://developer.nvidia.com/cuda-toolkit)下载介质:
根据系统环境选择配置:
1 | wget https://developer.download.nvidia.com/compute/cuda/11.6.1/local_installers/cuda_11.6.1_510.47.03_linux.run |
安装前线卸载旧的版本,卸载脚本位置:
1 | /usr/local/cuda-9.0/bin/uninstall_cuda_9.0.pl |
验证安装:
1 | root@deeplearning:/usr/local/cuda/extras/demo_suite# ./deviceQuery |
1.4 安装 cuDNN
官网地址:https://developer.nvidia.com/cudnn
下载包:
1 | Navigate to your <cudnnpath> directory containing the cuDNN tar file. |
第二部分 Tensorflow-GPU环境部署
使用下面的命令直接安装:
1 | pip install tensorflow-gpu |
测试:
1 | import tensorflow as tf |
第三部分 Pytorch-GPU环境部署
1.这里pytorch和cudatoolkit版本对应关系:
https://pytorch.org/get-started/previous-versions/
使用下面的语句安装:
1 | pip3 install torch==1.11.0+cu113 torchvision==0.12.0+cu113 torchaudio==0.11.0+cu113 -f https://download.pytorch.org/whl/cu113/torch_stable.html |
测试:
1 | import torch |