最近临近中期答辩,在总结一些以前碰到过的坑,以便后人乘凉。回顾了一下去年配置caffe的完整流程,去年双11买的神舟z7m电脑,性价比很高,显卡是GTX965m的,查了计算能力达5.2,刚买回来后就开始捣腾caffe环境下的配置。当时配置过程一波三折,主要卡在显卡驱动这一环节,因为Ubuntu对Nvidia显卡驱动的支持似乎不是很好。下面给出完整的配置流程。
一、安装Ubuntu系统
注意很多教程都选择14.04的版本,但其实它对一些较新的显卡支持并不好。我最开始用的14.04的版本,用尽各种方法安装965m的驱动,重启后要不就是进不了桌面,要不就是循环登录。为此还找了各种乱七八糟的解决办法,什么bumblebee都试过了,没有卵用。考虑到在windows下已经配好了其它可用的框架,在我正打算放弃的时候,我决定用16.04的系统试试,不行就算了。不尝试不知道,安装了16.04的Ubuntu后,显卡驱动安装完后重启成功进入桌面,没有出现各种乱七八糟的奇怪现象。我的结论是:解决版本的兼容性远比通过其它方法来的重要。只要版本能对上,比如Ubuntu16.04能支持GTX965m,那么安上驱动基本不会有问题,根本不需要什么改bios,装bumblebee等其它东西。
制作系统盘,分好空闲500g,然后bios设置u盘启动装Ubuntu双系统。安装过程,注意几点:1)建议语言选择英文版,之前有一次配cpu环境,用英文版的没问题,用中文的就不行了,原因未明;2)分区采取自定义,我是256Mboot,2Gswap,500ghome,剩下的是根分区;第三方软件可以不装,不影响。
此外,应该不少人在u盘安装的时候卡在了Ubuntu的logo界面,那是因为其内置的显卡驱动不支持较新的显卡,用集显启动没有问题,或者直接在选择界面按e,然后在启动参数quietsplash--的两个斜杠去掉,改为nomodeset,按F10即可进入安装界面。其次安装完系统后的那次重启也需要用nomodeset启动才能进入,进入系统后立即修改启动参数:sudovim/etc/modprobe.d/blacklist.conf,最后一行加上blacklistnouveau屏蔽自带驱动,系统便会从集显启动从而成功进入系统,不用每次都再修改启动参数。
新系统启动后,先做几个事情:
安装完整版vim,否则自带的vim方向键会错乱:
sudoapt-getremovevim-common
sudoapt-getinstallvim
设置root密码:
sudopasswdroot
安装必备:
sudoapt-getinstallbuild-essentials
二、安装Nvidia显卡
建议如果是较新的显卡,那么就选择Ubuntu16.04吧,然后在系统设置-》软件更新的附加驱动处进行安装,我装的是系统推荐的Nvidia367.57,安装完重启即可进入桌面;又或者自己去官网搜型号并下载相应驱动run文件,在tty中关掉lightdm进行安装:sudoservicelightdmstop安装然后重启。无需改bios,无需其它附加软件。
安装完重启后,可以打开应用NvidiaSetting可以看到有多个选项,命令行中打:nvidia–smi可以出来显卡信息,cat/proc/driver/nvidia/version可以出来显卡驱动号,用sudoprime-selectquery可以查询当前使用的显卡(安装完或默认使用Nvidia显卡),用sudoprime-selectselectintel/nvidia可以切换显卡,建议不要再切了。
三、安装cuda
注意如果安装16.04的系统,仅支持cuda8.0,好像是官网说的吧。
sudoshcuda_8.0.27_linux.run–-override
一系列提示按照默认即可,注意其中的nvidia驱动就不要装了,以免覆盖最新的,因为cuda中的nvidia驱动不是最新的。按空格键可以快速跳过协议。
设置环境变量和动态链接库:
exportPATH=/usr/local/cuda/bin:$PATH
保存后sudosource/etc/profile生效
创建链接文件:sudovim/etc/ld.so.conf.d/cuda.conf,编辑:
/usr/local/cuda/lib64
保存后sudoldconfig生效
测试sample:
cd/home/hunterlew/NVIDIA_CUDA-8.0_Samples
sudomakeall–j4
据说cuda不支持gcc5.0以上,而16.04自带的超过了该版本,需要修改一个文件,但我的系统很奇怪并没有报错,直接就编译成功了。
编译无报错后,测试:
cd/home/hunterlew/NVIDIA_CUDA-8.0_Samples/bin/x86_64/linux/release
./deviceQuery
如果能打出关于显卡的一系列信息,说明显卡驱动和cuda的安装都没有问题。
四、cudnn安装
加速用,可以下载最新的cudnn-8.0-Linux-x64-v5.1,无脑操作:
tarzxvfcudnn-8.0-Linux-x64-v5.1.tgz
cdcuda/include
sudocpcudnn.h/usr/local/include
cd../lib64
sudocplib*/usr/local/cuda/lib64
(如果复制无效,尝试root权限)
cd/usr/local/cuda/lib64
sudorm–rflibcudnn.solibcudnn.so.5
sudoln–slibcudnn.so.5.0.5libcudnn.so.5
sudoln–slibcudnn.so.5libcudnn.so
五、OpenBLAS
线性代数程序库,加速用,也可以用atlas,intelMKL,可参考我的Ubuntu14.04caffe的cpu模式教程。
六、安装OpenCV
我安装的是3.0.0版本,可以上官网搜,有个大神写好了脚本,有最新的3版本。安装前先安装一些依赖,此处省略。用现成的脚本安装即可,先是依赖,然后再是安装和编译,具体可看脚本内容。注意,OpenCV的编译比较费时。
值得注意的是,cuda8和OpenCV3版本不兼容,会出现NppiGraphcutStatehasnotbeendeclared的错误,需要修改一个文件即可编译通过,网上可以找到,其它错误我没有发现。耐心等待吧…
七、安装Caffe
万事具备只欠东风。git最新的caffe:
sudoapt-getinstallgit
gitclonehttps://github.com/BVLC/caffe.git,进入目录修改makefile文件:
cd/home/hunterlew/caffe
cpMakefile.config.exampleMakefile.config
vimMakefile.config
有以下几个地方要修改:
1)USE_CUDNN:=1取消注释
2)BLAS:=open,这个根据自己的实际情况,如果是OpenBLAS的需要加上路径
3)OPENCV_VERSION:=3
4)INCLUDE_DIRS在后面加一个空格,加上/usr/include/hdf5/serial,否则会报一个找不到hdf5.h的错误。
然后就是编译安装:
cd/home/hunterlew/caffe
makeall–j4
maketest–j4
makeruntest
如果有需要用python接口,安装一些依赖。
sudoapt-getinstallpython-pip
cd/home/hunterlew/caffe/python
sudosu–
forreqin$(catrequirements.txt);dopipinstall$req;done
用pip安装很慢,可以用清华镜像源:
forreqin$(catrequirements.txt);
dopipinstall–ihttps://pypi.tuna.tsinghua.edu.cn/simple$req;
done
然后编译
makepycaffe
测试:在python终端下,importcaffe
八、测试MNIST:
cd/home/hunterlew/caffe
cddata/get_mnist.sh
shexample/mnist/create_mnist.sh
shexample/mnist/train_lenet.sh
可以看到网络开始训练。从脚本可以发现,必须在caffe根目录下运行才不会报错。