windows下MatConvNet深度学习框架的搭建

By | 2016年10月25日

博客原文

MatConvNet是Matlab下用于机器视觉的一个工具包,主要应用是CNN网络,当然其他的网络也涉及到了。MatConvNet简洁、高效,可以用于图片分类、分割和人脸识别等等深度学习的功能。具体的可以参见官网的介绍。

在搭建环境的过程中,发现如今网上对其的资源不太多,所以在这做一个总结。以beta22版本为例。

过程分为下面几个步骤:
1.MatConvNet的下载
2.GPU模式的使用
3.测试

1.MatConvNet的下载

在其官网的页面进行下载,解压到适当的位置。

运行其中“matconvnet-1.0-beta22\examples\vggfaces”路径下的cnn_vgg_faces.m文件,会出现下面的结果,那么说明已经可以使用了。在运行前最好把其中要下载的一些内容给放到对应的文件夹下,这样可以节省一点等待的时间。

matconvnet-installation-in-windows-system-01

2.GPU模式的使用

官网的这个页面中,提到了搭建GPU的方式。

首先,安装CUDA,在这个页面有下载。记得下载和自己系统以及显卡支持的CUDA。

接下来,要下载cuDNN(The NVIDIA CUDA Deep Neural Network library)。cuDNN是用于GPU加速的一个库函数。在这个页面有下载。

然后把解压好的cuDNN放在合适的文件夹下,建议在MatConvNet下建立local文件夹,同时把cuDNN文件夹中bin文件夹下的cudnn64_5.dll文件复制到matconvnet-1.0-beta22\matlab\mex文件夹下。

最后,在MatConvNet文件夹下建立compileGPU.m文件,其中内容如下。记得把对应的路径给改成自己电脑中的路径。

addpath matlab;

%% with cudnn
vl_compilenn('enableGpu', true, ...
                'cudaRoot', 'C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v8.0', ...  % CUDA的安装路径
                'cudaMethod', 'nvcc', 'enableCudnn', 'true', ...
                'cudnnRoot', 'E:\postgraduate\project\Machine Learning\Deep Learning\CNN\matconvnet-1.0-beta22\local\cudnn');   % cuDNN的路径

出现下面图片中类似的结果,就代表成功了。

matconvnet-installation-in-windows-system-02

4.测试

还是根据官网的这个页面,在命令行窗口输入vl_testnn命令,测试非GPU模式,会出现下面的内容。

matconvnet-installation-in-windows-system-03

接下来测试GPU模式,在命令行窗口输入vl_testnn(‘gpu’, true),会有类似上面的内容出现。这就是成功了,GPU模式下的速度提示还是很明显的,一般都会有十倍以上。

matconvnet-installation-in-windows-system-05

到此,MatConvNet的安装就结束了。

同时,把我在安装过程中遇到的一个问题的解决方式给写一下。在安装cuDNN的时候,可能会遇到如下的错误“Error using mex nvcc fatal : Unsupported gpu architecture ‘compute_21’”,其中21可以为其他不能被10整除的数字。这个时候可以把matconvnet-1.0-beta22\matlab下的vl_compilenn.m文件中的732行的代码中”%s”改为向下取10的整数倍。

比如,原代码为

  cudaArch = ...
      sprintf('-gencode=arch=compute_%s,code=\\\"sm_%s,compute_%s\\\" ', ...
              arch_code, arch_code, arch_code) ;

可以改为

  cudaArch = ...
      sprintf('-gencode=arch=compute_20,code=\\\"sm_20,compute_20\\\" ', ... 
              arch_code, arch_code, arch_code) ;

这样,经常遇到的问题就能解决了。

 

浅谈动态规划(一)——从lintcode刷题入门

By | 2016年10月24日

动态规划是算法中比较常见的一种分析问题的方式,最近看算法看到这,带着lintcode上面的题目,在这写个总结。

首先从一个lintcode上面简单的题目开始。

Climbing Stairs(爬楼梯)

题目描述:
假设你正在爬楼梯,需要n步你才能到达顶部。但每次你只能爬一步或者两步,你能有多少种不同的方法爬到楼顶部?

样例:
比如n=3,1+1+1=1+2=2+1=3,共有3中不同的方法,所以返回 3。

这是一道非常具有代表性的动态规划的一道问题。

令f[n]记录到达第n阶台阶的方法数。假设你还有最后一步就能到达第n阶台阶,那么最后一步,你可以选择两种方式:1)踏一步以及,2)踏两步。如果是踏一步,那么你要从第n-1阶台阶踏出,此时的方法数是 f[n-1];如果是踏两步,那么你要从第n-2阶台阶出发,此时的方法数是f[n-2]。所以爬到第n级台阶的方法总数有f[n] = f[n-1] + f[n-2]种。状态转移方程:

f[n] = f[n-1] + f[n-2]

这样可以写出解答的递归形式:

int climbStairs(int n) {
	// write your code here
	if (n <= 1)
		return 1;
	else 
		return climbStairs(n-1) + climbStairs(n-2);
}

此时我们发现可以用一个一维数组来记录之前出现的结果,这样可以省去递归中不必要的空间开销:

int climbStairs(int n) {
	// write your code here
	vector<int> f(n+1);

	f[0] = 1;
	f[1] = 1;

	for (int i = 2; i <= n; i++)
		f[i] = f[i-1] + f[i-2];

	return f[n];
}

其实,这个还可以进一步优化,因为每一步都只需要前两个台阶的结果,所以可以用两个变量来代替一维数组。

int climbStairs(int n) {
	// write your code here
	if (n == 1 || n == 0)
		return 1;
	
	int ways1 = 1;
	int ways2 = 1;
	int ways = 0;
	
	int i = 2;
	while (i <= n)
	{
		ways = ways1 + ways2;
		
		ways1 = ways2;
		ways2 = ways;
		
		i++;
	}
	
	return ways;
}

接下来,我们再来看一题。

Triangle(数字三角形)

题目描述:
给定一个数字三角形,找到从顶部到底部的最小路径和。每一步可以移动到下面一行的相邻数字上。

样例
比如,给出下列数字三角形:

[
     [2],
    [3,4],
   [6,5,7],
  [4,1,8,3]
]

从顶到底部的最小路径和为11 ( 2 + 3 + 5 + 1 = 11)。

分析问题,我们发现可以用二维数组来计算到最底层每个位置的最小路径和,令第i层下标为j的位置上最小路径和为f[i][j]。那么,第i层下标为j位置的值f[i][j],只和i-1层位置j-1下标的最小路径和f[i-1][j-1]以及j位置的最小路径和f[i-1][j]有关。即,f[i][j] = min(f[i-1][j-1],  f[i-1][j])。所以状态转移方程为:

f[i][j] = min(f[i-1][j-1],  f[i-1][j])

同时,发现每次的结果只与上面一层的结果有关,所以省去二维数组,只用一维数组作为辅助。代码为:

int minimumTotal(vector<vector<int> > &triangle) {
	// write your code here
	if (triangle.size() == 0)
		return 0;
		
	vector<int> f(triangle[triangle.size() - 1].size());
	
	// 动态规划过程
	f[0] = triangle[0][0];
	for (int i = 1; i < triangle.size(); i++) 
        { 
                for (int j = triangle.size()-1; j >= 0; j--)
		{
			if (j == 0)
				f[j] = f[j] + triangle[i][j];
			else if (j == triangle[i].size()-1)
				f[j] = f[j-1] + triangle[i][j];
			else
				f[j] = min(f[j-1], f[j]) + triangle[i][j];
		}
	}
	
	// 从辅助数组中找出最小值
	int result;
	result = f[0];
	for (int i = 1; i < f.size(); i++)
		result = min(result, f[i]);
		
	return result;
}

分析这两道题目,发现它们有两个共同的特征:
1.最优子结构:一个问题的最优解包含其子问题的最优解。
2.子问题重叠:一个问题的子问题都是相同的。那么这些子问题可以用同样的方式解决,每次将解决的子问题给记录到表中,在计算之后的问题时查找前面的结果来计算当前问题。这也就是“动态规划”名称的由来了。

在climbing stairs问题中,到达每个位置的方法个数,和之前的所有方法是相关联的。即,到达第n阶台阶的所有的方法个数,同时需要找出第n-1阶台阶的所有的方法以及第n-2阶台阶的所有的方法,以此类推。如果之前的问题找出的不是所有的方法数,那么第n阶台阶找出的结果也不是所有的方法数目。而且,第n阶台阶的求解方式和之前的台阶的求解方式是相同的。

在triangle问题中,每个位置的最小路径和需要知道前一层此位置和下一个位置的最小路径和,如果前一层的结果不是最小路径和,那么此层求出的就不是最小路径和。同样,每层问题的求解方式和之前层问题的求解方式是相同的。

所以,这也就是《算法导论》一书中表述的动态规划的两个特征:
1.最优子结构
2.子问题重叠

参考资料:

1.lintcode
Triangle
Climbing Stairs

2.《算法导论(第三版)》。
第15章动态规划

计算机入门的一点经验和对迷茫的一些分析

By | 2016年9月11日

最近感觉自己在计算机方面有点入门了,而且恰好前几天和研一的新生聚餐,被问道一些所谓的“经验”方面的问题,所以在这里总结一下在前一个阶段自学计算机的一些尝试,也希望给看到这篇博文的自学计算机方面的人一点参考吧。

首先说明一下,自考研到目前为止,自己看过的书籍(这里所指的看过,是几乎都看完了或者看完至少一大半以上,这样我才能对书做一个评价)。

考研考的是东南大学计算机的自主命题935,科目包括数据结构,计组,操作系统。我用的书是根据统招408来的那三本,即:

同时参考了程杰所作的那本《大话数据结构》,不过当时没敲代码(这点很不对)。当时备考还用过配套的王道的那三本书,就不一一列出了。

复试是C++笔试,用过的书分别是:

之后研一,看过的书分别有:

现在正在开始补数据结构算法方面的内容,看的是《数据结构与算法分析——C语言描述(原书第2版)》

我所经历过的阶段这里也说明一下,如果你也是这些方面的初学者,也许有点参考意义。

  1. 上网搜集资料,查找经验。网上的推荐书籍有一堆,每个方面的书籍都有很多经典之作,比如计算机入门必看CSAPP啦,C语言是K&R啦,C++是《C++Primer》啦,算法必须看《算法导论》啦,SICP绝对是培养编程思维的神书之类的。总之,网上有浩若烟海的经典书籍是必读的。然后,每本书自己都想细读一番。
  2. 自己实践。显然,在本科阶段把上面这些书自己研究一遍还有点可能,但是在研究生这个阶段,有了导师给布置的任务,而且还是初学者,不太可能把这些一一翻阅。于是开始找一条收益较高的方案。网上推荐的是快速入门C++看《Accelerated C++》,我也是从这本书开始重新敲C++代码的。同时快速的翻看了一遍《CSAPP》。
  3. 入门,有了自己的学习方向。这也就是现在了,当然以后的方向可能还有变化,不过确实现在感觉对计算机编程方面自学有了一点感悟了。

如果你也是初学者,我的一些建议是:

  • 看书尽量找国外书籍看,国内的书籍大多数不适合自学。
  • 如果你的基础确实不太多,可以从以下思路考虑:一门编程语言,数据结构和算法,操作系统,计算机网络。当然,这个更多的是针对互联网企业的后台开发岗位吧,确实我对前端和APP开发不了解。
  • 每个方向的书籍两本就好,一般书籍的侧重可能不同,交叉着看能帮助理解。如果书籍太多的话,可能就会脱离自己上机实践了。前期你不可能看完那么多书的。经典书后面的课后习题,尽量做。
  • 编程语言和算法互相学习可能效果更好一点。比如看数据结构的时候用编程语言自己实现一遍,多用一些编程语言的一些知识要点。同时,看到数据结构,算法的时候,可以考虑到lintcode上面刷刷类似的题目。
  • 从网上大神的反馈和校招的情况看,编程能力、算法等基础很重要。

推荐的书籍以及考虑的参考顺序:

编程语言方面,因为我是看的C/C++,所以对JAVA不太懂,不过熟悉哪门语言都是要大量的敲代码,而不仅仅是看书。下面C/C++如果没时间就先看C++吧。看C的话主要是关注指针那块。

  1. 《C程序设计语言(第2版)》K&R那本
  2. 《C和指针》。上面那本书讲的太精炼了,参照这本书可以对C有一个了解
  3. 《Accelerated C++》。这本书最大的好处是把C++很多常用的语法和STL的一些用法给呈现出来了,而不像普通的C++书籍那样按部就班罗列知识点。
  4. 《C++大学教程》。和上面那本书对照着看。

再强调一遍,编程语言练习也就是自己多敲代码才是重要的,不要抱着书看完一遍又看一遍。

数据结构和算法:

  1. 《大话数据结构》,程杰。入门算是不错的书了,有C的代码,自己敲过一遍理解更深。
  2. 《数据结构与算法分析——C语言描述(原书第2版)》。我选这本书是因为它比较薄,上来直接啃《算法导论》我个人感觉有点太难了。

计算机基础书籍:

  1. 《深入理解计算机系统》。这本书入门计算机绝对没问题,包括了操作系统,汇编,硬件,还有网络的一些简单的东西,现在既然硬件那块需求不大,可以暂时不看吧。

我这条路在入门上面绝对能走通,不过每个人选择的书籍可能不同,也不用都照着来。方向大抵如此,同时,给出一个我看过的较全的书单:《程序员必读书单 1.0》。同样,这个书单也是仅作参考,前期你不可能都掌握的。别贪全,前期要把那些常常出现的问题给解决。

同时,再把自己所说的“入门”给定义或者说明一下,给你一个参照,以防你也是初学,而我又太low,把你带坑里。

之前,我敲代码时出错了是照着书上给的代码改自己的代码。有些确实是不懂,有些是感觉进度确实不能太慢,不然容易陷入细节的思考,还有就是时间拉太长了可能会学了后面的忘了前面的。现在,敲代码会自己设置断点改错,能够明白一些C语言的指针方面错误所在了。

简单的说就是:之前是被动输入,现在能主动输入了。即,把一些从前学过的C++、数据结构的知识进行组合,实现一些自己想到的功能,并且改错的时候能想通一些指针的特性了。这样融合起来学习,能够更好的理解书上的知识。

所以我感觉自己入门了。

我博客中前两篇文章的内容是二叉树的实现,本来其实感觉太简单不想贴出来的,不过想想可以给这篇文章做个铺垫。不信你可以对照着看一下,把《二叉树的实现以及相关操作C/C++》中的代码改写成《二叉树类的实现》中的类,就会遇到很多难题。我自己写的时候想避开《C++大学教程》上的一些方式,不过最后还是没避开,用其他方式我实现不了。当然,也许你写的代码会比我的更简洁。

同样,这里给出一个我看过的不错的入门建议,可以参考:如何从只会 C++ 语法的水平到达完成项目编写软件的水平?。我有空也会尝试的。

最后想到昨天有几个新生说迷茫,正好我也借这篇文章谈谈这个话题吧。

迷茫很正常。研一的新生可能因为刚刚开学,环境变了,同时看到以前的同学或者现在这个行业工作的人们工资很高,而自己能力不足,对未来有点担心。同时,可能是有了导师的直接管理而且感觉导师分配的任务和自己想要尝试的事情不太有交集。简单地说,其实迷茫就是对未来或多或少的担忧。

未来谁知道呢?对吧。没发生的总是没发生,谁也不能说自己的努力方向一定正确,自己的愿景一定实现。

仔细观察我们可以发现,除了大学之前我们没有过太多的迷茫感,在高考填志愿那时开始,很多人多少都会对未来有些迷茫了。因为在那之前,我们更多是在既定的轨道被动进行教育的。我们在规定的时间上课,规定的时间放学,规定的时间完成作业,每隔一段时间会被排名,从而评估你的成绩。更重要的是,那个时候我们不用直接为自己的行为负责,因为父母会给我们埋单。大学之后,我们要进行更多的选择,对自己的行为负责。同时,评估人的标准渐渐变得不那么单一了:有的人社团混的很好,人际交往让人羡慕;有的人会玩乐器,乐队在自己学校小有名气;有的人竞赛屡获佳绩,让人自愧不如。这些都会使我们努力的方向迷失,从而感觉迷茫。

现在,可能你迷茫的是一些学习方法。未来,你可能还会迷茫自己的择业,孩子的学校选择,不同城市到底安家到哪,等等。

那么在迷茫的时候,该做些什么呢?

  1. 上网搜集你所想要努力方向的资料,查找经验。
  2. 进行实践。
  3. 将自己的实践和努力的成果进行分析,修正。
  4. 重复进行2,3步。

然后,你也会找到自己的方向的。所以我在开始将我努力的过程给描述了一遍。

这里再分享一个经验:迷茫的最大敌人是拖延。

相信聪明的你,能更快地找到属于自己的那条道路。