如下图所示,展示了一个33的卷积核在55的图像上做卷积的过程。每个卷积都是一种特点提取方法,就像一个筛子,将图像中相符前提(激活值袈浣大年夜越相符前提)的部分筛选出来。
2.3 多卷积核
膳绫擎所述只有100个参数时,注解只有1个100*100的卷积核,显然,特点提取是不充分的,我们可以添加多个卷积核,比如32个卷积核,可以进修32种特点。在有多个卷积核时,如下图所示:
上图右,不合色彩注解不合的卷积核。每个卷积核都邑将图像生成为另一幅图像。比如两个卷积核就可以将生成两幅图像,这两幅图像可以看做是一张图像的不合的通道。如下图所示,下图有个小缺点,即将w1改为w0,w2改为w1即可。下文中仍以w1和w2称呼它们。
下图展示了在四个通道上的卷积操作,有两个卷积核,生成两个通道。个中须要留意的是,四个通道膳绫强个通道对应一个卷积核,先将w2忽视,只看w1,那么在w1的某地位(i,j)处的值,是由四个通道上(i,j)处的卷积结不雅相加然后另娶激活函数值获得的。
所以,在上图由4个通道卷积获得2个通道的过程中,参数的数量为4×2×2×2个,个中4表示4个通道,第一个2表示生成2个通道,最后的2×2表示卷积核大年夜小。
2.4 Down-pooling
在经由过程卷积获得了特点 (features) 之后,下一步我们欲望应用这些特点去做分类。理论上讲,人们可以用所有提取获得的特点去练习分类器,例如 softmax 分类器,但如许做面对计算量的挑衅。例如:对于一个 96X96 像素的图像,假设我们已经进修获得了400个定义在8X8输入上的特点,每一个特点和图像卷积都邑获得一个 (96 − 8 + 1) × (96 − 8 + 1) = 7921 维的卷积特点,因为有 400 个特点,所以每个样例 (example) 都邑获得一个 892 × 400 = 3,168,400 维的卷积特点向量。进修一个拥有跨越 3 百万特点输入的分类器十分不便,并且轻易出现过拟合 (over-fitting)。
为懂得决这个问题,起首回想一下,我们之所以决定应用卷积后的特点是因为图像具有一种“静态性”的属性,这也就意味着在一个图像区域有效的特点极有可能在另一个区域同样实用。是以,为了描述大年夜的图像,一个很天然的设法主意就是对不合地位的特点进行聚合统计,例如,人们可以计算图像一个区域上的某个特定特点的平均值 (或最大年夜值)。这些概要统计特点不仅具有低得多的维度 (比拟应用所有提取获得的特点),同时还会改良结不雅(不轻易过拟合)。这种聚合的操作就叫做池化 (pooling),有时也称为平均池化或者最大年夜池化 (取决于计算池化的办法)。
第二层max-pooling:2×2的核。
至此,卷积神经收集的根本构造和道理已经阐述完毕。
2.5 独裁卷积
在实际应用中,往往应用独裁卷积,然后再应用全连接层进行练习,独裁卷积的目标是一层卷积学到的特点往往是局部的,层数越高,学到的特点就越全局化。
Softmax层:输出为1000,输出的每一维都是图片属于该类其余概率。
ImageNet LSVRC是一个图片分类的比赛,其练习集包含127W+张图片,验证集有5W张图片,测试集有15W张图片。本文朝长进步2010年Alex Krizhevsky的CNN构造进行解释,该构造在2010年取得冠军,top-5缺点率为15.3%。值得一提的是,在本年的ImageNet LSVRC比赛中,取得冠军的GoogNet已经达到了top-5缺点率6.67%。可见,深度进修的晋升空间还很巨大年夜。
下图即为Alex的CNN构造图。须要留意的是,该模型采取了2-GPU并行构造,即第1、2、4、5卷积层都是将模型参数分为2部分进行练习的。在这里,更进一步,并行构造分为
数据并行与模型并行。数据并行是指在不合的GPU上,模型构造雷同,但将练习数据进行切分,分别练习获得不合的模型,然后再将模型进行融合。而模型并行则是,将若干层的模型参数进行切分,不合的GPU上应用雷同的数据进行练习,获得的结不雅直接连接作为下一层的输入。
上图模型的根本参数为:
输入:224×224大年夜小的图片,3通道
第一层卷积:5×5大年夜小的卷积核96个,每个GPU上48个。
第一层max-pooling:2×2的核。
第二层卷积:3×3卷积核256个,每个GPU上128个。
第三层卷积:与上一层是全连接,3*3的卷积核384个。分到两个GPU上个192个。
第四层卷积:3×3的卷积核384个,两个GPU各192个。该层与上一层连接没有经由pooling层。
第五层卷积:3×3的卷积核256个,两个GPU上个128个。
第五层max-pooling:2×2的核。
第二层全连接:4096维
4 DeepID收集构造
DeepID收集构造是喷鼻港中文大年夜学的Sun Yi开辟出来竽暌姑来进修人脸特点的卷积神经收集。每张输入的人脸被表示为160维的向量,进修到的向量经由其他模型进行分类,在人脸验证实验上获得了97.45%的┞俘确率,更进一步的,原作者改进了CNN,又获得了99.15%的┞俘确率。
如下图所示,该构造与ImageNet的具体参数类似,所以只解释一下不合的部分吧。
上图中的构造,在最后只有一层全连接层,然后就是softmax层了。论文中就是以该全连接层作为图像的表示。在全连接层,以第四层卷积和第三层max-pooling的输出作为全连接层的输入,如许可以进修到局部的和全局的特点。
推荐阅读
年前最后一场技巧盛宴 | 1月27日与京东、日记易技巧大年夜咖畅聊智能化运维成长趋势! 本套笔试题共100题,每题1分,共100分。(参考谜底在文┞仿末尾)1. cron 后台常驻法度榜样 (daemon)>>>详细阅读
本文标题:干货 | 卷积神经网络入门这一篇就够了
地址:http://www.17bianji.com/lsqh/40329.html
1/2 1