深度学习概述：从感知机到深度网络

近些年来，人工智能范畴又活泼起来，除了传统了学术圈外，Google、Microsoft、facebook等工业界优良企业也纷纷成立相干研究团队，并取得了很多令人注目标结不雅。这要归功于社交收集用户产生的大年夜量数据，这些数据大年夜都是原始数据，须要被进一步分析处理;还要归功于便宜而又强大年夜的计算资本的出现，比如GPGPU的快速成长。

输入样本 v 输入至输入层中。

除去这些身分，AI尤其是机械进修范畴出现的一股新潮流很大年夜程度上推动了此次中兴——深度进修。本文中我将介绍深度进修背后的关键概念及算法，大年夜最简单的元素开端并以此为基本进行下一步构建。

机械进修基本

如不雅你不太熟悉相干常识，平日的机械进修过程如下：

1、机械进修算法须要输入少量标记好的样本，比如10张小狗的┞氛片，个中1张标记为1(意为狗)其它的标记为0(意为不是狗)——本文重要应用监督式、二叉分类。

2、这些算法“进修”怎么样精确将狗的图片分类，然后再输入一个新的图片时，可以期望算法输出精确的图片标记(如输入一张小狗图片，输出1;不然输出0)。

这平日是难以置信的：你的数据可能是模糊的，标记也可能掉足;或者你的数据是手写字母的图片，用其实际表示的字母来标记它。

感知机

感知机是最早的监督式练习算法，是神经收集构建的基本。

假如平面中存在 n 个点，并被分别标记为“0”和“1”。此时参加一个新的点，如不雅我们想知道这个点的标记是什么(和之前提到的小狗图片的辨别同理)，我们要怎么做呢?

一种很简单的办法是查找离这个点比来的点是什么，然后返回和这个点一样的标记。而一种稍微“智能”的方轨则是去找出平面上的一条线来将不合标记的数据点分开，并用这条线作为“分类器”来区分新数据点的标记。

在本例中，每一个输入数据都可以表示为一个向量 x = (x_1, x_2) ，而我们的函数则是要实现“如不雅线以下，输出0;线以上，输出1”。

用数学办法表示，定义一个表示权重的向量 w 和一个垂直偏移量 b。然后，我们将输入、权重和偏移结合可以获得如下传递函数：

这个传递函数的结不雅将被输入到一个激活函数中以产生标记。在膳绫擎的例子中，我们的激活函数是一个门限截止函数(即大年夜于某个阈值后输出1)：

练习

感知机的练习包含多练习样本的输入及计算每个样本的输出。在每一次计算今后，权重 w 都要调剂以最小化输出误差，这个误差由输入样本的标记值与实际计算得出值的差得出。还有其它的误差计算办法，如均方差等，但根本的原则是一样的。

这种简单的感知机有一个明显缺点：只能进修线性可分函数。这个缺点重要吗?比如 XOR，这么简单的函数，都不克不及被线性分类器分类(如下图所示，分隔两类点掉败)：

为懂得决这个问题，我们要应用一种独裁感知机，也就是——前馈神经收集：事实上，我们将要组合一群如许的感知机来创建出一个更强大年夜的进修机械。

前馈神经收集

神经收集实际上就是将大年夜量之前讲到的感知机进行组合，用不合的办法进行连接并感化在不合的激活函数上。

我们简单介绍下前向神经收集，其具有以部属性：

一个输入层，一个输出层，一个或多个隐含层。上图所示的神经收集中有一个三神经元的输入层、一个四神经元的隐含层、一个二神经元的输出层。
每一个神经元都是一个上文提到的感知机。
输入层的神经元作为隐含层的输入，同时隐含层的神经元也是输出层神经元的输入。
每条建立在神经元之间的连接都有一个权重 w (与感知机中提到的权重类似)。
在 t 层的每个神经元平日与前一层( t - 1层)中的每个神经元都有连接(但你可以经由过程将这条连接的权重设为0来断开这条连接)。
为了处理输入数据，将输入向量赋到输入层中。在上例中，这个收集可以计算一个3维输入向量(因为只有3个输入层神经元)。假如输入向量是 [7, 1, 2]，你将第一个输入神经元输入7，中心的输入1，第三个输入2。这些值将被传播到隐含层，经由过程加权传递函数传给每一个隐含层神经元(这就是前向传播)，隐含层神经元再计算输出(激活函数)。
输出层和隐含层一样进行计算，输出层的计算结不雅就是全部神经收集的输出。

超线性

如不雅每一个感知机都只能应用一个线性激活函数会怎么样?全部收集的最终输出也仍然是将输入数据经由过程一些线性函数计算过一遍，只是用一些在收集中收集的不合权值调剂了一下。换名话说，再多线性函数的组合照样线性函数。如不雅我们限制只能应用线性激活函数的话，前馈神经收集其实比一个感知机强大年夜不到哪里去，无论收集有若干层。

恰是这个原因，大年夜多半神经收集都是应用的非线性激活函数，如对数函数、双曲正切函数、阶跃函数、整流函数等。不消这些非线性函数的神经收集只能进修输入数据的线性组合。

练习

大年夜多半常见的应用在独裁感知机的监督式练习的算法都是反向传播算法。根本的流程如下：

2、计算输出误差，常用均方差：

个中 t 是目标值， y 是实际的神经收集计算输出。其它的误差计算办法也可以，但MSE(均方差)平日是一种较好的选择。

3、收集误差经由过程随机梯度降低的办法来最小化。

1/5 1 2 3 4 5 下一页尾页

　　推荐阅读

　　机器学习在恶意软件检测中的应用

2、其次，我们须要大年夜样本中提取有意义的特点，这些特点也是我们研究的基本。所谓的特点指的就是可以或许描述对象的那些属性，比如，一栋房子的特点包含：房间数、房屋面积、房屋价格等>>>详细阅读

本文标题：深度学习概述：从感知机到深度网络

地址：http://www.17bianji.com/lsqh/34784.html

1/2 1