转型AI的励志故事，从非科班到拿下阿里云栖一等奖，他经历的坑足够你学习100天

如许看来，难道最好的框架是Caffe?既能兼顾学术和实现，又能兼备灵活性和机能兼备……说实话，我切实其实是这么认为的。但前提是你懂C++，如不雅出身不是C++开辟人员，信赖我，这门说话也不比机械进修轻易若干。

所以，对于大年夜多半有志于投身于机械进修开辟(而非研究)的同窗们来说，我推荐首选Tensorflow作为你的第一个开辟框架。除了上述的长处之外，最重要的身分是它人气高。碰到任何问题，你都可以找到一群志同志合的伙伴们去咨询，或是一路研究。对于初学者而言，其重要程度不问可知。

拭魅战上手的数据

目标是对输入进行10-分类，大年夜而输出每个手写数字所表示的┞锋实数字。

上过课程、学好说话、装好框架之后，天然就要经由过程亲手编程，来把本身的模型实现出来。

但在深度进修范畴，没稀有据的模型就是无源之水，毫无价值。而今朝风行的监督进修，请求必须有足够的带标注数据来作为练习数据。那么，大年夜哪里能获得如许的数据以进行进修呢?答檀卷是公开数据集。

例如，在进修论文时，如不雅它提出了一个机能优良的模型或者办法，平日会附有在几个公开的标准数据集上的成就，这些标准数据集就是可以去下载来进修和应用的资本。别的，诸如Kaggle和天池之类的机械进修比赛，其比赛项目中也会供给很多半据集供进修和测试。这些就是进修阶段的重要数据来源。

以CV范畴为例，常见的公开数据集就包含以下这些。

MNIST

因为它体积小(10M阁下)、数据多(6万张练习图片)、实用范围广(NN/CNN/SVM/KNN都可以拿来跑跑)而有名世界，其地位相当于机械进修界的Hello World。在LeCun的MNIST官方网站上(yann.lecun.com/exdb/mnist/)，还贴有各类模型跑这个数据集的最好成就，当前的最好得分是CNN的，约为99.7%。

因为该数据集异常之小，所以即就是在CPU上，也可以几秒钟就跑完NN的练习，或是几分钟跑完一个简单的CNN模型。

CIFAR

COCO固然图片数量少一些(8万多张，80个分类)，但每张图片都有轮廓标记，并且附带分类标注和5句描述话语(英文)。其图片大年夜致如图4。

而计算大年夜图像方面入手的同窗，CIFAR数据库(官网：www.cs.toronto.edu/~kriz/cifar.html)则是一个更好的入门选项。

该数据库分为2个版本，CIFAR-10和CIFAR-100。顾名思义，CIFAR-10有10个分类，每个分类有5000张练习图片和1000张测试图片，每张图片是32x32像素的3通道位图，如图2所示。

而CIFAR-100则有100个分类，每个分类变成500张练习图片与100张测试图片，但图片的大年夜小并没有什么变更。

之所以它比MNIST更合适作为图片处理的入门，是因为它尽管分辨率较低，但倒是三通道、真实拍摄的┞氛片。个中有些图片的背景还略微复杂，更切近我们真实的图片处理场景。相对而言，MNIST的灰度输入和干净背景就显得过于简单，何况99.7%的精确率也确切难有晋升的空间。

https://www.tensorflow.org/tutorials/deep_cnn

官方的CIFAR例程大年夜概能达到86%的精确率，这个成就在如今来说可以算是比较差的，最新模型的精确率平日都在97%阁下，即便不经细心调参而随便练习也能轻松达到93%阁下。大年夜家可以测验测验修改cifar10.py中定义的模型，以获得更好的效不雅。

并附有代码：

在选GPU时，我听过一些同慌绫乔推荐GTX1070×2如许的选择。理论上讲，1070的机能大年夜概能达到1080的75%，而价格只有1080的一半，大年夜各个方面看，似乎都是双1070更有优势。然而不要忘记，双卡的机能是弗成能达到单卡的2倍的，在今朝的Tensorflow上，大年夜概只能达到1.5倍高低，算下来其实和1080单卡差不多。而双显卡的主板、电源竽暌闺机箱散热都须要做更多的┞峰酌，大年夜性价比上来看，未必真的划算。

对于机械进修的进修，应用Python就意味着你不必分心去进修那些复杂的数据类型束缚以及转化、指针、内存治理或垃收受接收集之类的“高等”(一般同时也代表着复杂)的特点，将精力集中在本身的目标上。当然，一些Python特有的办法(如lambda、yield或reduce)以及对象(如NumPy、pandas)，照样须要多多应用，尽快闇练。

https://github.com/tensorflow/models/tree/fb96b71aec356e054678978875d6007ccc068e7a/tutorials/image/cifar10

ImageNet和MS COCO

至于ImageNet(www.image-net.org/)和COCO(http://mscoco.org/)，则是两个工业级其余图像数据集。平日提到它们时，ImageNet指的是ILSVRC2012的练习集，而COCO则是COCO-2014练习集。

ImageNet有大年夜量的图片(一百多万张，分成1000个分类)和标注，大年夜部分都是图3如许的。

所以当我们进入实际工作的阶段，就要根据具体的须要大年夜中选择合适本身的数据集，以作为benchmark或是pretrain数据集。

接下来，我们就须要一台机械来把框架搭建起来，以编写和运行我们的helloAI。然而，我在很多处所都看到小伙伴们在问：

我须要什么样的设备能学机械进修?
我须要买块GTX1080/TITAN/Tesla吗?
我应当装几块显卡?一块?两块?照样四块?

“必须得有GPU啊，至少1080，没有四路Titan你都不好意思跟人打呼唤!”

其实，并不美满是如许。

3/5 首页上一页 1 2 3 4 5 下一页尾页

　　推荐阅读

　　腾讯高级工程师自述：我为什么选择离开管理岗位？_技术栈微信半月刊第06期

Tech Neo技巧沙龙 | 11月25号，九州云/ZStack与您一路商量云时代收集界线治理实践【义务编辑：陶家龙 TEL：（010）68476606】【义务编辑：陶家龙 TEL：（010）68476606】【义务编辑：陶家>>>详细阅读

本文标题：转型AI的励志故事，从非科班到拿下阿里云栖一等奖，他经历的坑足够你学习100天

地址：http://www.17bianji.com/lsqh/38897.html

1/2 1