作家
登录

转型AI的励志故事,从非科班到拿下阿里云栖一等奖,他经历的坑足够你学习100天

作者: 来源: 2017-11-16 09:00:56 阅读 我要评论

如许看来,难道最好的框架是Caffe?既能兼顾学术和实现,又能兼备灵活性和机能兼备……说实话,我切实其实是这么认为的。但前提是你懂C++,如不雅出身不是C++开辟人员,信赖我,这门说话也不比机械进修轻易若干。

所以,对于大年夜多半有志于投身于机械进修开辟(而非研究)的同窗们来说,我推荐首选Tensorflow作为你的第一个开辟框架。除了上述的长处之外,最重要的身分是它人气高。碰到任何问题,你都可以找到一群志同志合的伙伴们去咨询,或是一路研究。对于初学者而言,其重要程度不问可知。

  • 拭魅战上手的数据

目标是对输入进行10-分类,大年夜而输出每个手写数字所表示的┞锋实数字。

上过课程、学好说话、装好框架之后,天然就要经由过程亲手编程,来把本身的模型实现出来。

但在深度进修范畴,没稀有据的模型就是无源之水,毫无价值。而今朝风行的监督进修,请求必须有足够的带标注数据来作为练习数据。那么,大年夜哪里能获得如许的数据以进行进修呢?答檀卷是公开数据集。

例如,在进修论文时,如不雅它提出了一个机能优良的模型或者办法,平日会附有在几个公开的标准数据集上的成就,这些标准数据集就是可以去下载来进修和应用的资本。别的,诸如Kaggle和天池之类的机械进修比赛,其比赛项目中也会供给很多半据集供进修和测试。这些就是进修阶段的重要数据来源。

以CV范畴为例,常见的公开数据集就包含以下这些。

  • MNIST

因为它体积小(10M阁下)、数据多(6万张练习图片)、实用范围广(NN/CNN/SVM/KNN都可以拿来跑跑)而有名世界,其地位相当于机械进修界的Hello World。在LeCun的MNIST官方网站上(yann.lecun.com/exdb/mnist/),还贴有各类模型跑这个数据集的最好成就,当前的最好得分是CNN的,约为99.7%。

因为该数据集异常之小,所以即就是在CPU上,也可以几秒钟就跑完NN的练习,或是几分钟跑完一个简单的CNN模型。

  • CIFAR

COCO固然图片数量少一些(8万多张,80个分类),但每张图片都有轮廓标记,并且附带分类标注和5句描述话语(英文)。其图片大年夜致如图4。

而计算大年夜图像方面入手的同窗,CIFAR数据库(官网:www.cs.toronto.edu/~kriz/cifar.html)则是一个更好的入门选项。

该数据库分为2个版本,CIFAR-10和CIFAR-100。顾名思义,CIFAR-10有10个分类,每个分类有5000张练习图片和1000张测试图片,每张图片是32x32像素的3通道位图,如图2所示。

而CIFAR-100则有100个分类,每个分类变成500张练习图片与100张测试图片,但图片的大年夜小并没有什么变更。

之所以它比MNIST更合适作为图片处理的入门,是因为它尽管分辨率较低,但倒是三通道、真实拍摄的┞氛片。个中有些图片的背景还略微复杂,更切近我们真实的图片处理场景。相对而言,MNIST的灰度输入和干净背景就显得过于简单,何况99.7%的精确率也确切难有晋升的空间。

https://www.tensorflow.org/tutorials/deep_cnn

官方的CIFAR例程大年夜概能达到86%的精确率,这个成就在如今来说可以算是比较差的,最新模型的精确率平日都在97%阁下,即便不经细心调参而随便练习也能轻松达到93%阁下。大年夜家可以测验测验修改cifar10.py中定义的模型,以获得更好的效不雅。

并附有代码:

在选GPU时,我听过一些同慌绫乔推荐GTX1070×2如许的选择。理论上讲,1070的机能大年夜概能达到1080的75%,而价格只有1080的一半,大年夜各个方面看,似乎都是双1070更有优势。然而不要忘记,双卡的机能是弗成能达到单卡的2倍的,在今朝的Tensorflow上,大年夜概只能达到1.5倍高低,算下来其实和1080单卡差不多。而双显卡的主板、电源竽暌闺机箱散热都须要做更多的┞峰酌,大年夜性价比上来看,未必真的划算。

对于机械进修的进修,应用Python就意味着你不必分心去进修那些复杂的数据类型束缚以及转化、指针、内存治理或垃收受接收集之类的“高等”(一般同时也代表着复杂)的特点,将精力集中在本身的目标上。当然,一些Python特有的办法(如lambda、yield或reduce)以及对象(如NumPy、pandas),照样须要多多应用,尽快闇练。

https://github.com/tensorflow/models/tree/fb96b71aec356e054678978875d6007ccc068e7a/tutorials/image/cifar10

  • ImageNet和MS COCO

至于ImageNet(www.image-net.org/)和COCO(http://mscoco.org/),则是两个工业级其余图像数据集。平日提到它们时,ImageNet指的是ILSVRC2012的练习集,而COCO则是COCO-2014练习集。

ImageNet有大年夜量的图片(一百多万张,分成1000个分类)和标注,大年夜部分都是图3如许的。

所以当我们进入实际工作的阶段,就要根据具体的须要大年夜中选择合适本身的数据集,以作为benchmark或是pretrain数据集。

接下来,我们就须要一台机械来把框架搭建起来,以编写和运行我们的helloAI。然而,我在很多处所都看到小伙伴们在问:

  • 我须要什么样的设备能学机械进修?
  • 我须要买块GTX1080/TITAN/Tesla吗?
  • 我应当装几块显卡?一块?两块?照样四块?

“必须得有GPU啊,至少1080,没有四路Titan你都不好意思跟人打呼唤!”

其实,并不美满是如许。


  推荐阅读

  腾讯高级工程师自述:我为什么选择离开管理岗位?_技术栈微信半月刊第06期

Tech Neo技巧沙龙 | 11月25号,九州云/ZStack与您一路商量云时代收集界线治理实践 【义务编辑:陶家龙 TEL:(010)68476606】【义务编辑:陶家龙 TEL:(010)68476606】【义务编辑:陶家>>>详细阅读


本文标题:转型AI的励志故事,从非科班到拿下阿里云栖一等奖,他经历的坑足够你学习100天

地址:http://www.17bianji.com/lsqh/38897.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)