云计算深度学习平台架构与实践的必经之路

第三步是生成Kubernetes所需的文件格局，下面的JSON文件大年夜家也可以在GitHub中找到，实现了将分布式TensorFlow义务提交到Kubernetes集群中运行。

我们经由过程简单的三个设备就可以完成机械进修义务大年夜本地到云端的迁徙过程，也就是实现了Cloud Machine Learning办事。前面提到云深度进修平台须要支撑资本隔离和资本共享，这是若何实现的呢，其实Kubernetes本身就有这个抽象，用户可以在请求时申明须要的CPU、内存、甚至是GPU资本，经由过程cgroups、namespace等容器技巧来实现资本隔离，而kube-scheduler实现了资本调剂和资本共享等功能。实现自研或者公有云的Cloud Machine Learning平台，开辟者可以很轻易提交练习义务、创建模型办事等，但在一个真实的机械进修场景中，只解决计算资本的隔离和调剂是远远不敷的，我们还须要从新思虑若何集成数据处理、特点工程等问题。

此外，微软供给了Azure Machine Learning Studio办事，底层也是基于本身可伸缩、可拓展的Microsoft Azure Cloud办事，上层供给了拖拽式的更易用的Studio对象，再膳绫擎支撑微软官方的CNTK等框架，除此之外微软还有各类感知办事、图象处理等SaaS API，这些办事都是跑在Scalable的云基本平台膳绫擎。

从新定义云深度进修平台TensorFlow是一个可用于深度进修的数值计算库，基于TensorFlow可以实现MLP、CNN、RNN等机械进修模型，但有了它是不是就不须要Spark呢?他们的关系是什么?

全部Cloud Machine learning运行在可伸缩的云办事上，败行了模型开辟、模型练习，以及模型办事等功能，形成一个完全的机械进修工作流。但这并不是一个闭环，我们在实践中发明，线上的机械进修模型是有时效性的，例如消息推荐模型就须要及时更新热点消息的样本特点，这时就须要把闭环打通，把线上的猜测结不雅参加到线下的练习义务里，然后经由过程在线进修或者模型进级，实现完全的机械进修闭环，这些都是单机版的机械进修平台所不克不及实现的。

在临盆情况中，我们发明TensorFlow并没有完全代替已有的大年夜数据处理对象，我们须要用Spark做数据分析和特点工程，还须要数据仓库等办事去存储和萌芽构造化数据。TensorFlow是一个异常优良的深度进修框架，但在真实场景顶用户还须要一些PowerGraph处理的图关系特点作为输入，这都是零丁一个框架无法解决的。对于用户的建模流程若何组织、若何做数据清洗、若何做特点采取、若何上线练习好的模型、若何预估模型效不雅，这些可以应用Azure ML Studio对象去完成，并且是TensorFlow所缺乏的。

前面我们介绍了Cloud Machine Learning，可以实现一个类似Google的分布式、高可用、丛聚群编排的寂?娼台，但这远远不敷，因为我们还须要应用大年夜数据处理的框架，包含MapReduce、流式处理、图计算等框架。TensorFlow只是全部机械进修流程琅绫擎做模型练习个一一部分，我们可能还须要Kubernetes做CPU、GPU的治理和调剂。如不雅我们要完成一个机械进修的营业，就须要同时控制TensorFlow、Spark、Hadoop、Hive、Kubernetes等框架的道理和应用，而不只是供给一个Google Cloud-ML或者AWS办事就够了，这也是我们要从新定义Cloud Machine Learning的原因。

前面在客不雅上我们须要这么多常识，但主不雅上我们欲望有什么呢?我们更欲望有一个大年夜数据处理到模型练习再到模型上线的一个全闭环办事，而不仅仅是机械进修框架或者通用寂?娼台，我们欲望不写代码就可以做特点采取的工作，我们欲望机械进修的工作流是很轻易描述的，而不须要经由过程编写代码的方法来实现，我们须要一个很灵活的基本架构可以支撑各类异构的计算资本，我们欲望平台是可拓展的可以实现主动Failover和Scaling。除了前面提到的Google、微软、亚马逊做的云机械进修平台，我们还须要大年夜IaaS、PaaS、SaaS多维度上供给应用接口，知足不合层次用户的应用需求，另一方面这应当是低门槛的产品办事，让随便率性的范畴专家都可以随便马虎应用。

后面我们会介绍在真实场景下若何改革Cloud Machine Learning平台，并且介绍第四范式对外供给的低门槛、分布式、高可用的先知机械进修平台。

我们对云深度进修办事做了一个分层，第一层是平台层，类似于Google cloud、Azure、AWS如许的IaaS层，企业内部也可以应用一些开源的筹划，如容器编排对象Kubernetes或者虚拟机治理对象OpenStack。有了这层之后，我们还须要支撑机械进修相干的功能，例如Training、Prediction、模型上线、模型迭代更新等，我们在Machine Learning Layer层对这些功能进行抽象，实现了对应的API接口。最膳绫擎是模型应用层，就可以基于一些开源的机械进修类库，如TensorFlow、MXNet等。

第四范式的云深度进修实践经验第四范式先知平台是一个基于Cloud的全流程机械进修产品，用户经由过程Web上岸到先知平台就可以应用模型调研、预估办事的功能，并且可以经由过程拖拽的方法来描述机械进修的工作流。

它的应用步调如下，第一步是数据预处理，用户不须要写Spark代码而只须要拖拽出一个搁笔，我们称之为一个算子，然后就可以提交数据清洗等数据预处理义务了。经由过程拖拽数据拆分算子，可以将数据集拆分为练习集和测试集两部分，个一一部分留在左边用于特点采取。一般来说，用Spark、Mapreduce等开源对象也可以做特点采取，但对编程技能和工程才能有必定的请求，我们经由过程定义特点采取的设备或者脚本，让用户可以不写代码也可以实现对原始数据集的特点工程。然后，连接我们自立研发的高维逻辑回归、高维GBDT等模型练习算子，也可以连接基于开源的TensorFlow或者MXNet等框架实现的算法。最后，经由模型练习获得模型文件后，用方才拆搀扶来的测试集进行模型猜测，还可以应用通用的模型评估算子进行AUC、ROC、Logloss等指标的可视化展示。

在先知平台上，用户只须要经由过程构建流程图的方法，就可以实现数据处理、模型练习等功能，真正解决真实场景下机械进修营业的问题。在先知平台的最新版本中，供给了以极高的效力生成特点工程设备脚本，获取自立研发的LR、GBDT算法的最佳参数等AutoML特点。这些特点可以或许大年夜幅降低在获取一个有效建模筹划过程中的反复性劳动，也可以有效帮助数据科学家获得对数据的初步懂得。在一些场景下，可以或许获得媲美甚至超出专家建模的效不雅。

2/3 首页上一页 1 2 3 下一页尾页

　　推荐阅读

　　你知道URL、URI和URN三者之间的区别吗？

【沙龙】51CTO诚邀您9月23号和多位技巧大年夜咖一路聊智能CDN的优化之路，抓紧时光哦！这是一个经典的技巧争辩，很多人都邑自问：URL、URI，很可能还有URN，它们之间的差别是什么。固然，>>>详细阅读

本文标题：云计算深度学习平台架构与实践的必经之路

地址：http://www.17bianji.com/lsqh/37500.html

1/2 1