【沙龙】51CTO诚邀您9月23号和多位技巧大年夜咖一路聊智能CDN的优化之路,抓紧时光哦!
定义云深度进修平台什么是云深度进修?跟着机械进修的成长,单机运行的机械进修义务存在缺乏资本隔离、无法动态伸缩等问题,是以要用到基于云计算的基本架构办事。云机械进修平台并不是一个全新的概念,Google、微软、亚马逊等都有响应的办事,这里列举几个比较典范的例子。
第一个是Google Cloud Machine Learning Engine,它底层托管在Google Cloud上,上层封装了Training、Prediction、Model Service等机械进修应用的抽象,再上层支撑了Google官方的TensorFlow开源框架。
亚马逊也推出了Amzon machine learning平台,它基于AWS的Iaas架构,在Iaas上供给两种不合的办事,分别是可以运行MXNet等框架的EC2虚拟机办事,以及各类图象、语音、天然说话处理的SaaS API。
相干厂商内容
基于卷积神经统??手机端实现文档检测 阿里巴巴集团千亿级别商号体系架构平台化技巧实践 携程第四代架构之软负载 SLB 实践之路 解读百度PB级数据仓库Palo开源架构 相干赞助商
与100+国表里技巧专家摸索2017前瞻热点技巧
以上这些都是业界比较成熟的云深度进修平台,而在真实的企业情况中,我们为什么还须要实现Cloud Machine Learning办事呢?
起首国外的基本举措措施并不必定是国内企业可以直接应用的,而如不雅只是本地安装了TensorFlow,那也只能在懊悔长进行练习,本地默扰绫腔有资本隔离,如不雅同时跑两个练习义务就须要本身去解决资本冲突的问题。因为没有资本隔离,所以也做不了资本共享,即使你有多节点的计算集群资本,也须要人工的商定才能包管义务不会冲突,无法充分应用资本共享带来的便利。此外,开源的机械进修框架没有集群级其余编排功能,例如你想用分布式TensorFlow时,须要手动在多台办事器上启动过程,没有主动的Failover和Scaling。是以,很多企业已经有机械进修的营业,但因为缺乏Cloud Machine Learning平台,仍会有安排、治理、集群调剂等问题。
那么若何实现Cloud Machine Learning平台呢?
打造云深度进修平台重要包含以下几个组件:起首是客户端拜访的API Service,作为办事供给方,我们须要供给标准的RESTful API办事,后端可以对接一个Kubernetes集群、OpenStack集群、甚至是自研的资本治理体系。客户端请求到API办过后,平台须要解析机械进修义务的参数,经由过程Kubernetes或者OpenStack来创建义务,调剂到后端真正执交运算的集群资本中。如不雅是练习义务,可以经由过程起一个练习义务的Container,琅绫擎预装了TensorFlow或MXNet运行情况,经由过程这几层抽象就可以将单机版的TensorFlow练习义务提交到由Kubernetes治理的计算集群中运行。在模型练习停止后,体系可以导出模型对应的文件,经由过程请求云深度进修平台的API办事,最终翻译成Kubernetes可以懂得的资本设备请求,在集群中启动TensorFlow Serving等办事。除此之外,在Google Cloud-ML最新的API里多了一个Prediction功能,猜测时既可以启动在线Service,也可以启动离线的Prediction的义务,平台只须要创建对应的Prediction的容器来做Inference和保存猜测结不雅即可 。经由过程这种简单的封装,就可以实现类似Google Cloud-ML的基本架构了。
架构长进行了分层抽象,实现上也只须要三步。
第一步是创建一个Docker镜像,下面的Dockerfile例子是大年夜TensorFlow项目中朝长进步出来的,官方已经供给了一个可以运行的Docker镜像,经由过程参加定制的启动脚本就可以实现开辟情况、模型练习以及模型办事等功能。
第二步是实现一个标准的API办事,下面是一个Python实现的实例,用户发送一个启动练习义务的请求,办事端可以解析请求的参数和内容,并将义务提交到Kubernetes等后端集群中。
推荐阅读
【沙龙】51CTO诚邀您9月23号和多位技巧大年夜咖一路聊智能CDN的优化之路,抓紧时光哦! 这是一个经典的技巧争辩,很多人都邑自问:URL、URI,很可能还有URN,它们之间的差别是什么。固然,>>>详细阅读
本文标题:云计算深度学习平台架构与实践的必经之路
地址:http://www.17bianji.com/lsqh/37500.html
1/2 1