万兆以太收集:参数更新过程中,通信粒度大年夜,并且许可异步通信,对延时没有严格请求。是以,练习集群没有选用HPC集群必备的InfiniBand或Omini-Path低延时收集设备,而是选用通俗的以太网设备。
HDFS分布式文件体系:TensorFlow分布式工作节点攫取练习样本文件时,不合工作节点攫取的数据段不交叉,练习过程中也不会交换样本数据。写出模型文件也只有某一个工作节点负责,不涉及工作节点间的数据交换。是以,深度进修练习功课不请求HPC机群中常见的并行文件体系,只如果一个能被所有工作节点同时拜访文件体系就可以。实际上,微博深度进修平台采取HDFS,不肮脏足请求,并且便利与其它营业共享数据。
定制的功课调剂体系:TensorFlow分布式参数办事器过程不会主动停止,须要手动杀逝世,而HPC应用中的MPI过程同时开端同时停止。设计功课调剂筹划时必须推敲这个特点,使之可以或许在所有工作节点都运行停止后主动杀逝世参数办事器过程。
模型在线猜测办事WeiServing
模型在线猜测办事是深度进修平台的一个重要功能。因为微博营业场景需求,模型在线猜测办事并发量大年夜,对延时、可用性请求极高。推敲到这些营业需求以及办事本身今后的高扩大性,微博分布式模型在线猜测办事WeiServing的架构如图6所示。
图6 WeiServing-微博分布式模型在线猜测办事架构
特点处理多样化:模型在线猜测办事起重要解决的问题是,将在线的原始特点数据,映射成模许可以处理的数据格局。基于大年夜量的营业模型实践与调优,微博机械进修工作流框架WeiFlow抽象出了一套特点处理函数,来晋升开辟效力和营业效不雅。WeiServing与WeiFlow在特点处理方面一脉相承,支撑一系列特点处理函数,包含piecewise、pickcat、descartes、combinehash等映射函数,对特点进行归一化、离散化、ID化、组合等特点处理。
多模很多版本支撑:因为微博营业场景多种多样,不合的营业场景对模型与特点有不合的需求,WeiServing支撑同一个集群为多个营业供给办事,经由过程docker+k8s进行资本隔离与负载均衡。在雷同特点情况下,可以选择不合的模型算法进行处理。别的,对于同一个模型,WeiServing支撑在线进级与多版本同时在线,为营业灰度测试供给可能。所有的差别化都被映射到设备文件中,经由过程简单的设备来完成线上模型的转换。
分布式办事支撑:为了应对大年夜范围模型办事与在线机械进修,WeiServing参考通用的参数办事器解决筹划,实现了WeiParam分布式办事架构,除了支撑传统的PS功能之外,WeiParam针对在线办事需求,经由过程分布式调剂体系,供给多副本、高可用、高机能的体系机制。
多源支撑:对于通俗离线进修,模型会导出到文件中,WeiServing经由过程ModelManager模块治理模型加载,支撑本地存储与分布式存储。同时,WeiServing为支撑在线机械进修,供给对及时流接口对接,在线练习的模型参数可以及时推送到WeiParam中,为线上供给办事。
总结
本文介绍了深度进修框架和平台的概念和特点,基于微博深度进修平台深刻商量了深度进修平台的设计思虑和技巧架构。机械进修工作流和控制中间是我们在规范机械进修工作流程的设计结不雅,体系化的标准流程能极大年夜晋升机械进修开辟效力和营业迭代速度。深度进修模型练习集群和模型在线猜测办事是我们在深度进修模型练习、模型猜测的集群化、办事化方面的体系产出,是保障模型效不雅和营业效不雅的基本。欲望上述介绍能给大年夜家带来思虑和赞助。
【编辑推荐】
- 内存带宽与计算才能,谁才是决定深度进修履行机能的关键?
- 揭秘付出宝中的深度进修引擎:xNN
- [ I am Jarvis ] :聊聊 FaceID 背后的深度进修视觉算法
- 为什么要用深度进修来做个性化推荐 CTR 预估
- 深度进修的局限性,你懂得吗?
PAI已经在阿里巴巴内部应用了2年。基于该平台,在淘宝搜刮中,搜刮结不雅会基于商品和用户的特点进行排序。
推荐阅读
图1、PHP vs Python vs Ruby: 市场份额Winner - PHP图2、PHP vs Python vs Ruby: 主流网站应用情况Winner - 平局【编辑推荐】Go说话大年夜神亲述:历七劫方可成为法度榜样员!2017年10月编程>>>详细阅读
本文标题:微博深度学习平台架构和实践
地址:http://www.17bianji.com/lsqh/37891.html
1/2 1