作家
登录

大规模机器学习系统中的No Free Lunch

作者: 来源: 2017-10-10 09:08:51 阅读 我要评论


大年夜范围机械进修体系中的No Free Lunch

作为第四范式•先知平台核心计心境械进修框架GDBT的设计者,涂威威在大年夜范围分布式机械进修体系架构、机械进修算法设计和应用等方面有深挚积聚。演讲中,涂威威表示,如今有越来越多的企业开端应用机械进修技巧,把数据转换成智能决定计划引擎。企业机械进修应用体系中的核心模型练习体系有着什么样的设计和优化的┞峰酌?与教科书中的机械进修应用比拟,企业实际的机械进修应用中有哪些轻易被人忽视的陷阱?涂威威对此作了经验分享,同时给出了一些可供参考的解决筹划。

工业界大年夜范围分布式机械进修计算框架的设计经验

机械进修的经典定义,是应用经验(数据)来改良体系机能。在应用过程中,起重要明白机械进修目标的定义,也就是用机械进修来做什么工作。以谷歌晋升搜刮告白营业收工资例,谷歌起首对晋升收入的目标进行拆解,告白收入=平均单次点击价格点击率告白展示量,个中“告白展示量”被硬性控制(推敲到政策律例和用户体验),“单次点击价格”受告白主主动出价影响,与膳绫擎两者不合,“点击率”的目标明白,搜刮引擎记录了大年夜量的┞饭现点击日记,而告白候选集很大年夜,不合告白的点击率差别很大年夜,谷歌告白平台有控制告白展示的自立权,是以对于谷歌晋升搜刮告白收入的问题而言,机械进修最合实用来竽暌古化“告白点击率”。在肯定了机械进修具体的优化目标是告白点击率之后,谷歌机械进修体系会轮回履行四个体系:数据收集→数据预处理→模型练习→模型办事(模型办事产生的数据会被下一?轮回的数据收集体系收集)。在这四个体系中,与机械进修算法最相干的就是模型练习体系。

在涂威威看来,计算框架设计上,没有普适的最好框架,只有最合适实际计算问题的框架。

针对机械进修的兼顾开辟效力和履行效力的大年夜范围分布式并行计算框架

在工业应用中,有效数据、特点维度正在敏捷攀升。在数据量方面,以往一个机械进修义务仅有几万个数据,如今一个营业的数据量已很轻易达到千亿级别。在特点维度方面,传统的机械进修采取“抓大年夜放小”的方法—只应用高频宏不雅特点,忽视包含大年夜量信息的低频微不雅特点—进行练习,但跟着算法、计算才能、数据收集才能的赓续加强,更多的低频微不雅特点被参加到机械进修练习中,使模型的效不雅加倍出色。

特点频率分布

机械进修技巧也在工业应用中赓续成长,最早期的机械进修工业应用只应用宏不雅特点、简单模型,到后来成长为两个不合的流派:以微软、雅虎为代表的只应用宏不雅特点但应用复杂模型流派,以谷歌为代表的应用简单模型但应用微不雅特点流派,到如今,应用更多微不雅特点以及复杂模型去更精细地描述复杂关系已是大年夜势所趋。这便对模型练习提出了更高的请求。

Power Wall,功耗跟着集成电路密度指数晋升

其二,练习框架须要高开辟效力。机械进修范呈攀里,一个有名的定理叫No Free Lunch[Wolpert and Macready 1997],是指随便率性算法(包含随机算法)在所有问题上的期望机能一样,不存在通用的算法,是以须要针对不合的实际问题,研发出不合的机械进修算法。这就须要机械进修计算框架的开辟效力异常高。

典范的机械进修建模过程

其三,练习体系须要高履行效力。在面对实际问题时,须要对数据、特点表达、模型、模型参数等进行多种测验测验,且每一次测验测验,都须要零丁做模型练习。所以,模型练习是全部机械进修建模过程中被反复履行最多的模块,履行效力也就成为了重中之重。

机械进修核心体系对计算资本的需求比较

其四,底层框架的No Free Lunch。对于不合的计算问题,计算的模式和对各类计算资本的需求都是不一样的,是以没有在所有问题上最好的架构,只有最合适实际问题的架构。针对机械进修义务的特点进行框架设计才能更有效地解决大年夜范围机械进修模型练习的计算问题。

开辟效力的优化

在进步开辟效力上,这里分享计算和编程模式的选择、编程说话的选择两个方面。

其一,练习体系须要分布式并行。因为功率墙(Power Wall,芯片密度不克不及无穷增长)和延迟墙(Latency Wall,光速限制,芯片范围和时钟频率不克不及无穷增长)的限制,摩尔定律正在慢慢掉效,今朝,晋升计算才能的方法主如果依附并行计算,大年夜早期的以降低履行延迟为主到如今的以晋升吞吐量为主。在模型练习的高机能计算请求下,单机在IO、存储、计算方面的才能力不大年夜心,机械进修模型练习体系须要分布式并行化。当然我们也须要切记Amdahl定律。

并行计算范式分为两种,一种是基于共享内存的并行计算范式,不合的计算节点共享同一块内存,这里底层须要处理访存冲突等问题,这种模式一般被用在小范围处理器的情况,比如单机多处理器;别的一种是基于消息传递的并行计算范式,每个计算节点应用本身的内存,计算节点之间经由过程消息传递的模式进行并行计算。在实际的分布式并行体系中,多机械之间一般基于消息传递,单机内部一般基于共享内存(也有一些体系基于消息传递)。

 1/5    1 2 3 4 5 下一页 尾页

  推荐阅读

  机器人和人工智能:软件测试和开发的未来

今朝,你必须保持在任何数例的情况下,软件测试的聊天机械人或框架在预期情况下可以区分缺点与亮点。"智能机械人"不再只是一个风行的术语。这是实际。这在主动化测试世比赛是有效的,因为它在其他处所>>>详细阅读


本文标题:大规模机器学习系统中的No Free Lunch

地址:http://www.17bianji.com/lsqh/37748.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)