利用已有的大数据技术，如何构建机器学习平台

第一个版本我们并没有供给太多的算法组件，只有线性回归和逻辑回归，然则基于组件化的思惟，我们异常有信念在后期快速迭代。

除了算法较少外，结合营业反馈与自身思虑。我们认为机械进修平台可以做更多的事：

平台定位不仅仅是实验控制台，增长猜测结不雅落地的功能(离线计算)
练习模型跟着汗青数据的赓续扩充在大年夜部分情况下都应当是个周期性的工作。我们欲望在平台层面可以或许赞助用户托管这个过程。

v2.0(扩充组件 & 离线计算 & 周期性调剂)

同时在第二个版本中，我们在细节上又做了一些完美：

建模实验运行状况流程展示，用户可以不雅察到每个组件的运行时光，状况，日记等
依附完全的组件可以进行局部运行，在一个较复杂的建模实验中，完全可以先辈行局部验证以及参数调剂
建模实验支撑克隆

离线计算

我们供给了‘字段落地’的对象组件，可以将猜测结不雅以 csv 的格局落入 hdfs 中：

周期性调剂 & 宏变量支撑

我们的另一款产品：大年夜数据开辟套件(BDK)，函盖周期性调剂的功能，机械进修平台的建模实验可以以子义务的情势嵌入个中，结合宏变量(某种规矩的语法调换，例如’/%Y/%m/%d’可以表示为当前天等等)用户可以在我们的平台中托管他们的建模实验，大年夜而达到周期性离线计算的目标。

架构

综上，丰富组件及完美功能、离线计算结不雅落地、结合 BDK 进行周期性离线计算是我们平台第二个版本重要存眷的，具体架构有了以下演进：

v3.0(及时猜测 & 交叉验证)

在我们的平台中可以经由过程建模实验练习模型，模许可以经由过程 PMML 如许的标准导出，同样也可以经由过程我们的模型导出功能将模型以 parquet 格局保存在 Hdfs 响应的目次上。用户可以获得这些模型标准，本身去实现一些功能。然则我们认为及时猜测的功能在我们平台上也可以抽象出来。于是 3.0 的架构中我们开辟了供给及时猜测办事的 tcscoring 体系：

当然，PMML 的安排也可以结合 BDK 设置成周期性调剂，这些结合模型的周期性练习，全部练习 + 猜测的过程都可以交给机械进修平台 +BDK 实现托管。

交叉验证

在机械进修平台的第三个版本中，我们还有个存眷点就是交叉验证，之前的版本顶用户一次只能实验一组超参数，有了交叉验证，用户便可以在一次实验中设备多组超参数，在练习集中在按比例进行轮回拆分，一部分练习，一部分验证，大年夜而获得最优模型：

平台瞻望

个性化

融合其他算法包

我们今朝也在测验测验融合 spark ml 之外的算法包，如运费用较广的 xgboost 等。另一方面貌前的算法照样基于传统的机械进修算法，对于深度进修，不管是嵌入 tensorflow 照样应用一些第三方的深度进修库，如 Deeplearning4j 等。我们接下来会测验测验融合这些 spark ml 之外的算法包。

【编辑推荐】

2017数据科学与机械进修行业近况查询拜访：Python是最受迎接的说话
快速控制机械进修，这3种算法你必须知道
机械进修-若何应用DQN收集让AI本身玩游戏！
对于机械进修，到底钙揭捉?择哪种编程说话
Facebook开源类似性搜刮类库Faiss，超出已知最快算法8.5倍

【义务编辑：庞桂玉 TEL：（010）68476606】

2/2 首页上一页 1 2

　　推荐阅读

　　吐血推荐珍藏的Chrome插件

Tech Neo技巧沙龙 | 11月25号，九州云/ZStack与您一路商量云时代收集界线治理实践一向都对Chrome情有独钟，第一次接触她只因她的icon就爱好上她了，后来便一发弗成自拔，如今几乎成为法度>>>详细阅读

本文标题：利用已有的大数据技术，如何构建机器学习平台

地址：http://www.17bianji.com/lsqh/38921.html

1/2 1