微软开源用于Spark的深度学习库MMLSpark

沙龙晃荡 | 去哪儿、陌陌、ThoughtWorks在主动化运维中的实践！10.28不见不散！

微软开源竽暌姑于Spark的深度进修库MMLSpark

微软开源了MMLSpark，用于Apache Spark的的深度进修库。MMLSpark可以与微软认知对象包和OpenCV完美整合。

微软发明，固然SparkML可以建立可扩大的机械进修平台，绝大年夜多半开辟者的精力都耗在了调用底层API上。MMLSpark旨在简化PySpark中的反复性工作。

如不雅直接应用SparkML，每一列都须要零丁处理，整顿为精确的数据类型;在MMLSpark中只须要两行代码：

以UCI的成人收入普查数据集举例，应用其他项目猜测收入：

model = mmlspark.TrainClassifier(model=LogisticRegression(), labelCol=” income”).fit(trainData) 
 
predictions = model.transform(testData)

深度神经收集(DNN)在图像辨认和语音辨认等范畴不逊于仁攀类，然则DNN模型的练习须要专业人员方可进行，与SparkML的┞符合也十分不易。MMLSpark供给了便利的Python API，可以便利地练习DNN算法。MMLSpark可以便利地应用现有模型进行分类义务、在分布式GPU节点长进行练习、以及应用OpenCV建立可扩大的图像处理管线。

以下3行代码可以大年夜微软认知对象集中初始化一个DNN模型，大年夜图像中采取特点：

cntkModel = CNTKModel().setInputCol(“images”).setOutputCol(“features”).setModelLocation(resnetModel).setOutputNode(“z.x”) 
 
featurizedImages = cntkModel.transform(imagesWithLabels).select([‘labels’,’features’]) 
 
model = TrainClassifier(model=LogisticRegression(),labelCol=”labels”).fit(featurizedImages)

MMLSpark已经宣布到Docker Hub上，应用下面的敕令即可在单机安排：

docker run -it -p 8888:8888 -e ACCEPT_EULA=yes microsoft/mmlspark

MMLSpark应用MIT协定授权。

【编辑推荐】

天然说话处理最终偏向：深度学惯用于天然说话处理的5大年夜优势
深度进修应当应用复数吗？
一文读懂深度进修与机械进修的差别
若何懂得深度进修分布式练习中的large batch size与learning rate的关系？
一文概览基于深度进修的监督语音分别

【义务编辑：庞桂玉 TEL：（010）68476606】

　　推荐阅读

　　CIO半月刊第二十二期|【必看】6条“必杀技”让你快速转型

沙龙晃荡 | 去哪儿、陌陌、ThoughtWorks在主动化运维中的实践！10.28不见不散！【编辑推荐】 CIO半月刊第十七期|宜信韩锋：70后数据库老司机分享他17年的工作经验 CIO半月刊第十八期>>>详细阅读

本文标题：微软开源用于Spark的深度学习库MMLSpark

地址：http://www.17bianji.com/lsqh/38260.html

1/2 1