沙龙晃荡 | 去哪儿、陌陌、ThoughtWorks在主动化运维中的实践!10.28不见不散!
微软开源了MMLSpark,用于Apache Spark的的深度进修库。MMLSpark可以与微软认知对象包和OpenCV完美整合。
微软发明,固然SparkML可以建立可扩大的机械进修平台,绝大年夜多半开辟者的精力都耗在了调用底层API上。MMLSpark旨在简化PySpark中的反复性工作。
如不雅直接应用SparkML,每一列都须要零丁处理,整顿为精确的数据类型;在MMLSpark中只须要两行代码:
以UCI的成人收入普查数据集举例,应用其他项目猜测收入:
- model = mmlspark.TrainClassifier(model=LogisticRegression(), labelCol=” income”).fit(trainData)
- predictions = model.transform(testData)
深度神经收集(DNN)在图像辨认和语音辨认等范畴不逊于仁攀类,然则DNN模型的练习须要专业人员方可进行,与SparkML的┞符合也十分不易。MMLSpark供给了便利的Python API,可以便利地练习DNN算法。MMLSpark可以便利地应用现有模型进行分类义务、在分布式GPU节点长进行练习、以及应用OpenCV建立可扩大的图像处理管线。
以下3行代码可以大年夜微软认知对象集中初始化一个DNN模型,大年夜图像中采取特点:
- cntkModel = CNTKModel().setInputCol(“images”).setOutputCol(“features”).setModelLocation(resnetModel).setOutputNode(“z.x”)
- featurizedImages = cntkModel.transform(imagesWithLabels).select([‘labels’,’features’])
- model = TrainClassifier(model=LogisticRegression(),labelCol=”labels”).fit(featurizedImages)
MMLSpark已经宣布到Docker Hub上,应用下面的敕令即可在单机安排:
- docker run -it -p 8888:8888 -e ACCEPT_EULA=yes microsoft/mmlspark
MMLSpark应用MIT协定授权。
【编辑推荐】
- 天然说话处理最终偏向:深度学惯用于天然说话处理的5大年夜优势
- 深度进修应当应用复数吗?
- 一文读懂深度进修与机械进修的差别
- 若何懂得深度进修分布式练习中的large batch size与learning rate的关系?
- 一文概览基于深度进修的监督语音分别
推荐阅读
沙龙晃荡 | 去哪儿、陌陌、ThoughtWorks在主动化运维中的实践!10.28不见不散! 【编辑推荐】 CIO半月刊第十七期|宜信韩锋:70后数据库老司机分享他17年的工作经验 CIO半月刊第十八期>>>详细阅读
本文标题:微软开源用于Spark的深度学习库MMLSpark
地址:http://www.17bianji.com/lsqh/38260.html
1/2 1